Original Title: A comprehensive survey on reinforcement learning-based recommender systems: State-of-the-art, challenges, and future perspectives
Source: ceur-ws.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការស្ទង់មតិទូលំទូលាយលើប្រព័ន្ធផ្តល់អនុសាសន៍ផ្អែកលើការរៀនពង្រឹង (Reinforcement Learning): ស្ថានភាពបច្ចុប្បន្ន បញ្ហាប្រឈម និងទស្សនវិស័យនាពេលអនាគត

ចំណងជើងដើម៖ A comprehensive survey on reinforcement learning-based recommender systems: State-of-the-art, challenges, and future perspectives

អ្នកនិពន្ធ៖ Oleksandr D. Rossiiev (Kryvyi Rih National University), Nonna N. Shapovalova (Kryvyi Rih National University), Olena H. Rybalchenko (Kryvyi Rih National University), Andrii M. Striuk (Kryvyi Rih National University)

ឆ្នាំបោះពុម្ព៖ 2024 (CEUR Workshop Proceedings)

វិស័យសិក្សា៖ Computer Science / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះស្វែងយល់ពីដែនកំណត់នៃប្រព័ន្ធផ្តល់អនុសាសន៍បែបប្រពៃណី (Traditional Recommender Systems) ដូចជាបញ្ហាចាប់ផ្តើមដំបូង (Cold-start) ទិន្នន័យខ្វះចន្លោះ (Sparse feedback) និងការប្រែប្រួលចំណូលចិត្តរបស់អ្នកប្រើប្រាស់ ដែលទាមទារនូវដំណោះស្រាយថ្មីដែលអាចបត់បែនបាន។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្ររៀបចំការស្ទង់មតិជាលក្ខណៈប្រព័ន្ធ ដោយប្រមូលនិងវិភាគឯកសារស្រាវជ្រាវចំនួន ៥៦ ដែលផ្តោតលើការអនុវត្តការរៀនពង្រឹង (RL) នៅក្នុងប្រព័ន្ធផ្តល់អនុសាសន៍។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Traditional Collaborative Filtering (CF) & Content-Based Filtering (CBF)
ការចម្រាញ់បែបសហការ និងផ្អែកលើមាតិកាជាប្រពៃណី
ងាយស្រួលក្នុងការអនុវត្ត និងអាចដោះស្រាយបញ្ហាបានមួយកម្រិតតាមរយៈការស្វែងរកចំណូលចិត្តប្រហាក់ប្រហែលគ្នា។ CBF ជួយសម្រាលបញ្ហា Cold-start តាមរយៈការប្រើប្រាស់លក្ខណៈទិន្នន័យនៃមាតិកា។ ជួបប្រទះបញ្ហាធំៗជាមួយទិន្នន័យខ្វះចន្លោះ (Sparse feedback) និងមិនអាចបត់បែនតាមការប្រែប្រួលចំណូលចិត្តរបស់អ្នកប្រើប្រាស់ (Dynamic user preferences)។ ផ្តោតសំខាន់លើការបង្កើនប្រសិទ្ធភាពសូចនាកររយៈពេលខ្លី (Click-through rate) ប៉ុន្តែខ្សោយក្នុងការរក្សាទំនាក់ទំនងអ្នកប្រើប្រាស់រយៈពេលវែង។
Deep Reinforcement Learning (e.g., DQN, DDPG)
ការរៀនពង្រឹងបែបស៊ីជម្រៅ
មានសមត្ថភាពខ្ពស់ក្នុងការរៀនពីអន្តរកម្មតាមលំដាប់លំដោយរបស់អ្នកប្រើប្រាស់ និងបង្កើនប្រសិទ្ធភាពទំនាក់ទំនងរយៈពេលវែង (Long-term engagement)។ ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ ប្រឈមនឹងបញ្ហាប្រអប់ខ្មៅ (Black-box) ដែលខ្វះភាពអាចពន្យល់បាន និងងាយរងគ្រោះពីការវាយប្រហារ (Adversarial attacks)។ អាចធ្វើសមកាលកម្មនិងចាប់យកបម្រែបម្រួលចំណូលចិត្តរបស់អ្នកប្រើប្រាស់បានល្អបំផុតតាមពេលវេលាជាក់ស្តែង (Temporal dynamics)។
Hybrid RL-based & Graph Neural Networks (GNN) Recommender Systems
ប្រព័ន្ធផ្តល់អនុសាសន៍ RL រួមបញ្ចូលជាមួយបណ្តាញសរសៃប្រសាទក្រាហ្វ
ជួយផ្តល់នូវព័ត៌មានអត្ថន័យទូលំទូលាយ (Semantic information) និងចាប់យកទំនាក់ទំនងស្មុគស្មាញរវាងអ្នកប្រើប្រាស់និងធាតុផ្សេងៗបានច្បាស់លាស់។ មានភាពស្មុគស្មាញខ្ពស់ក្នុងការសាងសង់ម៉ូដែល និងទាមទារទិន្នន័យមានរចនាសម្ព័ន្ធល្អ (Structured Data) ។ ផ្តល់នូវអនុសាសន៍ដែលកាន់តែសុក្រឹត មានភាពចម្រុះ និងអាចពន្យល់បាន (Explainable recommendations)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធផ្តល់អនុសាសន៍ផ្អែកលើការរៀនពង្រឹង (RL) ទាមទារធនធានកុំព្យូទ័រខ្ពស់ និងទិន្នន័យអន្តរកម្មច្រើនដើម្បីធានាបាននូវប្រសិទ្ធភាពនិងភាពអាចពង្រីកបានកម្រិតខ្ពស់ (Scalability)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ឯកសារនេះជាការស្ទង់មតិដែលប្រមូលផ្តុំការសិក្សាពីទិន្នន័យអន្តរជាតិ (e-commerce, news platforms) ដោយមិនមានការបញ្ជាក់ពីប្រជាសាស្ត្រជាក់លាក់ឡើយ។ សម្រាប់កម្ពុជា ការខ្វះខាតទិន្នន័យអន្តរកម្មធំៗ និងភាពខុសគ្នានៃឥរិយាបថអ្នកប្រើប្រាស់ក្នុងស្រុក អាចបង្កជាបញ្ហាគម្លាតទិន្នន័យ (Distribution shift) នៅពេលយកគំរូទាំងនេះមកអនុវត្តជាក់ស្តែង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានភាពស្មុគស្មាញផ្នែកបច្ចេកទេស ប៉ុន្តែវិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធឌីជីថលនិងអេឡិចត្រូនិកនៅកម្ពុជា។

សរុបមក ការវិនិយោគនិងការស្រាវជ្រាវលើប្រព័ន្ធផ្តល់អនុសាសន៍ផ្អែកលើ RL អាចជួយក្រុមហ៊ុនបច្ចេកវិទ្យានៅកម្ពុជាបង្កើនបទពិសោធន៍អ្នកប្រើប្រាស់ និងជំរុញកំណើនអាជីវកម្មប្រកបដោយនិរន្តរភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះទ្រឹស្តី (Learn Fundamentals): ចាប់ផ្តើមសិក្សាពីទ្រឹស្តីមូលដ្ឋាននៃការរៀនពង្រឹង (RL) និងដំណើរការសម្រេចចិត្ត Markov (MDP) ដោយប្រើប្រាស់ធនធានដូចជាសៀវភៅរបស់ Sutton & Barto និង OpenAI Gym
  2. ជំហានទី២៖ សាងសង់ប្រព័ន្ធផ្តល់អនុសាសន៍មូលដ្ឋាន (Build Baseline Systems): សាកល្បងអភិវឌ្ឍប្រព័ន្ធ Collaborative Filtering ធម្មតាសិន ដើម្បីយល់ពីយន្តការទិន្នន័យនិងការវាយតម្លៃ ដោយប្រើប្រាស់បណ្ណាល័យ Surprisescikit-learn នៅក្នុង Python។
  3. ជំហានទី៣៖ ធ្វើការជាមួយបរិស្ថានក្លែងធ្វើ (Work with Simulation Environments): ដោយសារតែការធ្វើតេស្តផ្ទាល់លើអ្នកប្រើប្រាស់មានហានិភ័យនិងចំណាយច្រើន និស្សិតគួរប្រើប្រាស់បរិស្ថានក្លែងធ្វើដូចជា RecoGymVirtualTaobao ដើម្បីហ្វឹកហាត់ក្បួនដោះស្រាយ RL ក្រៅបណ្តាញ។
  4. ជំហានទី៤៖ អនុវត្តក្បួនដោះស្រាយ Deep RL (Implement Deep RL Algorithms): បោះជំហានទៅប្រើប្រាស់ Deep RL ដូចជា DQN ឬ DDPG សម្រាប់ការផ្តល់អនុសាសន៍ ដោយសរសេរកូដតាមរយៈ PyTorchTensorFlow លើទិន្នន័យគំរូទំហំតូច (ឧទាហរណ៍ MovieLens)។
  5. ជំហានទី៥៖ ធ្វើសមាហរណកម្មបច្ចេកវិទ្យាកម្រិតខ្ពស់ (Integrate Advanced Techs): ស្រាវជ្រាវបន្ថែមអំពីការរួមបញ្ចូល Knowledge Graphs (KG) ជាមួយ RL ដើម្បីដោះស្រាយបញ្ហាប្រអប់ខ្មៅ (Black-box) និងផ្តល់ការពន្យល់អំពីការណែនាំរបស់អ្នក (Explainable recommendations)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Reinforcement learning (RL) គឺជាប្រភេទនៃបច្ចេកវិទ្យា Machine Learning ដែលភ្នាក់ងារកុំព្យូទ័រ (Agent) រៀនធ្វើការសម្រេចចិត្តតាមរយៈការសាកល្បងនិងទទួលកំហុស ដោយទទួលបានរង្វាន់ (Reward) ឬការពិន័យពីបរិស្ថាន។ នៅក្នុងប្រព័ន្ធផ្តល់អនុសាសន៍ វាជួយស្វែងរកយុទ្ធសាស្ត្រដើម្បីណែនាំមាតិកាដែលធ្វើឱ្យអ្នកប្រើប្រាស់ពេញចិត្តបំផុតក្នុងរយៈពេលវែង។ ដូចជាការបង្ហាត់សត្វឆ្កែដោយឲ្យចំណីពេលវាធ្វើតាមបញ្ជាត្រឹមត្រូវ ដើម្បីឲ្យវាដឹងថាទង្វើណាគួរធ្វើបន្តទៀត។
Markov decision process (MDP) គឺជាក្របខ័ណ្ឌគណិតវិទ្យាសម្រាប់ធ្វើគំរូការសម្រេចចិត្តជាបន្តបន្ទាប់ ដែលលទ្ធផលអនាគតអាស្រ័យលើស្ថានភាពបច្ចុប្បន្ន និងសកម្មភាពដែលបានជ្រើសរើសប៉ុណ្ណោះ។ នៅក្នុង RL វាត្រូវបានប្រើដើម្បីកំណត់រចនាសម្ព័ន្ធបញ្ហា ដូចជាការកំណត់ស្ថានភាព (ចំណូលចិត្ត) សកម្មភាព (ការណែនាំ) និងរង្វាន់ (ការចុចមើល)។ ដូចជាការលេងអុក ដែលការដើរនីមួយៗរបស់អ្នកអាស្រ័យលើទីតាំងកូនអុកបច្ចុប្បន្នលើក្តារ មិនមែនអាស្រ័យលើប្រវត្តិដើរពី១០ក្តារមុននោះទេ។
Collaborative filtering គឺជាបច្ចេកទេសផ្តល់អនុសាសន៍ដែលទស្សន៍ទាយចំណូលចិត្តរបស់អ្នកប្រើប្រាស់ម្នាក់ ដោយផ្អែកលើចំណង់ចំណូលចិត្តរបស់អ្នកប្រើប្រាស់ផ្សេងទៀតដែលមានប្រវត្តិស្រដៀងគ្នា។ វាមិនខ្វល់ពីលក្ខណៈនៃមាតិកាទេ តែវាផ្តោតលើភាពដូចគ្នានៃអន្តរកម្មរវាងអ្នកប្រើប្រាស់ទាំងនោះ។ ដូចជាការសួរមិត្តភក្តិដែលមានចំណូលចិត្តមើលកុនដូចអ្នក ថាគួរមើលរឿងអ្វីបន្តទៀត។
Cold-start problem គឺជាបញ្ហាលំបាកនៅពេលប្រព័ន្ធមិនទាន់មានទិន្នន័យអន្តរកម្មគ្រប់គ្រាន់សម្រាប់អ្នកប្រើប្រាស់ថ្មី ឬផលិតផលទើបចេញថ្មី ដែលធ្វើឱ្យប្រព័ន្ធមិនអាចទស្សន៍ទាយចំណូលចិត្តបានត្រឹមត្រូវ។ ដូចជាការព្យាយាមទិញកាដូឲ្យមិត្តភក្តិដែលអ្នកទើបតែស្គាល់ដំបូង ដោយមិនដឹងថាគេចូលចិត្តអ្វីទាល់តែសោះ។
Exploration-exploitation trade-off គឺជាការថ្លឹងថ្លែងរវាងការសាកល្បងផ្តល់ជម្រើសថ្មីៗដែលប្រព័ន្ធមិនធ្លាប់ដឹងច្បាស់ (Exploration) និងការបន្តផ្តល់ជម្រើសចាស់ៗដែលដឹងច្បាស់ថាអ្នកប្រើប្រាស់ច្បាស់ជាចូលចិត្ត (Exploitation) ដើម្បីកុំឱ្យអ្នកប្រើប្រាស់ធុញទ្រាន់ និងស្វែងរកចំណូលចិត្តថ្មីៗរបស់ពួកគេ។ ដូចជាការសម្រេចចិត្តថាតើគួរញ៉ាំបាយនៅហាងដែលធ្លាប់ញ៉ាំឆ្ងាញ់រាល់ដង ឬសាកល្បងចូលហាងថ្មីដែលទើបនឹងបើក។
Policy gradient methods គឺជាក្បួនដោះស្រាយនៅក្នុង RL ដែលធ្វើការកែតម្រូវដោយផ្ទាល់ទៅលើគោលការណ៍សម្រេចចិត្ត (Policy) របស់ប្រព័ន្ធកុំព្យូទ័រ តាមរយៈការគណនាជម្រាល (Gradient) ដើម្បីបង្កើនលទ្ធភាពទទួលបានរង្វាន់ខ្ពស់បំផុត។ វាផ្តោតលើការរៀនក្បួន "អ្វីដែលត្រូវធ្វើ" ដោយផ្ទាល់តែម្តង។ ដូចជាការកែតម្រូវកម្លាំង និងទិសដៅនៃការវាយសីរបស់អ្នកបន្តិចម្តងៗរាល់ពេលវាយខុស ដើម្បីឲ្យសីហោះចូលទីតាំងគូប្រកួតបានកាន់តែត្រឹមត្រូវ។
Offline reinforcement learning គឺជាការបង្ហាត់ម៉ូដែល RL ដោយប្រើប្រាស់តែទិន្នន័យប្រវត្តិអន្តរកម្មចាស់ៗដែលមានស្រាប់ក្នុងប្រព័ន្ធ ដោយមិនតម្រូវឱ្យមានអន្តរកម្មផ្ទាល់ជាមួយអ្នកប្រើប្រាស់ក្នុងពេលជាក់ស្តែង (Online Exploration) នោះទេ ដើម្បីកាត់បន្ថយហានិភ័យនៃការណែនាំខុសឆ្គងទៅកាន់អ្នកប្រើប្រាស់។ ដូចជាការរៀនបើកបរតាមរយៈការមើលវីដេអូបង្រៀនបើកបរចាស់ៗ ជាជាងការទៅបើកបរផ្ទាល់នៅលើដងផ្លូវដែលអាចបង្កគ្រោះថ្នាក់។
Knowledge graphs គឺជាបណ្តាញនៃទិន្នន័យដែលតភ្ជាប់វត្ថុ មាតិកា ឬគំនិតផ្សេងៗគ្នា (Entities) ចូលគ្នាដើម្បីបង្ហាញពីអត្ថន័យនិងទំនាក់ទំនង។ នៅក្នុងប្រព័ន្ធផ្តល់អនុសាសន៍ វាជួយឱ្យប្រព័ន្ធយល់ពីទំនាក់ទំនងស៊ីជម្រៅរវាងអ្នកប្រើប្រាស់និងលក្ខណៈលម្អិតនៃផលិតផលនីមួយៗ។ ដូចជាផ្ទាំងផែនទីបណ្តាញគ្រួសារដែលបង្ហាញថាអ្នកណាជាសាច់ញាតិអ្នកណា ដើម្បីឲ្យយើងយល់ពីទំនាក់ទំនងខ្សែស្រឡាយនៃគ្រួសារទាំងមូល។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖