Original Title: 强化学习研究综述
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ទិដ្ឋភាពទូទៅនៃការស្រាវជ្រាវលើការរៀនតាមបែបពង្រឹង (Reinforcement Learning)

ចំណងជើងដើម៖ 强化学习研究综述

អ្នកនិពន្ធ៖ GAO Yang (State Key Laboratory for Novel Software Technology, Nanjing University), CHEN Shi-Fu (Nanjing University), LU Xin (Nanjing University)

ឆ្នាំបោះពុម្ព៖ 2004, ACTA AUTOMATICA SINICA

វិស័យសិក្សា៖ Computer Science / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះផ្តល់នូវការពិនិត្យឡើងវិញយ៉ាងទូលំទូលាយអំពីបច្ចេកវិទ្យាការរៀនតាមបែបពង្រឹង (Reinforcement Learning) ដោយផ្តោតលើបញ្ហាស្នូល រចនាសម្ព័ន្ធ ក្បួនដោះស្រាយ និងបញ្ហាប្រឈមនៅក្នុងបរិស្ថានម៉ាកូវ (Markov) និងមិនមែនម៉ាកូវ (Non-Markov)។

វិធីសាស្ត្រ (The Methodology)៖ អត្ថបទនេះបានធ្វើការសំយោគឯកសារស្រាវជ្រាវដែលមានស្រាប់ ដើម្បីចាត់ថ្នាក់ក្បួនដោះស្រាយ និងវិភាគយ៉ាងស៊ីជម្រៅលើប្រធានបទកម្រិតខ្ពស់នៃការរៀនតាមបែបពង្រឹង។

ការចាត់ថ្នាក់ និងក្បួនដោះស្រាយការស្វែងរកប្រសើរបំផុត (Algorithmic categorization including TD, Q-learning, and Sarsa)
ការដោះស្រាយបញ្ហាបរិស្ថានដែលអាចសង្កេតបានដោយផ្នែក (Partially observable environments - POMDP)
ការប៉ាន់ស្មានអនុគមន៍ (Function approximation) សម្រាប់លំហរដ្ឋ (State space) ដែលមានទំហំធំ
ការរៀនតាមបែបពង្រឹងដែលមានភ្នាក់ងារច្រើន និងយន្តការទាញយកវិធាន (Multi-agent reinforcement learning and rule extraction)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការរៀនតាមបែបពង្រឹង (Reinforcement Learning) គឺជាបច្ចេកទេសរៀនតាមអ៊ីនធឺណិត (Online learning) ដ៏សំខាន់មួយដែលអាចស្វែងរកគោលការណ៍ប្រសើរបំផុត (Optimal policy) តាមរយៈការសាកល្បងនិងកំហុស (Trial-and-error) ដោយមិនត្រូវការទិន្នន័យហ្វឹកហាត់ជាមុននោះទេ។
បច្ចេកទេសប៉ាន់ស្មានអនុគមន៍ (Function approximation) ដូចជាការប្រើប្រាស់បណ្តាញសរសៃប្រសាទ (Neural networks) គឺជាដំណោះស្រាយដ៏មានសក្តានុពលក្នុងការដោះស្រាយបញ្ហាលំហទិន្នន័យដ៏ធំ (Curse of dimensionality) ប៉ុន្តែនៅតែប្រឈមនឹងបញ្ហាធានានូវការរួបរួម (Convergence stability)។
ការស្រាវជ្រាវនាពេលអនាគតគួរតែបន្តផ្តោតលើបរិស្ថានមិនមែនម៉ាកូវ (Non-Markov) លក្ខខណ្ឌសង្កេតបានដោយផ្នែក ការពន្លឿនល្បឿននៃការរៀនសូត្រ និងការទំនាក់ទំនងនៅក្នុងប្រព័ន្ធដែលមានភ្នាក់ងារច្រើន (Multi-agent systems)។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Q-Learning (Off-policy TD Control) ក្បួនដោះស្រាយ Q-Learning (ការរៀនក្រៅគោលការណ៍)	មានសមត្ថភាពខ្ពស់ក្នុងការធានាស្វែងរកគោលការណ៍ល្អបំផុត (Optimal policy) ទោះបីជាភ្នាក់ងារកំពុងធ្វើការរុករកដោយចៃដន្យក៏ដោយ។ មិនតម្រូវឱ្យស្គាល់ម៉ូដែលនៃបរិស្ថាន (Model-free) នោះទេ។	អាចប្រឈមនឹងការវាយតម្លៃតម្លៃលើស (Overestimation) នៃសកម្មភាព និងមានភាពយឺតយ៉ាវក្នុងការរួបរួម (Convergence) ប្រសិនបើលំហទិន្នន័យមានទំហំធំ។	ត្រូវបានបញ្ជាក់ថាមានការរួបរួម (Convergent) ក្រោមលក្ខខណ្ឌជាក់លាក់ និងជាក្បួនដោះស្រាយគំរូគ្មានម៉ូដែល (Model-free) ដ៏មានប្រសិទ្ធភាពបំផុតមួយ។
Sarsa (On-policy TD Control) ក្បួនដោះស្រាយ Sarsa (ការរៀនក្នុងគោលការណ៍)	មានសុវត្ថិភាពជាង Q-Learning ក្នុងអំឡុងពេលហ្វឹកហាត់ ដោយសារវាគិតគូរពីគោលការណ៍រុករកបច្ចុប្បន្ន ដែលស័ក្តិសមសម្រាប់បរិស្ថានដែលមានការពិន័យធ្ងន់ធ្ងរ។	លទ្ធផលចុងក្រោយ និងការស្វែងរកគោលការណ៍ល្អបំផុត គឺពឹងផ្អែកខ្លាំងទៅលើការកំណត់អត្រានៃការរុករក (Exploration rate) របស់ភ្នាក់ងារ។	ក្បួនដោះស្រាយរៀនសូត្រពីតម្លៃពិតប្រាកដនៃសកម្មភាពបន្ទាប់ ដែលធ្វើឱ្យវាដំណើរការបានល្អក្នុងបញ្ហាដែលទាមទារការប្រុងប្រយ័ត្ន។
Dyna-Q (Model-based RL) ក្បួនដោះស្រាយ Dyna-Q (ផ្អែកលើគំរូ)	សន្សំសំចៃទិន្នន័យ (Sample efficient) យ៉ាងខ្លាំង ដោយប្រើប្រាស់បទពិសោធន៍ពីបរិស្ថានក្លែងធ្វើដើម្បីពន្លឿនល្បឿននៃការរៀនសូត្រ។	ទាមទារថាមពលគណនាច្រើនជាងមុនសម្រាប់ជំហាននីមួយៗ ហើយប្រសិទ្ធភាពរបស់វាអាស្រ័យទាំងស្រុងទៅលើភាពសុក្រឹតនៃម៉ូដែលដែលបានប៉ាន់ស្មាន។	ដោះស្រាយបញ្ហាយឺតយ៉ាវនៃក្បួនដោះស្រាយ TD និង Q-Learning តាមរយៈការប្រើប្រាស់បទពិសោធន៍ដែលទទួលបានដើម្បីធ្វើឱ្យប្រសើរឡើងទាំងគោលការណ៍ និងម៉ូដែល។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះគឺជាការពិនិត្យឡើងវិញជាទ្រឹស្តី ដូច្នេះមិនមានការបញ្ជាក់តួលេខច្បាស់លាស់ពីតម្លៃ ឬទំហំធនធាននោះទេ ប៉ុន្តែការអនុវត្ត Reinforcement Learning ជាក់ស្តែងតម្រូវឱ្យមានធនធានដូចខាងក្រោម។

Hardware (កុំព្យូទ័រ និង GPU): ត្រូវការ CPU/GPU ដែលមានសមត្ថភាពខ្ពស់សម្រាប់ការបណ្តុះបណ្តាលភ្នាក់ងារ ពិសេសនៅពេលប្រើបណ្តាញសរសៃប្រសាទ (Neural Networks) សម្រាប់ការប៉ាន់ស្មានអនុគមន៍ (Function approximation) ក្នុងបរិស្ថានធំៗ។
Software and Simulators (កម្មវិធី និងបរិស្ថានក្លែងធ្វើ): ទាមទារបរិស្ថានក្លែងធ្វើ (Simulators) ដែលមានភាពស្មុគស្មាញ និងត្រឹមត្រូវ ដើម្បីបង្កើតអន្តរកម្មសម្រាប់ភ្នាក់ងារ (Agent) ធ្វើការសាកល្បងរៀនសូត្រដោយសុវត្ថិភាព។
Expertise (ចំណេះដឹង និងជំនាញបច្ចេកទេស): អ្នកអភិវឌ្ឍន៍ត្រូវមានចំណេះដឹងជ្រៅជ្រះផ្នែកគណិតវិទ្យា (Markov Decision Process), ទ្រឹស្តីហ្គេម (Game Theory សម្រាប់ Multi-agent), និងការសរសេរកូដ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ឯកសារនេះគឺជាការចងក្រងការស្រាវជ្រាវ (Review paper) ជាសកលគិតត្រឹមឆ្នាំ ២០០៤ ដោយមិនបានប្រើប្រាស់ទិន្នន័យប្រជាសាស្ត្រ ឬទីតាំងភូមិសាស្ត្រជាក់លាក់ណាមួយឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្ត RL នឹងប្រឈមនឹងបញ្ហា 'គម្លាតរវាងការក្លែងធ្វើនិងការពិត' (Sim-to-real gap)។ ប្រសិនបើយើងបណ្តុះបណ្តាលគំរូ AI ដោយប្រើទិន្នន័យបរទេស វានឹងបរាជ័យក្នុងការអនុវត្តជាក់ស្តែងនៅកម្ពុជា ដូចនេះទិន្នន័យក្លែងធ្វើត្រូវតែឆ្លុះបញ្ចាំងពីបរិបទក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យាការរៀនតាមបែបពង្រឹង (Reinforcement Learning) នេះមានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធឆ្លាតវៃ និងការធ្វើឱ្យប្រសើរឡើងនូវស្វ័យប្រវត្តិកម្មនៅក្នុងប្រទេសកម្ពុជា។

ការគ្រប់គ្រងចរាចរណ៍នៅរាជធានីភ្នំពេញ (Traffic Signal Control in Phnom Penh): រាជធានីភ្នំពេញប្រឈមនឹងការកកស្ទះចរាចរណ៍យ៉ាងខ្លាំង។ ក្បួនដោះស្រាយ RL អាចត្រូវបានប្រើប្រាស់ដើម្បីគ្រប់គ្រងភ្លើងស្តុបដោយស្វ័យប្រវត្តិ ដោយរៀនសូត្រពីលំហូរចរាចរណ៍ជាក់ស្តែងតាមពេលវេលាពិត។
វិស័យភស្តុភារ និងការដឹកជញ្ជូន (Logistics and Supply Chain Routing): ជាមួយនឹងការកើនឡើងនៃពាណិជ្ជកម្មអេឡិចត្រូនិកនៅកម្ពុជា Multi-agent RL អាចជួយក្រុមហ៊ុនដឹកជញ្ជូនក្នុងការរៀបចំកាលវិភាគ រកផ្លូវដឹកជញ្ជូនដែលចំណេញពេលវេលា និងសន្សំសំចៃប្រេងឥន្ធនៈបំផុត។
ប្រព័ន្ធកសិកម្មឆ្លាតវៃ (Smart Agriculture & Resource Scheduling): អាចអនុវត្តនៅក្នុងខេត្តដែលមានសក្តានុពលកសិកម្ម ដូចជាបាត់ដំបង ដើម្បីគ្រប់គ្រងប្រព័ន្ធធារាសាស្ត្រ ឬការដាក់ជីដោយស្វ័យប្រវត្តិ ផ្អែកលើទិន្នន័យអាកាសធាតុ និងសំណើមដី។

ទោះបីជាការចាប់ផ្តើមទាមទារការកសាងហេដ្ឋារចនាសម្ព័ន្ធទិន្នន័យក្លែងធ្វើ និងធនធានកុំព្យូទ័រក៏ដោយ ប៉ុន្តែ RL នឹងក្លាយជាកាតាលីករដ៏សំខាន់សម្រាប់ការធ្វើទំនើបកម្មប្រព័ន្ធស្មុគស្មាញនៅកម្ពុជានាពេលអនាគត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ស្វែងយល់ពីទ្រឹស្តីមូលដ្ឋាន (Learn the Fundamentals): និស្សិតគប្បីចាប់ផ្តើមសិក្សាពីទ្រឹស្តីមូលដ្ឋាននៃការរៀនតាមបែបពង្រឹង ដូចជា Markov Decision Process (MDP) និងសមីការ Bellman ។ គួរអានសៀវភៅគោល Reinforcement Learning: An Introduction ដោយ Sutton & Barto។
អនុវត្តក្បួនដោះស្រាយជាតារាង (Implement Tabular Algorithms): សរសេរកូដក្បួនដោះស្រាយមូលដ្ឋានដូចជា Q-Learning និង Sarsa នៅក្នុងភាសា Python។ អនុវត្តសាកល្បងពួកវាជាមួយបរិស្ថានហ្គេមងាយៗ ដោយប្រើប្រាស់បណ្ណាល័យ OpenAI Gym ដើម្បីស្វែងយល់ពីដំណើរការជាក់ស្តែង។
ឈានចូលការរៀនតាមបែបពង្រឹងស៊ីជម្រៅ (Deep Reinforcement Learning): សិក្សាពីការរួមបញ្ចូលគ្នារវាង RL និងបណ្តាញសរសៃប្រសាទ (Neural Networks) ដូចជាក្បួនដោះស្រាយ DQN (Deep Q-Network) ដើម្បីដោះស្រាយបរិស្ថានដែលមានទិន្នន័យធំ ដោយប្រើប្រាស់ Frameworks ដូចជា PyTorch ឬ TensorFlow។
សិក្សាពីប្រព័ន្ធភ្នាក់ងារច្រើន (Multi-Agent RL): ពង្រីកចំណេះដឹងទៅលើប្រព័ន្ធភ្នាក់ងារច្រើន (Multi-Agent Systems) ដែលមានរៀបរាប់ក្នុងឯកសារ (ឧទាហរណ៍ កិច្ចសហការ ឬការប្រកួតប្រជែង)។ អនុវត្តការកូដដោយប្រើប្រាស់បរិស្ថាន PettingZoo សម្រាប់ការគ្រប់គ្រងប្រព័ន្ធស្មុគស្មាញ។
បង្កើតគម្រោងជាក់ស្តែងសម្រាប់កម្ពុជា (Build Local Practical Projects): ជ្រើសរើសបញ្ហាក្នុងស្រុកមួយ (ឧទាហរណ៍៖ ការកកស្ទះចរាចរណ៍ ឬការរៀបចំកាលវិភាគរថយន្តក្រុង) បង្កើតបរិស្ថានក្លែងធ្វើ (Custom Environment) ផ្ទាល់ខ្លួនដោយប្រើប្រាស់ទិន្នន័យពិតនៅកម្ពុជា និងបង្វឹកភ្នាក់ងារ RL ដើម្បីស្វែងរកដំណោះស្រាយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Reinforcement learning	ជាបច្ចេកទេសបញ្ញាសិប្បនិម្មិតដែលបង្រៀនកុំព្យូទ័រ (ភ្នាក់ងារ) ឱ្យចេះធ្វើការសម្រេចចិត្តជាបន្តបន្ទាប់ តាមរយៈការសាកល្បងនិងកំហុសនៅក្នុងបរិស្ថានណាមួយ ដើម្បីទទួលបានរង្វាន់ខ្ពស់បំផុតកើនឡើងជាលំដាប់។ វាផ្តោតលើការរៀនតាមរយៈការប្រាស្រ័យទាក់ទងដោយផ្ទាល់ដោយមិនត្រូវការទិន្នន័យបង្រៀនទុកជាមុន។	ដូចជាការបង្ហាត់សត្វសុនខឱ្យចេះធ្វើតាមបញ្ជា ដោយការផ្តល់ចំណីនៅពេលវាធ្វើត្រូវ និងមិនផ្តល់ចំណីនៅពេលវាធ្វើខុស។
Markov decision process (MDP)	ជាក្របខ័ណ្ឌគណិតវិទ្យាសម្រាប់ធ្វើគំរូពីដំណើរការនៃការសម្រេចចិត្ត ដែលអះអាងថាលទ្ធផលនៃសកម្មភាពបន្ទាប់គឺអាស្រ័យតែលើស្ថានភាពបច្ចុប្បន្នប៉ុណ្ណោះ មិនអាស្រ័យលើប្រវត្តិ ឬសកម្មភាពចាស់ៗពីអតីតកាលនោះទេ។ វាជាមូលដ្ឋានគ្រឹះនៃបញ្ហាធំៗនៅក្នុងការរៀនតាមបែបពង្រឹង។	ដូចជាការលេងអុក ដែលការដើរកូនអុកបន្ទាប់អាស្រ័យលើទីតាំងកូនអុកនៅលើក្តារបច្ចុប្បន្ន មិនមែនអាស្រ័យលើក្បាច់ដែលបានដើររួចតាំងពីដើមហ្គេមនោះទេ។
Exploration and exploitation	ជាដំណើរការថ្លឹងថ្លែងរវាងការសាកល្បងជម្រើសថ្មីៗដែលភ្នាក់ងារមិនធ្លាប់ស្គាល់ ដើម្បីស្វែងរកលទ្ធផលដែលអាចល្អជាង (Exploration) និងការជ្រើសរើសយកជម្រើសដែលភ្នាក់ងារធ្លាប់ដឹងថាមានលទ្ធផលល្អស្រាប់ ដើម្បីទទួលបានរង្វាន់ខ្ពស់ភ្លាមៗ (Exploitation)។	ដូចជាការសម្រេចចិត្តថាតើគួរទៅញ៉ាំបាយនៅហាងដែលធ្លាប់ញ៉ាំឆ្ងាញ់រាល់ដង (Exploitation) ឬសាកល្បងទៅហាងទើបបើកថ្មីដែលសង្ឃឹមថាឆ្ងាញ់ជាងមុន (Exploration)។
Temporal difference (TD) learning	ជាក្បួនដោះស្រាយដែលរៀនសូត្រពីភាពខុសគ្នារវាងការទស្សន៍ទាយពីរពេលផ្សេងគ្នា (បច្ចុប្បន្ន និងអនាគតដ៏ខ្លី) ដោយធ្វើបច្ចុប្បន្នភាពការវាយតម្លៃរបស់វាជាបន្តបន្ទាប់ ដោយមិនបាច់រង់ចាំដល់ទីបញ្ចប់នៃដំណើរការនោះទេ។	ដូចជាការទាយថាមេឃនឹងភ្លៀងនៅម៉ោង ៥ លុះដល់ម៉ោង ៤ ឃើញពពកខ្មៅខ្លាំង ក៏កែសម្រួលការព្យាករណ៍ថានឹងភ្លៀងនៅម៉ោង ៤:៣០ វិញ ដោយមិនបាច់រង់ចាំដល់ម៉ោង ៥ ទើបដឹងការពិត។
Q-learning	ជាប្រភេទក្បួនដោះស្រាយនៃការរៀនតាមបែបពង្រឹងដែលមិនត្រូវការស្គាល់ម៉ូដែលនៃបរិស្ថាន (Model-free) ដែលវាព្យាយាមរៀនពី 'តម្លៃនៃសកម្មភាព' សម្រាប់ជម្រើសនីមួយៗក្នុងស្ថានភាពជាក់លាក់ ដើម្បីប្រាប់ភ្នាក់ងារពីសកម្មភាពដែលល្អបំផុតដែលគួរធ្វើបន្ទាប់។	ដូចជាសៀវភៅណែនាំសម្ងាត់មួយដែលប្រាប់អ្នករាល់ពេលឈានដល់ផ្លូវបំបែកថា តើការបត់ឆ្វេង ឬបត់ស្តាំ មួយណានឹងនាំទៅដល់ទីតាំងលាក់កំណប់ធំជាង។
Partially Observable Markov Decision Process (POMDP)	ជាម៉ូដែលសម្រាប់ដោះស្រាយបញ្ហាដែលភ្នាក់ងារមិនអាចមើលឃើញ ឬទទួលដឹងពីស្ថានភាពទាំងស្រុងនៃបរិស្ថាន (ឧទាហរណ៍ មានព័ត៌មានមិនគ្រប់គ្រាន់)។ ដូច្នេះវាត្រូវពឹងផ្អែកលើប្រវត្តិនៃការសង្កេតដើម្បីទាញការសន្និដ្ឋានអំពីស្ថានភាពពិតប្រាកដ។	ដូចជាការបើកបររថយន្តក្នុងអ័ព្ទក្រាស់ ដែលអ្នកអាចមើលឃើញតែផ្លូវខាងមុខបន្តិចបន្តួច ហើយត្រូវពឹងផ្អែកលើការចងចាំ និងការស្មានដើម្បីដឹងពីស្ថានភាពផ្លូវទាំងមូល។
Function approximation	ជាបច្ចេកទេសប្រើប្រាស់រូបមន្តគណិតវិទ្យា ឬបណ្តាញសរសៃប្រសាទ (Neural Networks) ដើម្បីប៉ាន់ស្មានតម្លៃក្នុងលំហស្ថានភាពដែលមានទំហំធំខ្លាំង (Continuous space) ជំនួសឱ្យការកត់ត្រាតម្លៃរាល់ស្ថានភាពនីមួយៗចូលក្នុងតារាង ដែលជួយកាត់បន្ថយការគណនា និងសន្សំសំចៃអង្គចងចាំបានយ៉ាងច្រើន។	ដូចជាការព្យាយាមគូរខ្សែបន្ទាត់ត្រង់មួយឱ្យកាត់ចំចំណុចទិន្នន័យជាច្រើន ដើម្បីទាយពីនិន្នាការរួម ដោយមិនបាច់ចាំចំណុចនីមួយៗទាំងអស់នោះទេ។
Credit assignment problem	គឺជាបញ្ហាក្នុងការកំណត់ថាតើសកម្មភាពមួយណានៅក្នុងខ្សែសង្វាក់នៃអតីតកាល ដែលជាអ្នកទទួលខុសត្រូវ (សមនឹងទទួលរង្វាន់ ឬ ការពិន័យ) ចំពោះលទ្ធផលចុងក្រោយដែលទទួលបាន ជាពិសេសនៅពេលដែលលទ្ធផលនោះកើតឡើងយឺតយ៉ាវ (Delayed reward)។	ដូចជានៅពេលក្រុមបាល់ទាត់មួយទាត់ចូលទី វាពិបាកក្នុងការវិនិច្ឆ័យថាតើគ្រាប់បាល់នោះកើតឡើងដោយសារខ្សែប្រយុទ្ធ ទម្រង់លេងរបស់គ្រូបង្វឹក ឬការបញ្ជូនបាល់ពីខ្សែការពារកាលពី ២០ វិនាទីមុន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖