បញ្ហា (The Problem)៖ និក្ខេបបទនេះដោះស្រាយបញ្ហាប្រឈមនៃតុល្យភាពរវាងការរុករកនិងសុវត្ថិភាព (exploration-safety trade-off) នៅក្នុងការរៀនពង្រឹង (Reinforcement Learning) ជាពិសេសនៅក្នុងបរិស្ថានដែលមានហានិភ័យខ្ពស់ និងភាពស្មុគស្មាញក្នុងការរក្សាសុវត្ថិភាពភ្នាក់ងារ AI។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវយន្តការឧបករណ៍ត្រួតពិនិត្យបឋម (Pre-controller) ដោយរួមបញ្ចូលជាមួយម៉ូដែល State-Action-Reward Transformer (StARformer) ដើម្បីវាយតម្លៃ និងធានាសុវត្ថិភាពមុនពេលធ្វើសកម្មភាព។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| StARformer (Original/Baseline) ម៉ូដែល StARformer ដើម |
មានសមត្ថភាពអាចរៀនពីទិន្នន័យជាបន្តបន្ទាប់ (Sequential data) បានល្អ និងមានស្ថាបត្យកម្ម Transformer ទំនើប។ | មានអត្រានៃការសម្រេចចិត្តខុសដែលបណ្តាលឱ្យមានការបុកទង្គិចខ្ពស់ (Safety risk) ព្រោះមិនមានយន្តការសុវត្ថិភាពច្បាស់លាស់។ | ទទួលបានរង្វាន់វគ្គ (Episodic Reward) ចំនួន ៤.៩±២ និងមានអត្រាបុកទង្គិច ០.៤។ |
| StARformer with Safety factor StARformer បន្ថែមកត្តាសុវត្ថិភាពជា Input |
ជួយកាត់បន្ថយអត្រាបុកទង្គិចបានមួយកម្រិត ដោយម៉ូដែលចាប់ផ្តើមយល់ដឹងពីហានិភ័យ។ | ធ្វើឱ្យប្រសិទ្ធភាពនៃការប្រមូលរង្វាន់ធ្លាក់ចុះទាបជាងម៉ូដែលដើម ដោយសារម៉ូដែលផ្តោតលើសុវត្ថិភាពខ្លាំងពេក។ | ទទួលបានរង្វាន់វគ្គត្រឹមតែ ៣.៥±៣.៥ ប៉ុន្តែអត្រាបុកទង្គិចធ្លាក់ចុះមកត្រឹម ០.៣។ |
| StARformer with Safety weight StARformer គុណទម្ងន់សុវត្ថិភាពជាមួយនឹងរង្វាន់ |
ទទួលបានលទ្ធផលល្អបំផុតទាំងការប្រមូលរង្វាន់ និងការរក្សាសុវត្ថិភាព (តុល្យភាពដ៏អស្ចារ្យ)។ | ទាមទារឱ្យមានការគណនា និងកំណត់ទម្ងន់សុវត្ថិភាព (Safety weights) ឱ្យបានត្រឹមត្រូវនិងហ្មត់ចត់ជាមុន។ | ទទួលបានរង្វាន់វគ្គខ្ពស់បំផុតរហូតដល់ ៨±៥ និងអត្រាបុកទង្គិចទាបបំផុតត្រឹមតែ ០.១។ |
ការចំណាយលើធនធាន (Resource Cost)៖ យោងតាមឯកសារ ម៉ូដែលនេះទាមទារធនធានកុំព្យូទ័រខ្ពស់ និងចំណាយពេលបណ្តុះបណ្តាលយូរ (Resource intensive) ដោយសារភាពស្មុគស្មាញនៃស្ថាបត្យកម្ម Transformer ។
ការសិក្សានេះត្រូវបានធ្វើឡើង និងវាយតម្លៃដោយប្រើប្រាស់តែទិន្នន័យត្រាប់តាមពីហ្គេម Atari (Breakout) ប៉ុណ្ណោះ ដែលជាបរិស្ថាន 2D មានលក្ខណៈសាមញ្ញ។ វាមិនទាន់ឆ្លុះបញ្ចាំងពីភាពស្មុគស្មាញនៃទិន្នន័យពិភពពិត (Real-world data) ឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ការយកម៉ូដែលដែលហ្វឹកហាត់លើហ្គេមទៅអនុវត្តក្នុងស្ថានភាពជាក់ស្តែង (ឧទាហរណ៍៖ ចរាចរណ៍) តម្រូវឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែម និងការប្រុងប្រយ័ត្នខ្ពស់ចំពោះ Domain Shift។
ទោះបីជាសាកល្បងលើហ្គេមក៏ពិតមែន ប៉ុន្តែគំនិតនៃ 'ឧបករណ៍ត្រួតពិនិត្យបឋមប្រកបដោយសុវត្ថិភាព' (Safe Pre-controller) គឺមានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍ AI នៅកម្ពុជា។
សរុបមក វិធីសាស្ត្រនេះផ្តល់នូវមូលដ្ឋានគ្រឹះដ៏រឹងមាំមួយសម្រាប់ការស្រាវជ្រាវ AI ដែលមិនត្រឹមតែផ្តោតលើលទ្ធផល តែថែមទាំងធានាសុវត្ថិភាព ដែលជាតម្រូវការចាំបាច់សម្រាប់ការដាក់ពង្រាយបច្ចេកវិទ្យាក្នុងសង្គមជាក់ស្តែង។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Reinforcement Learning (RL) | ជាផ្នែកមួយនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលភ្នាក់ងារ (Agent) រៀនធ្វើការសម្រេចចិត្តតាមរយៈការសាកល្បងខុសនិងត្រូវ នៅក្នុងបរិស្ថានណាមួយ ដើម្បីស្វែងរកយុទ្ធសាស្ត្រដែលទទួលបានរង្វាន់ ឬលទ្ធផលល្អបំផុតក្នុងរយៈពេលវែង។ | ដូចជាការបង្វឹកសត្វសុនខឱ្យចេះធ្វើតាមបញ្ជា ដោយផ្តល់ចំណីនៅពេលវាធ្វើត្រូវ និងមិនផ្តល់ឱ្យនៅពេលវាធ្វើខុស។ |
| Pre-controller | ជាយន្តការត្រួតពិនិត្យសុវត្ថិភាពដែលដំណើរការមុនពេលភ្នាក់ងារ AI អនុវត្តសកម្មភាពណាមួយ។ វាដើរតួជាអ្នកច្រោះ (Filter) ដើម្បីទប់ស្កាត់ កែប្រែ ឬបដិសេធសកម្មភាពណាដែលត្រូវបានវាយតម្លៃថាអាចបង្កគ្រោះថ្នាក់ដល់ប្រព័ន្ធ ឬបរិស្ថាន។ | ដូចជាប្រព័ន្ធហ្វ្រាំងស្វ័យប្រវត្តិនៅក្នុងរថយន្តទំនើប ដែលជួយចាប់ហ្វ្រាំងភ្លាមៗជាមុននៅពេលដឹងថានឹងអាចមានការបុកទង្គិច ទោះបីជាអ្នកបើកបរកំពុងជាន់ហ្គែរក៏ដោយ។ |
| Transformer | ជាស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដ៏មានឥទ្ធិពលដែលពូកែខាងចាប់យកទំនាក់ទំនងនៃទិន្នន័យដែលកើតឡើងជាបន្តបន្ទាប់ (Sequential data) ដោយប្រើប្រាស់យន្តការផ្តោតការយកចិត្តទុកដាក់ (Attention mechanism) លើផ្នែកសំខាន់ៗនៃទិន្នន័យក្នុងពេលតែមួយ។ | ដូចជាមនុស្សកំពុងអានសៀវភៅ ដែលខួរក្បាលចេះផ្តោតការយកចិត្តទុកដាក់តែទៅលើពាក្យគន្លឹះសំខាន់ៗក្នុងប្រយោគ ដើម្បីយល់ន័យទាំងមូលបានយ៉ាងរហ័ស ដោយមិនបាច់អានមួយពាក្យម្តងៗ។ |
| State-Action-Reward | ជាការចងក្រងទិន្នន័យជាក្រុមដែលមានធាតុបីរួមមាន៖ ស្ថានភាពបច្ចុប្បន្ននៃបរិស្ថាន (State) សកម្មភាពដែលភ្នាក់ងារបានជ្រើសរើស (Action) និងរង្វាន់ដែលទទួលបានត្រឡប់មកវិញ (Reward) ដែលជួយឱ្យម៉ូដែល AI ងាយស្រួលរៀនពីទំនាក់ទំនងនៃហេតុនិងផល។ | ដូចជាកំណត់ហេតុប្រចាំថ្ងៃ ដែលកត់ត្រាថា "ថ្ងៃនេះអាកាសធាតុក្តៅ (State) ខ្ញុំញ៉ាំការ៉េម (Action) ធ្វើឱ្យខ្ញុំមានអារម្មណ៍ស្រស់ស្រាយ (Reward)"។ |
| Offline Reinforcement Learning | ជាវិធីសាស្ត្របណ្តុះបណ្តាលភ្នាក់ងារ AI ដោយប្រើប្រាស់តែសំណុំទិន្នន័យចាស់ៗដែលបានប្រមូលរួចជាស្រេច (Fixed dataset) ដោយមិនតម្រូវឱ្យ AI នោះទៅធ្វើអន្តរកម្មសាកល្បងថ្មីៗផ្ទាល់ជាមួយបរិស្ថានអំឡុងពេលរៀននោះទេ។ | ដូចជាការរៀនទាត់បាល់តាមរយៈការមើលវីដេអូកីឡាករល្បីៗប្រកួតកន្លងមកក្នុង YouTube ជាជាងការចុះទៅហាត់ទាត់ផ្ទាល់នៅលើទីលាន។ |
| Markov Decision Process (MDP) | ជាក្របខ័ណ្ឌគណិតវិទ្យាដែលគេប្រើសម្រាប់កំណត់គំរូនៃដំណើរការសម្រេចចិត្ត ដែលច្បាប់គោលរបស់វាគឺស្ថានភាពបន្ទាប់ (Next state) គឺពឹងផ្អែកតែលើស្ថានភាពបច្ចុប្បន្ន និងសកម្មភាពបច្ចុប្បន្នប៉ុណ្ណោះ មិនពឹងផ្អែកលើប្រវត្តិសកម្មភាពកន្លងមកឡើយ។ | ដូចជាការលេងកូនអុក ដែលការដើរជំហានបន្ទាប់គឺគិតតែពីទីតាំងកូនអុកនៅលើក្តារបច្ចុប្បន្ន មិនមែនគិតពីប្រវត្តិដែលដើរតាំងពីចាប់ផ្តើមហ្គេមនោះទេ។ |
| Episodic Reward | ជារង្វាន់សរុប (Cumulative reward) ទាំងអស់ដែលភ្នាក់ងារ AI ប្រមូលបាននៅក្នុងវគ្គនៃការសាកល្បង ឬការលេងហ្គេមមួយជុំពេញ តាំងពីចំណុចចាប់ផ្តើមរហូតដល់បញ្ចប់ ឬចាញ់។ វាជារង្វាស់គោលសម្រាប់វាស់ស្ទង់ភាពជោគជ័យរបស់ម៉ូដែល។ | ដូចជាពិន្ទុសរុបចុងក្រោយដែលសិស្សម្នាក់ៗទទួលបាននៅពេលបញ្ចប់ការប្រឡងឆមាស។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖