Original Title: Decision Transformers for Glut Control in the Active Logic Machine
Source: ceur-ws.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ម៉ូដែលត្រង់ស្វមម័រសម្រេចចិត្ត (Decision Transformers) សម្រាប់ការគ្រប់គ្រងភាពផ្ទុកលើសចំណុះនៃការទាញសេចក្តី នៅក្នុងម៉ាស៊ីនតក្កវិជ្ជាសកម្ម

ចំណងជើងដើម៖ Decision Transformers for Glut Control in the Active Logic Machine

អ្នកនិពន្ធ៖ Justin D. Brody (Franklin and Marshall College), Donald Perlis (University of Maryland)

ឆ្នាំបោះពុម្ព៖ 2022 AAAI-MAKE Spring Symposium

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាការកើនឡើងយ៉ាងគំហុកនៃរូបមន្ត ឬភាពផ្ទុកលើសចំណុះនៃការទាញសេចក្តី (Inferential Glut) ដែលភ្នាក់ងារវែកញែកតក្កវិជ្ជាជួបប្រទះក្នុងពេលដំណើរការទិន្នន័យច្រើន។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់វិធីសាស្ត្រ Reinforcement Learning ដោយចាត់ទុកការវែកញែកជាបញ្ហានៃការបង្កើតលំដាប់លំដោយ តាមរយៈការប្រើប្រាស់ Decision Transformers។

ការប្រើប្រាស់ម៉ាស៊ីនតក្កវិជ្ជាសកម្ម (Active Logic Machine / ALMA) ជាមូលដ្ឋានភ្នាក់ងារវែកញែកដើម្បីកំណត់សកម្មភាព និងច្បាប់
ការបង្កើតទិន្នន័យគន្លង (Randomly generated trajectories) ចំនួន ៤០០០ ដើម្បីធ្វើជាសំណុំទិន្នន័យបណ្តុះបណ្តាល
ការកែសម្រួលម៉ូដែលភាសាខ្នាតធំ (Fine-tuning OpenAI's GPT-3 'curie' model) ដើម្បីទស្សន៍ទាយសកម្មភាពបន្ទាប់ដោយផ្អែកលើចំណេះដឹង និងផលតបស្នង (Returns)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល GPT-3 ដែលបានកែសម្រួលអាចរៀនពីទម្រង់វាក្យសម្ព័ន្ធនៃការតំណាងទិន្នន័យ (Syntax representation) និងអាចជ្រើសរើសសកម្មភាពតក្កវិជ្ជាបានយ៉ាងត្រឹមត្រូវ។
ម៉ូដែលនេះមានសមត្ថភាពគណនាផលតបស្នង និងបង្កើតលទ្ធផលតក្កវិជ្ជាថ្មីៗដែលមិនធ្លាប់មានក្នុងទិន្នន័យហ្វឹកហាត់ ដែលបង្ហាញថាវាមិនមែនត្រឹមតែជាការទន្ទេញចាំមាត់នោះទេ។
ទោះជាយ៉ាងណាក៏ដោយ ម៉ូដែលនេះនៅមានកម្រិតនៅឡើយ ដូចជាការខ្ជះខ្ជាយជំហានដំបូង និងការប្រើប្រាស់គោលការណ៍លោភលន់ (Greedy policy) ដែលទាមទារឱ្យមានការសិក្សាបន្ថែមជាមួយម៉ូដែលធំជាងមុននៅពេលអនាគត។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Classical ALMA (Resolution Rule) ម៉ាស៊ីនតក្កវិជ្ជាសកម្មបុរាណ (Classical ALMA) ដោយប្រើវិធាន Resolution	ជាវិធាននៃការទាញសេចក្តីសន្និដ្ឋានដែលមានលក្ខណៈពេញលេញ (Complete inference rule) សម្រាប់ការស្រាវជ្រាវតក្កវិជ្ជា។	ងាយនឹងបង្កើតបញ្ហា Inferential Glut ដែលធ្វើឱ្យទិន្នន័យកើនឡើងយ៉ាងគំហុកជារាងស្វ័យគុណទ្វេដង (Doubly exponential) រហូតដល់គាំងម៉ាស៊ីន។	មិនអាចដំណើរការបានយូរ ដោយសារបញ្ហាកំណើនទិន្នន័យលើសលប់ និងគាំងកុំព្យូទ័រ (ទោះបីជាប្រើ RAM អស់ជាង 300GB ក៏ដោយ)។
Deep Reinforcement Learning (DRL) បណ្ដាញរៀនស៊ីជម្រៅដោយការពង្រឹង (DRL) ពីការសិក្សាមុន	អាចគ្រប់គ្រងបញ្ហា Pre-inferential glut និងទម្រង់មានកំណត់នៃ Inferential glut បានដោយជោគជ័យ។	នៅមានកម្រិត និងមិនទាន់ប្រើប្រាស់យន្តការ Attention ដែលស័ក្តិសម និងមានប្រសិទ្ធភាពជាងសម្រាប់បញ្ហានេះ។	អាចផ្តល់អាទិភាពដល់ការទាញសេចក្តីសន្និដ្ឋាន និងជួយកាត់បន្ថយបញ្ហា Glut បានមួយកម្រិត។
Decision Transformer (Fine-tuned GPT-3) Decision Transformer ដោយប្រើម៉ូដែល GPT-3 (Curie) ដែលបាន Fine-tune	អាចរៀនពីទម្រង់វាក្យសម្ព័ន្ធ (Syntax) បានត្រឹមត្រូវ ជ្រើសរើសសកម្មភាពសមស្រប និងអាចរកឃើញលទ្ធផលល្អជាងទិន្នន័យហ្វឹកហាត់។	ទាមទារការចំណាយលើ API នៅមានកំហុសខ្លះៗ (ដូចជាការដើរចោលមួយជំហានដំបូង) និងការវាយតម្លៃ Return ពេលខ្លះនៅមិនទាន់ច្បាស់លាស់។	អាចរកឃើញផ្លូវដែលមាន Return ដល់ទៅ 22 ក្នុង 6 ជំហាន (ខ្ពស់ជាងតម្លៃអតិបរមា 21 ក្នុងទិន្នន័យហ្វឹកហាត់)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រទំហំធំសម្រាប់ការសាកល្បងម៉ូដែលបុរាណ និងទាមទារសេវាកម្ម Cloud API សម្រាប់ការហ្វឹកហាត់ម៉ូដែល AI។

Hardware: ម៉ាស៊ីន Workstation ដែលមានអង្គចងចាំ (RAM) ធំជាង 300GB ត្រូវបានប្រើប្រាស់សម្រាប់ការសាកល្បងម៉ូដែលបុរាណ ប៉ុន្តែនៅតែមិនអាចទប់ទល់នឹងកំណើនទិន្នន័យបាន។
Software & API: តម្រូវឱ្យមានការប្រើប្រាស់ OpenAI API ដើម្បីធ្វើការ Fine-tune លើម៉ូដែល GPT-3 'curie' និងម៉ាស៊ីន ALMA (Active Logic Machine) សម្រាប់ដំណើរការតក្កវិជ្ជា។
Dataset: ត្រូវការទិន្នន័យហ្វឹកហាត់ចំនួន 4000 Trajectories (ខ្សែស្រឡាយសកម្មភាព) ដែលនីមួយៗមាន 6 ជំហាននៃការគិត បង្កើតឡើងដោយចៃដន្យ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅសហរដ្ឋអាមេរិក ដោយប្រើប្រាស់ទិន្នន័យសិប្បនិម្មិត (Randomly generated trajectories) ដែលបង្កើតឡើងដោយម៉ាស៊ីន ALMA។ ទិន្នន័យនេះមិនមានភាពលំអៀងទៅលើប្រជាសាស្ត្រណាមួយឡើយ ព្រោះវាជាការសិក្សាអំពីតក្កវិជ្ជាគណិតវិទ្យាសុទ្ធសាធ។ សម្រាប់ប្រទេសកម្ពុជា ការសិក្សានេះមានសារៈសំខាន់ក្នុងការស្វែងយល់ពីរបៀបប្រើប្រាស់ LLMs ដើម្បីគ្រប់គ្រងទិន្នន័យមហាសាល។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្រ្តនេះមានសក្តានុពលខ្ពស់សម្រាប់ការស្រាវជ្រាវផ្នែកបញ្ញាសិប្បនិម្មិត (AI) និងវិទ្យាសាស្ត្រទិន្នន័យកម្រិតខ្ពស់នៅកម្ពុជា ប៉ុន្តែអាចពិបាកក្នុងការអនុវត្តភ្លាមៗសម្រាប់អាជីវកម្មទូទៅ។

វិស័យអប់រំ និងស្រាវជ្រាវ AI (ឧ. វិទ្យាស្ថានបច្ចេកវិទ្យាកម្ពុជា - ITC): សាស្ត្រាចារ្យ និងអ្នកស្រាវជ្រាវនៅកម្ពុជាអាចយកគំនិតស្ថាបត្យកម្ម Decision Transformers នេះទៅបង្រៀន និងបង្កើតគម្រោង AI ដែលអាចធ្វើសេចក្តីសម្រេចចិត្តក្នុងស្ថានភាពស្មុគស្មាញ (Sequence Modeling)។
ការអភិវឌ្ឍប្រព័ន្ធហិរញ្ញវត្ថុឆ្លាតវៃ (FinTech in Cambodia): ស្ថាប័នហិរញ្ញវត្ថុ ឬធនាគារអាចយកគំរូនៃប្រព័ន្ធទប់ស្កាត់ 'Glut' (ការផ្ទុះឡើងនៃទិន្នន័យ) នេះទៅកែច្នៃ ដើម្បីគ្រប់គ្រងទិន្នន័យអតិថិជនរាប់លាននាក់ ពេលវាយតម្លៃហានិភ័យឥណទាន (Credit Risk) ដោយប្រើយន្តការ AI ដែលមានប្រសិទ្ធភាព។

ជារួម បច្ចេកវិទ្យានេះគឺជាមូលដ្ឋានគ្រឹះដ៏ល្អសម្រាប់ការអភិវឌ្ឍន៍វិស័យ AI នៅកម្ពុជា ប៉ុន្តែទាមទារការវិនិយោគលើអ្នកជំនាញ និងហេដ្ឋារចនាសម្ព័ន្ធបច្ចេកវិទ្យាដើម្បីអាចទាញយកប្រយោជន៍បានពេញលេញ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីមូលដ្ឋានគ្រឹះនៃ Active Logic និង Inferential Glut: និស្សិតគប្បីចាប់ផ្តើមដោយការស្វែងយល់ពីតក្កវិជ្ជាសកម្ម (Active Logic) និងបញ្ហានៃការកើនឡើងទិន្នន័យលើសលប់ (Combinatorial explosions) ដោយអានសៀវភៅ Artificial Intelligence: A Modern Approach ដើម្បីពង្រឹងមូលដ្ឋានគ្រឹះ។
ស្វែងយល់ពីស្ថាបត្យកម្ម Decision Transformer: សិក្សាពីរបៀបបំប្លែងបញ្ហា Reinforcement Learning ទៅជាបញ្ហា Sequence Modeling (ការទស្សន៍ទាយតាមលំដាប់លំដោយ)។ អ្នកអាចអានឯកសារស្រាវជ្រាវ 'Decision Transformer' និងសាកល្បងកូដគំរូនៅលើ Google Colab។
អនុវត្តការ Fine-tune ម៉ូដែលភាសាធំៗ (LLMs): បង្កើតគណនីនៅលើ OpenAI Platform ដើម្បីសាកល្បង Fine-tune ម៉ូដែលតូចៗ ដូចដែលបានបង្ហាញក្នុងឯកសារ។ ម្យ៉ាងវិញទៀត អ្នកអាចងាកទៅប្រើប្រាស់ Open-source LLMs ឥតគិតថ្លៃនៅលើ HuggingFace (ឧទាហរណ៍ ត្រកូល LLaMA ឬ GPT-2) ដើម្បីសន្សំសំចៃការចំណាយ។
បង្កើតទិន្នន័យ Trajectories សម្រាប់ការហ្វឹកហាត់: សរសេរកម្មវិធីដោយប្រើ Python ដើម្បីបង្កើតទិន្នន័យសិប្បនិម្មិត ដែលមានទម្រង់ជា (States, Actions, Returns)។ បង្កើតប្រមាណ 4000 trajectories សម្រាប់បញ្ហាណាមួយដែលទាមទារការសម្រេចចិត្តជាជំហានៗ ដើម្បីប្រើជា Training Set។
វាយតម្លៃ និងធ្វើឱ្យប្រសើរឡើង (Evaluation): ធ្វើតេស្តម៉ូដែលដែលបាន Fine-tune រួច ដោយប្រើ Prompts ដែលកំណត់ Return ខ្ពស់ ដើម្បីពិនិត្យមើលថាតើម៉ូដែលអាចបង្កើតសកម្មភាព (Actions) ដែលមានសុពលភាពតាមវាក្យសម្ព័ន្ធ និងទទួលបានលទ្ធផលជាក់ស្តែងត្រឹមត្រូវ ឬប្រសើរជាង Baseline ដែរឬទេ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Inferential glut	គឺជាស្ថានភាពដែលប្រព័ន្ធកុំព្យូទ័រតក្កវិជ្ជាបង្កើតជម្រើស រូបមន្ត ឬសេចក្តីសន្និដ្ឋានថ្មីៗច្រើនហួសហេតុពេកក្នុងពេលតែមួយ (Combinatorial explosion) រហូតដល់វាប្រើប្រាស់អង្គចងចាំអស់ និងគាំងលែងដំណើរការ ដែលទាមទារឱ្យមានការទប់ស្កាត់។	ដូចជាការគិតខ្វល់ខ្វាយពីបញ្ហាមួយ រហូតដល់ខួរក្បាលបង្កើតគំនិតរាប់ពាន់ក្នុងពេលតែមួយ ធ្វើឱ្យយើងវិលមុខ និងមិនអាចសម្រេចចិត្តធ្វើអ្វីបាន។
Decision Transformers	គឺជាបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតដែលបំប្លែងបញ្ហានៃការរៀនដោយប្រើរង្វាន់និងទណ្ឌកម្ម (Reinforcement Learning) ទៅជាការទស្សន៍ទាយលំដាប់លំដោយនៃទិន្នន័យ (Sequence Modeling) ដោយជ្រើសរើសសកម្មភាពបន្ទាប់ផ្អែកលើលទ្ធផលរំពឹងទុក និងស្ថានភាពបច្ចុប្បន្ន។	ដូចជាការប្រាប់សិស្សម្នាក់នូវពិន្ទុដែលគេចង់បាន (ឧទាហរណ៍ និទ្ទេស A) ហើយឱ្យគេទាយថាតើត្រូវអានសៀវភៅមួយណាជាបន្តបន្ទាប់ដើម្បីសម្រេចគោលដៅនោះ។
Active Logic	គឺជាប្រព័ន្ធតក្កវិជ្ជាដែលអាចដឹងពីពេលវេលាជាក់ស្តែង (Time-sensitive) និងអាចផ្លាស់ប្តូរការសន្និដ្ឋានរបស់ខ្លួន (Non-monotonic) ពេលទទួលបានព័ត៌មានថ្មី ដែលជួយឱ្យម៉ាស៊ីនអាចគិតនិងសម្របខ្លួនបានពេលកំពុងដំណើរការ។	ដូចជាមនុស្សម្នាក់ដែលដំបូងគិតថាមេឃនឹងមិនភ្លៀង ប៉ុន្តែនៅពេលឃើញពពកខ្មៅក៏ប្តូរគំនិត ហើយសម្រេចចិត្តយកឆ័ត្រតាមខ្លួនភ្លាមៗ។
resolution inference rule	គឺជាវិធានគណិតវិទ្យាក្នុងការទាញសេចក្តីសន្និដ្ឋាន ដែលចាប់យកប្រយោគ ឬចំណេះដឹងពីរផ្សេងគ្នាមកផ្គូផ្គងនិងកាត់តរហូតបង្កើតបានជាប្រយោគចំណេះដឹងថ្មីមួយ តែវាក៏ជាដើមហេតុចម្បងដែលធ្វើឱ្យទិន្នន័យកើនឡើងយ៉ាងគំហុកផងដែរ។	ដូចជាការយកពាក្យពីរម៉ាត់មកបន្សំគ្នាដើម្បីបង្កើតពាក្យថ្មីមួយ ហើយបន្តយកពាក្យថ្មីៗនោះទៅបន្សំគ្នារហូតដល់បង្កើតបានជាវចនានុក្រមដ៏ធំមួយដែលគ្មានទីបញ្ចប់។
return-to-go	គឺជាចំនួនរង្វាន់សរុប (Total reward) ដែលម៉ាស៊ីនរំពឹងថានឹងទទួលបាននៅជំហានបន្ទាប់ៗរហូតដល់ចប់ដំណើរការ បន្ទាប់ពីវាជ្រើសរើសធ្វើសកម្មភាពណាមួយក្នុងស្ថានភាពបច្ចុប្បន្ន។	ដូចជាការគណនាទុកមុនថាតើអ្នកនឹងមានប្រាក់សន្សំប៉ុន្មាននៅចុងឆ្នាំ ប្រសិនបើអ្នកសម្រេចចិត្តសន្សំ១ម៉ឺនរៀលជារៀងរាល់ថ្ងៃចាប់ពីពេលនេះតទៅ។
trajectory	គឺជាខ្សែស្រឡាយនៃទិន្នន័យដែលកត់ត្រាពីដំណើរការទាំងមូលរបស់ម៉ាស៊ីន ដោយចងក្រងនូវ ស្ថានភាព (State) សកម្មភាពដែលបានជ្រើសរើស (Action) និងរង្វាន់ដែលទទួលបាន (Return) តម្រៀបជាលំដាប់លំដោយ។	ដូចជាសៀវភៅកំណត់ហេតុដែលកត់ត្រាថាតើអ្នកឈរនៅកន្លែងណា ដើរទៅផ្លូវណា ហើយទទួលបានអត្ថប្រយោជន៍អ្វីខ្លះនៅរាល់ជំហាននីមួយៗនៃការធ្វើដំណើរ។
Autoregressive language generation	គឺជាយន្តការរបស់ម៉ូដែល AI (ដូចជា GPT-3) ដែលបង្កើតអត្ថបទ ឬសកម្មភាពថ្មីៗដោយការព្យាករណ៍ពាក្យបន្ទាប់ម្តងមួយៗ ដោយផ្អែកលើពាក្យ ឬទិន្នន័យដែលវាបានឃើញពីមុនមក។	ដូចជាមុខងារវាយអក្សរឆ្លាតវៃ (Predictive Text) ក្នុងទូរស័ព្ទដៃ ដែលចេះទាយពាក្យបន្ទាប់ដែលអ្នកចង់វាយ បន្ទាប់ពីអ្នកវាយបានមួយពាក្យឬពីរពាក្យរួចមក។
Combinatorial explosions	គឺជាកំណើននៃលទ្ធភាព ទិន្នន័យ ឬរូបមន្តយ៉ាងឆាប់រហ័សនិងមិនអាចគ្រប់គ្រងបាន នៅពេលដែលជម្រើសនីមួយៗត្រូវបានគុណ ឬផ្គូផ្គងជាមួយជម្រើសផ្សេងទៀតជាបន្តបន្ទាប់ក្នុងប្រព័ន្ធកុំព្យូទ័រ។	ដូចជាការប្រាប់រឿងសម្ងាត់ទៅមនុស្ស២នាក់ ហើយអ្នកទាំង២នោះប្រាប់បន្តទៅមនុស្ស២នាក់ផ្សេងទៀតម្នាក់ៗ ដែលធ្វើឱ្យរឿងនោះសាយភាយដល់មនុស្សរាប់ពាន់នាក់ក្នុងពេលមួយប៉ព្រិចភ្នែក។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖