បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃភាពមិនប្រាកដប្រជានៃសមត្ថភាពរៀនក្នុងបរិបទ (In-Context Learning) របស់ម៉ូដែលភាសាធំៗ (LLMs) ដែលងាយរងឥទ្ធិពលពីការជ្រើសរើសឧទាហរណ៍បញ្ជាក់មិនបានល្អ និងការបាត់បង់ព័ត៌មានមានតម្លៃពីទិន្នន័យដែលមិនត្រូវបានជ្រើសរើសយកមកប្រើ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវក្របខ័ណ្ឌចម្រាញ់អត្ថបទ (DDG) ដោយប្រើប្រាស់ម៉ូដែលបង្កើតអត្ថបទ (Generative model) រួមជាមួយម៉ូដែលគណនា (Calculative models) ដើម្បីបង្កើតឧទាហរណ៍ថ្មីៗដែលតំណាងឱ្យទិន្នន័យទាំងមូលបានល្អបំផុត។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Distillation-based Demonstration Generation (DDG) វិធីសាស្ត្រ DDG (ការបង្កើតឧទាហរណ៍តាមរយៈការចម្រាញ់អត្ថបទ) |
បង្កើតឧទាហរណ៍ដែលតំណាងឱ្យទិន្នន័យទាំងមូលបានល្អបំផុត ព្រមទាំងអាចបង្រួមប្រវែងអត្ថបទបានរហូតដល់ ៧០-៧៥%។ វាក៏ជួយដោះស្រាយបញ្ហាការភ្លេចព័ត៌មានរបស់ម៉ូដែលនៅពេលអត្ថបទវែងពេក។ | ទាមទារការហ្វឹកហាត់ម៉ូដែលស្មុគស្មាញ (Generative និង Calculative models) ព្រមទាំងត្រូវការធនធានកុំព្យូទ័រ (GPU) ខ្ពស់សម្រាប់ការរៀបចំដំបូង។ | បង្កើនភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់បាន ៧% ជាមធ្យមសម្រាប់អត្ថបទខ្លី និង ៥% សម្រាប់អត្ថបទវែង ធៀបនឹងវិធីសាស្ត្រផ្សេងៗ (ទទួលបាន 97.3% លើ SST2)។ |
| Selection-based methods (TopK, TopK+MDL, BM25) វិធីសាស្ត្រជ្រើសរើសឧទាហរណ៍ (ដូចជា TopK, BM25) |
មានភាពងាយស្រួលក្នុងការអនុវត្ត និងមិនទាមទារការហ្វឹកហាត់ម៉ូដែលថ្មី ឬប្រើប្រាស់ធនធានគណនាច្រើននោះទេ។ | បោះបង់ចោលទិន្នន័យមួយភាគធំដែលមិនត្រូវបានជ្រើសរើស ធ្វើឱ្យបាត់បង់ព័ត៌មានមានតម្លៃ និងផ្តល់លទ្ធផលមិនសូវល្អលើកិច្ចការស្មុគស្មាញ។ | ទទួលបានភាពត្រឹមត្រូវទាបជាង DDG (ឧទាហរណ៍ TopK ទទួលបានត្រឹម 95.2% លើ SST2 និង 61.3% លើ QNLI)។ |
| LongICLBench វិធីសាស្ត្រ LongICLBench (សម្រាប់សំណុំទិន្នន័យអត្ថបទវែង) |
បង្កើតឡើងជាពិសេសដើម្បីវាយតម្លៃ និងធ្វើការជាមួយនឹងកិច្ចការ In-Context Learning លើសំណុំទិន្នន័យដែលមានអត្ថបទវែងៗ។ | ដំណើរការធ្លាក់ចុះនៅពេលចំនួន Token កើនឡើងខ្លាំង (Overwriting effect) ដែលធ្វើឱ្យម៉ូដែលបាត់បង់សមត្ថភាពចាប់យកព័ត៌មាន។ | ភាពត្រឹមត្រូវធ្លាក់ចុះនៅពេលប្រវែងអត្ថបទវែង (ទទួលបានត្រឹម 77.2% ធៀបនឹង 86.4% របស់ DDG លើទិន្នន័យ BANKING77 នៅកម្រិត 14k tokens)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះទាមទារធនធានកុំព្យូទ័រធំ និងម៉ូដែលភាសាធំៗ (LLMs) ដែលមានស្រាប់ដើម្បីធ្វើការហ្វឹកហាត់។
ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសំណុំទិន្នន័យភាសាអង់គ្លេសចំនួន១០ (ដូចជា SST2, AGNews, BANKING77) ដែលមានរចនាសម្ព័ន្ធវេយ្យាករណ៍និងការបែងចែកពាក្យច្បាស់លាស់។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាបញ្ហាប្រឈមធំ ដោយសារភាសាខ្មែរមានលក្ខណៈស្មុគស្មាញ (គ្មានការដកឃ្លារវាងពាក្យ) និងនៅខ្វះខាតសំណុំទិន្នន័យធំៗដែលមានគុណភាពសម្រាប់ធ្វើការចម្រាញ់អត្ថបទ (Text Distillation) បែបនេះ។
ទោះបីជាមានបញ្ហាប្រឈមផ្នែកទិន្នន័យក៏ដោយ វិធីសាស្ត្រ DDG នេះមានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធ AI ដែលសន្សំសំចៃធនធាននៅកម្ពុជា។
សរុបមក វិធីសាស្ត្រ DDG ផ្តល់នូវគំរូដ៏ល្អមួយសម្រាប់ការបង្កើនសមត្ថភាព LLMs តាមរយៈការរៀបចំ Prompt ឆ្លាតវៃ និងការសង្ខេបទិន្នន័យ ដែលស័ក្តិសមយ៉ាងខ្លាំងសម្រាប់ក្រុមហ៊ុន AI នៅកម្ពុជាដែលចង់កាត់បន្ថយថ្លៃដើមដំណើរការ (Inference Costs)។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| In-context learning (ICL) | ជាដំណើរការដែលម៉ូដែលភាសាធំៗ (LLMs) រៀនធ្វើកិច្ចការថ្មីៗភ្លាមៗដោយគ្រាន់តែមើលឧទាហរណ៍មួយចំនួនដែលបានផ្តល់ឱ្យនៅក្នុង prompt ដោយមិនចាំបាច់ធ្វើការហ្វឹកហាត់ (train) ប៉ារ៉ាម៉ែត្ររបស់វាឡើងវិញនោះទេ។ | ដូចជាសិស្សពូកែម្នាក់ដែលអាចយល់ពីរបៀបដោះស្រាយលំហាត់គណិតវិទ្យាថ្មីមួយភ្លាមៗ ដោយគ្រាន់តែមើលគ្រូធ្វើឧទាហរណ៍២-៣នៅលើក្ដារខៀន។ |
| Text Distillation | ជាបច្ចេកទេសបង្រួញទិន្នន័យអត្ថបទដ៏ច្រើនសន្ធឹកសន្ធាប់ ឱ្យទៅជាទិន្នន័យតូចតូចដែលមានព័ត៌មានសំខាន់ៗបំផុតតំណាងឱ្យទិន្នន័យដើមទាំងមូល ដើម្បីជួយឱ្យម៉ូដែលរៀនបានលឿននិងមានប្រសិទ្ធភាព ដោយកាត់បន្ថយព័ត៌មានដែលមិនចាំបាច់។ | ដូចជាការរម្ងាស់ទឹកស៊ុបមួយឆ្នាំងធំឱ្យខាប់សល់ត្រឹមមួយចានគោមតូច តែនៅតែរក្សាបាននូវរសជាតិឆ្ងាញ់និងជីវជាតិពេញលេញ។ |
| Gradient Matching | ជាក្បួនអាល់កូរីតក្នុងការហ្វឹកហាត់ម៉ូដែល ដោយព្យាយាមធ្វើឱ្យទិសដៅនៃការធ្វើបច្ចុប្បន្នភាពប៉ារ៉ាម៉ែត្រ (gradient) របស់ម៉ូដែលដែលហ្វឹកហាត់លើទិន្នន័យបង្កើតថ្មី ស្រដៀងគ្នាទៅនឹងទិសដៅរបស់ម៉ូដែលដែលហ្វឹកហាត់លើទិន្នន័យដើម។ | ដូចជាការព្យាយាមថតចម្លងក្បាច់រាំរបស់គ្រូបង្វឹក ដោយព្យាយាមធ្វើចលនាជើងនិងដៃឱ្យស្របគ្នាបេះបិទរាល់ជំហាននីមួយៗ។ |
| Teacher-Student Framework | ជាយន្តការហ្វឹកហាត់ម៉ូដែល AI ដែលមានម៉ូដែលមួយដើរតួជាគ្រូ (Teacher) ផ្ទេរចំណេះដឹងរបស់ខ្លួនទៅឱ្យម៉ូដែលមួយទៀតដែលដើរតួជាសិស្ស (Student) តាមរយៈការណែនាំម៉ូដែលសិស្សឱ្យទស្សន៍ទាយលទ្ធផលឱ្យដូចម៉ូដែលគ្រូ ដើម្បីរក្សាស្ថិរភាពនិងបង្កើនប្រសិទ្ធភាពការរៀន។ | ដូចជាសិស្សហាត់ការដែលព្យាយាមរៀននិងធ្វើការងារត្រាប់តាមអ្នកជំនាញដែលមានបទពិសោធន៍យូរឆ្នាំ ដើម្បីឱ្យឆាប់ចេះ។ |
| Exponential Moving Average (EMA) fitting | ជាបច្ចេកទេសគណនាមធ្យមភាគដែលផ្តល់ទម្ងន់ឬភាពសំខាន់ខ្លាំងជាងទៅលើទិន្នន័យថ្មីៗ។ ក្នុងការហ្វឹកហាត់ម៉ូដែល វាជួយធ្វើឱ្យការប្រែប្រួលប៉ារ៉ាម៉ែត្រមានភាពរលូន (smooth) និងមិនលោតចុះឡើងខ្លាំងពេកក្នុងអំឡុងពេលហ្វឹកហាត់។ | ដូចជាការបើកបរឡានដោយជាន់ហ្វ្រាំងនិងហ្គែរថ្នមៗជាបន្តបន្ទាប់ ជៀសវាងការជាន់កន្ត្រាក់ៗដែលធ្វើឱ្យម៉ាស៊ីនឆាប់ខូចនិងអ្នកជិះវិលមុខ។ |
| top-k+top-p+temperature | ជាបណ្តុំនៃប៉ារ៉ាម៉ែត្រសម្រាប់គ្រប់គ្រងភាពច្នៃប្រឌិតនិងភាពត្រឹមត្រូវពេលដែល LLMs បង្កើតអត្ថបទ។ Top-k និង Top-p ជួយច្រោះយកតែពាក្យដែលមានប្រូបាប៊ីលីតេខ្ពស់ ចំណែក temperature កែប្រែគម្លាតនៃប្រូបាប៊ីលីតេដើម្បីធ្វើឱ្យអត្ថបទមានភាពសម្បូរបែបនិងមិនសូវច្រំដែល។ | ដូចជាចុងភៅដែលជ្រើសរើសយកតែគ្រឿងផ្សំល្អបំផុតប្រចាំថ្ងៃ (top-k, top-p) ហើយបន្ថែមភាពច្នៃប្រឌិតក្នុងការចម្អិនបន្តិចបន្តួច (temperature) ដើម្បីឱ្យម្ហូបប្លែកមាត់តែមិនខូចរសជាតិដើម។ |
| Demonstrations | នៅក្នុងបរិបទនៃការរៀនក្នុងបរិបទ (ICL) វាសំដៅលើសំណុំឧទាហរណ៍សំណួរនិងចម្លើយ (input-output pairs) ដែលត្រូវបានដាក់បញ្ចូលទៅក្នុង prompt ដើម្បីបង្ហាញប្រាប់ម៉ូដែលពីរបៀបធ្វើកិច្ចការអ្វីមួយយ៉ាងច្បាស់លាស់ មុននឹងសួរវាឱ្យដោះស្រាយសំណួរថ្មី។ | ដូចជាការបង្ហាញគំរូគូសគំនូរមួយផ្ទាំងទៅឱ្យក្មេងមើល មុននឹងប្រាប់ឱ្យក្មេងនោះគូរគំនូរតាមទម្រង់ស្រដៀងគ្នានោះដោយខ្លួនឯង។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖