Original Title: In-context Learning Demonstration Generation with Text Distillation
Source: github.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបង្កើតឧទាហរណ៍សម្រាប់ការរៀនក្នុងបរិបទតាមរយៈការចម្រាញ់អត្ថបទ

ចំណងជើងដើម៖ In-context Learning Demonstration Generation with Text Distillation

អ្នកនិពន្ធ៖ Wuyuqing Wang (Xidian University), Erkun Yang (Xidian University), Zilan Zhou (Xidian University), Cheng Deng (Xidian University)

ឆ្នាំបោះពុម្ព៖ 2025 IJCAI

វិស័យសិក្សា៖ Machine Learning / Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃភាពមិនប្រាកដប្រជានៃសមត្ថភាពរៀនក្នុងបរិបទ (In-Context Learning) របស់ម៉ូដែលភាសាធំៗ (LLMs) ដែលងាយរងឥទ្ធិពលពីការជ្រើសរើសឧទាហរណ៍បញ្ជាក់មិនបានល្អ និងការបាត់បង់ព័ត៌មានមានតម្លៃពីទិន្នន័យដែលមិនត្រូវបានជ្រើសរើសយកមកប្រើ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវក្របខ័ណ្ឌចម្រាញ់អត្ថបទ (DDG) ដោយប្រើប្រាស់ម៉ូដែលបង្កើតអត្ថបទ (Generative model) រួមជាមួយម៉ូដែលគណនា (Calculative models) ដើម្បីបង្កើតឧទាហរណ៍ថ្មីៗដែលតំណាងឱ្យទិន្នន័យទាំងមូលបានល្អបំផុត។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Distillation-based Demonstration Generation (DDG)
វិធីសាស្ត្រ DDG (ការបង្កើតឧទាហរណ៍តាមរយៈការចម្រាញ់អត្ថបទ)
បង្កើតឧទាហរណ៍ដែលតំណាងឱ្យទិន្នន័យទាំងមូលបានល្អបំផុត ព្រមទាំងអាចបង្រួមប្រវែងអត្ថបទបានរហូតដល់ ៧០-៧៥%។ វាក៏ជួយដោះស្រាយបញ្ហាការភ្លេចព័ត៌មានរបស់ម៉ូដែលនៅពេលអត្ថបទវែងពេក។ ទាមទារការហ្វឹកហាត់ម៉ូដែលស្មុគស្មាញ (Generative និង Calculative models) ព្រមទាំងត្រូវការធនធានកុំព្យូទ័រ (GPU) ខ្ពស់សម្រាប់ការរៀបចំដំបូង។ បង្កើនភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់បាន ៧% ជាមធ្យមសម្រាប់អត្ថបទខ្លី និង ៥% សម្រាប់អត្ថបទវែង ធៀបនឹងវិធីសាស្ត្រផ្សេងៗ (ទទួលបាន 97.3% លើ SST2)។
Selection-based methods (TopK, TopK+MDL, BM25)
វិធីសាស្ត្រជ្រើសរើសឧទាហរណ៍ (ដូចជា TopK, BM25)
មានភាពងាយស្រួលក្នុងការអនុវត្ត និងមិនទាមទារការហ្វឹកហាត់ម៉ូដែលថ្មី ឬប្រើប្រាស់ធនធានគណនាច្រើននោះទេ។ បោះបង់ចោលទិន្នន័យមួយភាគធំដែលមិនត្រូវបានជ្រើសរើស ធ្វើឱ្យបាត់បង់ព័ត៌មានមានតម្លៃ និងផ្តល់លទ្ធផលមិនសូវល្អលើកិច្ចការស្មុគស្មាញ។ ទទួលបានភាពត្រឹមត្រូវទាបជាង DDG (ឧទាហរណ៍ TopK ទទួលបានត្រឹម 95.2% លើ SST2 និង 61.3% លើ QNLI)។
LongICLBench
វិធីសាស្ត្រ LongICLBench (សម្រាប់សំណុំទិន្នន័យអត្ថបទវែង)
បង្កើតឡើងជាពិសេសដើម្បីវាយតម្លៃ និងធ្វើការជាមួយនឹងកិច្ចការ In-Context Learning លើសំណុំទិន្នន័យដែលមានអត្ថបទវែងៗ។ ដំណើរការធ្លាក់ចុះនៅពេលចំនួន Token កើនឡើងខ្លាំង (Overwriting effect) ដែលធ្វើឱ្យម៉ូដែលបាត់បង់សមត្ថភាពចាប់យកព័ត៌មាន។ ភាពត្រឹមត្រូវធ្លាក់ចុះនៅពេលប្រវែងអត្ថបទវែង (ទទួលបានត្រឹម 77.2% ធៀបនឹង 86.4% របស់ DDG លើទិន្នន័យ BANKING77 នៅកម្រិត 14k tokens)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះទាមទារធនធានកុំព្យូទ័រធំ និងម៉ូដែលភាសាធំៗ (LLMs) ដែលមានស្រាប់ដើម្បីធ្វើការហ្វឹកហាត់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសំណុំទិន្នន័យភាសាអង់គ្លេសចំនួន១០ (ដូចជា SST2, AGNews, BANKING77) ដែលមានរចនាសម្ព័ន្ធវេយ្យាករណ៍និងការបែងចែកពាក្យច្បាស់លាស់។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាបញ្ហាប្រឈមធំ ដោយសារភាសាខ្មែរមានលក្ខណៈស្មុគស្មាញ (គ្មានការដកឃ្លារវាងពាក្យ) និងនៅខ្វះខាតសំណុំទិន្នន័យធំៗដែលមានគុណភាពសម្រាប់ធ្វើការចម្រាញ់អត្ថបទ (Text Distillation) បែបនេះ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមផ្នែកទិន្នន័យក៏ដោយ វិធីសាស្ត្រ DDG នេះមានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធ AI ដែលសន្សំសំចៃធនធាននៅកម្ពុជា។

សរុបមក វិធីសាស្ត្រ DDG ផ្តល់នូវគំរូដ៏ល្អមួយសម្រាប់ការបង្កើនសមត្ថភាព LLMs តាមរយៈការរៀបចំ Prompt ឆ្លាតវៃ និងការសង្ខេបទិន្នន័យ ដែលស័ក្តិសមយ៉ាងខ្លាំងសម្រាប់ក្រុមហ៊ុន AI នៅកម្ពុជាដែលចង់កាត់បន្ថយថ្លៃដើមដំណើរការ (Inference Costs)។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ Prompt Engineering និង In-Context Learning: ចាប់ផ្តើមដោយការស្វែងយល់ពីរបៀបដែលម៉ូដែលភាសាធំៗរៀនតាមរយៈឧទាហរណ៍ (Few-shot learning)។ សាកល្បងសរសេរកូដធម្មតាដោយប្រើប្រាស់បណ្ណាល័យ Hugging Face Transformers ឬ API របស់ OpenAI ដើម្បីមើលពីរបៀបដែលការផ្លាស់ប្តូរឧទាហរណ៍ប៉ះពាល់ដល់លទ្ធផល។
  2. ស្វែងយល់ពីយន្តការ Teacher-Student និង Knowledge Distillation: សិក្សាពីទ្រឹស្តី Knowledge Distillation ដោយអនុវត្តការសរសេរកូដហ្វឹកហាត់ម៉ូដែលតូចៗពីម៉ូដែលធំៗដោយប្រើប្រាស់ PyTorch។ ផ្តោតសំខាន់លើការស្វែងយល់ពីរបៀបគណនា Loss functions (ឧ. Cross-entropy) និងបច្ចេកទេស Exponential Moving Average (EMA)។
  3. អនុវត្តបច្ចេកទេសគ្រប់គ្រងការបង្កើតអត្ថបទ (Text Generation Strategies): សាកល្បងសរសេរ Script ដើម្បីទាញយកអត្ថបទពី LLMs ដោយប្រើប្រាស់បច្ចេកទេសចម្រុះដូចជា Top-k sampling, Top-p (Nucleus) sampling, និងការកែប្រែ Temperature ដើម្បីយល់ពីរបៀបបង្កើតអត្ថបទដែលសម្បូរបែបនិងមិនច្រំដែល។
  4. ទាញយកនិងសាកល្បងកូដគម្រោងពិត (Clone the DDG Project): ចូលទៅកាន់ GitHub repository (https://github.com/wwyq1/DDG) ដែលផ្តល់ដោយអ្នកនិពន្ធ ដើម្បីទាញយកកូដមកសិក្សា។ សាកល្បងដំណើរការកូដនេះនៅលើ Google Colab (Pro) ឬម៉ាស៊ីនសេវើរបស់សាកលវិទ្យាល័យជាមួយសំណុំទិន្នន័យតូចៗដូចជា SST-2។
  5. កែច្នៃសម្រាប់សំណុំទិន្នន័យភាសាខ្មែរ: បន្ទាប់ពីយល់ច្បាស់ពីលំហូរកូដ សូមសាកល្បងជំនួសទិន្នន័យភាសាអង់គ្លេសដោយទិន្នន័យភាសាខ្មែរ (ឧទាហរណ៍ ទិន្នន័យចាត់ថ្នាក់ព័ត៌មាន ឬមតិយោបល់) ដោយសាកល្បងជាមួយម៉ូដែល Open-source ដូចជា Qwen-1.5-7B ដែលមានការគាំទ្រភាសាខ្មែរបានខ្លះៗ ដើម្បីវាយតម្លៃប្រសិទ្ធភាព។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
In-context learning (ICL) ជាដំណើរការដែលម៉ូដែលភាសាធំៗ (LLMs) រៀនធ្វើកិច្ចការថ្មីៗភ្លាមៗដោយគ្រាន់តែមើលឧទាហរណ៍មួយចំនួនដែលបានផ្តល់ឱ្យនៅក្នុង prompt ដោយមិនចាំបាច់ធ្វើការហ្វឹកហាត់ (train) ប៉ារ៉ាម៉ែត្ររបស់វាឡើងវិញនោះទេ។ ដូចជាសិស្សពូកែម្នាក់ដែលអាចយល់ពីរបៀបដោះស្រាយលំហាត់គណិតវិទ្យាថ្មីមួយភ្លាមៗ ដោយគ្រាន់តែមើលគ្រូធ្វើឧទាហរណ៍២-៣នៅលើក្ដារខៀន។
Text Distillation ជាបច្ចេកទេសបង្រួញទិន្នន័យអត្ថបទដ៏ច្រើនសន្ធឹកសន្ធាប់ ឱ្យទៅជាទិន្នន័យតូចតូចដែលមានព័ត៌មានសំខាន់ៗបំផុតតំណាងឱ្យទិន្នន័យដើមទាំងមូល ដើម្បីជួយឱ្យម៉ូដែលរៀនបានលឿននិងមានប្រសិទ្ធភាព ដោយកាត់បន្ថយព័ត៌មានដែលមិនចាំបាច់។ ដូចជាការរម្ងាស់ទឹកស៊ុបមួយឆ្នាំងធំឱ្យខាប់សល់ត្រឹមមួយចានគោមតូច តែនៅតែរក្សាបាននូវរសជាតិឆ្ងាញ់និងជីវជាតិពេញលេញ។
Gradient Matching ជាក្បួនអាល់កូរីតក្នុងការហ្វឹកហាត់ម៉ូដែល ដោយព្យាយាមធ្វើឱ្យទិសដៅនៃការធ្វើបច្ចុប្បន្នភាពប៉ារ៉ាម៉ែត្រ (gradient) របស់ម៉ូដែលដែលហ្វឹកហាត់លើទិន្នន័យបង្កើតថ្មី ស្រដៀងគ្នាទៅនឹងទិសដៅរបស់ម៉ូដែលដែលហ្វឹកហាត់លើទិន្នន័យដើម។ ដូចជាការព្យាយាមថតចម្លងក្បាច់រាំរបស់គ្រូបង្វឹក ដោយព្យាយាមធ្វើចលនាជើងនិងដៃឱ្យស្របគ្នាបេះបិទរាល់ជំហាននីមួយៗ។
Teacher-Student Framework ជាយន្តការហ្វឹកហាត់ម៉ូដែល AI ដែលមានម៉ូដែលមួយដើរតួជាគ្រូ (Teacher) ផ្ទេរចំណេះដឹងរបស់ខ្លួនទៅឱ្យម៉ូដែលមួយទៀតដែលដើរតួជាសិស្ស (Student) តាមរយៈការណែនាំម៉ូដែលសិស្សឱ្យទស្សន៍ទាយលទ្ធផលឱ្យដូចម៉ូដែលគ្រូ ដើម្បីរក្សាស្ថិរភាពនិងបង្កើនប្រសិទ្ធភាពការរៀន។ ដូចជាសិស្សហាត់ការដែលព្យាយាមរៀននិងធ្វើការងារត្រាប់តាមអ្នកជំនាញដែលមានបទពិសោធន៍យូរឆ្នាំ ដើម្បីឱ្យឆាប់ចេះ។
Exponential Moving Average (EMA) fitting ជាបច្ចេកទេសគណនាមធ្យមភាគដែលផ្តល់ទម្ងន់ឬភាពសំខាន់ខ្លាំងជាងទៅលើទិន្នន័យថ្មីៗ។ ក្នុងការហ្វឹកហាត់ម៉ូដែល វាជួយធ្វើឱ្យការប្រែប្រួលប៉ារ៉ាម៉ែត្រមានភាពរលូន (smooth) និងមិនលោតចុះឡើងខ្លាំងពេកក្នុងអំឡុងពេលហ្វឹកហាត់។ ដូចជាការបើកបរឡានដោយជាន់ហ្វ្រាំងនិងហ្គែរថ្នមៗជាបន្តបន្ទាប់ ជៀសវាងការជាន់កន្ត្រាក់ៗដែលធ្វើឱ្យម៉ាស៊ីនឆាប់ខូចនិងអ្នកជិះវិលមុខ។
top-k+top-p+temperature ជាបណ្តុំនៃប៉ារ៉ាម៉ែត្រសម្រាប់គ្រប់គ្រងភាពច្នៃប្រឌិតនិងភាពត្រឹមត្រូវពេលដែល LLMs បង្កើតអត្ថបទ។ Top-k និង Top-p ជួយច្រោះយកតែពាក្យដែលមានប្រូបាប៊ីលីតេខ្ពស់ ចំណែក temperature កែប្រែគម្លាតនៃប្រូបាប៊ីលីតេដើម្បីធ្វើឱ្យអត្ថបទមានភាពសម្បូរបែបនិងមិនសូវច្រំដែល។ ដូចជាចុងភៅដែលជ្រើសរើសយកតែគ្រឿងផ្សំល្អបំផុតប្រចាំថ្ងៃ (top-k, top-p) ហើយបន្ថែមភាពច្នៃប្រឌិតក្នុងការចម្អិនបន្តិចបន្តួច (temperature) ដើម្បីឱ្យម្ហូបប្លែកមាត់តែមិនខូចរសជាតិដើម។
Demonstrations នៅក្នុងបរិបទនៃការរៀនក្នុងបរិបទ (ICL) វាសំដៅលើសំណុំឧទាហរណ៍សំណួរនិងចម្លើយ (input-output pairs) ដែលត្រូវបានដាក់បញ្ចូលទៅក្នុង prompt ដើម្បីបង្ហាញប្រាប់ម៉ូដែលពីរបៀបធ្វើកិច្ចការអ្វីមួយយ៉ាងច្បាស់លាស់ មុននឹងសួរវាឱ្យដោះស្រាយសំណួរថ្មី។ ដូចជាការបង្ហាញគំរូគូសគំនូរមួយផ្ទាំងទៅឱ្យក្មេងមើល មុននឹងប្រាប់ឱ្យក្មេងនោះគូរគំនូរតាមទម្រង់ស្រដៀងគ្នានោះដោយខ្លួនឯង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖