Original Title: In-context Learning Demonstration Generation with Text Distillation
Source: github.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបង្កើតឧទាហរណ៍សម្រាប់ការរៀនក្នុងបរិបទតាមរយៈការចម្រាញ់អត្ថបទ

ចំណងជើងដើម៖ In-context Learning Demonstration Generation with Text Distillation

អ្នកនិពន្ធ៖ Wuyuqing Wang (Xidian University), Erkun Yang (Xidian University), Zilan Zhou (Xidian University), Cheng Deng (Xidian University)

ឆ្នាំបោះពុម្ព៖ 2025 IJCAI

វិស័យសិក្សា៖ Machine Learning / Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃភាពមិនប្រាកដប្រជានៃសមត្ថភាពរៀនក្នុងបរិបទ (In-Context Learning) របស់ម៉ូដែលភាសាធំៗ (LLMs) ដែលងាយរងឥទ្ធិពលពីការជ្រើសរើសឧទាហរណ៍បញ្ជាក់មិនបានល្អ និងការបាត់បង់ព័ត៌មានមានតម្លៃពីទិន្នន័យដែលមិនត្រូវបានជ្រើសរើសយកមកប្រើ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវក្របខ័ណ្ឌចម្រាញ់អត្ថបទ (DDG) ដោយប្រើប្រាស់ម៉ូដែលបង្កើតអត្ថបទ (Generative model) រួមជាមួយម៉ូដែលគណនា (Calculative models) ដើម្បីបង្កើតឧទាហរណ៍ថ្មីៗដែលតំណាងឱ្យទិន្នន័យទាំងមូលបានល្អបំផុត។

ការចម្រាញ់ទិន្នន័យអត្ថបទ (Text Data Distillation) ដោយបំប្លែងទិន្នន័យដើមទៅជាឧទាហរណ៍ថ្មីដែលសង្ខេបនិងមានតម្លៃ
ការផ្គូផ្គងជម្រាល (Gradient Matching) ដើម្បីកាត់បន្ថយគម្លាតរវាងប៉ារ៉ាម៉ែត្រនៃម៉ូដែល
យន្តការគ្រូនិងសិស្ស (Teacher-Student Framework) ដោយប្រើការរំកិលមធ្យមភាគអិចស្ប៉ូណង់ស្យែល (EMA fitting) ដើម្បីស្ថិរភាពនៃការហ្វឹកហាត់
យុទ្ធសាស្ត្របង្កើតអត្ថបទចម្រុះដោយប្រើ Top-k, Top-p និងសីតុណ្ហភាព (Top-k+Top-p+Temperature Sampling)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រ DDG ជួយបង្កើនភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់ជាមធ្យម ៧% សម្រាប់សំណុំទិន្នន័យអត្ថបទខ្លី (ដូចជា SST-2, MNLI) បើធៀបនឹងវិធីសាស្ត្រស្រដៀងគ្នា។
សម្រាប់សំណុំទិន្នន័យអត្ថបទវែង (BANKING77, GoEmotions) វិធីសាស្ត្រនេះជួយបង្កើនភាពត្រឹមត្រូវ ៥% និងអាចបង្រួមប្រវែងអត្ថបទដើមបានរហូតដល់ ៧០%-៧៥%។
ការអនុវត្តយន្តការគ្រូ-សិស្ស ជួយកាត់បន្ថយបម្រែបម្រួលនៃការធ្វើបច្ចុប្បន្នភាពប៉ារ៉ាម៉ែត្រយ៉ាងច្រើន ដែលជំរុញឱ្យម៉ូដែលដំណើរការប្រកបដោយស្ថិរភាពនិងបង្កើតឧទាហរណ៍បញ្ជាក់ (Demonstrations) បានយ៉ាងមានប្រសិទ្ធភាព។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Distillation-based Demonstration Generation (DDG) វិធីសាស្ត្រ DDG (ការបង្កើតឧទាហរណ៍តាមរយៈការចម្រាញ់អត្ថបទ)	បង្កើតឧទាហរណ៍ដែលតំណាងឱ្យទិន្នន័យទាំងមូលបានល្អបំផុត ព្រមទាំងអាចបង្រួមប្រវែងអត្ថបទបានរហូតដល់ ៧០-៧៥%។ វាក៏ជួយដោះស្រាយបញ្ហាការភ្លេចព័ត៌មានរបស់ម៉ូដែលនៅពេលអត្ថបទវែងពេក។	ទាមទារការហ្វឹកហាត់ម៉ូដែលស្មុគស្មាញ (Generative និង Calculative models) ព្រមទាំងត្រូវការធនធានកុំព្យូទ័រ (GPU) ខ្ពស់សម្រាប់ការរៀបចំដំបូង។	បង្កើនភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់បាន ៧% ជាមធ្យមសម្រាប់អត្ថបទខ្លី និង ៥% សម្រាប់អត្ថបទវែង ធៀបនឹងវិធីសាស្ត្រផ្សេងៗ (ទទួលបាន 97.3% លើ SST2)។
Selection-based methods (TopK, TopK+MDL, BM25) វិធីសាស្ត្រជ្រើសរើសឧទាហរណ៍ (ដូចជា TopK, BM25)	មានភាពងាយស្រួលក្នុងការអនុវត្ត និងមិនទាមទារការហ្វឹកហាត់ម៉ូដែលថ្មី ឬប្រើប្រាស់ធនធានគណនាច្រើននោះទេ។	បោះបង់ចោលទិន្នន័យមួយភាគធំដែលមិនត្រូវបានជ្រើសរើស ធ្វើឱ្យបាត់បង់ព័ត៌មានមានតម្លៃ និងផ្តល់លទ្ធផលមិនសូវល្អលើកិច្ចការស្មុគស្មាញ។	ទទួលបានភាពត្រឹមត្រូវទាបជាង DDG (ឧទាហរណ៍ TopK ទទួលបានត្រឹម 95.2% លើ SST2 និង 61.3% លើ QNLI)។
LongICLBench វិធីសាស្ត្រ LongICLBench (សម្រាប់សំណុំទិន្នន័យអត្ថបទវែង)	បង្កើតឡើងជាពិសេសដើម្បីវាយតម្លៃ និងធ្វើការជាមួយនឹងកិច្ចការ In-Context Learning លើសំណុំទិន្នន័យដែលមានអត្ថបទវែងៗ។	ដំណើរការធ្លាក់ចុះនៅពេលចំនួន Token កើនឡើងខ្លាំង (Overwriting effect) ដែលធ្វើឱ្យម៉ូដែលបាត់បង់សមត្ថភាពចាប់យកព័ត៌មាន។	ភាពត្រឹមត្រូវធ្លាក់ចុះនៅពេលប្រវែងអត្ថបទវែង (ទទួលបានត្រឹម 77.2% ធៀបនឹង 86.4% របស់ DDG លើទិន្នន័យ BANKING77 នៅកម្រិត 14k tokens)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះទាមទារធនធានកុំព្យូទ័រធំ និងម៉ូដែលភាសាធំៗ (LLMs) ដែលមានស្រាប់ដើម្បីធ្វើការហ្វឹកហាត់។

Hardware: ត្រូវការ GPU កម្រិតខ្ពស់ (ដូចជា NVIDIA A100 ឬ V100 ដែលមាន VRAM ធំ) ដើម្បីដំណើរការហ្វឹកហាត់ម៉ូដែលទាំង Generative (GPT-3 50k steps) និងការទាញយកចម្លើយពី LLMs ចំនួន 7B (LLaMA-2, Qwen-1.5, Mistral)។
Software: បរិស្ថានសម្រាប់ Deep Learning ដូចជា PyTorch និងបណ្ណាល័យ Hugging Face Transformers សម្រាប់គ្រប់គ្រងម៉ូដែល LLMs។
Dataset: ទាមទារសំណុំទិន្នន័យអត្ថបទដែលមានស្លាក (Labeled datasets) ច្បាស់លាស់សម្រាប់ធ្វើការចម្រាញ់ (Distillation) ដូចជា SST-2 ឬ BANKING77 ជាដើម។
Expertise: ទាមទារចំណេះដឹងស៊ីជម្រៅលើការធ្វើ Optimization, Gradient Matching និង Teacher-Student Framework នៅក្នុងវិស័យ NLP។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសំណុំទិន្នន័យភាសាអង់គ្លេសចំនួន១០ (ដូចជា SST2, AGNews, BANKING77) ដែលមានរចនាសម្ព័ន្ធវេយ្យាករណ៍និងការបែងចែកពាក្យច្បាស់លាស់។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាបញ្ហាប្រឈមធំ ដោយសារភាសាខ្មែរមានលក្ខណៈស្មុគស្មាញ (គ្មានការដកឃ្លារវាងពាក្យ) និងនៅខ្វះខាតសំណុំទិន្នន័យធំៗដែលមានគុណភាពសម្រាប់ធ្វើការចម្រាញ់អត្ថបទ (Text Distillation) បែបនេះ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមផ្នែកទិន្នន័យក៏ដោយ វិធីសាស្ត្រ DDG នេះមានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធ AI ដែលសន្សំសំចៃធនធាននៅកម្ពុជា។

ការអភិវឌ្ឍម៉ូដែលភាសាខ្មែរ (Khmer LLM Development): អ្នកស្រាវជ្រាវក្នុងស្រុកអាចប្រើប្រាស់ក្របខ័ណ្ឌនេះដើម្បីចម្រាញ់ទិន្នន័យភាសាខ្មែរដែលមានកម្រិត ឱ្យទៅជាឧទាហរណ៍តំណាង (Demonstrations) ដែលមានគុណភាពខ្ពស់ ជួយឱ្យ LLMs រៀនភាសាខ្មែរបានលឿននិងត្រឹមត្រូវជាងមុន។
ប្រព័ន្ធសេវាកម្មអតិថិជន និងធនាគារ (Customer Service & Banking AI): ស្ថាប័នហិរញ្ញវត្ថុនៅកម្ពុជាអាចប្រើវិធីនេះដើម្បីចាត់ថ្នាក់បំណងរបស់អតិថិជន (Intent Classification ដូចទិន្នន័យ BANKING77) ដោយប្រើប្រាស់ Prompt ខ្លីជាងមុន ដែលជួយកាត់បន្ថយការចំណាយលើ API Token ។
ការស្រាវជ្រាវនៅតាមសាកលវិទ្យាល័យកម្ពុជា: និស្សិតអាចអនុវត្តយន្តការ Teacher-Student នេះដើម្បីហ្វឹកហាត់ម៉ូដែលគណនាតូចៗ (Calculative models) ឲ្យមានសមត្ថភាពខ្ពស់ ដោយមិនចាំបាច់ត្រូវការម៉ាស៊ីន Supercomputer សម្រាប់ដំណើរការ Inference នោះទេ។

សរុបមក វិធីសាស្ត្រ DDG ផ្តល់នូវគំរូដ៏ល្អមួយសម្រាប់ការបង្កើនសមត្ថភាព LLMs តាមរយៈការរៀបចំ Prompt ឆ្លាតវៃ និងការសង្ខេបទិន្នន័យ ដែលស័ក្តិសមយ៉ាងខ្លាំងសម្រាប់ក្រុមហ៊ុន AI នៅកម្ពុជាដែលចង់កាត់បន្ថយថ្លៃដើមដំណើរការ (Inference Costs)។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Prompt Engineering និង In-Context Learning: ចាប់ផ្តើមដោយការស្វែងយល់ពីរបៀបដែលម៉ូដែលភាសាធំៗរៀនតាមរយៈឧទាហរណ៍ (Few-shot learning)។ សាកល្បងសរសេរកូដធម្មតាដោយប្រើប្រាស់បណ្ណាល័យ Hugging Face Transformers ឬ API របស់ OpenAI ដើម្បីមើលពីរបៀបដែលការផ្លាស់ប្តូរឧទាហរណ៍ប៉ះពាល់ដល់លទ្ធផល។
ស្វែងយល់ពីយន្តការ Teacher-Student និង Knowledge Distillation: សិក្សាពីទ្រឹស្តី Knowledge Distillation ដោយអនុវត្តការសរសេរកូដហ្វឹកហាត់ម៉ូដែលតូចៗពីម៉ូដែលធំៗដោយប្រើប្រាស់ PyTorch។ ផ្តោតសំខាន់លើការស្វែងយល់ពីរបៀបគណនា Loss functions (ឧ. Cross-entropy) និងបច្ចេកទេស Exponential Moving Average (EMA)។
អនុវត្តបច្ចេកទេសគ្រប់គ្រងការបង្កើតអត្ថបទ (Text Generation Strategies): សាកល្បងសរសេរ Script ដើម្បីទាញយកអត្ថបទពី LLMs ដោយប្រើប្រាស់បច្ចេកទេសចម្រុះដូចជា Top-k sampling, Top-p (Nucleus) sampling, និងការកែប្រែ Temperature ដើម្បីយល់ពីរបៀបបង្កើតអត្ថបទដែលសម្បូរបែបនិងមិនច្រំដែល។
ទាញយកនិងសាកល្បងកូដគម្រោងពិត (Clone the DDG Project): ចូលទៅកាន់ GitHub repository (https://github.com/wwyq1/DDG) ដែលផ្តល់ដោយអ្នកនិពន្ធ ដើម្បីទាញយកកូដមកសិក្សា។ សាកល្បងដំណើរការកូដនេះនៅលើ Google Colab (Pro) ឬម៉ាស៊ីនសេវើរបស់សាកលវិទ្យាល័យជាមួយសំណុំទិន្នន័យតូចៗដូចជា SST-2។
កែច្នៃសម្រាប់សំណុំទិន្នន័យភាសាខ្មែរ: បន្ទាប់ពីយល់ច្បាស់ពីលំហូរកូដ សូមសាកល្បងជំនួសទិន្នន័យភាសាអង់គ្លេសដោយទិន្នន័យភាសាខ្មែរ (ឧទាហរណ៍ ទិន្នន័យចាត់ថ្នាក់ព័ត៌មាន ឬមតិយោបល់) ដោយសាកល្បងជាមួយម៉ូដែល Open-source ដូចជា Qwen-1.5-7B ដែលមានការគាំទ្រភាសាខ្មែរបានខ្លះៗ ដើម្បីវាយតម្លៃប្រសិទ្ធភាព។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
In-context learning (ICL)	ជាដំណើរការដែលម៉ូដែលភាសាធំៗ (LLMs) រៀនធ្វើកិច្ចការថ្មីៗភ្លាមៗដោយគ្រាន់តែមើលឧទាហរណ៍មួយចំនួនដែលបានផ្តល់ឱ្យនៅក្នុង prompt ដោយមិនចាំបាច់ធ្វើការហ្វឹកហាត់ (train) ប៉ារ៉ាម៉ែត្ររបស់វាឡើងវិញនោះទេ។	ដូចជាសិស្សពូកែម្នាក់ដែលអាចយល់ពីរបៀបដោះស្រាយលំហាត់គណិតវិទ្យាថ្មីមួយភ្លាមៗ ដោយគ្រាន់តែមើលគ្រូធ្វើឧទាហរណ៍២-៣នៅលើក្ដារខៀន។
Text Distillation	ជាបច្ចេកទេសបង្រួញទិន្នន័យអត្ថបទដ៏ច្រើនសន្ធឹកសន្ធាប់ ឱ្យទៅជាទិន្នន័យតូចតូចដែលមានព័ត៌មានសំខាន់ៗបំផុតតំណាងឱ្យទិន្នន័យដើមទាំងមូល ដើម្បីជួយឱ្យម៉ូដែលរៀនបានលឿននិងមានប្រសិទ្ធភាព ដោយកាត់បន្ថយព័ត៌មានដែលមិនចាំបាច់។	ដូចជាការរម្ងាស់ទឹកស៊ុបមួយឆ្នាំងធំឱ្យខាប់សល់ត្រឹមមួយចានគោមតូច តែនៅតែរក្សាបាននូវរសជាតិឆ្ងាញ់និងជីវជាតិពេញលេញ។
Gradient Matching	ជាក្បួនអាល់កូរីតក្នុងការហ្វឹកហាត់ម៉ូដែល ដោយព្យាយាមធ្វើឱ្យទិសដៅនៃការធ្វើបច្ចុប្បន្នភាពប៉ារ៉ាម៉ែត្រ (gradient) របស់ម៉ូដែលដែលហ្វឹកហាត់លើទិន្នន័យបង្កើតថ្មី ស្រដៀងគ្នាទៅនឹងទិសដៅរបស់ម៉ូដែលដែលហ្វឹកហាត់លើទិន្នន័យដើម។	ដូចជាការព្យាយាមថតចម្លងក្បាច់រាំរបស់គ្រូបង្វឹក ដោយព្យាយាមធ្វើចលនាជើងនិងដៃឱ្យស្របគ្នាបេះបិទរាល់ជំហាននីមួយៗ។
Teacher-Student Framework	ជាយន្តការហ្វឹកហាត់ម៉ូដែល AI ដែលមានម៉ូដែលមួយដើរតួជាគ្រូ (Teacher) ផ្ទេរចំណេះដឹងរបស់ខ្លួនទៅឱ្យម៉ូដែលមួយទៀតដែលដើរតួជាសិស្ស (Student) តាមរយៈការណែនាំម៉ូដែលសិស្សឱ្យទស្សន៍ទាយលទ្ធផលឱ្យដូចម៉ូដែលគ្រូ ដើម្បីរក្សាស្ថិរភាពនិងបង្កើនប្រសិទ្ធភាពការរៀន។	ដូចជាសិស្សហាត់ការដែលព្យាយាមរៀននិងធ្វើការងារត្រាប់តាមអ្នកជំនាញដែលមានបទពិសោធន៍យូរឆ្នាំ ដើម្បីឱ្យឆាប់ចេះ។
Exponential Moving Average (EMA) fitting	ជាបច្ចេកទេសគណនាមធ្យមភាគដែលផ្តល់ទម្ងន់ឬភាពសំខាន់ខ្លាំងជាងទៅលើទិន្នន័យថ្មីៗ។ ក្នុងការហ្វឹកហាត់ម៉ូដែល វាជួយធ្វើឱ្យការប្រែប្រួលប៉ារ៉ាម៉ែត្រមានភាពរលូន (smooth) និងមិនលោតចុះឡើងខ្លាំងពេកក្នុងអំឡុងពេលហ្វឹកហាត់។	ដូចជាការបើកបរឡានដោយជាន់ហ្វ្រាំងនិងហ្គែរថ្នមៗជាបន្តបន្ទាប់ ជៀសវាងការជាន់កន្ត្រាក់ៗដែលធ្វើឱ្យម៉ាស៊ីនឆាប់ខូចនិងអ្នកជិះវិលមុខ។
top-k+top-p+temperature	ជាបណ្តុំនៃប៉ារ៉ាម៉ែត្រសម្រាប់គ្រប់គ្រងភាពច្នៃប្រឌិតនិងភាពត្រឹមត្រូវពេលដែល LLMs បង្កើតអត្ថបទ។ Top-k និង Top-p ជួយច្រោះយកតែពាក្យដែលមានប្រូបាប៊ីលីតេខ្ពស់ ចំណែក temperature កែប្រែគម្លាតនៃប្រូបាប៊ីលីតេដើម្បីធ្វើឱ្យអត្ថបទមានភាពសម្បូរបែបនិងមិនសូវច្រំដែល។	ដូចជាចុងភៅដែលជ្រើសរើសយកតែគ្រឿងផ្សំល្អបំផុតប្រចាំថ្ងៃ (top-k, top-p) ហើយបន្ថែមភាពច្នៃប្រឌិតក្នុងការចម្អិនបន្តិចបន្តួច (temperature) ដើម្បីឱ្យម្ហូបប្លែកមាត់តែមិនខូចរសជាតិដើម។
Demonstrations	នៅក្នុងបរិបទនៃការរៀនក្នុងបរិបទ (ICL) វាសំដៅលើសំណុំឧទាហរណ៍សំណួរនិងចម្លើយ (input-output pairs) ដែលត្រូវបានដាក់បញ្ចូលទៅក្នុង prompt ដើម្បីបង្ហាញប្រាប់ម៉ូដែលពីរបៀបធ្វើកិច្ចការអ្វីមួយយ៉ាងច្បាស់លាស់ មុននឹងសួរវាឱ្យដោះស្រាយសំណួរថ្មី។	ដូចជាការបង្ហាញគំរូគូសគំនូរមួយផ្ទាំងទៅឱ្យក្មេងមើល មុននឹងប្រាប់ឱ្យក្មេងនោះគូរគំនូរតាមទម្រង់ស្រដៀងគ្នានោះដោយខ្លួនឯង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖