Original Title: 基于强化学习的大语言模型古文释义选择研究
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្រផ្អែកលើការរៀនពង្រឹង (Reinforcement Learning) សម្រាប់ការជ្រើសរើសការបកស្រាយអត្ថបទចិនបុរាណដោយប្រើម៉ូដែលភាសាធំៗ (LLMs)

ចំណងជើងដើម៖ 基于强化学习的大语言模型古文释义选择研究

អ្នកនិពន្ធ៖ Weilu Xu (National Key Laboratory for Novel Software Technology, Nanjing University), Shujian Huang (National Key Laboratory for Novel Software Technology, Nanjing University)

ឆ្នាំបោះពុម្ព៖ 2025 (CCL 2025)

វិស័យសិក្សា៖ Computational Linguistics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ម៉ូដែលភាសាធំៗ (LLMs) បច្ចុប្បន្ននៅតែជួបប្រទះការលំបាកក្នុងការយល់ដឹងពីអត្ថន័យ និងបរិបទនៃអត្ថបទចិនបុរាណ ដែលធ្វើឱ្យការបកប្រែមានភាពមិនច្បាស់លាស់។ ឯកសារនេះដោះស្រាយបញ្ហាការជ្រើសរើសការបកស្រាយអត្ថន័យចិនបុរាណដោយប្រើប្រាស់វិធីសាស្ត្ររៀនពង្រឹង (Reinforcement Learning)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានបង្កើតក្របខ័ណ្ឌបណ្តុះបណ្តាលផ្អែកលើការរៀនពង្រឹង (RL) ដើម្បីបង្កើនសមត្ថភាពម៉ូដែល និងប្រៀបធៀបវាជាមួយនឹងការបណ្តុះបណ្តាលបែបគ្រប់គ្រង (Supervised Fine-Tuning - SFT)។

ការបង្កើតសំណុំទិន្នន័យ (Dataset Construction) សម្រាប់ការជ្រើសរើសអត្ថន័យ ដោយផ្អែកលើវចនានុក្រមអត្ថបទចិនបុរាណ។
ការបណ្តុះបណ្តាលបែបគ្រប់គ្រង (Supervised Fine-Tuning - SFT) ដោយប្រើវិធីសាស្ត្រ LoRA និងការកែសម្រួលប៉ារ៉ាម៉ែត្រពេញលេញ (Full-parameter)។
ការរៀនពង្រឹង (Reinforcement Learning - RL) ដោយប្រើក្បួនដោះស្រាយ PPO (Proximal Policy Optimization) និង GRPO ជាមួយនឹងការផ្តល់រង្វាន់ផ្អែកលើលទ្ធផល។
ការវាយតម្លៃពហុមុខងារ (Multi-task Evaluation) លើការបកប្រែ និងស្តង់ដារវាយតម្លៃសមត្ថភាពភាសាចិនបុរាណ (ACLUE Benchmark)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្ររៀនពង្រឹង (RL) ជាពិសេស PPO ទទួលបានអត្រាភាពត្រឹមត្រូវខ្ពស់បំផុត (៧៥,១០%) ក្នុងការជ្រើសរើសការបកស្រាយអត្ថន័យ បើប្រៀបធៀបទៅនឹងម៉ូដែលដើម (២២,៣០%) និងម៉ូដែល SFT-Full (៧០,៩៣%)។
ម៉ូដែលដែលបានបណ្តុះបណ្តាលដោយ PPO បង្ហាញពីសមត្ថភាពល្អប្រសើរក្នុងការបកប្រែអត្ថបទចិនបុរាណ ដោយទទួលបានពិន្ទុ BLEU ២០,៣៣ និងទទួលបានពិន្ទុសរុបខ្ពស់បំផុត (៤៩,០៧) នៅក្នុងស្តង់ដារវាយតម្លៃ ACLUE ។
ផ្ទុយពីនេះ ម៉ូដែលដែលឆ្លងកាត់ការបណ្តុះបណ្តាល SFT បង្ហាញពីការធ្លាក់ចុះនៃសមត្ថភាព (Performance Degradation) ក្នុងការបកប្រែ និងកិច្ចការភាសាចិនបុរាណផ្សេងទៀត ដែលបញ្ជាក់ថាយុទ្ធសាស្ត្រ RL មានភាពរឹងមាំ និងមានសមត្ថភាពទូទៅ (Generalization) ល្អជាង។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Zero-shot Baseline (Qwen2.5-1.5B-Instruct) ម៉ូដែលមូលដ្ឋាន (មិនមានការហ្វឹកហាត់បន្ថែម)	ងាយស្រួលប្រើប្រាស់ភ្លាមៗដោយមិនចាំបាច់ត្រូវការធនធានកុំព្យូទ័រសម្រាប់ហ្វឹកហាត់ (Training Resources)។	មានសមត្ថភាពខ្សោយក្នុងការយល់ន័យបរិបទនៃអត្ថបទបុរាណ និងច្រើនតែបកប្រែខុស។	ទទួលបានភាពត្រឹមត្រូវទាបត្រឹមតែ ២២,៣០% ប៉ុណ្ណោះ ក្នុងការជ្រើសរើសអត្ថន័យ។
Supervised Fine-Tuning (LoRA) ការបណ្តុះបណ្តាលបែបគ្រប់គ្រងដោយប្រើប៉ារ៉ាម៉ែត្រតិចតួច (LoRA)	សន្សំសំចៃធនធាន GPU និងរក្សាសមត្ថភាពទូទៅរបស់ម៉ូដែលបានល្អប្រសើរជាងការហ្វឹកហាត់ប៉ារ៉ាម៉ែត្រទាំងអស់។	សមត្ថភាពក្នុងការវិភាគអត្ថបទមិនទាន់ស៊ីជម្រៅ និងនៅមានកម្រិតបើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រ RL។	ទទួលបានភាពត្រឹមត្រូវ ៣៩,៣៤% លើកិច្ចការជ្រើសរើសអត្ថន័យ។
Supervised Fine-Tuning (Full-parameter) ការបណ្តុះបណ្តាលបែបគ្រប់គ្រងលើប៉ារ៉ាម៉ែត្រទាំងអស់	អាចរៀនកិច្ចការថ្មី (Task-specific) បានយ៉ាងលឿន និងមានភាពត្រឹមត្រូវខ្ពស់ជាង LoRA បន្តិចនៅក្នុងបរិបទដែលវាបានរៀន។	ចំណាយធនធានច្រើន និងបង្កឱ្យមានបញ្ហាភ្លេចសមត្ថភាពដើម (Catastrophic Forgetting) ដែលធ្វើឱ្យការបកប្រែទាំងមូលធ្លាក់ចុះយ៉ាងខ្លាំង។	ភាពត្រឹមត្រូវកើនដល់ ៧០,៩៣% ប៉ុន្តែពិន្ទុបកប្រែ BLEU ធ្លាក់ចុះដល់ ១,០៣។
Proximal Policy Optimization (PPO) ការរៀនពង្រឹងក្បួនដោះស្រាយ PPO	ទទួលបានលទ្ធផលត្រឹមត្រូវខ្ពស់បំផុត អាចរក្សាសមត្ថភាពយល់ដឹងទូទៅ និងពូកែខាងផ្ទេរសមត្ថភាព (Transferability) ទៅកាន់កិច្ចការបកប្រែ។	ដំណើរការហ្វឹកហាត់មានភាពស្មុគស្មាញ និងទាមទារការកំណត់មុខងាររង្វាន់ (Reward Function) ឱ្យបានច្បាស់លាស់។	ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត ៧៥,១០% ពិន្ទុបកប្រែ BLEU ២០,៣៣ និងពិន្ទុរួម ACLUE ៤៩,០៧។
Group Relative Policy Optimization (GRPO) ការរៀនពង្រឹងក្បួនដោះស្រាយ GRPO	ជួយកាត់បន្ថយការចំណាយ និងពេលវេលាលើការហ្វឹកហាត់ ដោយមិនតម្រូវឱ្យមានម៉ូដែលសម្រាប់ផ្តល់រង្វាន់ដាច់ដោយឡែក (Reward Model)។	ភាពត្រឹមត្រូវទាបជាង PPO បន្តិចបន្តួច ប៉ុន្តែនៅតែល្អជាងការប្រើប្រាស់ SFT ធម្មតា។	ទទួលបានភាពត្រឹមត្រូវ ៧៣,៦១% ក្នុងការជ្រើសរើសអត្ថន័យ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ម៉ូដែលភាសាធំដែលមានទំហំ 1.5 Billion Parameters (Qwen2.5-1.5B) ដែលទាមទារធនធាន GPU កម្រិតមធ្យម ព្រមទាំងទិន្នន័យជាក់លាក់សម្រាប់ហ្វឹកហាត់។

Hardware: ត្រូវការកុំព្យូទ័រដែលមានសមត្ថភាព GPU ខ្ពស់ (ឧទាហរណ៍ V100 ឬ A100) ដើម្បីដំណើរការហ្វឹកហាត់ PPO និង Full SFT ឱ្យបានលឿន និងមានប្រសិទ្ធភាព។
Software: ប្រើប្រាស់ Framework ដូចជា LLaMA Factory សម្រាប់ការធ្វើ SFT, DeepSpeed សម្រាប់បែងចែកការគណនា, និង veRL សម្រាប់ដំណើរការ Reinforcement Learning ។
Dataset: ត្រូវការសំណុំទិន្នន័យដែលបានរៀបចំជាគូ (ឧទាហរណ៍ វចនានុក្រមនិងប្រយោគ) ជាង ១០,០០០ គំរូ ដោយបម្លែងទៅជាទម្រង់ Parquet ដើម្បីបង្កើនល្បឿននៃការអានទិន្នន័យ (I/O)។
Expertise: ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងផ្នែក Reinforcement Learning វិស្វកម្ម Prompt (Prompt Engineering) និងភាសាវិទ្យាកុំព្យូទ័រ (Computational Linguistics) ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យវចនានុក្រមនិងអត្ថបទប្រវត្តិសាស្ត្រចិនបុរាណសុទ្ធសាធ ដែលមានរចនាសម្ព័ន្ធវេយ្យាករណ៍និងបរិបទវប្បធម៌ខុសប្លែកពីភាសាផ្សេងៗ។ សម្រាប់ប្រទេសកម្ពុជា វិធីសាស្ត្រនេះមានភាពស៊ីចង្វាក់គ្នា និងមានសារៈសំខាន់ណាស់ក្នុងការយកមកអនុវត្តលើការស្រាវជ្រាវ និងបកប្រែអត្ថបទសាស្ត្រាស្លឹករឹត ឬសិលាចារឹកខ្មែរបុរាណ (បាលី ឬ សំស្ក្រឹត) ដែលពោរពេញទៅដោយពាក្យពហុន័យដូចគ្នា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្របណ្តុះបណ្តាលដោយប្រើ RL សម្រាប់ការជ្រើសរើសអត្ថន័យពាក្យបុរាណនេះ គឺពិតជាមានសក្តានុពល និងប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់ការអភិរក្សអត្ថបទប្រវត្តិសាស្ត្រនៅកម្ពុជា។

វិទ្យាស្ថានពុទ្ធសាសនបណ្ឌិត្យ (Buddhist Institute): អាចប្រើវិធីសាស្ត្រនេះដើម្បីបណ្តុះបណ្តាល LLM ឱ្យយល់ដឹង និងបកប្រែអត្ថបទធម៌ ឬអក្សរសិល្ប៍បុរាណពីសាស្ត្រាស្លឹករឹត ដែលមានលាយឡំភាសាបាលី-សំស្ក្រឹត មកជាភាសាខ្មែរទំនើប។
ក្រសួងវប្បធម៌ និងវិចិត្រសិល្បៈ (Ministry of Culture and Fine Arts): អាចអភិវឌ្ឍប្រព័ន្ធ AI ដើម្បីវិភាគសិលាចារឹកខ្មែរបុរាណ (ឧទាហរណ៍ សិលាចារឹកសម័យមុនអង្គរ និងសម័យអង្គរ) ដោយបង្រៀនម៉ូដែលឱ្យចេះជ្រើសរើសអត្ថន័យពាក្យត្រឹមត្រូវតាមសម័យកាល។
ការអប់រំនៅសាកលវិទ្យាល័យ (University Education): សាកលវិទ្យាល័យភូមិន្ទវិចិត្រសិល្បៈ (RUFA) ឬសាកលវិទ្យាល័យភូមិន្ទភ្នំពេញ (RUPP) អាចប្រើប្រាស់ម៉ូដែលដែលត្រូវបានបណ្តុះបណ្តាលរួច ដើម្បីជួយគាំទ្រដល់និស្សិតក្នុងការអាន និងយល់អត្ថបទកំណាព្យច្បាប់លំបាកៗ។

ការយកក្បួនដោះស្រាយ RL មកបណ្តុះបណ្តាល LLMs លើភាសាបុរាណ នឹងបើកទំព័រថ្មីមួយក្នុងការប្រើប្រាស់បញ្ញាសិប្បនិម្មិត ដើម្បីអភិរក្ស និងលើកស្ទួយអក្សរសិល្ប៍ព្រមទាំងប្រវត្តិសាស្ត្រកម្ពុជាឱ្យកាន់តែមានភាពទូលំទូលាយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការប្រមូល និងរៀបចំទិន្នន័យប្រវត្តិសាស្ត្រ (Data Collection & Preprocessing): ប្រមូលចងក្រងវចនានុក្រមខ្មែរបុរាណ ពាក្យបាលី-សំស្ក្រឹត និងប្រយោគឧទាហរណ៍ពីសាស្ត្រាស្លឹករឹត ដោយរៀបចំទិន្នន័យជាទម្រង់ JSONL ឬ Parquet ដើម្បីងាយស្រួលក្នុងការទាញយក និងបណ្តុះបណ្តាលម៉ូដែលភាសាធំ។
ការជ្រើសរើសម៉ូដែល និង Framework (Model & Framework Selection): ជ្រើសរើសម៉ូដែលមូលដ្ឋាន (Base Model) ដែលមានសមត្ថភាពគួរសមដូចជា Qwen2.5 ឬ Llama-3 (8B) ហើយដំឡើង LLaMA Factory ដើម្បីងាយស្រួលគ្រប់គ្រងការហ្វឹកហាត់ដោយមិនចាំបាច់សរសេរកូដពីចំណុចសូន្យ។
ការធ្វើ SFT និងរៀបចំប្រព័ន្ធរង្វាន់ (SFT & Rule-based Reward Design): ចាប់ផ្តើមបណ្តុះបណ្តាលតាមបែប Supervised Fine-Tuning (LoRA) ជាមុន ដើម្បីឱ្យម៉ូដែលយល់ពីទម្រង់សំនួរ-ចម្លើយ រួចសរសេរកូដសម្រាប់ក្បួនផ្តល់រង្វាន់ (Reward Function) ដោយផ្អែកលើចម្លើយពិតប្រាកដ (Rule-based) ជំនួសឱ្យការចំណាយពេលបង្កើត Reward Model ថ្មី។
ការអនុវត្ត Reinforcement Learning (RL Training): ប្រើប្រាស់ Framework ដូចជា veRL ឬ TRL (Transformer Reinforcement Learning) ដើម្បីដំណើរការក្បួនដោះស្រាយ PPO ឬ GRPO ដោយប្រើប្រាស់ប្រព័ន្ធរង្វាន់ដែលបានបង្កើត ដើម្បីបង្កើនសមត្ថភាពទាញយកអត្ថន័យបរិបទពិតប្រាកដរបស់ម៉ូដែល។
ការវាយតម្លៃពហុមុខងារ (Multi-task Evaluation): បង្កើតសំណុំតេស្តស្តង់ដារមួយ (ស្រដៀងនឹង ACLUE Benchmark ក្នុងឯកសារ) ដើម្បីវាស់ស្ទង់សមត្ថភាពម៉ូដែលលើការជ្រើសរើសពាក្យ ការបកប្រែប្រយោគ និងធានាថាម៉ូដែលមិនភ្លេចសមត្ថភាពក្នុងការឆ្លើយតបជាភាសាខ្មែរទំនើបទូទៅ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Reinforcement Learning (RL)	ជាវិធីសាស្ត្របង្រៀនបញ្ញាសិប្បនិម្មិត (AI) ដោយប្រើប្រព័ន្ធផ្តល់រង្វាន់។ នៅពេលវាឆ្លើយត្រូវ ឬធ្វើការបានល្អ វាទទួលបានរង្វាន់ ដែលជម្រុញឱ្យវារៀនពីកំហុស និងបន្តកែលម្អការសម្រេចចិត្តរបស់វានៅលើកិច្ចការបន្ទាប់ដោយស្វ័យប្រវត្តិ។	ដូចជាការបង្វឹកសត្វសុនខឱ្យចេះធ្វើតាមបញ្ជា ដោយឲ្យចំណីជាវត្ថុលើកទឹកចិត្តនៅពេលវាធ្វើត្រូវ។
Supervised Fine-tuning (SFT)	ជាដំណើរការយកម៉ូដែល AI ដែលមានស្រាប់មកបង្រៀនបន្ថែមដោយប្រើទិន្នន័យដែលមានសំណួរនិងចម្លើយពិតប្រាកដ ដើម្បីឱ្យវាចេះឆ្លើយតបទៅនឹងកិច្ចការជាក់លាក់ណាមួយបានយ៉ាងត្រឹមត្រូវ។	ដូចជាការយកសិស្សដែលចេះអានសៀវភៅរួចហើយ មកបង្ហាត់បង្រៀនបន្ថែមដោយប្រើវិញ្ញាសាប្រឡងដែលមានចម្លើយស្រាប់ ដើម្បីឲ្យគេពូកែខាងមុខវិជ្ជាណាមួយជាក់លាក់។
LoRA (Low-Rank Adaptation)	ជាបច្ចេកទេសកែសម្រួលម៉ូដែលភាសាធំៗ (LLM) ដោយមិនចាំបាច់ផ្លាស់ប្តូរប៉ារ៉ាម៉ែត្រទាំងអស់របស់វាឡើយ ពោលគឺវាបន្ថែមតែចង្កោមទិន្នន័យតូចមួយប៉ុណ្ណោះ ដែលជួយសន្សំសំចៃពេលវេលា និងកម្លាំងម៉ាស៊ីនកុំព្យូទ័រ (GPU) យ៉ាងច្រើន។	ដូចជាការបន្ថែមឧបករណ៍បំពងសំឡេងតូចមួយទៅលើរថយន្តដើម្បីឱ្យវាបន្លឺសំឡេងបានខ្លាំង ជាជាងការដោះដូរម៉ាស៊ីនរថយន្តទាំងមូល។
Proximal Policy Optimization (PPO)	ជាក្បួនដោះស្រាយ (Algorithm) នៅក្នុងការរៀនពង្រឹង (RL) ដែលគ្រប់គ្រងការផ្លាស់ប្តូរចំណេះដឹងរបស់ AI មិនឱ្យផ្លាស់ប្តូរលឿនពេក ឬធំពេកក្នុងពេលតែមួយ ដើម្បីធានាថាការហ្វឹកហាត់មានស្ថិរភាព និងមិនធ្វើឱ្យវាភ្លេចចំណេះដឹងចាស់។	ដូចជាការណែនាំអ្នករៀនជិះកង់ឱ្យសាកល្បងបត់ចង្កូតបន្តិចម្តងៗ ជាជាងកាច់ចង្កូតខ្លាំងភ្លាមៗដែលអាចធ្វើឱ្យដួល។
Group Relative Policy Optimization (GRPO)	ជាក្បួនដោះស្រាយស្រដៀងនឹង PPO ដែរ ប៉ុន្តែវាធ្វើការប្រៀបធៀបលទ្ធផលរបស់ AI ជាក្រុមតូចៗក្នុងពេលតែមួយ ដើម្បីវាយតម្លៃរកចម្លើយដែលល្អជាងគេ ដោយមិនតម្រូវឱ្យមានប្រព័ន្ធគណនាពិន្ទុដោយឡែក ដែលជួយសន្សំសំចៃទំហំផ្ទុកកំឡុងពេលហ្វឹកហាត់យ៉ាងខ្លាំង។	ដូចជាការឱ្យសិស្សមួយក្រុមធ្វើលំហាត់តែមួយ រួចប្រៀបធៀបចម្លើយគ្នាឯងដើម្បីរកអ្នកដែលធ្វើបានល្អបំផុត ជាជាងយកចម្លើយសិស្សម្នាក់ៗទៅប្រៀបធៀបជាមួយចម្លើយគ្រូ។
KL Divergence	ជារង្វាស់គណិតវិទ្យាដែលប្រើសម្រាប់វាស់ស្ទង់ថាតើរបៀបដែល AI បញ្ចេញលទ្ធផលថ្មីមានភាពខុសប្លែកពីលទ្ធផលដើមប៉ុណ្ណា ដើម្បីទប់ស្កាត់កុំឱ្យ AI ផ្លាស់ប្តូរទម្លាប់ផ្តល់ចម្លើយខុសប្រក្រតីពេកក្នុងអំឡុងពេលហ្វឹកហាត់។	ដូចជាខ្សែយឺតដែលចងភ្ជាប់សិស្សទៅនឹងគ្រូ ដើម្បីកុំឱ្យសិស្សរត់ចេញឆ្ងាយពីគន្លងមេរៀនដើមខ្លាំងពេកកំឡុងពេលស្វែងយល់អ្វីថ្មី។
BLEU Score	ជាប្រព័ន្ធផ្តល់ពិន្ទុសម្រាប់វាស់ស្ទង់គុណភាពនៃការបកប្រែដោយម៉ាស៊ីន ដោយប្រៀបធៀបចំនួនពាក្យនិងឃ្លារបស់ AI ទៅនឹងអត្ថបទដែលបានបកប្រែដោយមនុស្ស។ ពិន្ទុកាន់តែខ្ពស់ មានន័យថាការបកប្រែកាន់តែដូចគ្នានឹងការបកប្រែរបស់មនុស្ស។	ដូចជាការកាត់ពិន្ទុរបស់សិស្សទៅតាមទម្រង់អក្ខរាវិរុទ្ធនិងពាក្យពេចន៍ ប្រសិនបើសិស្សសរសេររៀបរាប់មិនសូវស្រដៀងទៅនឹងអត្ថបទមេរៀនដើម។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖