Original Title: COMPARATIVE ANALYSIS OF BASELINE LLM ARCHITECTURES USING THE TRIPLE-R DATASET FOR FACT-VERIFICATION
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគប្រៀបធៀបនៃស្ថាបត្យកម្ម LLM មូលដ្ឋានដោយប្រើប្រាស់សំណុំទិន្នន័យ TRIPLE-R សម្រាប់ការផ្ទៀងផ្ទាត់ការពិត

ចំណងជើងដើម៖ COMPARATIVE ANALYSIS OF BASELINE LLM ARCHITECTURES USING THE TRIPLE-R DATASET FOR FACT-VERIFICATION

អ្នកនិពន្ធ៖ Julius Botchway (St. Petersburg School of Economics and Management, HSE University)

ឆ្នាំបោះពុម្ព៖ 2025 (Master’s thesis, National Research University Higher School of Economics)

វិស័យសិក្សា៖ Data Analytics and Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការរីករាលដាលព័ត៌មានមិនពិត (Misinformation) និងព័ត៌មានក្លែងក្លាយ (Fake news) នៅក្នុងវិស័យសេដ្ឋកិច្ចសង្គម និងនយោបាយ ដែលទាមទារឱ្យមានប្រព័ន្ធផ្ទៀងផ្ទាត់ការពិតស្វ័យប្រវត្តិប្រកបដោយប្រសិទ្ធភាពខ្ពស់។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការវាយតម្លៃ និងប្រៀបធៀបសមត្ថភាពនៃម៉ូដែលភាសាធំៗ (LLMs) ចំនួន ៨ ប្រភេទផ្សេងគ្នា ទៅលើចំណាត់ថ្នាក់ទិន្នន័យជាពីរ (Binary classification) សម្រាប់គោលបំណងផ្ទៀងផ្ទាត់ការពិត។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
BERT (Bidirectional Encoder Representations from Transformers)
ម៉ូដែល BERT (ស្ថាបត្យកម្ម Encoder ទិសដៅពីរ)
មានសមត្ថភាពខ្ពស់បំផុតក្នុងការចាប់យកអត្ថន័យបរិបទ និងអាចធ្វើចំណាត់ថ្នាក់បានយ៉ាងត្រឹមត្រូវរវាងព័ត៌មានពិតនិងក្លែងក្លាយ។ វាមានភាពជឿជាក់ខ្ពស់ក្នុងការបែងចែកទិន្នន័យ។ ទាមទារធនធានកុំព្យូទ័រខ្ពស់ ចំណាយពេលយូរក្នុងការហ្វឹកហាត់ (Training) និងប្រឈមនឹងបញ្ហា Overfitting ប្រសិនបើមិនមានការសម្រួលឱ្យបានល្អ។ ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៧៣.៧៣% និងរង្វាស់ AUC-ROC ០.៨០៤៤ ដែលជាលទ្ធផលខ្ពស់ជាងគេ។
DistilBERT
ម៉ូដែល DistilBERT (ទម្រង់ស្រាលនៃ BERT)
មានដំណើរការលឿនជាង និងស៊ីធនធានតិចជាង BERT ខណៈពេលដែលនៅតែរក្សាបាននូវប្រសិទ្ធភាពខ្ពស់ប្រកៀកប្រកិតគ្នា ដែលស័ក្តិសមសម្រាប់ប្រព័ន្ធដែលមានធនធានកម្រិត។ អាចខកខានក្នុងការចាប់យកអត្ថន័យទន់ភ្លន់ ឬព័ត៌មានលម្អិតស្មុគស្មាញមួយចំនួន ដែលធ្វើឱ្យមានអត្រាវិជ្ជមានមិនពិត (False Positives) ខ្ពស់បន្តិចនៅកម្រិតកណ្តាល។ ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៧២.៧៨% និងរង្វាស់ AUC-ROC ០.៨០២១ ដែលបង្ហាញពីតុល្យភាពដ៏ល្អ។
GPT-2 (Generative Pre-trained Transformer 2)
ម៉ូដែល GPT-2 (ស្ថាបត្យកម្ម Decoder ទម្រង់បង្កើតអត្ថបទ)
មានសមត្ថភាពខ្ពស់បំផុតក្នុងការរកឃើញទិន្នន័យវិជ្ជមាន (Recall) ដែលល្អបំផុតសម្រាប់ការកំណត់សម្គាល់កុំឱ្យរំលងព័ត៌មានដែលអាចជាព័ត៌មានក្លែងក្លាយ។ មានភាពជាក់លាក់ទាប (Low Precision) ដោយសារវាមាននិន្នាការទាយថាជាព័ត៌មានពិតច្រើនពេក ដែលបណ្តាលឱ្យមានការចាត់ថ្នាក់ខុសញឹកញាប់។ ទទួលបានរង្វាស់ Recall ខ្ពស់បំផុតរហូតដល់ ៨២.៩៨% និង F1-score ៧៤.២៣% ប៉ុន្តែភាពត្រឹមត្រូវមានត្រឹមតែ ៦៧.៣២%។
ALBERT & DeBERTa
ម៉ូដែល ALBERT និង DeBERTa (ម៉ូដែលសន្សំសំចៃប៉ារ៉ាម៉ែត្រ)
តាមទ្រឹស្តី ពួកវាត្រូវបានរចនាឡើងដើម្បីបង្កើនប្រសិទ្ធភាពប៉ារ៉ាម៉ែត្រ និងដោះស្រាយបរិបទទំនាក់ទំនងបានល្អ។ មិនស័ក្តិសមជាមួយកិច្ចការចំណាត់ថ្នាក់ទិន្នន័យទម្រង់ជាពីរ (Binary classification) នៅក្នុងការសិក្សានេះទេ ដោយវាបរាជ័យក្នុងការរៀនសូត្រពីសំណុំទិន្នន័យ។ ទទួលបានភាពត្រឹមត្រូវទាបបំផុតត្រឹមតែ ៥៦.៧២% ដែលស្ទើរតែស្មើនឹងការទាយដោយចៃដន្យ (Random guessing)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារនូវថាមពលកុំព្យូទ័រធន់មធ្យមទៅខ្ពស់ ជាពិសេសតម្រូវឱ្យមានការប្រើប្រាស់ GPU សម្រាប់ការហ្វឹកហាត់ម៉ូដែលភាសាធំៗ (LLMs)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យ Triple-R ដែលប្រមូលផ្តុំពីស្ថាប័នត្រួតពិនិត្យព័ត៌មាននៅលោកខាងលិចដូចជា PolitiFact និង Wikipedia។ ទិន្នន័យភាគច្រើនពាក់ព័ន្ធនឹងបរិបទនយោបាយ និងសេដ្ឋកិច្ចសង្គមរបស់សហរដ្ឋអាមេរិក (ឧទាហរណ៍៖ អតីតប្រធានាធិបតី លោក Obama ឬ Trump)។ សម្រាប់ប្រទេសកម្ពុជា ទិន្នន័យនេះមានភាពលម្អៀងយ៉ាងខ្លាំង ហើយម៉ូដែលដែលហ្វឹកហាត់រួចនេះមិនអាចយកមកប្រើប្រាស់ផ្ទាល់ដើម្បីយល់ពីបរិបទនយោបាយ សង្គម និងការប្រើប្រាស់ភាសាខ្មែរបាននោះទេ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាទិន្នន័យមានភាពខុសគ្នាក៏ដោយ វិធីសាស្ត្រ និងស្ថាបត្យកម្មដែលបានស្រាវជ្រាវនេះ មានសារៈសំខាន់ខ្លាំងណាស់សម្រាប់អភិវឌ្ឍប្រព័ន្ធ AI នៅកម្ពុជា។

ការជ្រើសរើសប្រើប្រាស់ម៉ូដែលធុនស្រាលដូចជា DistilBERT គឺជាជម្រើសដ៏ល្អបំផុតសម្រាប់ស្ថាប័នកម្ពុជាដែលមានធនធានកុំព្យូទ័រ និងហិរញ្ញវត្ថុមានកម្រិត ដើម្បីចូលរួមប្រយុទ្ធប្រឆាំងនឹងព័ត៌មានក្លែងក្លាយដោយប្រសិទ្ធភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ូដែល Transformer: និស្សិតគួរចាប់ផ្តើមសិក្សាពីទ្រឹស្តីនៃម៉ូដែលភាសា ដោយរៀនប្រើប្រាស់បណ្ណាល័យ Hugging Face Transformers រួមជាមួយ PyTorch តាមរយៈឯកសារបង្រៀនឥតគិតថ្លៃ។
  2. ជំហានទី២៖ ប្រមូលនិងរៀបចំទិន្នន័យជាភាសាខ្មែរ: សហការជាមួយស្ថាប័នសារព័ត៌មាន ឬប្រមូលទិន្នន័យពីបណ្តាញសង្គមដើម្បីបង្កើតជាសំណុំទិន្នន័យ (Dataset) ផ្ទាល់ខ្លួន ដោយត្រូវបែងចែកជាសេចក្តីថ្លែងការណ៍ និងភស្តុតាងបញ្ជាក់ រួចធ្វើការសំអាតទិន្នន័យដោយប្រើ Pandas
  3. ជំហានទី៣៖ ហ្វឹកហាត់ម៉ូដែលលើបរិស្ថានពពក (Cloud Environment): ប្រើប្រាស់ Google Colab ដែលមានផ្តល់ជូននូវ Tesla T4 GPU ដើម្បីធ្វើការ Fine-tune ម៉ូដែលទម្ងន់ស្រាលដូចជា DistilBERTFlan-T5 ដោយកំណត់ Batch size ឱ្យបានសមស្របដើម្បីចៀសវាងការពេញអង្គចងចាំ។
  4. ជំហានទី៤៖ វាយតម្លៃ និងប្រៀបធៀបប្រសិទ្ធភាព: ប្រើប្រាស់រង្វាស់ស្តង់ដារដូចជា Accuracy, Precision, Recall, F1-score និង AUC-ROC តាមរយៈ Scikit-learn ដើម្បីកំណត់ថាតើម៉ូដែលណាមួយមានភាពសុក្រឹតខ្ពស់ក្នុងការកាត់ក្តីព័ត៌មានក្លែងក្លាយជាភាសាខ្មែរ។
  5. ជំហានទី៥៖ បង្កើតកម្មវិធីផ្ទៀងផ្ទាត់ការពិតជាក់ស្តែង: ដាក់ដំណើរការ (Deploy) ម៉ូដែលដែលទទួលបានជោគជ័យបំផុតនោះជាទម្រង់ Web API ដោយប្រើប្រាស់ FastAPIStreamlit ដើម្បីឱ្យអ្នកប្រើប្រាស់អាចវាយបញ្ចូលអត្ថបទ និងទទួលបានលទ្ធផលនៃការផ្ទៀងផ្ទាត់ភ្លាមៗ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Transformer Architectures ជាស្ថាបត្យកម្មនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលប្រើប្រាស់យន្តការយកចិត្តទុកដាក់ (Attention mechanism) ដើម្បីស្វែងយល់ពីទំនាក់ទំនងនៃពាក្យនីមួយៗក្នុងប្រយោគទាំងមូល ដែលជួយឱ្យម៉ូដែល AI អាចយល់អត្ថន័យបរិបទបានលឿននិងច្បាស់លាស់។ ដូចជាមនុស្សម្នាក់ដែលអានសៀវភៅមួយទំព័រព្រមៗគ្នាដោយដឹងថាពាក្យណាទាក់ទងនឹងពាក្យណាខ្លះ ជាជាងការអានរាយគ្នាម្តងមួយពាក្យៗ។
Encoder-Only Models ជាប្រភេទម៉ូដែល AI (ដូចជា BERT) ដែលអានទិន្នន័យអត្ថបទទាំងពីឆ្វេងទៅស្តាំ និងពីស្តាំមកឆ្វេងក្នុងពេលតែមួយ ដើម្បីទាញយកអត្ថន័យស៊ីជម្រៅសម្រាប់ធ្វើការចាត់ថ្នាក់ (Classification) ថាតើព័ត៌មាននោះពិត ឬក្លែងក្លាយ។ ដូចជាអ្នកស៊ើបអង្កេតដែលអានសេចក្តីថ្លែងការណ៍ទាំងមូលត្រឡប់ចុះត្រឡប់ឡើង ដើម្បីរកមើលចំណុចខ្វះខាត ឬភាពមិនស៊ីសង្វាក់គ្នា មុននឹងសម្រេចក្តី។
Decoder-Only Models ជាប្រភេទម៉ូដែល AI (ដូចជា GPT-2) ដែលអានអត្ថបទពីឆ្វេងទៅស្តាំតាមលំដាប់លំដោយ ហើយត្រូវបានរចនាឡើងយ៉ាងពិសេសសម្រាប់ទស្សន៍ទាយពាក្យបន្ទាប់ និងបង្កើតអត្ថបទថ្មី (Generation) ជាជាងការចាត់ថ្នាក់ទិន្នន័យទៅតាមប្រភេទ។ ដូចជាអ្នកនិពន្ធដែលសរសេររឿងដោយគិតតែកថាខណ្ឌបន្ទាប់ ផ្អែកលើអ្វីដែលខ្លួនទើបតែសរសេររួចពីខាងដើម។
AUC-ROC ជារង្វាស់ស្ថិតិសម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែល Machine Learning ក្នុងការបែងចែករវាងថ្នាក់ពីរ (ឧទាហរណ៍ ព័ត៌មានពិត និង ព័ត៌មានក្លែងក្លាយ)។ តម្លៃកាន់តែខិតជិត 1.0 មានន័យថាម៉ូដែលកាន់តែពូកែបែងចែកទិន្នន័យទាំងពីរនេះដាច់ពីគ្នាដោយមិនច្រឡំ។ ដូចជាពិន្ទុវាយតម្លៃកម្រិតសមត្ថភាពរបស់ឆ្មាំយាមទ្វារ ថាតើគាត់អាចចំណាំមុខនិងបែងចែកដាច់រវាងចោរនិងម្ចាស់ផ្ទះបានល្អប៉ុនណានៅគ្រប់កាលៈទេសៈ។
Precision and Recall Precision គឺជារង្វាស់ដែលប្រាប់ថា ក្នុងចំណោមព័ត៌មានដែលម៉ូដែលទាយថាពិត តើមានប៉ុន្មានភាគរយដែលពិតប្រាកដ។ ចំណែក Recall ប្រាប់ថា ក្នុងចំណោមព័ត៌មានពិតទាំងអស់ តើម៉ូដែលអាចស្វែងរកឃើញបានប៉ុន្មានភាគរយ។ Precision ប្រៀបដូចជាការបាញ់ព្រួញចំគោលដៅរាល់ដងដែលបាញ់ ចំណែក Recall ប្រៀបដូចជាការប្រមូលរកឃើញគ្រាប់ព្រួញដែលបាត់ទាំងអស់មកវិញដោយមិនឱ្យសល់។
Knowledge distillation ជាដំណើរការនៃការផ្ទេរចំណេះដឹងពីម៉ូដែល AI ដ៏ធំនិងស្មុគស្មាញ (Teacher model) ទៅកាន់ម៉ូដែល AI តូចនិងលឿនជាង (Student model ដូចជា DistilBERT) ដោយវាអាចរក្សាបាននូវប្រសិទ្ធភាពក្បែរគ្នា ប៉ុន្តែស៊ីធនធានកុំព្យូទ័រតិចជាងឆ្ងាយ។ ដូចជាសាស្ត្រាចារ្យម្នាក់សង្ខេបមេរៀនដ៏ក្រាស់មួយសៀវភៅ ទៅជាសៀវភៅសង្ខេបខ្លីៗដែលមានតែចំណុចសំខាន់ៗ ដើម្បីឱ្យសិស្សងាយស្រួលរៀននិងឆាប់យល់។
Overfitting ជាបញ្ហាមួយនៅក្នុងដំណើរការបង្វឹក AI ដែលម៉ូដែលរៀនទន្ទេញចាំទិន្នន័យហ្វឹកហាត់ (Training data) ខ្លាំងពេក រហូតដល់ពេលយកទៅអនុវត្តលើទិន្នន័យថ្មីដែលវាមិនធ្លាប់ឃើញ បែរជាធ្វើការសម្រេចចិត្តខុសនិងមានប្រសិទ្ធភាពធ្លាក់ចុះយ៉ាងខ្លាំង។ ដូចជាសិស្សដែលទន្ទេញចាំតែវិញ្ញាសាចាស់ៗសន្លឹកៗពេលរៀនត្រៀមប្រឡង ប៉ុន្តែពេលប្រឡងពិតប្រាកដចេញលំហាត់ប្លែកបន្តិច បែរជាធ្វើមិនចេញសោះ។
Subword tokenization ជាបច្ចេកទេសបំបែកពាក្យនៅក្នុងប្រយោគទៅជាកង់ៗ ឬជាព្យាង្គតូចៗ (Subwords) ដើម្បីជួយឱ្យម៉ូដែល AI អាចយល់អត្ថន័យនៃពាក្យថ្មីៗ ឬពាក្យកម្រ ដោយផ្សំកង់តូចៗទាំងនោះចូលគ្នា ជាជាងការដែលម៉ូដែលត្រូវទន្ទេញចាំពាក្យទាំងមូល។ ដូចជាក្មេងតូចរៀនអានពាក្យពិបាកៗដោយការប្រកបផ្សំស្រៈនិងព្យញ្ជនៈម្តងមួយតួៗចូលគ្នា ជាជាងការទន្ទេញចាំពាក្យវែងៗទាំងស្រុង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖