បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការរីករាលដាលព័ត៌មានមិនពិត (Misinformation) និងព័ត៌មានក្លែងក្លាយ (Fake news) នៅក្នុងវិស័យសេដ្ឋកិច្ចសង្គម និងនយោបាយ ដែលទាមទារឱ្យមានប្រព័ន្ធផ្ទៀងផ្ទាត់ការពិតស្វ័យប្រវត្តិប្រកបដោយប្រសិទ្ធភាពខ្ពស់។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការវាយតម្លៃ និងប្រៀបធៀបសមត្ថភាពនៃម៉ូដែលភាសាធំៗ (LLMs) ចំនួន ៨ ប្រភេទផ្សេងគ្នា ទៅលើចំណាត់ថ្នាក់ទិន្នន័យជាពីរ (Binary classification) សម្រាប់គោលបំណងផ្ទៀងផ្ទាត់ការពិត។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| BERT (Bidirectional Encoder Representations from Transformers) ម៉ូដែល BERT (ស្ថាបត្យកម្ម Encoder ទិសដៅពីរ) |
មានសមត្ថភាពខ្ពស់បំផុតក្នុងការចាប់យកអត្ថន័យបរិបទ និងអាចធ្វើចំណាត់ថ្នាក់បានយ៉ាងត្រឹមត្រូវរវាងព័ត៌មានពិតនិងក្លែងក្លាយ។ វាមានភាពជឿជាក់ខ្ពស់ក្នុងការបែងចែកទិន្នន័យ។ | ទាមទារធនធានកុំព្យូទ័រខ្ពស់ ចំណាយពេលយូរក្នុងការហ្វឹកហាត់ (Training) និងប្រឈមនឹងបញ្ហា Overfitting ប្រសិនបើមិនមានការសម្រួលឱ្យបានល្អ។ | ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៧៣.៧៣% និងរង្វាស់ AUC-ROC ០.៨០៤៤ ដែលជាលទ្ធផលខ្ពស់ជាងគេ។ |
| DistilBERT ម៉ូដែល DistilBERT (ទម្រង់ស្រាលនៃ BERT) |
មានដំណើរការលឿនជាង និងស៊ីធនធានតិចជាង BERT ខណៈពេលដែលនៅតែរក្សាបាននូវប្រសិទ្ធភាពខ្ពស់ប្រកៀកប្រកិតគ្នា ដែលស័ក្តិសមសម្រាប់ប្រព័ន្ធដែលមានធនធានកម្រិត។ | អាចខកខានក្នុងការចាប់យកអត្ថន័យទន់ភ្លន់ ឬព័ត៌មានលម្អិតស្មុគស្មាញមួយចំនួន ដែលធ្វើឱ្យមានអត្រាវិជ្ជមានមិនពិត (False Positives) ខ្ពស់បន្តិចនៅកម្រិតកណ្តាល។ | ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ៧២.៧៨% និងរង្វាស់ AUC-ROC ០.៨០២១ ដែលបង្ហាញពីតុល្យភាពដ៏ល្អ។ |
| GPT-2 (Generative Pre-trained Transformer 2) ម៉ូដែល GPT-2 (ស្ថាបត្យកម្ម Decoder ទម្រង់បង្កើតអត្ថបទ) |
មានសមត្ថភាពខ្ពស់បំផុតក្នុងការរកឃើញទិន្នន័យវិជ្ជមាន (Recall) ដែលល្អបំផុតសម្រាប់ការកំណត់សម្គាល់កុំឱ្យរំលងព័ត៌មានដែលអាចជាព័ត៌មានក្លែងក្លាយ។ | មានភាពជាក់លាក់ទាប (Low Precision) ដោយសារវាមាននិន្នាការទាយថាជាព័ត៌មានពិតច្រើនពេក ដែលបណ្តាលឱ្យមានការចាត់ថ្នាក់ខុសញឹកញាប់។ | ទទួលបានរង្វាស់ Recall ខ្ពស់បំផុតរហូតដល់ ៨២.៩៨% និង F1-score ៧៤.២៣% ប៉ុន្តែភាពត្រឹមត្រូវមានត្រឹមតែ ៦៧.៣២%។ |
| ALBERT & DeBERTa ម៉ូដែល ALBERT និង DeBERTa (ម៉ូដែលសន្សំសំចៃប៉ារ៉ាម៉ែត្រ) |
តាមទ្រឹស្តី ពួកវាត្រូវបានរចនាឡើងដើម្បីបង្កើនប្រសិទ្ធភាពប៉ារ៉ាម៉ែត្រ និងដោះស្រាយបរិបទទំនាក់ទំនងបានល្អ។ | មិនស័ក្តិសមជាមួយកិច្ចការចំណាត់ថ្នាក់ទិន្នន័យទម្រង់ជាពីរ (Binary classification) នៅក្នុងការសិក្សានេះទេ ដោយវាបរាជ័យក្នុងការរៀនសូត្រពីសំណុំទិន្នន័យ។ | ទទួលបានភាពត្រឹមត្រូវទាបបំផុតត្រឹមតែ ៥៦.៧២% ដែលស្ទើរតែស្មើនឹងការទាយដោយចៃដន្យ (Random guessing)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារនូវថាមពលកុំព្យូទ័រធន់មធ្យមទៅខ្ពស់ ជាពិសេសតម្រូវឱ្យមានការប្រើប្រាស់ GPU សម្រាប់ការហ្វឹកហាត់ម៉ូដែលភាសាធំៗ (LLMs)។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យ Triple-R ដែលប្រមូលផ្តុំពីស្ថាប័នត្រួតពិនិត្យព័ត៌មាននៅលោកខាងលិចដូចជា PolitiFact និង Wikipedia។ ទិន្នន័យភាគច្រើនពាក់ព័ន្ធនឹងបរិបទនយោបាយ និងសេដ្ឋកិច្ចសង្គមរបស់សហរដ្ឋអាមេរិក (ឧទាហរណ៍៖ អតីតប្រធានាធិបតី លោក Obama ឬ Trump)។ សម្រាប់ប្រទេសកម្ពុជា ទិន្នន័យនេះមានភាពលម្អៀងយ៉ាងខ្លាំង ហើយម៉ូដែលដែលហ្វឹកហាត់រួចនេះមិនអាចយកមកប្រើប្រាស់ផ្ទាល់ដើម្បីយល់ពីបរិបទនយោបាយ សង្គម និងការប្រើប្រាស់ភាសាខ្មែរបាននោះទេ។
ទោះបីជាទិន្នន័យមានភាពខុសគ្នាក៏ដោយ វិធីសាស្ត្រ និងស្ថាបត្យកម្មដែលបានស្រាវជ្រាវនេះ មានសារៈសំខាន់ខ្លាំងណាស់សម្រាប់អភិវឌ្ឍប្រព័ន្ធ AI នៅកម្ពុជា។
ការជ្រើសរើសប្រើប្រាស់ម៉ូដែលធុនស្រាលដូចជា DistilBERT គឺជាជម្រើសដ៏ល្អបំផុតសម្រាប់ស្ថាប័នកម្ពុជាដែលមានធនធានកុំព្យូទ័រ និងហិរញ្ញវត្ថុមានកម្រិត ដើម្បីចូលរួមប្រយុទ្ធប្រឆាំងនឹងព័ត៌មានក្លែងក្លាយដោយប្រសិទ្ធភាព។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Transformer Architectures | ជាស្ថាបត្យកម្មនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលប្រើប្រាស់យន្តការយកចិត្តទុកដាក់ (Attention mechanism) ដើម្បីស្វែងយល់ពីទំនាក់ទំនងនៃពាក្យនីមួយៗក្នុងប្រយោគទាំងមូល ដែលជួយឱ្យម៉ូដែល AI អាចយល់អត្ថន័យបរិបទបានលឿននិងច្បាស់លាស់។ | ដូចជាមនុស្សម្នាក់ដែលអានសៀវភៅមួយទំព័រព្រមៗគ្នាដោយដឹងថាពាក្យណាទាក់ទងនឹងពាក្យណាខ្លះ ជាជាងការអានរាយគ្នាម្តងមួយពាក្យៗ។ |
| Encoder-Only Models | ជាប្រភេទម៉ូដែល AI (ដូចជា BERT) ដែលអានទិន្នន័យអត្ថបទទាំងពីឆ្វេងទៅស្តាំ និងពីស្តាំមកឆ្វេងក្នុងពេលតែមួយ ដើម្បីទាញយកអត្ថន័យស៊ីជម្រៅសម្រាប់ធ្វើការចាត់ថ្នាក់ (Classification) ថាតើព័ត៌មាននោះពិត ឬក្លែងក្លាយ។ | ដូចជាអ្នកស៊ើបអង្កេតដែលអានសេចក្តីថ្លែងការណ៍ទាំងមូលត្រឡប់ចុះត្រឡប់ឡើង ដើម្បីរកមើលចំណុចខ្វះខាត ឬភាពមិនស៊ីសង្វាក់គ្នា មុននឹងសម្រេចក្តី។ |
| Decoder-Only Models | ជាប្រភេទម៉ូដែល AI (ដូចជា GPT-2) ដែលអានអត្ថបទពីឆ្វេងទៅស្តាំតាមលំដាប់លំដោយ ហើយត្រូវបានរចនាឡើងយ៉ាងពិសេសសម្រាប់ទស្សន៍ទាយពាក្យបន្ទាប់ និងបង្កើតអត្ថបទថ្មី (Generation) ជាជាងការចាត់ថ្នាក់ទិន្នន័យទៅតាមប្រភេទ។ | ដូចជាអ្នកនិពន្ធដែលសរសេររឿងដោយគិតតែកថាខណ្ឌបន្ទាប់ ផ្អែកលើអ្វីដែលខ្លួនទើបតែសរសេររួចពីខាងដើម។ |
| AUC-ROC | ជារង្វាស់ស្ថិតិសម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែល Machine Learning ក្នុងការបែងចែករវាងថ្នាក់ពីរ (ឧទាហរណ៍ ព័ត៌មានពិត និង ព័ត៌មានក្លែងក្លាយ)។ តម្លៃកាន់តែខិតជិត 1.0 មានន័យថាម៉ូដែលកាន់តែពូកែបែងចែកទិន្នន័យទាំងពីរនេះដាច់ពីគ្នាដោយមិនច្រឡំ។ | ដូចជាពិន្ទុវាយតម្លៃកម្រិតសមត្ថភាពរបស់ឆ្មាំយាមទ្វារ ថាតើគាត់អាចចំណាំមុខនិងបែងចែកដាច់រវាងចោរនិងម្ចាស់ផ្ទះបានល្អប៉ុនណានៅគ្រប់កាលៈទេសៈ។ |
| Precision and Recall | Precision គឺជារង្វាស់ដែលប្រាប់ថា ក្នុងចំណោមព័ត៌មានដែលម៉ូដែលទាយថាពិត តើមានប៉ុន្មានភាគរយដែលពិតប្រាកដ។ ចំណែក Recall ប្រាប់ថា ក្នុងចំណោមព័ត៌មានពិតទាំងអស់ តើម៉ូដែលអាចស្វែងរកឃើញបានប៉ុន្មានភាគរយ។ | Precision ប្រៀបដូចជាការបាញ់ព្រួញចំគោលដៅរាល់ដងដែលបាញ់ ចំណែក Recall ប្រៀបដូចជាការប្រមូលរកឃើញគ្រាប់ព្រួញដែលបាត់ទាំងអស់មកវិញដោយមិនឱ្យសល់។ |
| Knowledge distillation | ជាដំណើរការនៃការផ្ទេរចំណេះដឹងពីម៉ូដែល AI ដ៏ធំនិងស្មុគស្មាញ (Teacher model) ទៅកាន់ម៉ូដែល AI តូចនិងលឿនជាង (Student model ដូចជា DistilBERT) ដោយវាអាចរក្សាបាននូវប្រសិទ្ធភាពក្បែរគ្នា ប៉ុន្តែស៊ីធនធានកុំព្យូទ័រតិចជាងឆ្ងាយ។ | ដូចជាសាស្ត្រាចារ្យម្នាក់សង្ខេបមេរៀនដ៏ក្រាស់មួយសៀវភៅ ទៅជាសៀវភៅសង្ខេបខ្លីៗដែលមានតែចំណុចសំខាន់ៗ ដើម្បីឱ្យសិស្សងាយស្រួលរៀននិងឆាប់យល់។ |
| Overfitting | ជាបញ្ហាមួយនៅក្នុងដំណើរការបង្វឹក AI ដែលម៉ូដែលរៀនទន្ទេញចាំទិន្នន័យហ្វឹកហាត់ (Training data) ខ្លាំងពេក រហូតដល់ពេលយកទៅអនុវត្តលើទិន្នន័យថ្មីដែលវាមិនធ្លាប់ឃើញ បែរជាធ្វើការសម្រេចចិត្តខុសនិងមានប្រសិទ្ធភាពធ្លាក់ចុះយ៉ាងខ្លាំង។ | ដូចជាសិស្សដែលទន្ទេញចាំតែវិញ្ញាសាចាស់ៗសន្លឹកៗពេលរៀនត្រៀមប្រឡង ប៉ុន្តែពេលប្រឡងពិតប្រាកដចេញលំហាត់ប្លែកបន្តិច បែរជាធ្វើមិនចេញសោះ។ |
| Subword tokenization | ជាបច្ចេកទេសបំបែកពាក្យនៅក្នុងប្រយោគទៅជាកង់ៗ ឬជាព្យាង្គតូចៗ (Subwords) ដើម្បីជួយឱ្យម៉ូដែល AI អាចយល់អត្ថន័យនៃពាក្យថ្មីៗ ឬពាក្យកម្រ ដោយផ្សំកង់តូចៗទាំងនោះចូលគ្នា ជាជាងការដែលម៉ូដែលត្រូវទន្ទេញចាំពាក្យទាំងមូល។ | ដូចជាក្មេងតូចរៀនអានពាក្យពិបាកៗដោយការប្រកបផ្សំស្រៈនិងព្យញ្ជនៈម្តងមួយតួៗចូលគ្នា ជាជាងការទន្ទេញចាំពាក្យវែងៗទាំងស្រុង។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖