បញ្ហា (The Problem)៖ ប្រព័ន្ធស្វែងរកនិងប្រព័ន្ធសន្ទនាដែលពឹងផ្អែកលើ Large Language Models (LLMs) ប្រឈមនឹងបញ្ហាភាពលម្អៀងនៃក្បួនដោះស្រាយ (Algorithmic Bias) និងកង្វះភាពរឹងមាំ (Robustness) នៅក្នុងស្ថានភាពជាក់ស្តែង ជាពិសេសបញ្ហាក្នុងការបញ្ជាក់ប្រភពត្រឹមត្រូវនៅក្នុងប្រព័ន្ធ Retrieval-Augmented Generation (RAG)។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះប្រើប្រាស់វិធីសាស្ត្រវាយតម្លៃតាមបែបប្រឆាំងការពិត (Counterfactual Evaluation) និងការបង្កើតទិន្នន័យក្លែងក្លាយដើម្បីវិភាគពីភាពរឹងមាំនិងភាពលម្អៀងនៃម៉ូដែលនៅក្នុងមុខងារផ្សេងៗគ្នា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| BM25 (Traditional Lexical Matching) ម៉ូដែលស្វែងរកផ្អែកលើវចនានុក្រមបុរាណ (BM25) |
មានដំណើរការលឿន ស៊ីធនធានតិច និងមានប្រសិទ្ធភាពគួរឱ្យកត់សម្គាល់ក្នុងការស្វែងរកដែលប្រើសំណួរវែងៗ (Query-by-Example)។ | ខ្វះសមត្ថភាពក្នុងការយល់ដឹងពីបរិបទស៊ីជម្រៅនៃពាក្យបើប្រៀបធៀបទៅនឹងម៉ូដែល Neural Network សម័យទំនើប។ | នៅតែរក្សាបាននូវប្រសិទ្ធភាពប្រកួតប្រជែងខ្ពស់ ហើយនៅពេលបូកបញ្ចូលគ្នា (Interpolate) ជាមួយម៉ូដែល TILDE/TILDEv2 ទទួលបានលទ្ធផលនៃការចាត់ថ្នាក់ល្អប្រសើរបំផុត។ |
| TILDE & TILDEv2 (Contextualized Term-based Ranking) ម៉ូដែលចំណាត់ថ្នាក់ផ្អែកលើបរិបទនិងវចនានុក្រម (TILDE/TILDEv2) |
បញ្ចូលសមត្ថភាពយល់ដឹងពីបរិបទរបស់ Transformer ទៅក្នុងទម្រង់ទាញយកទិន្នន័យតាមបែបវចនានុក្រម ដែលជួយឱ្យការទាញយកទិន្នន័យលឿនជាង Cross-encoder ។ | ជួបប្រទះបញ្ហាមិនស៊ីគ្នានៃពាក្យ (Vocabulary mismatch) នៅពេលប្រើជាមួយឯកសារនិងសំណួរវែងៗក្នុងស្ថានភាព Query-by-Example ។ | មានដំណើរការខ្សោយជាង BM25 នៅក្នុងការសាកល្បង Query-by-Example តែនៅពេលបូកបញ្ចូលពិន្ទុជាមួយ BM25 វាជួយបង្កើនប្រសិទ្ធភាពយ៉ាងខ្លាំង។ |
| Fine-tuned Language Models (BERT & ASAP) ម៉ូដែលដែលបានបង្ហាត់ជាក់លាក់ (BERT និឹង ASAP) សម្រាប់វាស់ស្ទង់ការពេញចិត្ត |
មានភាពត្រឹមត្រូវខ្ពស់បំផុត (Accuracy) នៅពេលវាយតម្លៃលើសំណុំទិន្នន័យដើមដែលមានទិន្នន័យភាពពេញចិត្តច្រើនលើសលប់ (Imbalanced datasets) ។ | ខ្វះភាពរឹងមាំ (Brittleness) យ៉ាងធ្ងន់ធ្ងរនៅពេលជួបប្រទះសំណុំទិន្នន័យដែលមានចំនួនអតិថិជនមិនពេញចិត្តច្រើន (Counterfactual data) ។ | ពិន្ទុ F1-Score បានធ្លាក់ចុះយ៉ាងខ្លាំង (ឧទាហរណ៍ពីប្រហែល 72% មកនៅត្រឹម 4%) នៅពេលធ្វើតេស្តលើទិន្នន័យដែលពោរពេញដោយការមិនពេញចិត្ត។ |
| Few-shot Large Language Models (Mistral, Llama 3, GPT-4) ម៉ូដែលភាសាខ្នាតធំ (LLMs) សម្រាប់ប្រព័ន្ធសន្ទនានិង RAG |
មានភាពរឹងមាំខ្លាំងក្នុងការស្គាល់ស្ថានភាពអវិជ្ជមាន និងមិនងាយប្រែប្រួលសូម្បីតែមានការផ្លាស់ប្តូរការបែងចែកទិន្នន័យក៏ដោយ។ | មានភាពលម្អៀងក្នុងការទាញយកប្រភពឯកសារ (Attribution Bias) ដោយតែងតែផ្តល់អាទិភាពដល់ឯកសារដែលសរសេរដោយមនុស្សជាង AI ទោះបីជាអត្ថបទដូចគ្នាក៏ដោយ។ | រក្សាបានពិន្ទុ F1-score ចន្លោះ 50% ទៅ 80% ថេរល្អ ទាំងលើទិន្នន័យដើមនិងទិន្នន័យ Counterfactual តែបង្ហាញពីភាពលម្អៀងរហូតដល់ 18% ទៅលើឯកសារមនុស្សសរសេរក្នុងប្រព័ន្ធ RAG ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ (Hardware) កម្រិតខ្ពស់ដើម្បីបង្ហាត់ម៉ូដែល និងដំណើរការ Large Language Models ក៏ដូចជាប្រើប្រាស់សេវាកម្ម API មួយចំនួន។
ការសិក្សានេះត្រូវបានធ្វើឡើងទាំងស្រុងលើសំណុំទិន្នន័យភាសាអង់គ្លេសដែលតំណាងឱ្យបរិបទរបស់ប្រទេសលោកខាងលិច។ ការវាយតម្លៃទៅលើភាពលម្អៀងយេនឌ័រ (Gender Bias) ពឹងផ្អែកលើការប្រើសព្វនាម (Pronouns) និងឈ្មោះតាមបែបអឺរ៉ុប។ សម្រាប់ប្រទេសកម្ពុជា បញ្ហានេះគួរឱ្យកត់សម្គាល់ ព្រោះភាសាខ្មែរមានរបៀបប្រើប្រាស់ពាក្យសព្វនាមយេនឌ័រនិងរចនាសម្ព័ន្ធសង្គមខុសពីភាសាអង់គ្លេស ដែលតម្រូវឱ្យមានការកែសម្រួលនិយមន័យនៃភាពលម្អៀងសារជាថ្មី។
ទោះបីជាបរិបទភាសាខុសគ្នាក៏ដោយ ក្របខណ្ឌវាយតម្លៃដែលស្នើឡើងនៅក្នុងនិក្ខេបបទនេះមានអត្ថប្រយោជន៍យ៉ាងធំធេងសម្រាប់ស្ថាប័នរដ្ឋនិងឯកជននៅកម្ពុជាដែលកំពុងសាងសង់ប្រព័ន្ធ AI ។
ជារួម ការអភិវឌ្ឍប្រព័ន្ធ AI នៅកម្ពុជាមិនត្រឹមតែផ្តោតលើភាពត្រឹមត្រូវនោះទេ តែត្រូវអនុវត្តក្របខណ្ឌវាយតម្លៃភាពរឹងមាំនិងភាពគ្មានលម្អៀងនេះ ដើម្បីបង្កើតជាប្រព័ន្ធ AI ដែលគួរឱ្យទុកចិត្តបំផុតសម្រាប់ប្រជាជនកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Retrieval-Augmented Generation (RAG) | វាគឺជាបច្ចេកវិទ្យាដែលជួយឱ្យម៉ូដែល AI អាចទៅស្វែងរកនិងទាញយកព័ត៌មានពិតប្រាកដពីប្រភពឯកសារខាងក្រៅ (ដូចជាមូលដ្ឋានទិន្នន័យ ឬវែបសាយ) យកមកធ្វើជាបរិបទយោង មុននឹងវាធ្វើការបង្កើតចម្លើយតបទៅកាន់អ្នកប្រើប្រាស់ ដើម្បីធានាភាពត្រឹមត្រូវនិងកាត់បន្ថយការប្រឌិតចម្លើយខុស (Hallucination)។ | ដូចជាសិស្សដែលត្រូវបានអនុញ្ញាតឱ្យបើកសៀវភៅមើល (Open-book exam) ដើម្បីរកចម្លើយពិតប្រាកដយកមកឆ្លើយ ជំនួសឱ្យការឆ្លើយចេញពីការចងចាំទទេៗដែលអាចនឹងភ្លេចឬខុស។ |
| Counterfactual Evaluation | គឺជាវិធីសាស្ត្រវាយតម្លៃប្រព័ន្ធ AI ដោយការបង្កើតសេណារីយ៉ូប្រឆាំងនឹងការពិត "ចុះបើ...?" (What-if) ពោលគឺគេធ្វើការកែប្រែទិន្នន័យ ទម្រង់ ឬលក្ខខណ្ឌណាមួយឱ្យផ្ទុយពីស្ថានភាពដើម ដើម្បីវាស់ស្ទង់មើលថាតើប្រព័ន្ធ AI នោះមានប្រតិកម្មប្រែប្រួលការសម្រេចចិត្តរបស់វាយ៉ាងដូចម្តេចខ្លះ។ | ដូចជាការធ្វើតេស្តបន្លំពាក់ពុកចង្កា ឬពាក់វ៉ែនតាខ្មៅ ដើម្បីចង់ដឹងថាតើប្រព័ន្ធកាមេរ៉ាស្កេនមុខនៅតែអាចចំណាំទម្រង់មុខរបស់យើងបានឬក៏អត់។ |
| Query-by-Example (QBE) | គឺជាដំណើរការស្វែងរកទិន្នន័យ ដែលអ្នកប្រើប្រាស់មិនប្រើត្រឹមតែពាក្យគន្លឹះខ្លីៗនោះទេ តែពួកគេយកឯកសារទាំងមូល (ឧទាហរណ៍៖ អត្ថបទស្រាវជ្រាវឬសំណុំរឿងក្តីមួយច្បាប់) ទៅធ្វើជាសំណួរទាញយក ដើម្បីឱ្យប្រព័ន្ធទៅស្វែងរកឯកសារផ្សេងទៀតនៅក្នុងឃ្លាំងទិន្នន័យដែលមានសាច់រឿងនិងអត្ថន័យស្រដៀងគ្នានោះ។ | ដូចជាការយកអាវមួយដែលយើងចូលចិត្ត ទៅបង្ហាញអ្នកលក់នៅផ្សារ រួចប្រាប់គាត់ថា "ខ្ញុំចង់រកអាវផ្សេងទៀតដែលមានម៉ូតនិងសាច់ក្រណាត់ស្រដៀងអាវមួយនេះ"។ |
| Task-Oriented Dialogue Systems | គឺជាប្រព័ន្ធ AI សន្ទនា (Chatbots) ដែលត្រូវបានរចនាឡើងយ៉ាងជាក់លាក់ ដើម្បីជួយសួរនាំ និងសម្របសម្រួលអ្នកប្រើប្រាស់ឱ្យសម្រេចកិច្ចការណាមួយ ដូចជាការកក់សំបុត្រយន្តហោះ ការកក់តុនៅភោជនីយដ្ឋាន ឬការកក់បន្ទប់សណ្ឋាគារជាដើម។ | ដូចជាការខលទូរស័ព្ទទៅកាន់ភ្នាក់ងារបម្រើអតិថិជនរបស់ធនាគារ ដើម្បីឱ្យគេសួរនាំព័ត៌មាននិងជួយបិទកាត ATM ដែលបានបាត់។ |
| Algorithmic Bias | គឺជាភាពលម្អៀងឬភាពមិនយុត្តិធម៌របស់ក្បួនដោះស្រាយ (Algorithm) ដែលជារឿយៗទទួលឥទ្ធិពលពីទិន្នន័យបង្ហាត់របស់វា ដែលបណ្តាលឱ្យ AI បញ្ចេញលទ្ធផលគាំទ្រ ឬរើសអើងទៅលើក្រុមមនុស្ស យេនឌ័រ ឬប្រភពណាមួយដោយប្រាសចាកពីភាពត្រឹមត្រូវជារួម។ | ដូចជាចៅក្រមដែលកាត់ក្តីលម្អៀងទៅរកការសម្រាលទោសឱ្យជនជាប់ចោទគ្រាន់តែដោយសារតែគេស្លៀកពាក់អាវធំមើលទៅថ្លៃថ្នូរ ទោះបីជាច្បាប់ចែងថាត្រូវផ្តល់ភាពស្មើគ្នាក៏ដោយ។ |
| BM25 | វាគឺជាក្បួនដោះស្រាយតាមបែបគណិតវិទ្យាបុរាណនៅក្នុងប្រព័ន្ធស្វែងរក (Search Engine) ដែលធ្វើការវាយតម្លៃនិងចាត់ថ្នាក់ឯកសារ ដោយវាស់ស្ទង់ចំនួនដងនៃពាក្យគន្លឹះក្នុងសំណួរដែលបានលេចឡើងនៅក្នុងឯកសារនីមួយៗ ដោយយកមកថ្លឹងថ្លែងធៀបនឹងប្រវែងសរុបរបស់ឯកសារនោះ ដើម្បីកុំឱ្យឯកសារវែងៗចំណេញពិន្ទុពេក។ | ដូចជាការរាប់ចំនួនដងដែលសៀវភៅមួយមានពាក្យ "ប៉េងប៉ោះ" ដើម្បីទាយថាសៀវភៅនោះពិតជានិយាយពីរបៀបដាំប៉េងប៉ោះមែនឬក៏អត់។ |
| Interpolation | នៅក្នុងការសិក្សានេះ វាគឺជាវិធីសាស្ត្រគណិតវិទ្យាក្នុងការច្របាច់បញ្ចូលគ្នា ឬបូកបញ្ចូលពិន្ទុទាញយកដែលបានមកពីម៉ូដែលពីរផ្សេងគ្នា (ឧទាហរណ៍៖ រវាងម៉ូដែល BM25 និងម៉ូដែល Neural Network) ដើម្បីទាញយកចំណុចខ្លាំងរបស់ម៉ូដែលទាំងពីរ យកមកបង្កើតជាលទ្ធផលចំណាត់ថ្នាក់ចុងក្រោយមួយដែលកាន់តែសុក្រឹត។ | ដូចជាការយកពិន្ទុពីគ្រូមុខវិជ្ជាទ្រឹស្តី និងពិន្ទុពីគ្រូមុខវិជ្ជាអនុវត្តជាក់ស្តែង មកបូកបញ្ចូលគ្នាដើម្បីវាយតម្លៃសមត្ថភាពពិតប្រាកដរបស់សិស្សម្នាក់។ |
| Attribution Bias | ជាភាពលម្អៀងមួយដែលប្រព័ន្ធ AI (ជាពិសេសម៉ូដែលភាសាខ្នាតធំ LLMs) តែងតែជ្រើសរើសយោង ឬផ្តល់អាទិភាពទៅលើប្រភពឯកសារដោយពឹងផ្អែកលើអ្នកនិពន្ធ (ឧទាហរណ៍៖ វាចូលចិត្តឯកសារមនុស្សសរសេរជាងឯកសារ AI សរសេរ) ជាជាងពឹងផ្អែកលើគុណភាពនិងភាពត្រឹមត្រូវនៃសាច់រឿងជាក់ស្តែងនៅក្នុងឯកសារនោះ។ | ដូចជាសិស្សដែលជឿជាក់និងចម្លងតែសម្ដីរបស់គ្រូមានឈ្មោះល្បីយកមកធ្វើជាយោងអំណះអំណាង ទោះបីជាមានសៀវភៅមួយទៀតដែលសរសេរដោយអ្នកនិពន្ធមិនសូវល្បី មានការពន្យល់ក្បោះក្បាយល្អជាងក៏ដោយ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖