Original Title: Evaluation of Bias and Robustness in Search and Conversational Systems
Source: theses.liacs.nl
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវាយតម្លៃលើភាពលម្អៀងនិងភាពរឹងមាំនៅក្នុងប្រព័ន្ធស្វែងរកនិងប្រព័ន្ធសន្ទនា

ចំណងជើងដើម៖ Evaluation of Bias and Robustness in Search and Conversational Systems

អ្នកនិពន្ធ៖ Amin Abolghasemi (Universiteit Leiden)

ឆ្នាំបោះពុម្ព៖ 2026 Universiteit Leiden

វិស័យសិក្សា៖ Computer Science / Information Retrieval

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធស្វែងរកនិងប្រព័ន្ធសន្ទនាដែលពឹងផ្អែកលើ Large Language Models (LLMs) ប្រឈមនឹងបញ្ហាភាពលម្អៀងនៃក្បួនដោះស្រាយ (Algorithmic Bias) និងកង្វះភាពរឹងមាំ (Robustness) នៅក្នុងស្ថានភាពជាក់ស្តែង ជាពិសេសបញ្ហាក្នុងការបញ្ជាក់ប្រភពត្រឹមត្រូវនៅក្នុងប្រព័ន្ធ Retrieval-Augmented Generation (RAG)។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះប្រើប្រាស់វិធីសាស្ត្រវាយតម្លៃតាមបែបប្រឆាំងការពិត (Counterfactual Evaluation) និងការបង្កើតទិន្នន័យក្លែងក្លាយដើម្បីវិភាគពីភាពរឹងមាំនិងភាពលម្អៀងនៃម៉ូដែលនៅក្នុងមុខងារផ្សេងៗគ្នា។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
BM25 (Traditional Lexical Matching)
ម៉ូដែលស្វែងរកផ្អែកលើវចនានុក្រមបុរាណ (BM25)
មានដំណើរការលឿន ស៊ីធនធានតិច និងមានប្រសិទ្ធភាពគួរឱ្យកត់សម្គាល់ក្នុងការស្វែងរកដែលប្រើសំណួរវែងៗ (Query-by-Example)។ ខ្វះសមត្ថភាពក្នុងការយល់ដឹងពីបរិបទស៊ីជម្រៅនៃពាក្យបើប្រៀបធៀបទៅនឹងម៉ូដែល Neural Network សម័យទំនើប។ នៅតែរក្សាបាននូវប្រសិទ្ធភាពប្រកួតប្រជែងខ្ពស់ ហើយនៅពេលបូកបញ្ចូលគ្នា (Interpolate) ជាមួយម៉ូដែល TILDE/TILDEv2 ទទួលបានលទ្ធផលនៃការចាត់ថ្នាក់ល្អប្រសើរបំផុត។
TILDE & TILDEv2 (Contextualized Term-based Ranking)
ម៉ូដែលចំណាត់ថ្នាក់ផ្អែកលើបរិបទនិងវចនានុក្រម (TILDE/TILDEv2)
បញ្ចូលសមត្ថភាពយល់ដឹងពីបរិបទរបស់ Transformer ទៅក្នុងទម្រង់ទាញយកទិន្នន័យតាមបែបវចនានុក្រម ដែលជួយឱ្យការទាញយកទិន្នន័យលឿនជាង Cross-encoder ។ ជួបប្រទះបញ្ហាមិនស៊ីគ្នានៃពាក្យ (Vocabulary mismatch) នៅពេលប្រើជាមួយឯកសារនិងសំណួរវែងៗក្នុងស្ថានភាព Query-by-Example ។ មានដំណើរការខ្សោយជាង BM25 នៅក្នុងការសាកល្បង Query-by-Example តែនៅពេលបូកបញ្ចូលពិន្ទុជាមួយ BM25 វាជួយបង្កើនប្រសិទ្ធភាពយ៉ាងខ្លាំង។
Fine-tuned Language Models (BERT & ASAP)
ម៉ូដែលដែលបានបង្ហាត់ជាក់លាក់ (BERT និឹង ASAP) សម្រាប់វាស់ស្ទង់ការពេញចិត្ត
មានភាពត្រឹមត្រូវខ្ពស់បំផុត (Accuracy) នៅពេលវាយតម្លៃលើសំណុំទិន្នន័យដើមដែលមានទិន្នន័យភាពពេញចិត្តច្រើនលើសលប់ (Imbalanced datasets) ។ ខ្វះភាពរឹងមាំ (Brittleness) យ៉ាងធ្ងន់ធ្ងរនៅពេលជួបប្រទះសំណុំទិន្នន័យដែលមានចំនួនអតិថិជនមិនពេញចិត្តច្រើន (Counterfactual data) ។ ពិន្ទុ F1-Score បានធ្លាក់ចុះយ៉ាងខ្លាំង (ឧទាហរណ៍ពីប្រហែល 72% មកនៅត្រឹម 4%) នៅពេលធ្វើតេស្តលើទិន្នន័យដែលពោរពេញដោយការមិនពេញចិត្ត។
Few-shot Large Language Models (Mistral, Llama 3, GPT-4)
ម៉ូដែលភាសាខ្នាតធំ (LLMs) សម្រាប់ប្រព័ន្ធសន្ទនានិង RAG
មានភាពរឹងមាំខ្លាំងក្នុងការស្គាល់ស្ថានភាពអវិជ្ជមាន និងមិនងាយប្រែប្រួលសូម្បីតែមានការផ្លាស់ប្តូរការបែងចែកទិន្នន័យក៏ដោយ។ មានភាពលម្អៀងក្នុងការទាញយកប្រភពឯកសារ (Attribution Bias) ដោយតែងតែផ្តល់អាទិភាពដល់ឯកសារដែលសរសេរដោយមនុស្សជាង AI ទោះបីជាអត្ថបទដូចគ្នាក៏ដោយ។ រក្សាបានពិន្ទុ F1-score ចន្លោះ 50% ទៅ 80% ថេរល្អ ទាំងលើទិន្នន័យដើមនិងទិន្នន័យ Counterfactual តែបង្ហាញពីភាពលម្អៀងរហូតដល់ 18% ទៅលើឯកសារមនុស្សសរសេរក្នុងប្រព័ន្ធ RAG ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ (Hardware) កម្រិតខ្ពស់ដើម្បីបង្ហាត់ម៉ូដែល និងដំណើរការ Large Language Models ក៏ដូចជាប្រើប្រាស់សេវាកម្ម API មួយចំនួន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងទាំងស្រុងលើសំណុំទិន្នន័យភាសាអង់គ្លេសដែលតំណាងឱ្យបរិបទរបស់ប្រទេសលោកខាងលិច។ ការវាយតម្លៃទៅលើភាពលម្អៀងយេនឌ័រ (Gender Bias) ពឹងផ្អែកលើការប្រើសព្វនាម (Pronouns) និងឈ្មោះតាមបែបអឺរ៉ុប។ សម្រាប់ប្រទេសកម្ពុជា បញ្ហានេះគួរឱ្យកត់សម្គាល់ ព្រោះភាសាខ្មែរមានរបៀបប្រើប្រាស់ពាក្យសព្វនាមយេនឌ័រនិងរចនាសម្ព័ន្ធសង្គមខុសពីភាសាអង់គ្លេស ដែលតម្រូវឱ្យមានការកែសម្រួលនិយមន័យនៃភាពលម្អៀងសារជាថ្មី។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាបរិបទភាសាខុសគ្នាក៏ដោយ ក្របខណ្ឌវាយតម្លៃដែលស្នើឡើងនៅក្នុងនិក្ខេបបទនេះមានអត្ថប្រយោជន៍យ៉ាងធំធេងសម្រាប់ស្ថាប័នរដ្ឋនិងឯកជននៅកម្ពុជាដែលកំពុងសាងសង់ប្រព័ន្ធ AI ។

ជារួម ការអភិវឌ្ឍប្រព័ន្ធ AI នៅកម្ពុជាមិនត្រឹមតែផ្តោតលើភាពត្រឹមត្រូវនោះទេ តែត្រូវអនុវត្តក្របខណ្ឌវាយតម្លៃភាពរឹងមាំនិងភាពគ្មានលម្អៀងនេះ ដើម្បីបង្កើតជាប្រព័ន្ធ AI ដែលគួរឱ្យទុកចិត្តបំផុតសម្រាប់ប្រជាជនកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. អនុវត្តការទាញយកទិន្នន័យកម្រិតមូលដ្ឋាន: ចាប់ផ្តើមរៀបចំប្រព័ន្ធស្វែងរកដោយប្រើ Elasticsearch និង Pyserini ដើម្បីសាកល្បងម៉ូដែល BM25 និងប្រៀបធៀបជាមួយ Dense Retrievers ដើម្បីយល់ពីប្រសិទ្ធភាពក្នុងការទាញយកឯកសារភាសាខ្មែរវែងៗ។
  2. បង្កើតទិន្នន័យសាកល្បងបែបប្រឆាំងការពិត (Counterfactual Data): ប្រើប្រាស់ GPT-4Mistral ដើម្បីបំប្លែងកំណត់ត្រាសន្ទនាធម្មតា (e.g., Customer Service logs) ទៅជាទិន្នន័យដែលអតិថិជនបង្ហាញការមិនពេញចិត្ត ដើម្បីពង្រឹងការវាយតម្លៃរបស់ Chatbot ក្នុងស្ថានភាពអវិជ្ជមាន។
  3. សាកល្បងរង្វាស់ TExFAIR: ទាញយកកូដ TExFAIR ពី GitHub repository ដែលមានក្នុងឯកសារស្រាវជ្រាវ រួចកំណត់បញ្ជីពាក្យតំណាងយេនឌ័រជាភាសាខ្មែរ ដើម្បីវាយតម្លៃមើលថា តើលទ្ធផលស្វែងរកមានភាពលម្អៀងទៅលើក្រុមយេនឌ័រណាមួយដែរឬទេ។
  4. រចនានិងវាយតម្លៃប្រព័ន្ធ RAG: សាងសង់ប្រព័ន្ធស្វែងរកនិងឆ្លើយសំណួរ (RAG Pipeline) ដោយប្រើ Llama 3 សម្រាប់ភាសាខ្មែរ-អង់គ្លេស ហើយសាកល្បងបន្លំបញ្ចូល Metadata អ្នកនិពន្ធ ដើម្បីត្រួតពិនិត្យមើលភាពលម្អៀងក្នុងការបញ្ជាក់ប្រភព (Attribution Bias)។
  5. បង្កើនប្រសិទ្ធភាពតាមរយៈ Interpolation: សរសេរកូដដើម្បីបូកបញ្ចូលគ្នា (Interpolate) នូវពិន្ទុរវាងម៉ូដែលវចនានុក្រមបុរាណ (BM25) និងម៉ូដែល Neural Network ដើម្បីទាញយកអត្ថប្រយោជន៍ខ្ពស់បំផុតរវាងការចាប់ពាក្យនិងការយល់ន័យបរិបទ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Retrieval-Augmented Generation (RAG) វាគឺជាបច្ចេកវិទ្យាដែលជួយឱ្យម៉ូដែល AI អាចទៅស្វែងរកនិងទាញយកព័ត៌មានពិតប្រាកដពីប្រភពឯកសារខាងក្រៅ (ដូចជាមូលដ្ឋានទិន្នន័យ ឬវែបសាយ) យកមកធ្វើជាបរិបទយោង មុននឹងវាធ្វើការបង្កើតចម្លើយតបទៅកាន់អ្នកប្រើប្រាស់ ដើម្បីធានាភាពត្រឹមត្រូវនិងកាត់បន្ថយការប្រឌិតចម្លើយខុស (Hallucination)។ ដូចជាសិស្សដែលត្រូវបានអនុញ្ញាតឱ្យបើកសៀវភៅមើល (Open-book exam) ដើម្បីរកចម្លើយពិតប្រាកដយកមកឆ្លើយ ជំនួសឱ្យការឆ្លើយចេញពីការចងចាំទទេៗដែលអាចនឹងភ្លេចឬខុស។
Counterfactual Evaluation គឺជាវិធីសាស្ត្រវាយតម្លៃប្រព័ន្ធ AI ដោយការបង្កើតសេណារីយ៉ូប្រឆាំងនឹងការពិត "ចុះបើ...?" (What-if) ពោលគឺគេធ្វើការកែប្រែទិន្នន័យ ទម្រង់ ឬលក្ខខណ្ឌណាមួយឱ្យផ្ទុយពីស្ថានភាពដើម ដើម្បីវាស់ស្ទង់មើលថាតើប្រព័ន្ធ AI នោះមានប្រតិកម្មប្រែប្រួលការសម្រេចចិត្តរបស់វាយ៉ាងដូចម្តេចខ្លះ។ ដូចជាការធ្វើតេស្តបន្លំពាក់ពុកចង្កា ឬពាក់វ៉ែនតាខ្មៅ ដើម្បីចង់ដឹងថាតើប្រព័ន្ធកាមេរ៉ាស្កេនមុខនៅតែអាចចំណាំទម្រង់មុខរបស់យើងបានឬក៏អត់។
Query-by-Example (QBE) គឺជាដំណើរការស្វែងរកទិន្នន័យ ដែលអ្នកប្រើប្រាស់មិនប្រើត្រឹមតែពាក្យគន្លឹះខ្លីៗនោះទេ តែពួកគេយកឯកសារទាំងមូល (ឧទាហរណ៍៖ អត្ថបទស្រាវជ្រាវឬសំណុំរឿងក្តីមួយច្បាប់) ទៅធ្វើជាសំណួរទាញយក ដើម្បីឱ្យប្រព័ន្ធទៅស្វែងរកឯកសារផ្សេងទៀតនៅក្នុងឃ្លាំងទិន្នន័យដែលមានសាច់រឿងនិងអត្ថន័យស្រដៀងគ្នានោះ។ ដូចជាការយកអាវមួយដែលយើងចូលចិត្ត ទៅបង្ហាញអ្នកលក់នៅផ្សារ រួចប្រាប់គាត់ថា "ខ្ញុំចង់រកអាវផ្សេងទៀតដែលមានម៉ូតនិងសាច់ក្រណាត់ស្រដៀងអាវមួយនេះ"។
Task-Oriented Dialogue Systems គឺជាប្រព័ន្ធ AI សន្ទនា (Chatbots) ដែលត្រូវបានរចនាឡើងយ៉ាងជាក់លាក់ ដើម្បីជួយសួរនាំ និងសម្របសម្រួលអ្នកប្រើប្រាស់ឱ្យសម្រេចកិច្ចការណាមួយ ដូចជាការកក់សំបុត្រយន្តហោះ ការកក់តុនៅភោជនីយដ្ឋាន ឬការកក់បន្ទប់សណ្ឋាគារជាដើម។ ដូចជាការខលទូរស័ព្ទទៅកាន់ភ្នាក់ងារបម្រើអតិថិជនរបស់ធនាគារ ដើម្បីឱ្យគេសួរនាំព័ត៌មាននិងជួយបិទកាត ATM ដែលបានបាត់។
Algorithmic Bias គឺជាភាពលម្អៀងឬភាពមិនយុត្តិធម៌របស់ក្បួនដោះស្រាយ (Algorithm) ដែលជារឿយៗទទួលឥទ្ធិពលពីទិន្នន័យបង្ហាត់របស់វា ដែលបណ្តាលឱ្យ AI បញ្ចេញលទ្ធផលគាំទ្រ ឬរើសអើងទៅលើក្រុមមនុស្ស យេនឌ័រ ឬប្រភពណាមួយដោយប្រាសចាកពីភាពត្រឹមត្រូវជារួម។ ដូចជាចៅក្រមដែលកាត់ក្តីលម្អៀងទៅរកការសម្រាលទោសឱ្យជនជាប់ចោទគ្រាន់តែដោយសារតែគេស្លៀកពាក់អាវធំមើលទៅថ្លៃថ្នូរ ទោះបីជាច្បាប់ចែងថាត្រូវផ្តល់ភាពស្មើគ្នាក៏ដោយ។
BM25 វាគឺជាក្បួនដោះស្រាយតាមបែបគណិតវិទ្យាបុរាណនៅក្នុងប្រព័ន្ធស្វែងរក (Search Engine) ដែលធ្វើការវាយតម្លៃនិងចាត់ថ្នាក់ឯកសារ ដោយវាស់ស្ទង់ចំនួនដងនៃពាក្យគន្លឹះក្នុងសំណួរដែលបានលេចឡើងនៅក្នុងឯកសារនីមួយៗ ដោយយកមកថ្លឹងថ្លែងធៀបនឹងប្រវែងសរុបរបស់ឯកសារនោះ ដើម្បីកុំឱ្យឯកសារវែងៗចំណេញពិន្ទុពេក។ ដូចជាការរាប់ចំនួនដងដែលសៀវភៅមួយមានពាក្យ "ប៉េងប៉ោះ" ដើម្បីទាយថាសៀវភៅនោះពិតជានិយាយពីរបៀបដាំប៉េងប៉ោះមែនឬក៏អត់។
Interpolation នៅក្នុងការសិក្សានេះ វាគឺជាវិធីសាស្ត្រគណិតវិទ្យាក្នុងការច្របាច់បញ្ចូលគ្នា ឬបូកបញ្ចូលពិន្ទុទាញយកដែលបានមកពីម៉ូដែលពីរផ្សេងគ្នា (ឧទាហរណ៍៖ រវាងម៉ូដែល BM25 និងម៉ូដែល Neural Network) ដើម្បីទាញយកចំណុចខ្លាំងរបស់ម៉ូដែលទាំងពីរ យកមកបង្កើតជាលទ្ធផលចំណាត់ថ្នាក់ចុងក្រោយមួយដែលកាន់តែសុក្រឹត។ ដូចជាការយកពិន្ទុពីគ្រូមុខវិជ្ជាទ្រឹស្តី និងពិន្ទុពីគ្រូមុខវិជ្ជាអនុវត្តជាក់ស្តែង មកបូកបញ្ចូលគ្នាដើម្បីវាយតម្លៃសមត្ថភាពពិតប្រាកដរបស់សិស្សម្នាក់។
Attribution Bias ជាភាពលម្អៀងមួយដែលប្រព័ន្ធ AI (ជាពិសេសម៉ូដែលភាសាខ្នាតធំ LLMs) តែងតែជ្រើសរើសយោង ឬផ្តល់អាទិភាពទៅលើប្រភពឯកសារដោយពឹងផ្អែកលើអ្នកនិពន្ធ (ឧទាហរណ៍៖ វាចូលចិត្តឯកសារមនុស្សសរសេរជាងឯកសារ AI សរសេរ) ជាជាងពឹងផ្អែកលើគុណភាពនិងភាពត្រឹមត្រូវនៃសាច់រឿងជាក់ស្តែងនៅក្នុងឯកសារនោះ។ ដូចជាសិស្សដែលជឿជាក់និងចម្លងតែសម្ដីរបស់គ្រូមានឈ្មោះល្បីយកមកធ្វើជាយោងអំណះអំណាង ទោះបីជាមានសៀវភៅមួយទៀតដែលសរសេរដោយអ្នកនិពន្ធមិនសូវល្បី មានការពន្យល់ក្បោះក្បាយល្អជាងក៏ដោយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖