បញ្ហា (The Problem)៖ វិស្វករក្លោដ (Cloud engineers) ជួបប្រទះការលំបាកក្នុងការស្វែងរកព័ត៌មានពីឯកសារប្រតិបត្តិការដ៏ច្រើនសន្ធឹកសន្ធាប់ ខណៈដែលឆាតប៊ត RAG ទូទៅតែងតែបរាជ័យដោយសារសំណួរមិនច្បាស់លាស់ និងកង្វះចំណេះដឹងជាក់លាក់។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានវិភាគលើសំណួរជាក់ស្តែងចំនួន ២០០០ និងបានអភិវឌ្ឍប្រព័ន្ធ iKnow ដែលជាឆាតប៊ត RAG រួមបញ្ចូលយន្តការស្វែងយល់ពីបំណងរបស់អ្នកប្រើប្រាស់ ដើម្បីបង្កើនគុណភាពចម្លើយ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Direct Prompting ការប្រើប្រាស់ LLM ដោយផ្ទាល់ដោយគ្មានប្រព័ន្ធ RAG |
ងាយស្រួលក្នុងការប្រើប្រាស់ និងមិនតម្រូវឱ្យមានការរៀបចំប្រព័ន្ធស្វែងរកទិន្នន័យ (Vector Database) ស្មុគស្មាញ។ | មានអត្រានៃការឆ្លើយខុស (Hallucination) ខ្ពស់ខ្លាំង ដោយសារតែខ្វះខាតព័ត៌មានជាក់លាក់ពីឯកសារប្រតិបត្តិការផ្ទៃក្នុង។ | មានភាពត្រឹមត្រូវទាបបំផុតចន្លោះពី ៥១,១% ទៅ ៥៧,០% ប៉ុណ្ណោះ។ |
| Old Chatbot (Naive RAG) ឆាតប៊តចាស់ផ្អែកលើ RAG ធម្មតា |
អាចទាញយកព័ត៌មានពីឯកសារប្រតិបត្តិការមកធ្វើជាមូលដ្ឋានក្នុងការឆ្លើយ ដែលជួយកាត់បន្ថយការឆ្លើយខុសបានមួយកម្រិត។ | ជួបបញ្ហាបរាជ័យញឹកញាប់នៅពេលសំណួរមិនច្បាស់លាស់ (Incomplete queries) ឬនៅពេលព័ត៌មានក្នុងឯកសារមិនគ្រប់គ្រាន់។ | សម្រេចបានភាពត្រឹមត្រូវនៃចម្លើយជាមធ្យម ៦៥,៨%។ |
| iKnow (Intent-guided RAG) ឆាតប៊ត iKnow ផ្អែកលើបំណង (ប្រព័ន្ធស្នើឡើង) |
អាចវិភាគបំណងរបស់អ្នកប្រើប្រាស់ សរសេរសំណួរឡើងវិញឲ្យច្បាស់ និងចេះព្រមានអ្នកប្រើប្រាស់នៅពេលខ្វះទិន្នន័យឯកសារ។ | ត្រូវការពេលវេលាដំណើរការបន្ថែមបន្តិចបន្តួច (ជិត ២០% នៃម៉ោងសរុប) សម្រាប់មុខងារបន្ថែមក៏ដូចជាម៉ាស៊ីនមានកម្លាំងខ្លាំង។ | ភាពត្រឹមត្រូវនៃចម្លើយកើនឡើងដល់ ៨១,៣% ដោយមានពេលឆ្លើយតបសរុប ២២,៥ វិនាទី។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការរៀបចំប្រព័ន្ធនេះតម្រូវឱ្យមានហេដ្ឋារចនាសម្ព័ន្ធកុំព្យូទ័រ (Hardware) កម្រិតខ្ពស់ និងការប្រើប្រាស់ម៉ូដែល AI ធំៗដែលទាមទារការគណនាខ្លាំង។
ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងក្រុមហ៊ុនផ្តល់សេវាក្លោដខ្នាតធំមួយ (CloudA) ដោយប្រើប្រាស់សំណួរ និងឯកសារប្រតិបត្តិការផ្ទៃក្នុងរបស់ក្រុមហ៊ុនផ្ទាល់។ ទិន្នន័យនេះមិនអាចតំណាងឱ្យបរិបទការងាររបស់ក្រុមហ៊ុនខ្នាតតូច ឬសំណួរទូទៅរបស់អ្នកអភិវឌ្ឍន៍កម្មវិធីនៅខាងក្រៅឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកលើឯកសារបច្ចេកទេសជាភាសាអង់គ្លេសស្មុគស្មាញ និងទម្លាប់សួរសំណួររបស់អ្នកបច្ចេកទេសក្នុងស្រុក អាចតម្រូវឱ្យមានការកែសម្រួលប្រព័ន្ធបន្ថែមដើម្បីឲ្យស៊ីចង្វាក់គ្នា។
វិធីសាស្រ្តនេះមានអត្ថប្រយោជន៍ និងសក្តានុពលខ្ពស់សម្រាប់ក្រុមហ៊ុន និងស្ថាប័នក្នុងប្រទេសកម្ពុជាដែលមានរចនាសម្ព័ន្ធបច្ចេកវិទ្យា (IT Infrastructure) ខ្នាតធំ។
ជារួម ការអនុវត្តប្រព័ន្ធឆាតប៊ត iKnow នឹងជួយបង្កើនប្រសិទ្ធភាពការងាររបស់វិស្វករប្រព័ន្ធអាយធីនៅកម្ពុជាឲ្យកាន់តែរហ័ស កាត់បន្ថយកំហុសឆ្គង និងពង្រឹងការចែករំលែកចំណេះដឹងក្នុងស្ថាប័ន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Retrieval-Augmented Generation (RAG) | ជាបច្ចេកវិទ្យាដែលផ្សំការស្វែងរកព័ត៌មានពីមូលដ្ឋានទិន្នន័យ (Database) ជាមួយនឹងសមត្ថភាពបង្កើតអត្ថបទរបស់ AI (LLM) ដើម្បីផ្តល់ចម្លើយដែលពិតប្រាកដ និងមានប្រភពយោងច្បាស់លាស់ កាត់បន្ថយការឆ្លើយខុស។ | ដូចជាសិស្សដែលត្រូវបានអនុញ្ញាតឱ្យបើកសៀវភៅមើលពេលប្រឡង ដើម្បីរកចម្លើយត្រឹមត្រូវ ជាជាងការទន្ទេញចាំមាត់ហើយឆ្លើយខុស។ |
| Intent Detection | ជាដំណើរការប្រើប្រាស់ AI ដើម្បីវិភាគ និងកំណត់គោលបំណងពិតប្រាកដ ឬអ្វីដែលអ្នកប្រើប្រាស់ចង់បាននៅពីក្រោយសំណួរដែលពួកគេបានសួរ។ | ដូចជាគ្រូពេទ្យដែលស្តាប់រោគសញ្ញារបស់អ្នកជំងឺ ដើម្បីសន្និដ្ឋានថាតើអ្នកជំងឺចង់បានថ្នាំបំបាត់ការឈឺចាប់ ឬចង់ពិនិត្យឈាម។ |
| Query Rewriting | ជាយន្តការកែសម្រួល ឬសរសេរសំណួរខ្លីៗរបស់អ្នកប្រើប្រាស់ឡើងវិញឱ្យមានភាពច្បាស់លាស់ និងមានអត្ថន័យពេញលេញ ដើម្បីងាយស្រួលដល់ប្រព័ន្ធក្នុងការស្វែងរកចម្លើយត្រឹមត្រូវ។ | ដូចជាការបកប្រែពាក្យខ្លីៗរបស់ក្មេងតូច ទៅជាប្រយោគពេញលេញដែលមនុស្សធំងាយយល់ និងអាចជួយដោះស្រាយបញ្ហាបានចំគោលដៅ។ |
| Hallucination | ជាបាតុភូតដែលបញ្ញាសិប្បនិម្មិត (AI) បង្កើតចម្លើយដែលស្តាប់ទៅហាក់ដូចជាសមហេតុផល ប៉ុន្តែតាមពិតជាព័ត៌មានមិនពិត ឬប្រឌិតឡើងដោយខ្លួនឯង ដោយមិនមានប្រភពច្បាស់លាស់។ | ដូចជាមនុស្សម្នាក់ដែលមិនដឹងចម្លើយ ប៉ុន្តែចេះតែនិយាយស្មានៗធ្វើដូចខ្លួនឯងដឹងច្បាស់ ដើម្បីកុំឱ្យខ្មាសគេ។ |
| Prototypical Networks | ជាប្រភេទបណ្ដាញ AI (Machine Learning model) ដែលរៀនចាត់ថ្នាក់ទិន្នន័យដោយបង្កើតជា "គំរូកណ្តាល" (Prototype) សម្រាប់ក្រុមនីមួយៗ ហើយប្រៀបធៀបទិន្នន័យថ្មីទៅនឹងគំរូទាំងនោះ ដើម្បីមើលថាតើវាស្រដៀងក្រុមណាជាងគេ។ | ដូចជាការបែងចែកផ្លែឈើដោយយកផ្លែប៉ោមមួយផ្លែជាគំរូ បើឃើញផ្លែណាមានរាង និងពណ៌ស្រដៀងប៉ោមនោះ គេចាត់វាចូលក្នុងកន្ត្រកផ្លែប៉ោម។ |
| Vector Database (VecDB) | ជាមូលដ្ឋានទិន្នន័យពិសេសដែលផ្ទុកទិន្នន័យជាទម្រង់លេខ (Vectors) ដែលតំណាងឱ្យអត្ថន័យនៃអត្ថបទ ដែលជួយឱ្យប្រព័ន្ធកុំព្យូទ័រអាចស្វែងរកឯកសារដែលមានអត្ថន័យស្រដៀងគ្នាបានយ៉ាងរហ័ស។ | ដូចជាបណ្ណាល័យដែលរៀបចំសៀវភៅតាមអត្ថន័យសាច់រឿង ជាជាងការរៀបតាមអក្ខរក្រម ធ្វើឱ្យងាយស្រួលរកសៀវភៅដែលមានសាច់រឿងស្រដៀងគ្នា។ |
| LLM-as-a-judge | ជាវិធីសាស្ត្រប្រើប្រាស់ម៉ូដែលភាសាខ្នាតធំ (Large Language Model) ដើរតួជាអ្នកដាក់ពិន្ទុ ឬវាយតម្លៃភាពត្រឹមត្រូវនៃចម្លើយដែលបង្កើតឡើងដោយ AI ផ្សេងទៀត ជំនួសឱ្យការប្រើប្រាស់មនុស្សក្នុងការវាយតម្លៃផ្ទាល់។ | ដូចជាការប្រើប្រាស់សិស្សពូកែទី១ ឱ្យជួយកែសន្លឹកកិច្ចការ និងដាក់ពិន្ទុឱ្យសិស្សដទៃទៀតជំនួសគ្រូ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖