Original Title: Context-Aware AI Chatbot Using Transformer-Based Models for Intelligent User Interactions
Source: doi.org/10.5220/0013639800004664
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

កម្មវិធីសន្ទនាបញ្ញាសិប្បនិម្មិតយល់ដឹងពីបរិបទដោយប្រើប្រាស់ម៉ូដែល Transformer សម្រាប់ទំនាក់ទំនងអ្នកប្រើប្រាស់ដ៏ឆ្លាតវៃ

ចំណងជើងដើម៖ Context-Aware AI Chatbot Using Transformer-Based Models for Intelligent User Interactions

អ្នកនិពន្ធ៖ Pooja S (Karpagam Academy of Higher Education), Gokul G (Karpagam Academy of Higher Education), Linkesh Mani K (Karpagam Academy of Higher Education), Raj Kumar A S (Karpagam Academy of Higher Education), Amutha Bharathi R (Karpagam Academy of Higher Education)

ឆ្នាំបោះពុម្ព៖ 2025 INCOFT

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាប្រឈមនៃកម្មវិធីសន្ទនា (Chatbots) បច្ចុប្បន្ន ដែលខ្វះភាពត្រឹមត្រូវតាមវិស័យជាក់លាក់ ភាពខ្សោយក្នុងការយល់ដឹងពីបរិបទនៃការសន្ទនាច្រើនវគ្គ និងដំណើរការមិនបានល្អក្នុងពេលវេលាជាក់ស្តែង។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវកម្មវិធីសន្ទនាបែបកូនកាត់ដែលរួមបញ្ចូលបច្ចេកវិទ្យាដំណើរការភាសាធម្មជាតិ (NLP) កម្រិតខ្ពស់ និងម៉ូដែលបញ្ញាសិប្បនិម្មិតដើម្បីស្វែងយល់ និងឆ្លើយតប។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
XLM
ម៉ូដែល XLM (Cross-lingual Language Model)
មានសមត្ថភាពក្នុងការស្វែងយល់អត្ថបទឆ្លងភាសាបានល្អសមរម្យ។ ទទួលបានលទ្ធផលទាបជាងគេបំផុតធៀបនឹងម៉ូដែលផ្សេងទៀតនៅក្នុងការសិក្សានេះ។ សម្រេចបានភាពត្រឹមត្រូវ (Accuracy) ៩៧.២៩% និងពិន្ទុ F1-Score ៩៦.៣៦%។
XLNet
ម៉ូដែល XLNet
ដំណើរការបានល្អជាង XLM ក្នុងការស្វែងយល់ពីបរិបទនៃពាក្យដោយផ្អែកលើទិន្នន័យទាំងសងខាង។ ទាមទារថាមពលកុំព្យូទ័រច្រើនសម្រាប់ការគណនា និងហ្វឹកហាត់។ សម្រេចបានភាពត្រឹមត្រូវ (Accuracy) ៩៧.៨១% និងពិន្ទុ F1-Score ៩៦.៨៧%។
BERT
ម៉ូដែល BERT ស្តង់ដារ
មានភាពជាក់លាក់ខ្ពស់ក្នុងការសម្គាល់បំណង (Intent Recognition) និងទាញយកព័ត៌មាន (Entity Extraction)។ ខ្វះសមត្ថភាពក្នុងការបង្កើតការឆ្លើយតបដោយស្វ័យប្រវត្តិដែលមានភាពបត់បែនដូចទម្រង់ GPT។ សម្រេចបានភាពត្រឹមត្រូវ (Accuracy) ៩៨.៥៣% និងពិន្ទុ F1-Score ៩៧.៥៤%។
Proposed Model (Hybrid)
ម៉ូដែលកូនកាត់ដែលបានស្នើឡើង (BERT + GPT + RNNs)
អាចចងចាំបរិបទសន្ទនាបានច្រើនវគ្គយ៉ាងល្អ និងឆ្លើយតបបានដូចមនុស្សធម្មតា។ មានភាពស្មុគស្មាញក្នុងការគណនាសម្រាប់ដំណើរការក្នុងពេលវេលាជាក់ស្តែង និងពឹងផ្អែកលើទិន្នន័យគុណភាពខ្ពស់។ សម្រេចបានភាពត្រឹមត្រូវខ្ពស់បំផុតរហូតដល់ ៩៩.៤៨% និងពិន្ទុ F1-Score ៩៨.២៨%។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់ថាប្រព័ន្ធនេះមានភាពស្មុគស្មាញក្នុងការគណនាសម្រាប់ដំណើរការម៉ូដែល Transformer ក្នុងពេលវេលាជាក់ស្តែង និងពឹងផ្អែកយ៉ាងខ្លាំងលើទិន្នន័យហ្វឹកហាត់ដែលមានគុណភាពខ្ពស់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះទំនងជាពឹងផ្អែកលើទិន្នន័យភាសាអង់គ្លេស និងបរិបទនៃប្រទេសដែលប្រើប្រាស់ភាសាសកល។ វាមិនបានសង្កត់ធ្ងន់ទៅលើការអនុវត្តលើភាសាដែលមានធនធានតិចតួច (Low-resource languages) នោះទេ។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាបញ្ហាប្រឈមធំមួយ ព្រោះទិន្នន័យភាសាខ្មែរសម្រាប់ហ្វឹកហាត់ម៉ូដែលស្មុគស្មាញនៅមានកម្រិត ដែលទាមទារឱ្យមានការប្រមូល និងរៀបចំទិន្នន័យជាមុនទើបអាចប្រើប្រាស់ម៉ូដែលនេះបានប្រកបដោយប្រសិទ្ធភាព។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមទាក់ទងនឹងភាសាក៏ដោយ ស្ថាបត្យកម្មកូនកាត់នេះមានសក្តានុពលខ្ពស់ក្នុងការធ្វើបរិវត្តកម្មសេវាកម្មឌីជីថលនៅកម្ពុជា។

សរុបមក ការច្នៃប្រឌិតម៉ូដែល Transformer ឱ្យយល់ដឹងពីបរិបទនេះ នឹងជួយសម្រួលការងារបានយ៉ាងច្រើន ព្រមទាំងលើកកម្ពស់បទពិសោធន៍អ្នកប្រើប្រាស់នៅកម្ពុជា ប្រសិនបើវាត្រូវបានបំពាក់ដោយទិន្នន័យភាសាខ្មែរត្រឹមត្រូវ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃទិន្នន័យអត្ថបទ និង NLP: និស្សិតគួរចាប់ផ្តើមរៀនពីវិធីសាស្ត្រសម្អាតទិន្នន័យ (Data Preprocessing) ការបំបែកពាក្យ (Tokenization) ដោយប្រើប្រាស់ Python រួមជាមួយបណ្ណាល័យដូចជា spaCy ឬគម្រោងកូដបើកចំហររបស់ខ្មែរដូចជា Khmer NLP
  2. ស្វែងយល់ និងអនុវត្តជាមួយម៉ូដែល Transformer: ចូលទៅកាន់វេទិកា Hugging Face ដើម្បីសាកល្បងទាញយកម៉ូដែល BERT និង GPT មកដំណើរការសាកល្បង (Fine-tuning) លើទិន្នន័យតូចៗសិន។
  3. រៀបចំទិន្នន័យសន្ទនាជាភាសាខ្មែរ: បង្កើតសំណុំទិន្នន័យសន្ទនាពិតប្រាកដក្នុងវិស័យណាមួយ (ឧទាហរណ៍៖ ការកក់សំបុត្រឡានក្រុង) រួចបង្រៀនម៉ូដែលឱ្យចេះធ្វើ Intent Recognition និង Named Entity Recognition (NER)
  4. អភិវឌ្ឍការចងចាំបរិបទ (Dialog State Tracking): សរសេរកូដបញ្ចូល RNNs ដើម្បីឱ្យកម្មវិធីសន្ទនាអាចចងចាំនូវអ្វីដែលអ្នកប្រើប្រាស់បាននិយាយពីវគ្គមុនៗ និងតភ្ជាប់កម្មវិធីទៅកាន់មូលដ្ឋានទិន្នន័យតាមរយៈ REST APIs
  5. ដាក់ពង្រាយជាផ្លូវការ (Deployment): យកកម្មវិធីដែលសរសេររួចទៅដាក់លើប្រព័ន្ធ Cloud (ឧទាហរណ៍ AWSGoogle Cloud) ហើយតភ្ជាប់វាជាមួយកម្មវិធីផ្ញើសារដែលប្រជាជនខ្មែរនិយមប្រើដូចជា Telegram Bot API ដើម្បីឱ្យអ្នកប្រើប្រាស់អាចសាកល្បងបាន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Transformer-Based Models ជាប្រភេទម៉ូដែលបញ្ញាសិប្បនិម្មិតកម្រិតខ្ពស់ដែលពូកែក្នុងការស្វែងយល់ពីទំនាក់ទំនងនៃពាក្យនីមួយៗក្នុងប្រយោគទាំងមូលព្រមគ្នា (Parallel processing) ដែលជួយឱ្យវាចាប់បានអត្ថន័យនិងបរិបទបានយ៉ាងច្បាស់លាស់។ ដូចជាអ្នកអានសៀវភៅម្នាក់ដែលអាចមើលឃើញ និងយល់អត្ថន័យនៃពាក្យទាំងអស់ក្នុងមួយទំព័រក្នុងពេលតែមួយ ជាជាងអានប្រកបម្តងមួយពាក្យៗ។
BERT ជាម៉ូដែលដំណើរការភាសាដែលអានទិន្នន័យពីឆ្វេងទៅស្តាំ និងពីស្តាំមកឆ្វេងក្នុងពេលតែមួយ (Bidirectional) ដើម្បីស្វែងយល់ពីបរិបទជុំវិញពាក្យនីមួយៗ ធ្វើឱ្យវាមានភាពសុក្រឹតខ្ពស់ក្នុងការវិភាគអត្ថន័យ និងបំណងរបស់អ្នកប្រើប្រាស់។ ដូចជាអ្នកស៊ើបអង្កេតម្នាក់ដែលពិនិត្យមើលរាល់តម្រុយទាំងមុខ និងក្រោយពាក្យនីមួយៗ ដើម្បីយល់ពីអត្ថន័យពិតប្រាកដនៃប្រយោគ។
GPT ជាម៉ូដែលបង្កើតអត្ថបទដែលត្រូវបានហ្វឹកហាត់ជាមុនជាមួយនឹងទិន្នន័យដ៏ច្រើនសន្ធឹកសន្ធាប់ ដែលអាចទស្សន៍ទាយ និងបង្កើតពាក្យបន្ទាប់ៗរហូតចេញជាល្បះដែលមានន័យ និងរលូនដូចមនុស្សជជែកគ្នាពិតៗ។ ដូចជានិស្សិតម្នាក់ដែលបានអានសៀវភៅរាប់ពាន់ក្បាល ហើយអាចតែងរឿង ឬសរសេរចម្លើយថ្មីៗបានយ៉ាងប៉ិនប្រសប់ដោយផ្អែកលើចំណេះដឹងនោះ។
Dialog State Tracking ជាដំណើរការដែលកម្មវិធីសន្ទនាប្រើប្រាស់ដើម្បីកត់ត្រា និងតាមដានព័ត៌មាន ការផ្លាស់ប្តូរ និងបរិបទនៃការសន្ទនាពីវគ្គមុនៗ ដើម្បីធានាថាប្រព័ន្ធនៅតែចងចាំគោលបំណងសន្ទនា ទោះបីជាជជែកគ្នាយូរក៏ដោយ។ ដូចជាលេខាធិការក្នុងអង្គប្រជុំម្នាក់ ដែលតែងតែកត់ត្រា និងរំលឹកថាអ្នកចូលរួមបានសម្រេចចិត្តអ្វីខ្លះពីប៉ុន្មាននាទីមុន ដើម្បីកុំឱ្យនិយាយវង្វេងសាច់រឿង។
Intent Recognition ជាដំណើរការចាត់ថ្នាក់ និងវិភាគអត្ថបទបញ្ញូលរបស់អ្នកប្រើប្រាស់ ដើម្បីកំណត់ពីគោលបំណង ឬតម្រូវការជាក់លាក់នៅពីក្រោយសំណួរ (ឧទាហរណ៍៖ ការបញ្ជាទិញ ការសួរព័ត៌មាន ឬការត្អូញត្អែរ)។ ដូចជាអ្នកទទួលភ្ញៀវនៅសណ្ឋាគារដែលគ្រាន់តែស្តាប់សំណួរភ្ញៀវ ក៏ដឹងភ្លាមថាគាត់ចង់ជួលបន្ទប់ ឬគ្រាន់តែចង់សួររកភោជនីយដ្ឋាន។
Named Entity Recognition (NER) ជាបច្ចេកទេសស្រង់ទិន្នន័យដោយស្វ័យប្រវត្តិ ដែលស្វែងរក និងទាញយកពាក្យគន្លឹះសំខាន់ៗចេញពីប្រយោគ ដូចជា ឈ្មោះមនុស្ស ទីកន្លែង កាលបរិច្ឆេទ លេខទូរស័ព្ទ ឬឈ្មោះផលិតផល។ ដូចជាការយកហ្វឺតលឿងទៅគូសបញ្ជាក់ (Highlight) លើពាក្យសំខាន់ៗដូចជា ឈ្មោះ ថ្ងៃខែ និងទីតាំង នៅក្នុងកាសែត ដើម្បីងាយស្រួលស្រង់ព័ត៌មាន។
Recurrent Neural Networks (RNNs) ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលដំណើរការទិន្នន័យជាបន្តបន្ទាប់ និងមានអង្គចងចាំខាងក្នុង (Hidden state) សម្រាប់ចងចាំទិន្នន័យមុនៗ ដែលស័ក្តិសមបំផុតសម្រាប់ការវិភាគស៊េរីអត្ថបទ ឬការសន្ទនាមានច្រើនវគ្គ។ ដូចជាមនុស្សម្នាក់ដែលស្តាប់រឿងភាគតាមវិទ្យុ ដែលគាត់អាចយល់សាច់រឿងត្រង់វគ្គនេះបានយ៉ាងច្បាស់ ព្រោះគាត់នៅចាំសាច់រឿងតាំងពីភាគដើមទី។
REST APIs ជាបណ្តាញទំនាក់ទំនងដែលអនុញ្ញាតឱ្យកម្មវិធីសន្ទនា (Chatbot) តភ្ជាប់ និងផ្លាស់ប្តូរទិន្នន័យជាមួយប្រព័ន្ធកុំព្យូទ័រផ្សេងទៀត (ដូចជាមូលដ្ឋានទិន្នន័យរោងកុន ឬសេវាកម្មធនាគារ) ក្នុងពេលវេលាជាក់ស្តែង តាមរយៈអ៊ីនធឺណិត។ ដូចជាអ្នករត់តុក្នុងភោជនីយដ្ឋាន ដែលទទួលការកុម្ម៉ង់ពីភ្ញៀវ (Chatbot) យកទៅប្រាប់ចុងភៅនៅផ្ទះបាយ (Database) រួចយកម្ហូបដែលឆ្អិនមកឱ្យភ្ញៀវវិញ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖