Original Title: Context-Aware AI Chatbot Using Transformer-Based Models for Intelligent User Interactions
Source: doi.org/10.5220/0013639800004664
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

កម្មវិធីសន្ទនាបញ្ញាសិប្បនិម្មិតយល់ដឹងពីបរិបទដោយប្រើប្រាស់ម៉ូដែល Transformer សម្រាប់ទំនាក់ទំនងអ្នកប្រើប្រាស់ដ៏ឆ្លាតវៃ

ចំណងជើងដើម៖ Context-Aware AI Chatbot Using Transformer-Based Models for Intelligent User Interactions

អ្នកនិពន្ធ៖ Pooja S (Karpagam Academy of Higher Education), Gokul G (Karpagam Academy of Higher Education), Linkesh Mani K (Karpagam Academy of Higher Education), Raj Kumar A S (Karpagam Academy of Higher Education), Amutha Bharathi R (Karpagam Academy of Higher Education)

ឆ្នាំបោះពុម្ព៖ 2025 INCOFT

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាប្រឈមនៃកម្មវិធីសន្ទនា (Chatbots) បច្ចុប្បន្ន ដែលខ្វះភាពត្រឹមត្រូវតាមវិស័យជាក់លាក់ ភាពខ្សោយក្នុងការយល់ដឹងពីបរិបទនៃការសន្ទនាច្រើនវគ្គ និងដំណើរការមិនបានល្អក្នុងពេលវេលាជាក់ស្តែង។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវកម្មវិធីសន្ទនាបែបកូនកាត់ដែលរួមបញ្ចូលបច្ចេកវិទ្យាដំណើរការភាសាធម្មជាតិ (NLP) កម្រិតខ្ពស់ និងម៉ូដែលបញ្ញាសិប្បនិម្មិតដើម្បីស្វែងយល់ និងឆ្លើយតប។

ការរៀបចំទិន្នន័យអត្ថបទ និងការសម្គាល់បំណងដោយប្រើម៉ូដែល BERT (Intent Recognition and Entity Extraction)
ការតាមដានស្ថានភាពនៃការសន្ទនាដោយប្រើប្រាស់បណ្តាញសរសៃប្រសាទវិលជុំ (Dialog State Tracking using RNNs)
ការបង្កើតការឆ្លើយតបតាមបរិបទដោយប្រើម៉ូដែល GPT និងគំរូដែលបានកំណត់ (Response Generation using GPT)
ការភ្ជាប់ប្រព័ន្ធខាងក្រោយជាមួយ REST APIs សម្រាប់ទាញយកទិន្នន័យជាក់ស្តែង (Backend Integration)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

កម្មវិធីសន្ទនាដែលបានស្នើឡើងសម្រេចបានអត្រាភាពត្រឹមត្រូវសរុប (Accuracy) រហូតដល់ ៩៩.៤៨% ដែលខ្ពស់ជាងម៉ូដែលមុនៗដូចជា XLM, XLNet និង BERT។
ម៉ូដែលនេះទទួលបានពិន្ទុភាពជាក់លាក់ (Precision) ៩៨.៦៦%, អត្រានៃការហៅត្រឡប់ (Recall) ៩៨.៥៦% និងពិន្ទុ F1-Score ៩៨.២៨% សម្រាប់ប្រតិបត្តិការផ្សេងៗ។
ការរួមបញ្ចូលគ្នានៃ RNN សម្រាប់ការចងចាំបរិបទ និង GPT សម្រាប់ការឆ្លើយតប បានធ្វើឱ្យការប្រាស្រ័យទាក់ទងមានលក្ខណៈដូចមនុស្ស និងប្រកបដោយប្រសិទ្ធភាពខ្ពស់។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
XLM ម៉ូដែល XLM (Cross-lingual Language Model)	មានសមត្ថភាពក្នុងការស្វែងយល់អត្ថបទឆ្លងភាសាបានល្អសមរម្យ។	ទទួលបានលទ្ធផលទាបជាងគេបំផុតធៀបនឹងម៉ូដែលផ្សេងទៀតនៅក្នុងការសិក្សានេះ។	សម្រេចបានភាពត្រឹមត្រូវ (Accuracy) ៩៧.២៩% និងពិន្ទុ F1-Score ៩៦.៣៦%។
XLNet ម៉ូដែល XLNet	ដំណើរការបានល្អជាង XLM ក្នុងការស្វែងយល់ពីបរិបទនៃពាក្យដោយផ្អែកលើទិន្នន័យទាំងសងខាង។	ទាមទារថាមពលកុំព្យូទ័រច្រើនសម្រាប់ការគណនា និងហ្វឹកហាត់។	សម្រេចបានភាពត្រឹមត្រូវ (Accuracy) ៩៧.៨១% និងពិន្ទុ F1-Score ៩៦.៨៧%។
BERT ម៉ូដែល BERT ស្តង់ដារ	មានភាពជាក់លាក់ខ្ពស់ក្នុងការសម្គាល់បំណង (Intent Recognition) និងទាញយកព័ត៌មាន (Entity Extraction)។	ខ្វះសមត្ថភាពក្នុងការបង្កើតការឆ្លើយតបដោយស្វ័យប្រវត្តិដែលមានភាពបត់បែនដូចទម្រង់ GPT។	សម្រេចបានភាពត្រឹមត្រូវ (Accuracy) ៩៨.៥៣% និងពិន្ទុ F1-Score ៩៧.៥៤%។
Proposed Model (Hybrid) ម៉ូដែលកូនកាត់ដែលបានស្នើឡើង (BERT + GPT + RNNs)	អាចចងចាំបរិបទសន្ទនាបានច្រើនវគ្គយ៉ាងល្អ និងឆ្លើយតបបានដូចមនុស្សធម្មតា។	មានភាពស្មុគស្មាញក្នុងការគណនាសម្រាប់ដំណើរការក្នុងពេលវេលាជាក់ស្តែង និងពឹងផ្អែកលើទិន្នន័យគុណភាពខ្ពស់។	សម្រេចបានភាពត្រឹមត្រូវខ្ពស់បំផុតរហូតដល់ ៩៩.៤៨% និងពិន្ទុ F1-Score ៩៨.២៨%។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់ថាប្រព័ន្ធនេះមានភាពស្មុគស្មាញក្នុងការគណនាសម្រាប់ដំណើរការម៉ូដែល Transformer ក្នុងពេលវេលាជាក់ស្តែង និងពឹងផ្អែកយ៉ាងខ្លាំងលើទិន្នន័យហ្វឹកហាត់ដែលមានគុណភាពខ្ពស់។

Hardware: ទាមទារម៉ាស៊ីនមេ ឬប្រព័ន្ធ Cloud ដែលមានអង្គគណនា (GPU) កម្រិតខ្ពស់សម្រាប់ដំណើរការម៉ូដែល (BERT និង GPT) ក្នុងពេលវេលាជាក់ស្តែងដោយគ្មានភាពរអាក់រអួល។
Software: ការប្រើប្រាស់បណ្ណាល័យ NLP (ដូចជា Hugging Face Transformers, spaCy), បណ្តាញសរសៃប្រសាទកೃತឹម (RNNs), និងការភ្ជាប់ប្រព័ន្ធតាមរយៈ REST APIs។
Dataset: ទាមទារទិន្នន័យសន្ទនាច្រើនវគ្គ (Multi-turn conversational datasets) ដែលត្រូវបានកត់ត្រា និងដាក់ស្លាកសម្គាល់ (Annotated) យ៉ាងត្រឹមត្រូវ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះទំនងជាពឹងផ្អែកលើទិន្នន័យភាសាអង់គ្លេស និងបរិបទនៃប្រទេសដែលប្រើប្រាស់ភាសាសកល។ វាមិនបានសង្កត់ធ្ងន់ទៅលើការអនុវត្តលើភាសាដែលមានធនធានតិចតួច (Low-resource languages) នោះទេ។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាបញ្ហាប្រឈមធំមួយ ព្រោះទិន្នន័យភាសាខ្មែរសម្រាប់ហ្វឹកហាត់ម៉ូដែលស្មុគស្មាញនៅមានកម្រិត ដែលទាមទារឱ្យមានការប្រមូល និងរៀបចំទិន្នន័យជាមុនទើបអាចប្រើប្រាស់ម៉ូដែលនេះបានប្រកបដោយប្រសិទ្ធភាព។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមទាក់ទងនឹងភាសាក៏ដោយ ស្ថាបត្យកម្មកូនកាត់នេះមានសក្តានុពលខ្ពស់ក្នុងការធ្វើបរិវត្តកម្មសេវាកម្មឌីជីថលនៅកម្ពុជា។

វិស័យធនាគារ និងហិរញ្ញវត្ថុ (ឧ. ABA Bank, ACLEDA): អាចប្រើប្រាស់កម្មវិធីសន្ទនានេះដើម្បីជួយដោះស្រាយបញ្ហាអតិថិជន ២៤/៧ និងជួយសម្រួលការផ្ទេរប្រាក់ ឬឆែកសមតុល្យតាមរយៈការជជែកនៅលើកម្មវិធីដោយផ្ទាល់។
វិស័យសុខាភិបាល (មន្ទីរពេទ្យរដ្ឋ និងឯកជន): អនុញ្ញាតឱ្យអ្នកជំងឺកក់ការណាត់ជួបជាមួយគ្រូពេទ្យ សាកសួរពីម៉ោងធ្វើការ ឬទទួលការណែនាំផ្នែកវេជ្ជសាស្ត្របឋមបានយ៉ាងរហ័ស។
សេវាកម្មរដ្ឋាភិបាលអេឡិចត្រូនិក (E-Government): អាចដាក់បញ្ចូលក្នុងផ្ទាំងសេវាសាធារណៈ ដើម្បីជួយណែនាំប្រជាពលរដ្ឋអំពីបែបបទរដ្ឋបាល ការធ្វើលិខិតស្នាមផ្សេងៗ និងសេវាចុះបញ្ជីនានា។

សរុបមក ការច្នៃប្រឌិតម៉ូដែល Transformer ឱ្យយល់ដឹងពីបរិបទនេះ នឹងជួយសម្រួលការងារបានយ៉ាងច្រើន ព្រមទាំងលើកកម្ពស់បទពិសោធន៍អ្នកប្រើប្រាស់នៅកម្ពុជា ប្រសិនបើវាត្រូវបានបំពាក់ដោយទិន្នន័យភាសាខ្មែរត្រឹមត្រូវ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃទិន្នន័យអត្ថបទ និង NLP: និស្សិតគួរចាប់ផ្តើមរៀនពីវិធីសាស្ត្រសម្អាតទិន្នន័យ (Data Preprocessing) ការបំបែកពាក្យ (Tokenization) ដោយប្រើប្រាស់ Python រួមជាមួយបណ្ណាល័យដូចជា spaCy ឬគម្រោងកូដបើកចំហររបស់ខ្មែរដូចជា Khmer NLP។
ស្វែងយល់ និងអនុវត្តជាមួយម៉ូដែល Transformer: ចូលទៅកាន់វេទិកា Hugging Face ដើម្បីសាកល្បងទាញយកម៉ូដែល BERT និង GPT មកដំណើរការសាកល្បង (Fine-tuning) លើទិន្នន័យតូចៗសិន។
រៀបចំទិន្នន័យសន្ទនាជាភាសាខ្មែរ: បង្កើតសំណុំទិន្នន័យសន្ទនាពិតប្រាកដក្នុងវិស័យណាមួយ (ឧទាហរណ៍៖ ការកក់សំបុត្រឡានក្រុង) រួចបង្រៀនម៉ូដែលឱ្យចេះធ្វើ Intent Recognition និង Named Entity Recognition (NER)។
អភិវឌ្ឍការចងចាំបរិបទ (Dialog State Tracking): សរសេរកូដបញ្ចូល RNNs ដើម្បីឱ្យកម្មវិធីសន្ទនាអាចចងចាំនូវអ្វីដែលអ្នកប្រើប្រាស់បាននិយាយពីវគ្គមុនៗ និងតភ្ជាប់កម្មវិធីទៅកាន់មូលដ្ឋានទិន្នន័យតាមរយៈ REST APIs។
ដាក់ពង្រាយជាផ្លូវការ (Deployment): យកកម្មវិធីដែលសរសេររួចទៅដាក់លើប្រព័ន្ធ Cloud (ឧទាហរណ៍ AWS ឬ Google Cloud) ហើយតភ្ជាប់វាជាមួយកម្មវិធីផ្ញើសារដែលប្រជាជនខ្មែរនិយមប្រើដូចជា Telegram Bot API ដើម្បីឱ្យអ្នកប្រើប្រាស់អាចសាកល្បងបាន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Transformer-Based Models	ជាប្រភេទម៉ូដែលបញ្ញាសិប្បនិម្មិតកម្រិតខ្ពស់ដែលពូកែក្នុងការស្វែងយល់ពីទំនាក់ទំនងនៃពាក្យនីមួយៗក្នុងប្រយោគទាំងមូលព្រមគ្នា (Parallel processing) ដែលជួយឱ្យវាចាប់បានអត្ថន័យនិងបរិបទបានយ៉ាងច្បាស់លាស់។	ដូចជាអ្នកអានសៀវភៅម្នាក់ដែលអាចមើលឃើញ និងយល់អត្ថន័យនៃពាក្យទាំងអស់ក្នុងមួយទំព័រក្នុងពេលតែមួយ ជាជាងអានប្រកបម្តងមួយពាក្យៗ។
BERT	ជាម៉ូដែលដំណើរការភាសាដែលអានទិន្នន័យពីឆ្វេងទៅស្តាំ និងពីស្តាំមកឆ្វេងក្នុងពេលតែមួយ (Bidirectional) ដើម្បីស្វែងយល់ពីបរិបទជុំវិញពាក្យនីមួយៗ ធ្វើឱ្យវាមានភាពសុក្រឹតខ្ពស់ក្នុងការវិភាគអត្ថន័យ និងបំណងរបស់អ្នកប្រើប្រាស់។	ដូចជាអ្នកស៊ើបអង្កេតម្នាក់ដែលពិនិត្យមើលរាល់តម្រុយទាំងមុខ និងក្រោយពាក្យនីមួយៗ ដើម្បីយល់ពីអត្ថន័យពិតប្រាកដនៃប្រយោគ។
GPT	ជាម៉ូដែលបង្កើតអត្ថបទដែលត្រូវបានហ្វឹកហាត់ជាមុនជាមួយនឹងទិន្នន័យដ៏ច្រើនសន្ធឹកសន្ធាប់ ដែលអាចទស្សន៍ទាយ និងបង្កើតពាក្យបន្ទាប់ៗរហូតចេញជាល្បះដែលមានន័យ និងរលូនដូចមនុស្សជជែកគ្នាពិតៗ។	ដូចជានិស្សិតម្នាក់ដែលបានអានសៀវភៅរាប់ពាន់ក្បាល ហើយអាចតែងរឿង ឬសរសេរចម្លើយថ្មីៗបានយ៉ាងប៉ិនប្រសប់ដោយផ្អែកលើចំណេះដឹងនោះ។
Dialog State Tracking	ជាដំណើរការដែលកម្មវិធីសន្ទនាប្រើប្រាស់ដើម្បីកត់ត្រា និងតាមដានព័ត៌មាន ការផ្លាស់ប្តូរ និងបរិបទនៃការសន្ទនាពីវគ្គមុនៗ ដើម្បីធានាថាប្រព័ន្ធនៅតែចងចាំគោលបំណងសន្ទនា ទោះបីជាជជែកគ្នាយូរក៏ដោយ។	ដូចជាលេខាធិការក្នុងអង្គប្រជុំម្នាក់ ដែលតែងតែកត់ត្រា និងរំលឹកថាអ្នកចូលរួមបានសម្រេចចិត្តអ្វីខ្លះពីប៉ុន្មាននាទីមុន ដើម្បីកុំឱ្យនិយាយវង្វេងសាច់រឿង។
Intent Recognition	ជាដំណើរការចាត់ថ្នាក់ និងវិភាគអត្ថបទបញ្ញូលរបស់អ្នកប្រើប្រាស់ ដើម្បីកំណត់ពីគោលបំណង ឬតម្រូវការជាក់លាក់នៅពីក្រោយសំណួរ (ឧទាហរណ៍៖ ការបញ្ជាទិញ ការសួរព័ត៌មាន ឬការត្អូញត្អែរ)។	ដូចជាអ្នកទទួលភ្ញៀវនៅសណ្ឋាគារដែលគ្រាន់តែស្តាប់សំណួរភ្ញៀវ ក៏ដឹងភ្លាមថាគាត់ចង់ជួលបន្ទប់ ឬគ្រាន់តែចង់សួររកភោជនីយដ្ឋាន។
Named Entity Recognition (NER)	ជាបច្ចេកទេសស្រង់ទិន្នន័យដោយស្វ័យប្រវត្តិ ដែលស្វែងរក និងទាញយកពាក្យគន្លឹះសំខាន់ៗចេញពីប្រយោគ ដូចជា ឈ្មោះមនុស្ស ទីកន្លែង កាលបរិច្ឆេទ លេខទូរស័ព្ទ ឬឈ្មោះផលិតផល។	ដូចជាការយកហ្វឺតលឿងទៅគូសបញ្ជាក់ (Highlight) លើពាក្យសំខាន់ៗដូចជា ឈ្មោះ ថ្ងៃខែ និងទីតាំង នៅក្នុងកាសែត ដើម្បីងាយស្រួលស្រង់ព័ត៌មាន។
Recurrent Neural Networks (RNNs)	ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលដំណើរការទិន្នន័យជាបន្តបន្ទាប់ និងមានអង្គចងចាំខាងក្នុង (Hidden state) សម្រាប់ចងចាំទិន្នន័យមុនៗ ដែលស័ក្តិសមបំផុតសម្រាប់ការវិភាគស៊េរីអត្ថបទ ឬការសន្ទនាមានច្រើនវគ្គ។	ដូចជាមនុស្សម្នាក់ដែលស្តាប់រឿងភាគតាមវិទ្យុ ដែលគាត់អាចយល់សាច់រឿងត្រង់វគ្គនេះបានយ៉ាងច្បាស់ ព្រោះគាត់នៅចាំសាច់រឿងតាំងពីភាគដើមទី។
REST APIs	ជាបណ្តាញទំនាក់ទំនងដែលអនុញ្ញាតឱ្យកម្មវិធីសន្ទនា (Chatbot) តភ្ជាប់ និងផ្លាស់ប្តូរទិន្នន័យជាមួយប្រព័ន្ធកុំព្យូទ័រផ្សេងទៀត (ដូចជាមូលដ្ឋានទិន្នន័យរោងកុន ឬសេវាកម្មធនាគារ) ក្នុងពេលវេលាជាក់ស្តែង តាមរយៈអ៊ីនធឺណិត។	ដូចជាអ្នករត់តុក្នុងភោជនីយដ្ឋាន ដែលទទួលការកុម្ម៉ង់ពីភ្ញៀវ (Chatbot) យកទៅប្រាប់ចុងភៅនៅផ្ទះបាយ (Database) រួចយកម្ហូបដែលឆ្អិនមកឱ្យភ្ញៀវវិញ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖