បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការបង្កើតភ្នាក់ងារសន្ទនា (Chatbot) ដែលមានសមត្ថភាពយល់ និងឆ្លើយតបប្រកបដោយមនោសញ្ចេតនា និងភាពចម្រុះ ខណៈដែលម៉ូដែលពីមុនៗជួបការលំបាកក្នុងការគ្រប់គ្រងអារម្មណ៍នៅក្នុងប្រយោគ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវម៉ូដែលថ្មីមួយដោយរួមបញ្ចូលគ្នារវាងបច្ចេកវិទ្យា CVAE និង Transformer ដើម្បីបង្កើតការឆ្លើយតបប្រកបដោយអារម្មណ៍ និងភាពចម្រុះ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Plain Transformer ម៉ូដែល Transformer ធម្មតា |
អាចបង្កើតការឆ្លើយតបបានដោយសុវត្ថិភាព និងមានទម្រង់ប្រយោគអាចទស្សន៍ទាយបាន (Predictable Pattern)។ វាងាយស្រួលក្នុងការទាញយក និងប្រើប្រាស់ជាមូលដ្ឋាន។ | ការឆ្លើយតបមានលក្ខណៈដដែលៗ ខ្វះភាពចម្រុះ និងមិនមានសមត្ថភាពបង្ហាញអារម្មណ៍បានត្រឹមត្រូវឡើយ (កម្រិតយល់ពីអារម្មណ៍ទាបបំផុត)។ | ទទួលបានភាពស្មុគស្មាញ (Perplexity) ៨,០ និងភាពត្រឹមត្រូវនៃអារម្មណ៍ (Emotion Accuracy) ត្រឹមតែ ១២,៣%។ |
| MEED ម៉ូដែល MEED (Multi-task learning) |
មានរចនាសម្ព័ន្ធប្រសើរជាងម៉ូដែលមូលដ្ឋាន និងអាចបង្កើតប្រយោគបានចម្រុះជាងមុន។ | ការឆ្លើយតបជារឿយៗមិនស៊ីសង្វាក់គ្នា (Embarrassing) និងមិនសូវប្រើប្រាស់ព័ត៌មានអារម្មណ៍ដែលបានបញ្ជូលប្រកបដោយប្រសិទ្ធភាពនោះទេ។ | ទទួលបានភាពស្មុគស្មាញ ៦,២ និងពិន្ទុវាយតម្លៃពីមនុស្ស (Human Evaluation Average) ត្រឹម -១ គត់។ |
| CVAE-Transformer (Proposed) ម៉ូដែលអូតូអ៊ិនកូដឌ័រអថេរតាមលក្ខខណ្ឌផ្អែកលើត្រេនស្វមម័រ |
មានសមត្ថភាពគ្រប់គ្រងអារម្មណ៍នៃការឆ្លើយតបបានយ៉ាងល្អ បង្កើតការសន្ទនាបានដូចមនុស្សពិតៗ និងមានភាពចម្រុះខ្ពស់ជាងម៉ូដែលមុនៗ។ | ទោះបីឆ្លើយតបបានល្អ ប៉ុន្តែម៉ូដែលនេះនៅមានចំណុចខ្វះខាតក្នុងការចេះសួរនាំ ឬផ្តល់ព័ត៌មានថ្មីៗដើម្បីបន្តការសន្ទនាឱ្យបានយូរ។ | ទទួលបានភាពស្មុគស្មាញល្អបំផុត ៦,១ ភាពត្រឹមត្រូវនៃអារម្មណ៍កើនដល់ ៥៨,៨% និងពិន្ទុវាយតម្លៃពីមនុស្សខ្ពស់ជាងគេគឺ ១,២៥។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់ច្បាស់លាស់ពីទំហំកុំព្យូទ័រ ប៉ុន្តែការបង្ហាត់ម៉ូដែលស្មុគស្មាញដូចជា CVAE-Transformer និង RoBERTa ទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យច្រើន។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ EMPATHETICDIALOGUES ជាភាសាអង់គ្លេស ដែលត្រូវបានបង្កើតឡើងដោយអ្នកចូលរួមមកពីបស្ចិមប្រទេស។ វប្បធម៌ និងរបៀបនៃការបង្ហាញអារម្មណ៍របស់ពួកគេអាចមានភាពខុសគ្នាស្រឡះពីបរិបទសង្គម និងការនិយាយស្តីរបស់ប្រជាជនខ្មែរ។ ដូច្នេះ ប្រសិនបើចង់អនុវត្តប្រព័ន្ធនេះនៅកម្ពុជា គេចាំបាច់ត្រូវប្រមូលទិន្នន័យសន្ទនាជាភាសាខ្មែរដែលមានការបញ្ចេញអារម្មណ៍ស្របតាមវប្បធម៌ក្នុងស្រុក។
បច្ចេកវិទ្យា Chatbot ដែលយល់ពីអារម្មណ៍នេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអភិវឌ្ឍប្រព័ន្ធផ្តល់សេវាកម្មអតិថិជន និងការប្រឹក្សាយោបល់នៅប្រទេសកម្ពុជា។
ជារួម បច្ចេកវិទ្យានេះមិនត្រឹមតែជួយស្វ័យប្រវត្តិកម្មការងារប៉ុណ្ណោះទេ ថែមទាំងលើកកម្ពស់គុណភាពអន្តរកម្មរវាងមនុស្ស និងម៉ាស៊ីននៅក្នុងស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាឱ្យកាន់តែមានភាពមនុស្សធម៌។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Conditional Variational Autoencoder (CVAE) | ជាប្រភេទម៉ូដែលបណ្តាញសរសៃប្រសាទ (Neural Network) ដែលរៀនពីរបៀបបង្កើតទិន្នន័យថ្មីៗ (ដូចជាប្រយោគ) ផ្អែកលើលក្ខខណ្ឌជាក់លាក់ណាមួយ (ឧទាហរណ៍៖ អារម្មណ៍សប្បាយ ឬខឹង) ដោយប្រើប្រាស់អថេរកំបាំង (Latent Variables) ដើម្បីបង្កើតភាពចម្រុះក្នុងការឆ្លើយតប។ | ដូចជាការប្រាប់ចុងភៅម្នាក់ឱ្យធ្វើម្ហូប "សាច់មាន់" (ជាលក្ខខណ្ឌ) ប៉ុន្តែចុងភៅអាចច្នៃធ្វើមាន់ឆាខ្ញី ឬសម្លម្ជូរមាន់ (ជាភាពចម្រុះ) តាមគំនិតច្នៃប្រឌិតរបស់គាត់។ |
| Transformer | ជាស្ថាបត្យកម្មដ៏មានឥទ្ធិពលមួយក្នុងបញ្ញាសិប្បនិម្មិត (AI) ដែលពូកែខាងចាប់យកទំនាក់ទំនងរវាងពាក្យនិមួយៗក្នុងប្រយោគវែងៗ តាមរយៈយន្តការយកចិត្តទុកដាក់ (Attention Mechanism) ដោយមិនចាំបាច់អានពាក្យតាមលំដាប់តួដូចម៉ូដែលជំនាន់មុនៗ (RNNs) ឡើយ។ | ដូចជាមនុស្សម្នាក់ដែលអានសៀវភៅមួយទំព័រ ហើយដឹងភ្លាមៗថាពាក្យណាខ្លះទាក់ទងគ្នា ទោះបីជាវានៅឆ្ងាយពីគ្នាក៏ដោយ ជាជាងការខំអានចាំម្តងមួយពាក្យៗ។ |
| Multi-head Attention | ជាយន្តការមួយនៅក្នុងស្ថាបត្យកម្ម Transformer ដែលអនុញ្ញាតឱ្យម៉ូដែលផ្តោតការយកចិត្តទុកដាក់ទៅលើផ្នែកផ្សេងៗគ្នានៃប្រយោគក្នុងពេលតែមួយ ដើម្បីយល់ពីអត្ថន័យ និងបរិបទបានកាន់តែស៊ីជម្រៅ។ | ដូចជាក្រុមអ្នកស៊ើបអង្កេតជាច្រើននាក់ពិនិត្យមើលរូបភាពតែមួយ ប៉ុន្តែម្នាក់ៗផ្តោតលើចំណុចផ្សេងៗគ្នា (ម្នាក់មើលមុខសញ្ញា ម្នាក់មើលទេសភាព ម្នាក់មើលអាវុធ) រួចយកព័ត៌មានមកផ្គុំគ្នាទើបយល់រឿងក្តីច្បាស់។ |
| KL-divergence | ជារង្វាស់គណិតវិទ្យាដែលប្រើសម្រាប់វាស់ស្ទង់ថាតើរបាយប្រូបាប៊ីលីតេ (Probability Distribution) មួយ មានភាពខុសគ្នាពីរបាយប្រូបាប៊ីលីតេមួយទៀតកម្រិតណា។ នៅក្នុងការបង្កើតអត្ថបទ វាជួយទប់ស្កាត់ម៉ូដែលកុំឱ្យបង្កើតទិន្នន័យដែលខុសឆ្ងាយពីទម្រង់ដើមពេក។ | ដូចជាការប្រៀបធៀបរូបគំនូរដែលអ្នកគូរផ្តាំផ្ញើឱ្យកូនជាងចម្លងតាម បើកូនជាងគូរខុសពីរូបដើមកាន់តែខ្លាំង នោះតម្លៃនៃភាពខុសគ្នា (KL-divergence) គឺកាន់តែខ្ពស់។ |
| Latent Variables | ជាអថេរលាក់កំបាំង ឬលក្ខណៈដែលម៉ូដែលទាញយកពីទិន្នន័យ ប៉ុន្តែមិនត្រូវបានបង្ហាញឱ្យឃើញច្បាស់នៅពេលបញ្ចូលទិន្នន័យនោះទេ វាជួយតំណាងឱ្យគំនិត ឬទម្រង់អរូបីនៃការឆ្លើយតបដើម្បីបង្កើតអត្ថបទ។ | ដូចជា "ទេពកោសល្យសិល្បៈ" របស់មនុស្សម្នាក់ ដែលយើងមិនអាចវាស់វែងឬមើលឃើញផ្ទាល់ភ្នែក ប៉ុន្តែយើងដឹងថាវាមានវត្តមានតាមរយៈលទ្ធផលស្នាដៃដ៏ល្អរបស់ពួកគេ។ |
| Perplexity | ជារង្វាស់ស្តង់ដារសម្រាប់វាយតម្លៃម៉ូដែលភាសា (Language Model) ដែលបង្ហាញពីកម្រិតនៃភាពមិនប្រាកដប្រជា (Uncertainty) របស់ម៉ូដែលនៅពេលទស្សន៍ទាយពាក្យបន្ទាប់។ ពិន្ទុ Perplexity កាន់តែទាប មានន័យថាម៉ូដែលទស្សន៍ទាយកាន់តែត្រឹមត្រូវ និងពូកែ។ | ដូចជាការឱ្យសិស្សទាយពាក្យចុងបួនក្នុងកំណាព្យ បើសិស្សនោះពូកែ គេនឹងមិនសូវស្ទាក់ស្ទើរទេ (Perplexity ទាប) តែបើគេរៀនខ្សោយ គេនឹងទាយទាំងស្រពេចស្រពិលមិនដឹងត្រូវឬខុស (Perplexity ខ្ពស់)។ |
| RoBERTa | ជាម៉ូដែលបណ្តាញសរសៃប្រសាទកម្រិតខ្ពស់ផ្អែកលើ Transformer ដែលត្រូវបានបង្ហាត់ជាមុន (Pre-trained) លើទិន្នន័យអត្ថបទភាសាអង់គ្លេសយ៉ាងច្រើនសន្ធឹកសន្ធាប់ ដើម្បីឱ្យវាមានសមត្ថភាពយល់ដឹងពីវាក្យសម្ព័ន្ធ និងបរិបទភាសាបានយ៉ាងជ្រៅជ្រះ មុននឹងយកមកប្រើសម្រាប់កិច្ចការងារបន្តបន្ទាប់។ | ដូចជាអ្នកប្រាជ្ញផ្នែកអក្សរសាស្ត្រម្នាក់ដែលបានអានសៀវភៅអស់រាប់លានក្បាលរួចមកហើយ ដូច្នេះនៅពេលយើងឱ្យគាត់រៀនធ្វើកិច្ចការថ្មី (ដូចជាឆាតឆ្លើយឆ្លង) គាត់អាចរៀនឆាប់ចេះ និងធ្វើបានល្អបំផុត។ |
| seq2seq (Sequence-to-sequence) | ជាទម្រង់រចនាសម្ព័ន្ធម៉ូដែល AI ដែលទទួលយកសំណុំទិន្នន័យ ឬពាក្យមួយជួរ (Sequence) ជាធាតុបញ្ចូល (ឧ. សំណួរ) ហើយបង្កើតសំណុំទិន្នន័យមួយជួរទៀតជាលទ្ធផល (ឧ. ចម្លើយ) ដែលទម្រង់នេះមានការពេញនិយមខ្លាំងក្នុងការបកប្រែភាសា និងបង្កើត Chatbot។ | ដូចជាអ្នកបកប្រែផ្ទាល់មាត់ម្នាក់ ដែលស្តាប់ឮប្រយោគមួយចប់ជាភាសាអង់គ្លេស រួចគិត រួចក៏និយាយបកប្រែប្រយោគនោះចេញមកវិញជាភាសាខ្មែរតាមលំដាប់លំដោយ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖