បញ្ហា (The Problem)៖ ប្រព័ន្ធសន្ទនាបច្ចុប្បន្នភាគច្រើនអាចត្រឹមតែសម្គាល់ស្ថានភាពអារម្មណ៍របស់អ្នកប្រើប្រាស់ ប៉ុន្តែមិនទាន់អាចបង្កើតការឆ្លើយតបប្រកបដោយការយល់ចិត្តដែលមានប្រសិទ្ធភាព ឬជួយសម្រាលអារម្មណ៍អវិជ្ជមានរបស់អ្នកប្រើប្រាស់បានឡើយ។
វិធីសាស្ត្រ (The Methodology)៖ ឯកសារស្រាវជ្រាវនេះស្នើឡើងនូវវិធីសាស្ត្របង្កើតការសន្ទនាប្រកបដោយការយល់ចិត្ត (Empathetic Dialogue Generation) ដោយផ្អែកលើការបញ្ចូលគ្នានៃព័ត៌មានអារម្មណ៍និងយុទ្ធសាស្ត្រគាំទ្រ (ESFM)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Transformer ម៉ូដែលបំប្លែងមូលដ្ឋាន (Seq2Seq) |
ងាយស្រួលក្នុងការអនុវត្ត និងជារចនាសម្ព័ន្ធមូលដ្ឋានសម្រាប់ការបង្កើតការសន្ទនាទូទៅ។ | គ្មានសមត្ថភាពយល់ពីអារម្មណ៍ ឬបង្កើតការឆ្លើយតបប្រកបដោយការយល់ចិត្តនោះទេ ដោយសារវាខ្វះគោលដៅរៀនសូត្រពីកត្តាអារម្មណ៍។ | ទទួលបានពិន្ទុទាបបំផុតលើសូចនាករទាំងអស់ (PPL: 89.61, កម្រិតយល់ចិត្ត: 0.29)។ |
| MoEL / MIME ម៉ូដែលផ្អែកលើការទស្សន៍ទាយអារម្មណ៍ |
អាចទស្សន៍ទាយនិងចាប់យកព័ត៌មានអារម្មណ៍ជាមូលដ្ឋានពីបរិបទនៃការសន្ទនា។ | ចាប់យកបានត្រឹមតែស្លាកអារម្មណ៍បែបឋិតិវន្ត និងមិនមានយុទ្ធសាស្ត្រគាំទ្រផ្លូវចិត្តជាក់លាក់ដើម្បីលួងលោមអ្នកប្រើប្រាស់ឡើយ។ | ពិន្ទុវាយតម្លៃដោយមនុស្សលើការយល់ចិត្តនៅទាបនៅឡើយ (MoEL: 0.33, MIME: 0.35)។ |
| DialoGPT ម៉ូដែលភាសាដែលបានហ្វឹកហាត់ជាមុន (Pre-trained Model) |
មានសមត្ថភាពខ្ពស់ក្នុងការបង្កើតប្រយោគបានយ៉ាងរលូន និងមានចំណេះដឹងទូលំទូលាយពីទិន្នន័យធំៗ។ | នៅខ្វះយន្តការផ្គូផ្គងយុទ្ធសាស្ត្រគាំទ្រអារម្មណ៍ឱ្យបានស៊ីជម្រៅទៅតាមស្ថានភាពអារម្មណ៍ជាក់ស្តែង។ | ទទួលបានលទ្ធផលល្អគួរសម ប៉ុន្តែនៅចាញ់ម៉ូដែល ESFM (PPL: 20.4, កម្រិតយល់ចិត្ត: 1.04)។ |
| ESFM (Proposed) ម៉ូដែលរួមបញ្ចូលអារម្មណ៍និងយុទ្ធសាស្ត្រគាំទ្រ (វិធីសាស្ត្រស្នើឡើង) |
អាចតាមដានអារម្មណ៍ល្អិតល្អន់របស់អ្នកប្រើប្រាស់យ៉ាងសកម្ម និងជ្រើសរើសយុទ្ធសាស្ត្រឆ្លើយតបបានយ៉ាងត្រឹមត្រូវ។ | ទាមទារការរចនាបណ្ដាញស្មុគស្មាញ (មានបណ្ដាញរងចំនួន៣) និងត្រូវការទិន្នន័យដែលមានការបិទស្លាកយុទ្ធសាស្ត្រច្បាស់លាស់។ | ដំណើរការល្អបំផុតក្នុងការធ្វើតេស្ត (PPL: 19.82, កម្រិតយល់ចិត្តខ្ពស់បំផុត: 1.15, និងការជ្រើសរើសយុទ្ធសាស្ត្របានត្រឹមត្រូវជាង DialoGPT)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីតម្រូវការផ្នែករឹង និងប៉ារ៉ាម៉ែត្រមួយចំនួនសម្រាប់ការហ្វឹកហាត់ម៉ូដែលនៅក្នុងផ្នែកទី ៤.៤ នៃឯកសារ។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ ESConv ដែលភាគច្រើនផ្តោតលើភាសាអង់គ្លេស និងឆ្លុះបញ្ចាំងពីរបៀបបង្ហាញអារម្មណ៍តាមបែបបស្ចិមប្រទេស។ នេះជាចំណុចប្រុងប្រយ័ត្នមួយសម្រាប់ប្រទេសកម្ពុជា ព្រោះវប្បធម៌នៃការបញ្ចេញមតិ និងការផ្តល់ការគាំទ្រផ្លូវចិត្តរបស់ប្រជាជនខ្មែរ (ដូចជាការនិយាយប្រយោល ឬការគោរពវ័យ) អាចមានលក្ខណៈខុសប្លែកពីទិន្នន័យដើម។
ទោះបីជាមានភាពខុសគ្នាខាងផ្នែកភាសានិងវប្បធម៌ក៏ដោយ រចនាសម្ព័ន្ធនៃម៉ូដែលនេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអភិវឌ្ឍប្រព័ន្ធសន្ទនាឆ្លាតវៃនៅកម្ពុជា។
ជារួម ដើម្បីឱ្យវិធីសាស្ត្រនេះមានប្រសិទ្ធភាពពេញលេញនៅកម្ពុជា គេចាំបាច់ត្រូវបង្កើតសំណុំទិន្នន័យការសន្ទនាគាំទ្រអារម្មណ៍ជាភាសាខ្មែរ (Khmer Emotional Support Dataset) ជាមុនសិន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Empathetic dialogue generation | ដំណើរការដែលប្រព័ន្ធកុំព្យូទ័រ (Chatbot) បង្កើតការឆ្លើយតបដោយមិនត្រឹមតែយល់ពីអត្ថន័យនៃពាក្យសម្តីប៉ុណ្ណោះទេ ថែមទាំងអាចចាប់យកអារម្មណ៍របស់អ្នកប្រើប្រាស់ និងបង្ហាញការយល់ចិត្តតបវិញ។ | ដូចជាមិត្តភក្តិម្នាក់ដែលមិនត្រឹមតែស្តាប់អ្នកនិយាយទេ តែថែមទាំងចេះលួងលោមនិងយល់ចិត្តពេលអ្នកពិបាកចិត្ត។ |
| Support strategy | យុទ្ធសាស្ត្រគាំទ្រផ្លូវចិត្ត (ដូចជាការសួរសំណួរ ការបញ្ជាក់អារម្មណ៍ ឬការផ្តល់ដំបូន្មាន) ដែលម៉ូដែល AI ជ្រើសរើសយកមកប្រើដើម្បីជួយសម្រួលដល់អារម្មណ៍អវិជ្ជមានរបស់អ្នកប្រើប្រាស់ទៅតាមបរិបទជាក់ស្តែង។ | ដូចជាក្បាច់លួងលោមផ្សេងៗគ្នាដែលពេទ្យចិត្តសាស្ត្រប្រើដើម្បីជួយអ្នកជំងឺឱ្យធូរស្បើយផ្លូវចិត្ត។ |
| DialoGPT | ម៉ូដែលភាសាខ្នាតធំដែលត្រូវបានហ្វឹកហាត់ជាមុន (Pre-trained model) ដោយផ្អែកលើស្ថាបត្យកម្ម GPT ពិសេសសម្រាប់ការសន្ទនា ដែលអាចចងចាំនិងឆ្លើយឆ្លងបរិបទវែងឆ្ងាយបានល្អ។ | ដូចជាខួរក្បាលសិប្បនិម្មិតដែលបានអាននិងរៀនពីការសន្ទនារបស់មនុស្សរាប់លានដងរួចមកហើយ ទើបវាចេះឆ្លើយឆ្លងបានរលូន។ |
| Multi-head Attention | យន្តការគណនានៅក្នុងម៉ូដែល Transformer ដែលអនុញ្ញាតឱ្យប្រព័ន្ធអាចផ្តោតការយកចិត្តទុកដាក់ទៅលើពាក្យ ឬផ្នែកផ្សេងៗគ្នានៃប្រយោគក្នុងពេលតែមួយ ដើម្បីយល់ពីទំនាក់ទំនងអត្ថន័យកាន់តែស៊ីជម្រៅ។ | ដូចជាមនុស្សម្នាក់ដែលអាចស្តាប់សំឡេង មើលកាយវិការ និងអានទឹកមុខដៃគូសន្ទនាក្នុងពេលតែមួយ ដើម្បីយល់ពីអត្ថន័យពិតប្រាកដ។ |
| Perplexity (PPL) | រង្វាស់សម្រាប់វាយតម្លៃគុណភាពនៃការបង្កើតភាសារបស់ម៉ូដែល AI។ តម្លៃ PPL កាន់តែទាប មានន័យថាម៉ូដែលទស្សន៍ទាយពាក្យបន្ទាប់បានកាន់តែច្បាស់ និងមិនមានភាពស្ទាក់ស្ទើរ។ | ដូចជារង្វាស់នៃភាពរដាក់រដុបនៃការនិយាយ; បើនិយាយរលូនមិនសូវទាក់ទើរ (PPL ទាប) មានន័យថាគេពូកែភាសានោះ។ |
| Convolutional Neural Networks (CNN) | បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលប្រើសម្រាប់ទាញយករូបរាង ឬលក្ខណៈពិសេស (Features) ពីទិន្នន័យ។ ក្នុងឯកសារនេះ វាត្រូវបានប្រើដើម្បីទាញយកសញ្ញាផ្គូផ្គងពីរង្វាស់ម៉ាទ្រីសនៃអារម្មណ៍និងយុទ្ធសាស្ត្រ។ | ដូចជាកែវពង្រីកដែលជួយស្កេនមើលលំនាំ (Pattern) សំខាន់ៗនៅលើផ្ទាំងទិន្នន័យដើម្បីទាញយកចំណុចពិសេស។ |
| Word2Vec | បច្ចេកទេសបំប្លែងពាក្យនីមួយៗទៅជាវ៉ិចទ័រលេខ (Word Embeddings) ដើម្បីឱ្យកុំព្យូទ័រអាចគណនា និងយល់ពីភាពស្រដៀងគ្នានៃអត្ថន័យរវាងពាក្យទាំងនោះនៅក្នុងលំហគណិតវិទ្យា។ | ដូចជាការផ្តល់លេខកូដទីតាំង (GPS) ទៅឱ្យពាក្យនីមួយៗ; ពាក្យដែលមានន័យស្រដៀងគ្នា នឹងមានលេខកូដទីតាំងនៅជិតគ្នា។ |
| BLEU | រង្វាស់វាយតម្លៃគុណភាពនៃការបង្កើតអត្ថបទ (Text Generation) ដោយវាស់ស្ទង់ភាពស្រដៀងគ្នា (ចំនួនពាក្យជាន់គ្នា) រវាងប្រយោគដែលបង្កើតដោយកុំព្យូទ័រ និងប្រយោគយោងដែលសរសេរដោយមនុស្ស។ | ដូចជាការយកក្រដាសចម្លើយទៅផ្ទឹមជាមួយកូនសោចម្លើយរបស់គ្រូ; បើមានពាក្យត្រូវគ្នាជាន់គ្នាច្រើន គឺបានពិន្ទុខ្ពស់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖