Original Title: 一种融合情感和策略信息的共情对话生成方法
Source: doi.org/10.11999/JEIT231417
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្របង្កើតការសន្ទនាប្រកបដោយការយល់ចិត្តដោយរួមបញ្ចូលព័ត៌មានអារម្មណ៍ និងយុទ្ធសាស្ត្រ

ចំណងជើងដើម៖ 一种融合情感和策略信息的共情对话生成方法

អ្នកនិពន្ធ៖ ZHU Zhenfang (Shandong Jiaotong University), LI Jiaxin (Shandong Normal University), XU Fuyong (Shandong Normal University), LIU Peiyu (Shandong Normal University), ZHANG Guangyuan (Shandong Jiaotong University)

ឆ្នាំបោះពុម្ព៖ 2024 Journal of Electronics & Information Technology

វិស័យសិក្សា៖ Artificial Intelligence / Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធសន្ទនាបច្ចុប្បន្នភាគច្រើនអាចត្រឹមតែសម្គាល់ស្ថានភាពអារម្មណ៍របស់អ្នកប្រើប្រាស់ ប៉ុន្តែមិនទាន់អាចបង្កើតការឆ្លើយតបប្រកបដោយការយល់ចិត្តដែលមានប្រសិទ្ធភាព ឬជួយសម្រាលអារម្មណ៍អវិជ្ជមានរបស់អ្នកប្រើប្រាស់បានឡើយ។

វិធីសាស្ត្រ (The Methodology)៖ ឯកសារស្រាវជ្រាវនេះស្នើឡើងនូវវិធីសាស្ត្របង្កើតការសន្ទនាប្រកបដោយការយល់ចិត្ត (Empathetic Dialogue Generation) ដោយផ្អែកលើការបញ្ចូលគ្នានៃព័ត៌មានអារម្មណ៍និងយុទ្ធសាស្ត្រគាំទ្រ (ESFM)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Transformer
ម៉ូដែលបំប្លែងមូលដ្ឋាន (Seq2Seq)
ងាយស្រួលក្នុងការអនុវត្ត និងជារចនាសម្ព័ន្ធមូលដ្ឋានសម្រាប់ការបង្កើតការសន្ទនាទូទៅ។ គ្មានសមត្ថភាពយល់ពីអារម្មណ៍ ឬបង្កើតការឆ្លើយតបប្រកបដោយការយល់ចិត្តនោះទេ ដោយសារវាខ្វះគោលដៅរៀនសូត្រពីកត្តាអារម្មណ៍។ ទទួលបានពិន្ទុទាបបំផុតលើសូចនាករទាំងអស់ (PPL: 89.61, កម្រិតយល់ចិត្ត: 0.29)។
MoEL / MIME
ម៉ូដែលផ្អែកលើការទស្សន៍ទាយអារម្មណ៍
អាចទស្សន៍ទាយនិងចាប់យកព័ត៌មានអារម្មណ៍ជាមូលដ្ឋានពីបរិបទនៃការសន្ទនា។ ចាប់យកបានត្រឹមតែស្លាកអារម្មណ៍បែបឋិតិវន្ត និងមិនមានយុទ្ធសាស្ត្រគាំទ្រផ្លូវចិត្តជាក់លាក់ដើម្បីលួងលោមអ្នកប្រើប្រាស់ឡើយ។ ពិន្ទុវាយតម្លៃដោយមនុស្សលើការយល់ចិត្តនៅទាបនៅឡើយ (MoEL: 0.33, MIME: 0.35)។
DialoGPT
ម៉ូដែលភាសាដែលបានហ្វឹកហាត់ជាមុន (Pre-trained Model)
មានសមត្ថភាពខ្ពស់ក្នុងការបង្កើតប្រយោគបានយ៉ាងរលូន និងមានចំណេះដឹងទូលំទូលាយពីទិន្នន័យធំៗ។ នៅខ្វះយន្តការផ្គូផ្គងយុទ្ធសាស្ត្រគាំទ្រអារម្មណ៍ឱ្យបានស៊ីជម្រៅទៅតាមស្ថានភាពអារម្មណ៍ជាក់ស្តែង។ ទទួលបានលទ្ធផលល្អគួរសម ប៉ុន្តែនៅចាញ់ម៉ូដែល ESFM (PPL: 20.4, កម្រិតយល់ចិត្ត: 1.04)។
ESFM (Proposed)
ម៉ូដែលរួមបញ្ចូលអារម្មណ៍និងយុទ្ធសាស្ត្រគាំទ្រ (វិធីសាស្ត្រស្នើឡើង)
អាចតាមដានអារម្មណ៍ល្អិតល្អន់របស់អ្នកប្រើប្រាស់យ៉ាងសកម្ម និងជ្រើសរើសយុទ្ធសាស្ត្រឆ្លើយតបបានយ៉ាងត្រឹមត្រូវ។ ទាមទារការរចនាបណ្ដាញស្មុគស្មាញ (មានបណ្ដាញរងចំនួន៣) និងត្រូវការទិន្នន័យដែលមានការបិទស្លាកយុទ្ធសាស្ត្រច្បាស់លាស់។ ដំណើរការល្អបំផុតក្នុងការធ្វើតេស្ត (PPL: 19.82, កម្រិតយល់ចិត្តខ្ពស់បំផុត: 1.15, និងការជ្រើសរើសយុទ្ធសាស្ត្របានត្រឹមត្រូវជាង DialoGPT)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីតម្រូវការផ្នែករឹង និងប៉ារ៉ាម៉ែត្រមួយចំនួនសម្រាប់ការហ្វឹកហាត់ម៉ូដែលនៅក្នុងផ្នែកទី ៤.៤ នៃឯកសារ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ ESConv ដែលភាគច្រើនផ្តោតលើភាសាអង់គ្លេស និងឆ្លុះបញ្ចាំងពីរបៀបបង្ហាញអារម្មណ៍តាមបែបបស្ចិមប្រទេស។ នេះជាចំណុចប្រុងប្រយ័ត្នមួយសម្រាប់ប្រទេសកម្ពុជា ព្រោះវប្បធម៌នៃការបញ្ចេញមតិ និងការផ្តល់ការគាំទ្រផ្លូវចិត្តរបស់ប្រជាជនខ្មែរ (ដូចជាការនិយាយប្រយោល ឬការគោរពវ័យ) អាចមានលក្ខណៈខុសប្លែកពីទិន្នន័យដើម។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានភាពខុសគ្នាខាងផ្នែកភាសានិងវប្បធម៌ក៏ដោយ រចនាសម្ព័ន្ធនៃម៉ូដែលនេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអភិវឌ្ឍប្រព័ន្ធសន្ទនាឆ្លាតវៃនៅកម្ពុជា។

ជារួម ដើម្បីឱ្យវិធីសាស្ត្រនេះមានប្រសិទ្ធភាពពេញលេញនៅកម្ពុជា គេចាំបាច់ត្រូវបង្កើតសំណុំទិន្នន័យការសន្ទនាគាំទ្រអារម្មណ៍ជាភាសាខ្មែរ (Khmer Emotional Support Dataset) ជាមុនសិន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃ NLP និង Transformer Models: និស្សិតត្រូវស្វែងយល់ពីរបៀបដំណើរការរបស់បណ្ដាញ Transformer និងយន្តការ Attention Mechanism តាមរយៈការអនុវត្តផ្ទាល់ជាមួយបណ្ណាល័យ Hugging Face Transformers និង PyTorch
  2. ជំហានទី២៖ ស្វែងយល់ពីម៉ូដែល Pre-trained សម្រាប់ Dialogue: អនុវត្តការប្រើប្រាស់ម៉ូដែល DialoGPTGPT-2 ដើម្បីបង្កើត Chatbot សាមញ្ញមួយសិន មុននឹងឈានដល់ការបញ្ចូលមុខងារអារម្មណ៍ ដោយអាចសាកល្បង Fine-tune ជាមួយទិន្នន័យតូចៗ។
  3. ជំហានទី៣៖ រៀបចំទិន្នន័យសន្ទនាដែលបង្កប់អារម្មណ៍ជាភាសាខ្មែរ: ប្រមូលទិន្នន័យការសន្ទនា (អាចបកប្រែផ្នែកខ្លះពីសំណុំទិន្នន័យ ESConv) និងបិទស្លាក (Label) នូវប្រភេទអារម្មណ៍ (ឧ. ថប់បារម្ភ, ក្រៀមក្រំ) និងយុទ្ធសាស្ត្រគាំទ្រចំនួន៨ប្រភេទ ដើម្បីប្រើប្រាស់ក្នុងការហ្វឹកហាត់។
  4. ជំហានទី៤៖ អភិវឌ្ឍបណ្ដាញ Sentiment និង Strategy Matching: សរសេរកូដបង្កើតបណ្ដាញចំនួនពីរដាច់ដោយឡែកពីគ្នា គឺផ្នែកសម្រាប់វិភាគអារម្មណ៍ និងផ្នែកប្រើប្រាស់ CNN (Convolutional Neural Networks) ដើម្បីផ្គូផ្គងយុទ្ធសាស្ត្រឆ្លើយតបទៅនឹងបរិបទការសន្ទនា ដូចមានបង្ហាញក្នុងឯកសារ (សមីការទី៥ និងទី៦)។
  5. ជំហានទី៥៖ ហ្វឹកហាត់ម៉ូដែល និងវាយតម្លៃ (Evaluation): បង្វឹកម៉ូដែលទាំងមូលដោយប្រើម៉ាស៊ីនដែលមាន GPU ខ្ពស់ បន្ទាប់មកវាយតម្លៃលទ្ធផលដោយប្រើប្រាស់រង្វាស់ស្វ័យប្រវត្តិដូចជា PPL, BLEU, ROUGE និងរៀបចំឱ្យមានការវាយតម្លៃពីមនុស្សផ្ទាល់ (Human Evaluation) លើកម្រិតនៃការយល់ចិត្ត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Empathetic dialogue generation ដំណើរការដែលប្រព័ន្ធកុំព្យូទ័រ (Chatbot) បង្កើតការឆ្លើយតបដោយមិនត្រឹមតែយល់ពីអត្ថន័យនៃពាក្យសម្តីប៉ុណ្ណោះទេ ថែមទាំងអាចចាប់យកអារម្មណ៍របស់អ្នកប្រើប្រាស់ និងបង្ហាញការយល់ចិត្តតបវិញ។ ដូចជាមិត្តភក្តិម្នាក់ដែលមិនត្រឹមតែស្តាប់អ្នកនិយាយទេ តែថែមទាំងចេះលួងលោមនិងយល់ចិត្តពេលអ្នកពិបាកចិត្ត។
Support strategy យុទ្ធសាស្ត្រគាំទ្រផ្លូវចិត្ត (ដូចជាការសួរសំណួរ ការបញ្ជាក់អារម្មណ៍ ឬការផ្តល់ដំបូន្មាន) ដែលម៉ូដែល AI ជ្រើសរើសយកមកប្រើដើម្បីជួយសម្រួលដល់អារម្មណ៍អវិជ្ជមានរបស់អ្នកប្រើប្រាស់ទៅតាមបរិបទជាក់ស្តែង។ ដូចជាក្បាច់លួងលោមផ្សេងៗគ្នាដែលពេទ្យចិត្តសាស្ត្រប្រើដើម្បីជួយអ្នកជំងឺឱ្យធូរស្បើយផ្លូវចិត្ត។
DialoGPT ម៉ូដែលភាសាខ្នាតធំដែលត្រូវបានហ្វឹកហាត់ជាមុន (Pre-trained model) ដោយផ្អែកលើស្ថាបត្យកម្ម GPT ពិសេសសម្រាប់ការសន្ទនា ដែលអាចចងចាំនិងឆ្លើយឆ្លងបរិបទវែងឆ្ងាយបានល្អ។ ដូចជាខួរក្បាលសិប្បនិម្មិតដែលបានអាននិងរៀនពីការសន្ទនារបស់មនុស្សរាប់លានដងរួចមកហើយ ទើបវាចេះឆ្លើយឆ្លងបានរលូន។
Multi-head Attention យន្តការគណនានៅក្នុងម៉ូដែល Transformer ដែលអនុញ្ញាតឱ្យប្រព័ន្ធអាចផ្តោតការយកចិត្តទុកដាក់ទៅលើពាក្យ ឬផ្នែកផ្សេងៗគ្នានៃប្រយោគក្នុងពេលតែមួយ ដើម្បីយល់ពីទំនាក់ទំនងអត្ថន័យកាន់តែស៊ីជម្រៅ។ ដូចជាមនុស្សម្នាក់ដែលអាចស្តាប់សំឡេង មើលកាយវិការ និងអានទឹកមុខដៃគូសន្ទនាក្នុងពេលតែមួយ ដើម្បីយល់ពីអត្ថន័យពិតប្រាកដ។
Perplexity (PPL) រង្វាស់សម្រាប់វាយតម្លៃគុណភាពនៃការបង្កើតភាសារបស់ម៉ូដែល AI។ តម្លៃ PPL កាន់តែទាប មានន័យថាម៉ូដែលទស្សន៍ទាយពាក្យបន្ទាប់បានកាន់តែច្បាស់ និងមិនមានភាពស្ទាក់ស្ទើរ។ ដូចជារង្វាស់នៃភាពរដាក់រដុបនៃការនិយាយ; បើនិយាយរលូនមិនសូវទាក់ទើរ (PPL ទាប) មានន័យថាគេពូកែភាសានោះ។
Convolutional Neural Networks (CNN) បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលប្រើសម្រាប់ទាញយករូបរាង ឬលក្ខណៈពិសេស (Features) ពីទិន្នន័យ។ ក្នុងឯកសារនេះ វាត្រូវបានប្រើដើម្បីទាញយកសញ្ញាផ្គូផ្គងពីរង្វាស់ម៉ាទ្រីសនៃអារម្មណ៍និងយុទ្ធសាស្ត្រ។ ដូចជាកែវពង្រីកដែលជួយស្កេនមើលលំនាំ (Pattern) សំខាន់ៗនៅលើផ្ទាំងទិន្នន័យដើម្បីទាញយកចំណុចពិសេស។
Word2Vec បច្ចេកទេសបំប្លែងពាក្យនីមួយៗទៅជាវ៉ិចទ័រលេខ (Word Embeddings) ដើម្បីឱ្យកុំព្យូទ័រអាចគណនា និងយល់ពីភាពស្រដៀងគ្នានៃអត្ថន័យរវាងពាក្យទាំងនោះនៅក្នុងលំហគណិតវិទ្យា។ ដូចជាការផ្តល់លេខកូដទីតាំង (GPS) ទៅឱ្យពាក្យនីមួយៗ; ពាក្យដែលមានន័យស្រដៀងគ្នា នឹងមានលេខកូដទីតាំងនៅជិតគ្នា។
BLEU រង្វាស់វាយតម្លៃគុណភាពនៃការបង្កើតអត្ថបទ (Text Generation) ដោយវាស់ស្ទង់ភាពស្រដៀងគ្នា (ចំនួនពាក្យជាន់គ្នា) រវាងប្រយោគដែលបង្កើតដោយកុំព្យូទ័រ និងប្រយោគយោងដែលសរសេរដោយមនុស្ស។ ដូចជាការយកក្រដាសចម្លើយទៅផ្ទឹមជាមួយកូនសោចម្លើយរបស់គ្រូ; បើមានពាក្យត្រូវគ្នាជាន់គ្នាច្រើន គឺបានពិន្ទុខ្ពស់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖