Original Title: 一种融合情感和策略信息的共情对话生成方法
Source: doi.org/10.11999/JEIT231417
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្របង្កើតការសន្ទនាប្រកបដោយការយល់ចិត្តដោយរួមបញ្ចូលព័ត៌មានអារម្មណ៍ និងយុទ្ធសាស្ត្រ

ចំណងជើងដើម៖ 一种融合情感和策略信息的共情对话生成方法

អ្នកនិពន្ធ៖ ZHU Zhenfang (Shandong Jiaotong University), LI Jiaxin (Shandong Normal University), XU Fuyong (Shandong Normal University), LIU Peiyu (Shandong Normal University), ZHANG Guangyuan (Shandong Jiaotong University)

ឆ្នាំបោះពុម្ព៖ 2024 Journal of Electronics & Information Technology

វិស័យសិក្សា៖ Artificial Intelligence / Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធសន្ទនាបច្ចុប្បន្នភាគច្រើនអាចត្រឹមតែសម្គាល់ស្ថានភាពអារម្មណ៍របស់អ្នកប្រើប្រាស់ ប៉ុន្តែមិនទាន់អាចបង្កើតការឆ្លើយតបប្រកបដោយការយល់ចិត្តដែលមានប្រសិទ្ធភាព ឬជួយសម្រាលអារម្មណ៍អវិជ្ជមានរបស់អ្នកប្រើប្រាស់បានឡើយ។

វិធីសាស្ត្រ (The Methodology)៖ ឯកសារស្រាវជ្រាវនេះស្នើឡើងនូវវិធីសាស្ត្របង្កើតការសន្ទនាប្រកបដោយការយល់ចិត្ត (Empathetic Dialogue Generation) ដោយផ្អែកលើការបញ្ចូលគ្នានៃព័ត៌មានអារម្មណ៍និងយុទ្ធសាស្ត្រគាំទ្រ (ESFM)។

ការប្រើប្រាស់បណ្ដាញចំណាត់ថ្នាក់អារម្មណ៍ (Sentiment Classification Network) ដើម្បីតាមដានយ៉ាងសកម្មនូវលក្ខណៈអារម្មណ៍ល្អិតល្អន់របស់អ្នកប្រើប្រាស់។
ការប្រើប្រាស់បណ្ដាញផ្គូផ្គងយុទ្ធសាស្ត្រ (Strategy Matching Network) ដើម្បីភ្ជាប់យុទ្ធសាស្ត្រគាំទ្រទៅនឹងបរិបទនៃការសន្ទនា។
ការបង្កើតបណ្ដាញផលិតការសន្ទនា (Dialogue Generation Network) ដោយប្រើប្រាស់យន្តការយកចិត្តទុកដាក់ពហុក្បាល (Multi-head Attention Mechanism) ដើម្បីបង្កើតចម្លើយឆ្លើយតបដែលមានលក្ខណៈប្រហាក់ប្រហែលទៅនឹងគោលដៅ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

តាមរយៈការពិសោធន៍លើសំណុំទិន្នន័យ ESConv ម៉ូដែលនេះមានភាពប្រសើរជាងវិធីសាស្ត្រមុនៗ (Baselines) ដូចជា DialoGPT ដោយធ្វើឱ្យសូចនាករភាពស្មុគស្មាញ (Perplexity - PPL) មានភាពប្រសើរឡើងប្រហែល ២% ។
ការវាយតម្លៃដោយមនុស្ស (Human Evaluation) បង្ហាញថាម៉ូដែលនេះទទួលបានពិន្ទុខ្ពស់បំផុតលើសមត្ថភាពនៃការយល់ចិត្ត (Empathy) និងភាពពាក់ព័ន្ធនៃការឆ្លើយតប។
ការសិក្សាវិភាគ (Ablation Study) បញ្ជាក់ថា ការរួមបញ្ចូលការចាប់យកអារម្មណ៍ល្អិតល្អន់ និងយុទ្ធសាស្ត្រផ្គូផ្គង ពិតជាមានសារៈសំខាន់ក្នុងការជួយសម្រាលអារម្មណ៍ថប់បារម្ភរបស់អ្នកប្រើប្រាស់យ៉ាងមានប្រសិទ្ធភាព។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Transformer ម៉ូដែលបំប្លែងមូលដ្ឋាន (Seq2Seq)	ងាយស្រួលក្នុងការអនុវត្ត និងជារចនាសម្ព័ន្ធមូលដ្ឋានសម្រាប់ការបង្កើតការសន្ទនាទូទៅ។	គ្មានសមត្ថភាពយល់ពីអារម្មណ៍ ឬបង្កើតការឆ្លើយតបប្រកបដោយការយល់ចិត្តនោះទេ ដោយសារវាខ្វះគោលដៅរៀនសូត្រពីកត្តាអារម្មណ៍។	ទទួលបានពិន្ទុទាបបំផុតលើសូចនាករទាំងអស់ (PPL: 89.61, កម្រិតយល់ចិត្ត: 0.29)។
MoEL / MIME ម៉ូដែលផ្អែកលើការទស្សន៍ទាយអារម្មណ៍	អាចទស្សន៍ទាយនិងចាប់យកព័ត៌មានអារម្មណ៍ជាមូលដ្ឋានពីបរិបទនៃការសន្ទនា។	ចាប់យកបានត្រឹមតែស្លាកអារម្មណ៍បែបឋិតិវន្ត និងមិនមានយុទ្ធសាស្ត្រគាំទ្រផ្លូវចិត្តជាក់លាក់ដើម្បីលួងលោមអ្នកប្រើប្រាស់ឡើយ។	ពិន្ទុវាយតម្លៃដោយមនុស្សលើការយល់ចិត្តនៅទាបនៅឡើយ (MoEL: 0.33, MIME: 0.35)។
DialoGPT ម៉ូដែលភាសាដែលបានហ្វឹកហាត់ជាមុន (Pre-trained Model)	មានសមត្ថភាពខ្ពស់ក្នុងការបង្កើតប្រយោគបានយ៉ាងរលូន និងមានចំណេះដឹងទូលំទូលាយពីទិន្នន័យធំៗ។	នៅខ្វះយន្តការផ្គូផ្គងយុទ្ធសាស្ត្រគាំទ្រអារម្មណ៍ឱ្យបានស៊ីជម្រៅទៅតាមស្ថានភាពអារម្មណ៍ជាក់ស្តែង។	ទទួលបានលទ្ធផលល្អគួរសម ប៉ុន្តែនៅចាញ់ម៉ូដែល ESFM (PPL: 20.4, កម្រិតយល់ចិត្ត: 1.04)។
ESFM (Proposed) ម៉ូដែលរួមបញ្ចូលអារម្មណ៍និងយុទ្ធសាស្ត្រគាំទ្រ (វិធីសាស្ត្រស្នើឡើង)	អាចតាមដានអារម្មណ៍ល្អិតល្អន់របស់អ្នកប្រើប្រាស់យ៉ាងសកម្ម និងជ្រើសរើសយុទ្ធសាស្ត្រឆ្លើយតបបានយ៉ាងត្រឹមត្រូវ។	ទាមទារការរចនាបណ្ដាញស្មុគស្មាញ (មានបណ្ដាញរងចំនួន៣) និងត្រូវការទិន្នន័យដែលមានការបិទស្លាកយុទ្ធសាស្ត្រច្បាស់លាស់។	ដំណើរការល្អបំផុតក្នុងការធ្វើតេស្ត (PPL: 19.82, កម្រិតយល់ចិត្តខ្ពស់បំផុត: 1.15, និងការជ្រើសរើសយុទ្ធសាស្ត្របានត្រឹមត្រូវជាង DialoGPT)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីតម្រូវការផ្នែករឹង និងប៉ារ៉ាម៉ែត្រមួយចំនួនសម្រាប់ការហ្វឹកហាត់ម៉ូដែលនៅក្នុងផ្នែកទី ៤.៤ នៃឯកសារ។

Hardware: ទាមទារកុំព្យូទ័រដែលមានកម្លាំងប្រតិបត្តិការខ្ពស់ ដោយប្រើប្រាស់ក្រាហ្វិកកាត NVIDIA RTX3090 GPU ដែលមានទំហំអង្គចងចាំ (Memory) 24GB។
Dataset: ទិន្នន័យ ESConv (Emotional Support Conversation) ដែលមានផ្ទុកនូវយុទ្ធសាស្ត្រគាំទ្រអារម្មណ៍ចំនួន ៨ ប្រភេទ។
Software & Optimizers: ប្រើប្រាស់ Optimizer ប្រភេទ AdamW និងកំណត់ Learning Rate ត្រឹម 5e-5 ដោយប្រើ Embedding dimension ទំហំ 768។
Pre-trained Models: ទាមទារការប្រើប្រាស់ម៉ូដែល DialoGPT (ផ្អែកលើ GPT-2) និង Word2Vec សម្រាប់ជាមូលដ្ឋានគ្រឹះនៃការអភិវឌ្ឍ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ ESConv ដែលភាគច្រើនផ្តោតលើភាសាអង់គ្លេស និងឆ្លុះបញ្ចាំងពីរបៀបបង្ហាញអារម្មណ៍តាមបែបបស្ចិមប្រទេស។ នេះជាចំណុចប្រុងប្រយ័ត្នមួយសម្រាប់ប្រទេសកម្ពុជា ព្រោះវប្បធម៌នៃការបញ្ចេញមតិ និងការផ្តល់ការគាំទ្រផ្លូវចិត្តរបស់ប្រជាជនខ្មែរ (ដូចជាការនិយាយប្រយោល ឬការគោរពវ័យ) អាចមានលក្ខណៈខុសប្លែកពីទិន្នន័យដើម។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានភាពខុសគ្នាខាងផ្នែកភាសានិងវប្បធម៌ក៏ដោយ រចនាសម្ព័ន្ធនៃម៉ូដែលនេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអភិវឌ្ឍប្រព័ន្ធសន្ទនាឆ្លាតវៃនៅកម្ពុជា។

វិស័យសុខភាពផ្លូវចិត្ត (Mental Health Support): អង្គការក្រៅរដ្ឋាភិបាលដូចជា TPO Cambodia អាចប្រើប្រាស់គំរូនេះដើម្បីបង្កើត Chatbot សម្រាប់ផ្តល់ការប្រឹក្សាបឋម ឬជួយសម្រាលភាពតានតឹងដល់យុវជនខ្មែរដែលមិនហ៊ានទៅជួបគ្រូពេទ្យផ្ទាល់។
សេវាកម្មអតិថិជន (Customer Service): ក្រុមហ៊ុនទូរគមនាគមន៍ (ឧ. Smart, Cellcard) ឬធនាគារ (ឧ. ABA) អាចអនុវត្តបច្ចេកវិទ្យានេះដើម្បីឆ្លើយតបទៅកាន់អតិថិជនដែលកំពុងមានកំហឹង ឬការមិនពេញចិត្ត ឱ្យបានរលូន និងមានការយល់ចិត្តជាងមុន។
វិស័យអប់រំ (Education Sector): សាកលវិទ្យាល័យានានា អាចបង្កើតប្រព័ន្ធសន្ទនាដើម្បីជួយគាំទ្រដល់និស្សិតដែលជួបប្រទះបញ្ហាសម្ពាធការសិក្សា (Academic stress) ដោយផ្តល់នូវការលើកទឹកចិត្ត និងយុទ្ធសាស្ត្រដោះស្រាយបញ្ហា។

ជារួម ដើម្បីឱ្យវិធីសាស្ត្រនេះមានប្រសិទ្ធភាពពេញលេញនៅកម្ពុជា គេចាំបាច់ត្រូវបង្កើតសំណុំទិន្នន័យការសន្ទនាគាំទ្រអារម្មណ៍ជាភាសាខ្មែរ (Khmer Emotional Support Dataset) ជាមុនសិន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃ NLP និង Transformer Models: និស្សិតត្រូវស្វែងយល់ពីរបៀបដំណើរការរបស់បណ្ដាញ Transformer និងយន្តការ Attention Mechanism តាមរយៈការអនុវត្តផ្ទាល់ជាមួយបណ្ណាល័យ Hugging Face Transformers និង PyTorch។
ជំហានទី២៖ ស្វែងយល់ពីម៉ូដែល Pre-trained សម្រាប់ Dialogue: អនុវត្តការប្រើប្រាស់ម៉ូដែល DialoGPT ឬ GPT-2 ដើម្បីបង្កើត Chatbot សាមញ្ញមួយសិន មុននឹងឈានដល់ការបញ្ចូលមុខងារអារម្មណ៍ ដោយអាចសាកល្បង Fine-tune ជាមួយទិន្នន័យតូចៗ។
ជំហានទី៣៖ រៀបចំទិន្នន័យសន្ទនាដែលបង្កប់អារម្មណ៍ជាភាសាខ្មែរ: ប្រមូលទិន្នន័យការសន្ទនា (អាចបកប្រែផ្នែកខ្លះពីសំណុំទិន្នន័យ ESConv) និងបិទស្លាក (Label) នូវប្រភេទអារម្មណ៍ (ឧ. ថប់បារម្ភ, ក្រៀមក្រំ) និងយុទ្ធសាស្ត្រគាំទ្រចំនួន៨ប្រភេទ ដើម្បីប្រើប្រាស់ក្នុងការហ្វឹកហាត់។
ជំហានទី៤៖ អភិវឌ្ឍបណ្ដាញ Sentiment និង Strategy Matching: សរសេរកូដបង្កើតបណ្ដាញចំនួនពីរដាច់ដោយឡែកពីគ្នា គឺផ្នែកសម្រាប់វិភាគអារម្មណ៍ និងផ្នែកប្រើប្រាស់ CNN (Convolutional Neural Networks) ដើម្បីផ្គូផ្គងយុទ្ធសាស្ត្រឆ្លើយតបទៅនឹងបរិបទការសន្ទនា ដូចមានបង្ហាញក្នុងឯកសារ (សមីការទី៥ និងទី៦)។
ជំហានទី៥៖ ហ្វឹកហាត់ម៉ូដែល និងវាយតម្លៃ (Evaluation): បង្វឹកម៉ូដែលទាំងមូលដោយប្រើម៉ាស៊ីនដែលមាន GPU ខ្ពស់ បន្ទាប់មកវាយតម្លៃលទ្ធផលដោយប្រើប្រាស់រង្វាស់ស្វ័យប្រវត្តិដូចជា PPL, BLEU, ROUGE និងរៀបចំឱ្យមានការវាយតម្លៃពីមនុស្សផ្ទាល់ (Human Evaluation) លើកម្រិតនៃការយល់ចិត្ត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Empathetic dialogue generation	ដំណើរការដែលប្រព័ន្ធកុំព្យូទ័រ (Chatbot) បង្កើតការឆ្លើយតបដោយមិនត្រឹមតែយល់ពីអត្ថន័យនៃពាក្យសម្តីប៉ុណ្ណោះទេ ថែមទាំងអាចចាប់យកអារម្មណ៍របស់អ្នកប្រើប្រាស់ និងបង្ហាញការយល់ចិត្តតបវិញ។	ដូចជាមិត្តភក្តិម្នាក់ដែលមិនត្រឹមតែស្តាប់អ្នកនិយាយទេ តែថែមទាំងចេះលួងលោមនិងយល់ចិត្តពេលអ្នកពិបាកចិត្ត។
Support strategy	យុទ្ធសាស្ត្រគាំទ្រផ្លូវចិត្ត (ដូចជាការសួរសំណួរ ការបញ្ជាក់អារម្មណ៍ ឬការផ្តល់ដំបូន្មាន) ដែលម៉ូដែល AI ជ្រើសរើសយកមកប្រើដើម្បីជួយសម្រួលដល់អារម្មណ៍អវិជ្ជមានរបស់អ្នកប្រើប្រាស់ទៅតាមបរិបទជាក់ស្តែង។	ដូចជាក្បាច់លួងលោមផ្សេងៗគ្នាដែលពេទ្យចិត្តសាស្ត្រប្រើដើម្បីជួយអ្នកជំងឺឱ្យធូរស្បើយផ្លូវចិត្ត។
DialoGPT	ម៉ូដែលភាសាខ្នាតធំដែលត្រូវបានហ្វឹកហាត់ជាមុន (Pre-trained model) ដោយផ្អែកលើស្ថាបត្យកម្ម GPT ពិសេសសម្រាប់ការសន្ទនា ដែលអាចចងចាំនិងឆ្លើយឆ្លងបរិបទវែងឆ្ងាយបានល្អ។	ដូចជាខួរក្បាលសិប្បនិម្មិតដែលបានអាននិងរៀនពីការសន្ទនារបស់មនុស្សរាប់លានដងរួចមកហើយ ទើបវាចេះឆ្លើយឆ្លងបានរលូន។
Multi-head Attention	យន្តការគណនានៅក្នុងម៉ូដែល Transformer ដែលអនុញ្ញាតឱ្យប្រព័ន្ធអាចផ្តោតការយកចិត្តទុកដាក់ទៅលើពាក្យ ឬផ្នែកផ្សេងៗគ្នានៃប្រយោគក្នុងពេលតែមួយ ដើម្បីយល់ពីទំនាក់ទំនងអត្ថន័យកាន់តែស៊ីជម្រៅ។	ដូចជាមនុស្សម្នាក់ដែលអាចស្តាប់សំឡេង មើលកាយវិការ និងអានទឹកមុខដៃគូសន្ទនាក្នុងពេលតែមួយ ដើម្បីយល់ពីអត្ថន័យពិតប្រាកដ។
Perplexity (PPL)	រង្វាស់សម្រាប់វាយតម្លៃគុណភាពនៃការបង្កើតភាសារបស់ម៉ូដែល AI។ តម្លៃ PPL កាន់តែទាប មានន័យថាម៉ូដែលទស្សន៍ទាយពាក្យបន្ទាប់បានកាន់តែច្បាស់ និងមិនមានភាពស្ទាក់ស្ទើរ។	ដូចជារង្វាស់នៃភាពរដាក់រដុបនៃការនិយាយ; បើនិយាយរលូនមិនសូវទាក់ទើរ (PPL ទាប) មានន័យថាគេពូកែភាសានោះ។
Convolutional Neural Networks (CNN)	បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលប្រើសម្រាប់ទាញយករូបរាង ឬលក្ខណៈពិសេស (Features) ពីទិន្នន័យ។ ក្នុងឯកសារនេះ វាត្រូវបានប្រើដើម្បីទាញយកសញ្ញាផ្គូផ្គងពីរង្វាស់ម៉ាទ្រីសនៃអារម្មណ៍និងយុទ្ធសាស្ត្រ។	ដូចជាកែវពង្រីកដែលជួយស្កេនមើលលំនាំ (Pattern) សំខាន់ៗនៅលើផ្ទាំងទិន្នន័យដើម្បីទាញយកចំណុចពិសេស។
Word2Vec	បច្ចេកទេសបំប្លែងពាក្យនីមួយៗទៅជាវ៉ិចទ័រលេខ (Word Embeddings) ដើម្បីឱ្យកុំព្យូទ័រអាចគណនា និងយល់ពីភាពស្រដៀងគ្នានៃអត្ថន័យរវាងពាក្យទាំងនោះនៅក្នុងលំហគណិតវិទ្យា។	ដូចជាការផ្តល់លេខកូដទីតាំង (GPS) ទៅឱ្យពាក្យនីមួយៗ; ពាក្យដែលមានន័យស្រដៀងគ្នា នឹងមានលេខកូដទីតាំងនៅជិតគ្នា។
BLEU	រង្វាស់វាយតម្លៃគុណភាពនៃការបង្កើតអត្ថបទ (Text Generation) ដោយវាស់ស្ទង់ភាពស្រដៀងគ្នា (ចំនួនពាក្យជាន់គ្នា) រវាងប្រយោគដែលបង្កើតដោយកុំព្យូទ័រ និងប្រយោគយោងដែលសរសេរដោយមនុស្ស។	ដូចជាការយកក្រដាសចម្លើយទៅផ្ទឹមជាមួយកូនសោចម្លើយរបស់គ្រូ; បើមានពាក្យត្រូវគ្នាជាន់គ្នាច្រើន គឺបានពិន្ទុខ្ពស់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖