Original Title: EMOTIONALLY INTELLIGENT AI: ENHANCING HUMAN-COMPUTER INTERACTION THROUGH NLP AND SENTIMENT ANALYSIS
Source: doi.org/10.5281/zenodo.15363167
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

បញ្ញាសិប្បនិម្មិតដែលមានភាពឆ្លាតវៃផ្នែកអារម្មណ៍៖ ការលើកកម្ពស់អន្តរកម្មរវាងមនុស្សនិងកុំព្យូទ័រតាមរយៈ NLP និងការវិភាគមនោសញ្ចេតនា

ចំណងជើងដើម៖ EMOTIONALLY INTELLIGENT AI: ENHANCING HUMAN-COMPUTER INTERACTION THROUGH NLP AND SENTIMENT ANALYSIS

អ្នកនិពន្ធ៖ Mamoona Akhtar, Ayesha Mumtaz, Muhammad Zaman, Shahid Ameer, Hafiza Sana Fatima, Narges Shahbaz, Syed Sami Ahmad Samar Bukhari

ឆ្នាំបោះពុម្ព៖ 2025 Policy Research Journal

វិស័យសិក្សា៖ Artificial Intelligence / Human-Computer Interaction

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃប្រព័ន្ធសន្ទនា AI ប្រពៃណី ដែលខ្វះភាពឆ្លាតវៃផ្នែកអារម្មណ៍ ដោយផ្តល់ត្រឹមតែចម្លើយដែលបានកំណត់ទុកជាមុន និងមិនមានសមត្ថភាពក្នុងការយល់ចិត្ត ឬសម្របតាមមនោសញ្ចេតនាពិតប្រាកដរបស់អ្នកប្រើប្រាស់។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់វិធីសាស្ត្ររួមបញ្ចូលគ្នារវាងដំណើរការភាសាធម្មជាតិ (NLP) និងការរៀនស៊ីជម្រៅ (Deep Learning) តាមរយៈស្ថាបត្យកម្ម Transformer ដើម្បីបង្កើតប្រព័ន្ធសន្ទនាដែលមានភាពឆ្លាតវៃ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Traditional / Lexicon-based AI Dialogue Systems
ប្រព័ន្ធសន្ទនា AI ប្រពៃណី និងផ្អែកលើវចនានុក្រម
ងាយស្រួលក្នុងការអភិវឌ្ឍ លឿន និងមានប្រសិទ្ធភាពសម្រាប់ការឆ្លើយតបព័ត៌មានទូទៅ និងកិច្ចការមូលដ្ឋាន។ ខ្វះការយល់ដឹងពីបរិបទ និងពឹងផ្អែកលើចម្លើយដែលបានកំណត់ទុកជាមុន ធ្វើឱ្យការសន្ទនាមានភាពរឹងត្អឹង និងមិនអាចឆ្លើយតបតាមអារម្មណ៍ពិតរបស់អ្នកប្រើប្រាស់។ មានភាពត្រឹមត្រូវនៃការទទួលស្គាល់អារម្មណ៍ជាមធ្យមចន្លោះពី ៨០% ទៅ ៨៨% (យោងតាមការសិក្សាមុនៗ)។
Emotionally Intelligent AI (DistilBERT + Generative AI)
ប្រព័ន្ធ AI ឆ្លាតវៃផ្នែកអារម្មណ៍ (ស្នើឡើងក្នុងការសិក្សា)
មានសមត្ថភាពខ្ពស់ក្នុងការស្វែងយល់បរិបទសន្ទនា ចាប់យកអារម្មណ៍បានជាក់លាក់ និងអាចបង្កើតការឆ្លើយតបប្រកបដោយការយល់ចិត្ត (Empathetic Response)។ នៅមានការលំបាកក្នុងការចាប់យកអារម្មណ៍អវិជ្ជមានដែលស្មុគស្មាញ (ដូចជា កំហឹង និងភាពសោកសៅ) និងទាមទារទិន្នន័យហ្វឹកហាត់ដែលមានភាពចម្រុះផ្នែកវប្បធម៌។ ទទួលបានភាពត្រឹមត្រូវសរុប ៩២% សម្រាប់ការទទួលស្គាល់អារម្មណ៍ និងពិន្ទុខ្ពស់លើការវាយតម្លៃភាពពាក់ព័ន្ធ (៤.៦/៥) និងភាពស៊ីសង្វាក់គ្នា (៤.៥/៥) នៃការឆ្លើយតប។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់លម្អិតពីតម្លៃ និងទំហំធនធានក៏ដោយ ការប្រើប្រាស់ម៉ូដែលរៀនស៊ីជម្រៅ (Deep Learning) និង Transformer ទាមទារធនធានកុំព្យូទ័រនិងទិន្នន័យច្រើន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យសន្ទនាដែលមានស្រាប់ជាសាធារណៈ ដែលភាគច្រើនអាចមានប្រភពពីប្រទេសលោកខាងលិច (Western-centric datasets)។ នេះជាចំណុចប្រឈមមួយសម្រាប់ប្រទេសកម្ពុជា ព្រោះការបញ្ចេញអារម្មណ៍ និងបរិបទវប្បធម៌របស់ប្រជាជនខ្មែរមានលក្ខណៈពិសេស ដែលអាចធ្វើឱ្យម៉ូដែលនេះមិនសូវសុក្រឹតនៅពេលយកមកអនុវត្តផ្ទាល់ ប្រសិនបើមិនមានការបង្វឹកបន្ថែមជាមួយទិន្នន័យភាសា និងវប្បធម៌ខ្មែរ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ប្រព័ន្ធ AI ដែលមានភាពឆ្លាតវៃផ្នែកអារម្មណ៍នេះមានសក្តានុពល និងសារៈប្រយោជន៍ខ្ពស់ក្នុងការយកមកអនុវត្តនៅប្រទេសកម្ពុជា ជាពិសេសក្នុងការលើកកម្ពស់សេវាកម្មឌីជីថល។

ការធ្វើមូលដ្ឋានីយកម្ម (Localization) នូវប្រព័ន្ធនេះដោយប្រើប្រាស់ និងបង្ហាត់ទិន្នន័យជាភាសាខ្មែរ នឹងជួយផ្លាស់ប្តូររបៀបដែលស្ថាប័ននៅកម្ពុជាធ្វើអន្តរកម្មជាមួយអតិថិជន និងប្រជាពលរដ្ឋឱ្យកាន់តែមានភាពស្និទ្ធស្នាល និងយល់ចិត្ត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ូដែលភាសា: ចាប់ផ្តើមរៀនអំពី Natural Language Processing (NLP) ដោយផ្តោតលើស្ថាបត្យកម្ម Transformer តាមរយៈការសិក្សាវគ្គខ្លីៗលើ Coursera ឬអានឯកសារណែនាំរបស់ Hugging Face ដើម្បីយល់ពីរបៀបដំណើរការរបស់ម៉ូដែលភាសា។
  2. ប្រមូល និងបិទស្លាកទិន្នន័យភាសាខ្មែរ: ចាប់ផ្តើមប្រមូលទិន្នន័យអត្ថបទសន្ទនាជាភាសាខ្មែរ (ឧទាហរណ៍ពីមតិយោបល់លើបណ្តាញសង្គម ឬវេទិកាសាធារណៈ) រួចធ្វើការបិទស្លាកអារម្មណ៍ (Emotion Annotation) ដូចជា សប្បាយ កំហឹង សោកសៅ ដោយប្រើប្រាស់ឧបករណ៍ដូចជា DoccanoLabel Studio
  3. ធ្វើការបង្វឹកម៉ូដែលកម្រិតខ្ពស់ (Model Fine-tuning): ប្រើប្រាស់ភាសា Python និងបណ្ណាល័យ Transformers ដើម្បីយកម៉ូដែល DistilBERT ឬម៉ូដែលដែលគាំទ្រភាសាខ្មែរ មកធ្វើ Fine-tuning ជាមួយសំណុំទិន្នន័យដែលបានរៀបចំរួច ដោយអាចប្រើប្រាស់ Google Colab សម្រាប់កម្លាំង GPU ឥតគិតថ្លៃ។
  4. ភ្ជាប់ប្រព័ន្ធឆ្លើយតបប្រកបដោយការយល់ចិត្ត: សិក្សាពីការប្រើប្រាស់ Generative AI models (ឧទាហរណ៍ GPT models) ដើម្បីយកលទ្ធផលនៃអារម្មណ៍ដែលម៉ូដែលទីមួយរកឃើញ ទៅបង្កើតជាការឆ្លើយតប (Empathetic Response) ដែលស័ក្តិសមនឹងបរិបទសន្ទនាជាភាសាខ្មែរ។
  5. សាកល្បង វាយតម្លៃ និងកែលម្អប្រព័ន្ធ: បង្កើតជាគំរូសាកល្បង Prototype Chatbot (អាចប្រើ StreamlitGradio) ហើយឱ្យអ្នកប្រើប្រាស់ពិតប្រាកដសាកល្បង ដើម្បីប្រមូលមតិកែលម្អ និងធ្វើការកែសម្រួលម៉ូដែល ជាពិសេសដើម្បីធានាភាពស៊ីសង្វាក់គ្នានឹងវប្បធម៌ខ្មែរ និងក្រមសីលធម៌នៃការប្រើប្រាស់ទិន្នន័យ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Natural language processing (NLP) ជាបច្ចេកវិទ្យាមួយនៅក្នុងវិស័យបញ្ញាសិប្បនិម្មិត (AI) ដែលផ្តល់សមត្ថភាពដល់កុំព្យូទ័រក្នុងការយល់ដឹង បកស្រាយ និងដំណើរការភាសានិយាយ ឬសរសេររបស់អ្នកប្រើប្រាស់ ដើម្បីទាញយកអត្ថន័យ និងសម្រួលដល់ការឆ្លើយឆ្លងរវាងមនុស្សនិងម៉ាស៊ីន។ ដូចជាការបង្រៀនជនបរទេសម្នាក់ឱ្យយល់ពីអត្ថន័យនិងវេយ្យាករណ៍នៃភាសាខ្មែរ ដើម្បីឱ្យគេអាចនិយាយឆ្លើយឆ្លងជាមួយយើងបានយ៉ាងរលូន។
Sentiment analysis គឺជាដំណើរការប្រើប្រាស់កុំព្យូទ័រដើម្បីវិភាគអត្ថបទ និងកំណត់ថាតើអត្ថន័យនៃសារនោះមានលក្ខណៈវិជ្ជមាន អវិជ្ជមាន ឬអព្យាក្រឹត្យ ដែលជួយឱ្យប្រព័ន្ធដឹងពីអារម្មណ៍ទូទៅរបស់អ្នកនិយាយ ឬអ្នកសរសេរដោយស្វ័យប្រវត្តិ។ ដូចជាការអានសំបុត្រមួយច្បាប់ រួចសន្និដ្ឋានភ្លាមៗថាអ្នកសរសេរកំពុងសប្បាយចិត្ត ខឹង ឬមានអារម្មណ៍ធម្មតា។
Transformer model ជាស្ថាបត្យកម្មនៃបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដ៏មានឥទ្ធិពលមួយ ដែលត្រូវបានរចនាឡើងដើម្បីស្វែងយល់ពីទំនាក់ទំនងនៃពាក្យនីមួយៗក្នុងប្រយោគទាំងមូលក្នុងពេលតែមួយ ដែលធ្វើឱ្យវាយល់បរិបទបានច្បាស់លាស់និងលឿនជាងការគណនាពាក្យម្តងមួយៗ។ ដូចជាអ្នកអានសៀវភៅដែលសម្លឹងមើលឃើញនិងយល់អត្ថន័យប្រយោគទាំងមូលក្នុងពេលតែមួយ ជាជាងការអាននិងបកប្រែម្ដងមួយពាក្យៗ។
DistilBERT គឺជាប្រភេទម៉ូដែលភាសាជាក់លាក់មួយ (ផ្អែកលើស្ថាបត្យកម្ម Transformer) ដែលត្រូវបានបង្រួមទំហំឱ្យតូចជាងម៉ូដែលដើម (BERT) ប៉ុន្តែនៅតែរក្សាបាននូវសមត្ថភាពខ្ពស់ និងអាចដំណើរការបានលឿនជាងមុនក្នុងការចាត់ថ្នាក់អារម្មណ៍ទិន្នន័យ។ ដូចជាសៀវភៅសង្ខេបមេរៀនដែលខ្លីងាយយល់ និងចំណាយពេលអានតិច ប៉ុន្តែនៅតែមានអត្ថន័យគ្រប់គ្រាន់ដូចសៀវភៅកម្រាស់ក្រាស់ដដែល។
Empathetic response generation ជាដំណើរការដែលប្រព័ន្ធបញ្ញាសិប្បនិម្មិតបង្កើតចម្លើយតបទៅកាន់អ្នកប្រើប្រាស់ដោយមិនត្រឹមតែផ្តល់ព័ត៌មានត្រឹមត្រូវប៉ុណ្ណោះទេ តែថែមទាំងប្រើប្រាស់ពាក្យពេចន៍ដែលបង្ហាញពីការយកចិត្តទុកដាក់ និងការយល់ចិត្តស្របតាមស្ថានភាពអារម្មណ៍ពិតប្រាកដរបស់អ្នកប្រើប្រាស់។ ដូចជាមិត្តភក្តិម្នាក់ដែលចេះនិយាយលួងលោមអ្នកពេលអ្នកកំពុងពិបាកចិត្ត ជាជាងគ្រាន់តែប្រាប់ពីដំណោះស្រាយស្ងួតៗ។
Generative AI model ជាប្រភេទប្រព័ន្ធ AI ដែលមានសមត្ថភាពបង្កើតទិន្នន័យថ្មីៗ ដូចជា អត្ថបទ រូបភាព ឬសំឡេង ដែលមានលក្ខណៈធម្មជាតិនិងរលូន ដោយផ្អែកលើការទាញយកចំណេះដឹងពីទិន្នន័យគំរូរាប់លានដែលមានស្រាប់។ ដូចជាចុងភៅដែលរៀនចងចាំរូបមន្តម្ហូបរាប់ពាន់មុខ រួចអាចច្នៃបង្កើតមុខម្ហូបថ្មីមួយដោយខ្លួនឯងដែលមិនធ្លាប់មានពីមុនមក។
Tokenization ជាជំហានដំបូងក្នុងការរៀបចំទិន្នន័យសម្រាប់ម៉ូដែល AI ដោយធ្វើការបំបែកអត្ថបទ ឬប្រយោគវែងៗ ទៅជាកង់តូចៗ (ដូចជាពាក្យនីមួយៗ ឬតួអក្សរ) ដើម្បីបំប្លែងទៅជាលេខកូដ ដែលធ្វើឱ្យកុំព្យូទ័រអាចអាន គណនា និងវិភាគបានយ៉ាងងាយស្រួល។ ដូចជាការហាន់បន្លែជាដុំតូចៗមុននឹងដាក់ចូលក្នុងឆ្នាំង ដើម្បីឱ្យវាងាយឆ្អិននិងចូលជាតិគ្នាល្អ។
Multimodal emotion analysis គឺជាការវិភាគអារម្មណ៍ដោយប្រមូលផ្តុំព័ត៌មានពីប្រភពច្រើនប្រភេទក្នុងពេលតែមួយ ដូចជា ការរួមបញ្ចូលគ្នានូវអត្ថបទដែលបានសរសេរ សម្លេងដែលបញ្ចេញ និងទឹកមុខរបស់អ្នកនិយាយ ដើម្បីទាញយកការសន្និដ្ឋានមួយដែលកាន់តែសុក្រឹតនិងជឿទុកចិត្តបាន។ ដូចជាពេទ្យដែលធ្វើរោគវិនិច្ឆ័យជំងឺដោយមើលទាំងលទ្ធផលឈាម ថតកាំរស្មីអ៊ិច និងស្តាប់ការរៀបរាប់របស់អ្នកជំងឺក្នុងពេលតែមួយ ដើម្បីឱ្យប្រាកដថាជាជំងឺអ្វីពិតប្រាកដ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖