Original Title: TOWARDS RESOURCE-AWARE DIALOGUE SYSTEMS AND SENTIMENT ANALYSIS
Source: dr.ntu.edu.sg
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ឆ្ពោះទៅរកប្រព័ន្ធសន្ទនា និងការវិភាគមនោសញ្ចេតនាដែលគិតគូរពីធនធាន

ចំណងជើងដើម៖ TOWARDS RESOURCE-AWARE DIALOGUE SYSTEMS AND SENTIMENT ANALYSIS

អ្នកនិពន្ធ៖ Pandelea Vlad Alexandru (Nanyang Technological University)

ឆ្នាំបោះពុម្ព៖ 2024

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ម៉ូដែលភាសាធំៗ (LLMs) បច្ចុប្បន្នមានទំហំធំ និងត្រូវការថាមពលកុំព្យូទ័រខ្លាំង ដែលធ្វើឱ្យមានការលំបាក និងមិនអាចទៅរួចក្នុងការដាក់ពង្រាយ ឬបណ្តុះបណ្តាលពួកវានៅលើឧបករណ៍កុំព្យូទ័រដែលមានធនធានកំណត់ (Edge Devices) សម្រាប់ដំណើរការប្រព័ន្ធសន្ទនា និងការវិភាគមនោសញ្ចេតនាជាក់លាក់តាមអ្នកប្រើប្រាស់។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានរៀបចំក្របខ័ណ្ឌរួមបញ្ចូលគ្នារវាងការរចនាផ្នែកទន់និងផ្នែករឹង ដោយប្រើប្រាស់វិធីសាស្ត្រពិសេសៗដើម្បីកាត់បន្ថយទំហំផ្ទុកនិងពេលវេលាគណនា។

យន្តការដាក់ក្រុមទិន្នន័យ (Clustering Mechanism) សម្រាប់ប្រព័ន្ធទាញយកការសន្ទនា ដើម្បីកាត់បន្ថយការប្រើប្រាស់អង្គចងចាំ និងបង្កើនល្បឿន។
ការទាញយកលក្ខណៈពិសេសដោយប្រើម៉ូដែលបណ្តុះបណ្តាលជាមុនថេរ (Frozen Pre-trained Feature Extractors) បូករួមនឹងឧបករណ៍បែងចែកចំណាត់ថ្នាក់ស្រាលៗ (Shallow Classifiers) សម្រាប់ការវិភាគមនោសញ្ចេតនា។
ការប្រើប្រាស់ក្បួនដោះស្រាយហ្សែន (Genetic Algorithm) នៅក្នុង Software-Hardware Co-design ដើម្បីជ្រើសរើសបណ្តាញទំនាក់ទំនងដ៏ប្រសើរបំផុតពីម៉ូដែល។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ប្រព័ន្ធទាញយកការសន្ទនាដែលបានស្នើឡើងអាចបង្កើនល្បឿនរហូតដល់ ២៨ដង ធៀបនឹងប្រព័ន្ធធម្មតា ដោយរក្សាបាននូវភាពសុក្រឹតខ្ពស់ និងការប្រមូលផ្តុំទិន្នន័យបានល្អជាង K-Means។
ការសាកល្បងលើឧបករណ៍ Edge ជាក់ស្តែង (Jetson Nano និង Smartphones) បង្ហាញថាការទាញយកលក្ខណៈពិសេសចំណាយពេលតិចជាង ៥០មីលីវិនាទី (real-time) ហើយការហ្វឹកហាត់មានរយៈពេលតិចជាង ៧វិនាទី។
ការប្រើប្រាស់ក្បួនដោះស្រាយហ្សែនដើម្បីជ្រើសរើសលក្ខណៈពិសេស បានបង្កើនភាពត្រឹមត្រូវពី ៣% ទៅ ៤% លើសំណុំទិន្នន័យ CMU-MOSEI និង MELD ដោយមិនបន្ថែមបន្ទុកដល់ផ្នែករឹងគួរកត់សម្គាល់ឡើយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Dual-Encoder with Cluster Identifier (CI) ប្រព័ន្ធទាញយកការសន្ទនាដោយប្រើ Cluster Identifier (CI)	កាត់បន្ថយពេលវេលាស្វែងរកចម្លើយបានយ៉ាងច្រើន និងសន្សំសំចៃអង្គចងចាំបានល្អតាមរយៈការបែងចែកចម្លើយជាក្រុម។	ត្រូវការពេលវេលាបន្ថែមក្នុងការចាត់ក្រុមទិន្នន័យ (Clustering) ជាមុន មុនពេលអាចប្រើប្រាស់សម្រាប់ការសន្ទនាជាក់ស្តែង។	បង្កើនល្បឿនស្វែងរកចម្លើយរហូតដល់ ២៨ដង ធៀបនឹងប្រព័ន្ធធម្មតា ដោយមិនធ្វើឱ្យធ្លាក់ចុះគុណភាពទាញយកចម្លើយ (Recall) ធ្ងន់ធ្ងរឡើយ។
Frozen Pre-trained Models with Linear/OSELM Classifiers ការប្រើប្រាស់ម៉ូដែលបញ្ចេញលក្ខណៈពិសេសថេរ (Frozen) ជាមួយ OSELM/Linear Classifiers	អនុញ្ញាតឱ្យមានការហ្វឹកហាត់ម៉ូដែលផ្ទាល់លើទូរស័ព្ទដៃ ឬឧបករណ៍ Edge បានលឿនមែនទែន និងចំណាយថាមពលតិច។	ភាពត្រឹមត្រូវ (F1-score) អាចធ្លាក់ចុះបន្តិចធៀបនឹងការហ្វឹកហាត់ម៉ូដែលទាំងមូល (Full Fine-tuning) ព្រោះមិនបានកែសម្រួលស្រទាប់ជ្រៅៗរបស់ម៉ូដែល។	ប្រើពេលហ្វឹកហាត់ក្រោម ៧វិនាទី និងអាចទាយលទ្ធផលបានក្នុងពេលជាក់ស្តែង (<50ms) លើឧបករណ៍ Jetson Nano និង ទូរស័ព្ទឆ្លាតវៃ (Smartphones)។
Full End-to-End Fine-Tuning (Baseline) ការហ្វឹកហាត់ម៉ូដែលទាំងមូល (Baseline)	ផ្តល់លទ្ធផល និងភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងការវិភាគមនោសញ្ចេតនា និងការជ្រើសរើសចម្លើយ។	ស៊ីទំហំផ្ទុកធំ ទាមទារកម្លាំងម៉ាស៊ីនខ្លាំង និងមិនអាចយកមកហ្វឹកហាត់ផ្ទាល់លើឧបករណ៍ដែលមានធនធានតូចៗបានឡើយ។	ដើរតួជាកម្រិតស្តង់ដារគុណភាព (Upper bound) ប៉ុន្តែបរាជ័យក្នុងការប្រើប្រាស់ក្នុងស្ថានភាពដែលតម្រូវឱ្យមានល្បឿនលឿន និងអង្គចងចាំទាប។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះផ្តោតសំខាន់លើការកាត់បន្ថយតម្រូវការធនធានកុំព្យូទ័រ ដើម្បីឲ្យម៉ូដែល NLP អាចដំណើរការ និងហ្វឹកហាត់បានដោយជោគជ័យលើឧបករណ៍ Edge ដែលមានធនធានកំណត់។

Hardware: តម្រូវឱ្យមានឧបករណ៍ Edge ដូចជា Nvidia Jetson Nano (ប្រើប្រាស់ 5W និង Max-N mode) ឬទូរស័ព្ទឆ្លាតវៃ (Snapdragon 765G, Kirin 655) សម្រាប់ការប្រើប្រាស់ជាក់ស្តែង។ ទោះយ៉ាងណា ការរៀបចំដំបូង (Pre-computation) ត្រូវការម៉ាស៊ីន Server។
Software: ត្រូវការប្រព័ន្ធប្រតិបត្តិការ និងបណ្ណាល័យកូដដូចជា Python, Keras, TensorFlow, TFLite (សម្រាប់ទូរស័ព្ទ) និង TensorRT (សម្រាប់បង្កើនល្បឿនលើ Jetson Nano)។
Dataset: ត្រូវការសំណុំទិន្នន័យសន្ទនាធំៗសម្រាប់ការហ្វឹកហាត់ជាមុន ដូចជា DailyDialog, MELD, និង IEMOCAP ព្រមទាំងទិន្នន័យជាក់លាក់របស់អ្នកប្រើប្រាស់ក្នុងទំហំតូច (ឧទាហរណ៍ ៥០០ ប្រយោគ) សម្រាប់ Fine-tuning។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់សំណុំទិន្នន័យភាសាអង់គ្លេសដែលប្រមូលពីកម្មវិធីទូរទស្សន៍អាមេរិក (Friends) និងយូធូប ដែលផ្ទុកនូវវប្បធម៌ និងរបៀបបញ្ចេញអារម្មណ៍បែបទិសខាងលិចផ្តាច់មុខ។ សម្រាប់ប្រទេសកម្ពុជា ការបញ្ចេញមតិ អារម្មណ៍ និងរចនាសម្ព័ន្ធភាសាខ្មែរមានភាពខុសគ្នាស្រឡះ ដែលធ្វើឱ្យម៉ូដែលទាំងនេះមិនអាចយកមកប្រើផ្ទាល់ដោយមិនមានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែមនោះទេ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាទិន្នន័យស្រាវជ្រាវជាភាសាអង់គ្លេសក៏ដោយ យុទ្ធសាស្ត្រក្នុងការបង្រួមទំហំម៉ូដែល និងដំណើរការបណ្តុះបណ្តាលលើឧបករណ៍ Edge នេះមានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍបច្ចេកវិទ្យានៅកម្ពុជា។

សេវាកម្មអតិថិជន និងធនាគារ (Customer Service Chatbots): ស្ថាប័នដូចជា ធនាគារ ABA ឬក្រុមហ៊ុនទូរគមនាគមន៍ (Cellcard/Smart) អាចប្រើប្រាស់បច្ចេកវិទ្យានេះដើម្បីដាក់ពង្រាយ Chatbot ឆ្លាតវៃ ដែលដំណើរការផ្ទាល់លើកម្មវិធីទូរស័ព្ទ (Offline) ជួយឱ្យការឆ្លើយតបរហ័ស និងមិនពឹងផ្អែកលើការតភ្ជាប់អ៊ីនធឺណិត។
ឧបករណ៍អប់រំនៅតំបន់ជនបទ (Rural Education Devices): នៅតាមខេត្តដាច់ស្រយាលដែលការតភ្ជាប់អ៊ីនធឺណិតមានកម្រិត ថេប្លេតអប់រំ (Educational Tablets) អាចប្រើប្រាស់វិធីសាស្ត្រនេះដើម្បីបំពាក់កម្មវិធីសន្ទនាបង្រៀនភាសា ឬចំណេះដឹងទូទៅ ដែលអាចដំណើរការបានដោយខ្លួនឯង។
កម្មវិធីតាមដានសុខភាពផ្លូវចិត្ត (Mental Health Apps): កម្មវិធីទូរស័ព្ទអាចប្រើប្រាស់ម៉ូដែលវិភាគមនោសញ្ចេតនា (Sentiment Analysis) ដើម្បីតាមដានអារម្មណ៍អ្នកប្រើប្រាស់ ដោយរក្សាឯកជនភាព ១០០% ព្រោះទិន្នន័យរសើបមិនត្រូវបានបញ្ជូនទៅកាន់ Cloud ឡើយ។

សរុបមក ក្របខ័ណ្ឌនេះផ្តល់នូវយុទ្ធសាស្ត្រដ៏ល្អសម្រាប់អ្នកអភិវឌ្ឍន៍នៅកម្ពុជាក្នុងការបង្កើតប្រព័ន្ធ AI ដែលចំណាយតិច ឯករាជ្យពីអ៊ីនធឺណិត និងមានសុវត្ថិភាពទិន្នន័យខ្ពស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ស្វែងយល់ពីមូលដ្ឋានគ្រឹះនៃ Edge NLP និងម៉ូដែលភាសា: សិស្សគួរសិក្សាពីរបៀបដំណើរការរបស់ម៉ូដែល Transformer ដែលមានទំហំតូច ដូចជា MobileBERT ក៏ដូចជាការស្វែងយល់ពីបច្ចេកវិទ្យា Edge Computing ។
ប្រមូល និងរៀបចំទិន្នន័យជាភាសាខ្មែរ: ចាប់ផ្តើមប្រមូលទិន្នន័យសន្ទនា ឬមតិយោបល់ (Comments) ជាភាសាខ្មែរពីបណ្តាញសង្គម រួចធ្វើការកាត់ពាក្យ (Tokenization) ដោយប្រើប្រាស់បណ្ណាល័យដូចជា khmer-nltk ដើម្បីជំនួសសំណុំទិន្នន័យភាសាអង់គ្លេស។
អនុវត្តវិធីសាស្ត្រកាត់បន្ថយទំហំទិន្នន័យសម្រាប់ការអភិវឌ្ឍ: សាកល្បងប្រើប្រាស់យន្តការ Principal Component Analysis (PCA) និង ក្បួនដោះស្រាយ Genetic Algorithms ដូចដែលមានក្នុងឯកសារ ដើម្បីទាញយកលក្ខណៈពិសេសរបស់ទិន្នន័យឱ្យនៅទំហំតូចបំផុតមុនពេលយកទៅប្រើ។
បម្លែង និងដាក់ពង្រាយម៉ូដែលលើទូរស័ព្ទដៃ: ប្រើប្រាស់ TFLite ក្នុង Android Studio (សរសេរដោយភាសា Kotlin) ដើម្បីដាក់ពង្រាយម៉ូដែល Linear Classifier ឬ OSELM ចូលទៅក្នុងទូរស័ព្ទឆ្លាតវៃ រួចធ្វើតេស្តល្បឿននៃការទស្សន៍ទាយលទ្ធផល (Inference Time) ឱ្យនៅក្រោម ៥០មីលីវិនាទី។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Edge Devices	ឧបករណ៍កុំព្យូទ័រដែលមានទំហំតូច និងមានថាមពលព្រមទាំងអង្គចងចាំមានកម្រិត ដូចជាទូរស័ព្ទដៃឆ្លាតវៃ នាឡិកាឆ្លាតវៃ ឬឧបករណ៍ IoT ដែលដំណើរការទិន្នន័យដោយខ្លួនឯងផ្ទាល់ដោយមិនពឹងផ្អែកលើ Cloud Servers ធំៗ។	ដូចជាការគិតលេខក្នុងខួរក្បាលខ្លួនឯងផ្ទាល់ ជាជាងការខលទូរស័ព្ទទៅសួរគ្រូគណិតវិទ្យាដើម្បីរកចម្លើយ។
Retrieval-based Dialogue Systems	ប្រព័ន្ធកុំព្យូទ័រសន្ទនា (Chatbot) ដែលមិនបង្កើតប្រយោគថ្មីដោយខ្លួនឯង ប៉ុន្តែវាមានកញ្ចប់ចម្លើយត្រៀមទុកជាមុនរាប់ពាន់ប្រយោគ ហើយវានឹងស្វែងរកនិងទាញយកចម្លើយណាដែលស័ក្តិសមបំផុតសម្រាប់សំណួររបស់អ្នកប្រើប្រាស់ដើម្បីធ្វើការឆ្លើយតប។	ដូចជាអ្នកបម្រើអតិថិជនដែលមានសៀវភៅចម្លើយត្រៀមទុកជាមុន រួចបើកមើលរកចម្លើយណាដែលត្រូវនឹងសំណួររបស់ភ្ញៀវមកអានឆ្លើយតបវិញ។
Hardware-Software Co-design	ការរចនាប្រព័ន្ធម៉ូដែល AI (ផ្នែកទន់) ដោយពិចារណាផ្ទាល់ទៅលើដែនកំណត់នៃគ្រឿងម៉ាស៊ីន (ផ្នែករឹង) ដូចជាទំហំ RAM និងល្បឿន CPU តាំងពីដំណាក់កាលអភិវឌ្ឍន៍ដំបូង ដើម្បីធានាថាម៉ូដែលនោះអាចដំណើរការបានលឿន និងមិនស៊ីថ្មខ្លាំង។	ដូចជាការកាត់ដេរខោអាវ (Software) ឱ្យតម្រូវយ៉ាងច្បាស់ទៅនឹងទំហំរូបរាងកាយរបស់អ្នកពាក់ (Hardware) ដើម្បីឱ្យស្លៀកទៅសមល្មមល្អបំផុត។
Knowledge Distillation	វិធីសាស្ត្រក្នុងការបង្ហាត់ម៉ូដែល AI ទំហំតូច (សិស្ស) ឱ្យរៀនចម្លងចំណេះដឹង និងរបៀបសម្រេចចិត្តពីម៉ូដែល AI ទំហំធំ (គ្រូ) ដើម្បីឱ្យវាក្លាយជាម៉ូដែលតូចស្រាល តែក៏នៅតែមានភាពវៃឆ្លាតនិងភាពសុក្រឹតខ្ពស់ដដែល។	ដូចជាសិស្សរៀនសង្ខេបមេរៀនសំខាន់ៗពីលោកគ្រូ ដើម្បីអាចយកទៅឆ្លើយសំណួរបានលឿននិងត្រឹមត្រូវដោយមិនបាច់ចំណាយពេលអានសៀវភៅក្រាស់ៗ។
Quantization	បច្ចេកទេសបង្រួមទំហំនៃទិន្នន័យលេខនៅក្នុងម៉ូដែល AI ពីលេខដែលមានទម្រង់វែងស៊ីទំហំធំ (ឧទាហរណ៍ 32-bit Float) មកជាលេខដែលមានទម្រង់ខ្លី (ឧទាហរណ៍ 8-bit Integer) ដែលធ្វើឱ្យម៉ូដែលតូចជាងមុន និងដំណើរការបានលឿនទោះបីជាលទ្ធផលទាយអាចធ្លាក់ចុះបន្តិចបន្តួចក៏ដោយ។	ដូចជាការបង្រួមគុណភាពវីដេអូពី 4K មកត្រឹម 720p ដើម្បីឱ្យងាយស្រួលផ្ញើតាមតេឡេក្រាមបានលឿន ដោយយើងនៅតែអាចមើលឃើញរូបរាងច្បាស់គួរសម។
Genetic Algorithm	ក្បួនដោះស្រាយតាមបែបទ្រឹស្តីវិវត្តន៍របស់ធម្មជាតិ ដោយវាធ្វើការបង្កើតជម្រើសសាកល្បងជាច្រើន រួចយកជម្រើសល្អបំផុតមកបន្តពូជ និងកែប្រែបន្តិចបន្តួច (Mutation) ធ្វើឡើងវិញចុះឡើងៗរហូតទាល់តែស្វែងរកឃើញដំណោះស្រាយដែលប្រសើរបំផុត។	ដូចជាការផ្សំបង្កាត់ពូជដំណាំ ដោយរើសយកតែគ្រាប់ពូជពីដើមណាដែលផ្លែល្អធំរឹងមាំ យកមកដាំបន្តរហូតបានពូជដែលល្អឥតខ្ចោះ។
Dual-Encoder	ម៉ូដែល AI ដែលមានបណ្តាញបញ្ជូនទិន្នន័យពីរដាច់ដោយឡែកពីគ្នា មួយសម្រាប់បំប្លែងសំណួររបស់អ្នកប្រើប្រាស់ និងមួយទៀតសម្រាប់បំប្លែងចម្លើយទាំងអស់ដែលមានក្នុងប្រព័ន្ធទៅជាទម្រង់លេខកូដ រួចទើបយកកូដនោះទៅប្រៀបធៀបគ្នាថាតើវាស័ក្តិសមនឹងគ្នាឬទេ។	ដូចជាអ្នកបកប្រែពីរនាក់ធ្វើការដាច់ដោយឡែកពីគ្នា ម្នាក់បកប្រែសំណួរ ម្នាក់បកប្រែចម្លើយ រួចទើបយកប្រយោគទាំងពីរនោះមកផ្ទៀងផ្ទាត់គ្នាមើលថាតើអត្ថន័យវាស៊ីគ្នាឬអត់។
Transformer Model	ទម្រង់ស្ថាបត្យកម្មបណ្តាញ AI ស្តង់ដារទំនើបដែលប្រើប្រាស់យន្តការ Self-Attention ដើម្បីចាប់យកទំនាក់ទំនងនៃពាក្យនីមួយៗក្នុងប្រយោគទាំងមូលព្រមៗគ្នា ដែលជួយឱ្យវាស្វែងយល់អត្ថន័យភាសាបានយ៉ាងស៊ីជម្រៅ (ឧទាហរណ៍ដូចជាម៉ូដែល BERT ឬ GPT)។	ដូចជាមនុស្សដែលកំពុងអានសៀវភៅដោយមើលឃើញប្រយោគទាំងមូលព្រមគ្នា ហើយអាចយល់ដឹងភ្លាមៗថាពាក្យមួយណាមានទំនាក់ទំនងផ្ទាល់ទៅនឹងពាក្យណាមួយទៀតនៅចុងប្រយោគ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖