Original Title: Aspect-based Sentiment Analysis and Location Detection for Arabic Language Tweets
Source: doi.org/10.2478/acss-2022-0013
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគមនោសញ្ចេតនាផ្អែកលើទិដ្ឋភាព និងការចាប់យកទីតាំងសម្រាប់សារធ្វីត (Tweets) ជាភាសាអារ៉ាប់

ចំណងជើងដើម៖ Aspect-based Sentiment Analysis and Location Detection for Arabic Language Tweets

អ្នកនិពន្ធ៖ Norah AlShammari (King Abdulaziz University), Amal AlMansour (King Abdulaziz University)

ឆ្នាំបោះពុម្ព៖ 2022 (Applied Computer Systems)

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃការវាយតម្លៃមតិអតិថិជន និងការកំណត់ទីតាំងភូមិសាស្ត្រពីសារធ្វីត (Tweets) ជាភាសាអារ៉ាប់ ដើម្បីជួយស្ថាប័នទូរគមនាគមន៍ក្នុងការវិភាគកម្រិតពេញចិត្តរបស់អតិថិជនទៅលើទិដ្ឋភាពសេវាកម្មជាក់លាក់តាមតំបន់។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រមូលទិន្នន័យធ្វីតភាសាអារ៉ាប់ចំនួន ៦១៨២ និងបានអនុវត្តក្បួនដោះស្រាយ Machine Learning ប្រពៃណី និង Deep Learning ដើម្បីចាត់ថ្នាក់មនោសញ្ចេតនា ព្រមទាំងចាប់យកទិន្នន័យទីតាំង។

ការចាត់ថ្នាក់មនោសញ្ចេតនាដោយប្រើប្រាស់ក្បួនដោះស្រាយ ML (SVM, LR, RF) និង DL (CNN)
ការអនុវត្តបច្ចេកទេស NLP ដូចជា Word Embeddings និងការកត់សម្គាល់ថ្នាក់ពាក្យ (POS tagging)
ការទាញយកទីតាំងភូមិសាស្ត្រតាមរយៈការសម្គាល់ឈ្មោះអង្គភាព (Named Entity Recognition - NER) ដោយប្រើបណ្ណាល័យ SpaCy

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល Deep Learning (CNN) ប្រើប្រាស់ Word Embeddings ទទួលបានប្រសិទ្ធភាពខ្ពស់បំផុតក្នុងការចាត់ថ្នាក់មនោសញ្ចេតនា ដោយសម្រេចបានពិន្ទុ F1 ស្មើនឹង ០.៨១។
សម្រាប់ការចាត់ថ្នាក់ទិដ្ឋភាព (Aspect classification) ម៉ូដែល CNN ដែលប្រើជាមួយបច្ចេកទេស POS សម្រេចបានភាពត្រឹមត្រូវរហូតដល់ ៧៥%។
ម៉ូដែលចាប់យកទីតាំង (NER) សម្រេចបានភាពសុក្រឹត (Precision) ០.៨៩ សម្រាប់កម្រិតទីក្រុង (City) និង ០.៦០ សម្រាប់ទីតាំងចំណាប់អារម្មណ៍ (POI) ខណៈការប្រើលក្ខណៈពិសេស Bigram ត្រូវបានរកឃើញថាធ្វើឱ្យប្រសិទ្ធភាពម៉ូដែលធ្លាក់ចុះ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Traditional Machine Learning (LR, SVM, RF) with Unigrams ម៉ាស៊ីនរៀនបែបប្រពៃណី (LR, SVM, RF) ជាមួយលក្ខណៈ Unigrams	ងាយស្រួលអនុវត្ត លឿន និងទទួលបានលទ្ធផលល្អគួរសមសម្រាប់ការវាយតម្លៃពាក្យទូទៅ។	មិនអាចយល់ពីអត្ថន័យស៊ីជម្រៅនៃបរិបទបានល្អនោះទេ ហើយការប្រើប្រាស់ Bigram បែរជាធ្វើឱ្យលទ្ធផលធ្លាក់ចុះយ៉ាងខ្លាំង។	ទទួលបានពិន្ទុ F1 ០.៧៧ (ដោយប្រើ Logistic Regression) សម្រាប់ការចាត់ថ្នាក់មនោសញ្ចេតនា។
Deep Learning (CNN) with Word Embeddings បណ្ដាញសរសៃប្រសាទសិប្បនិមិត្ត (CNN) ជាមួយ Word Embeddings	មានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកអត្ថន័យ និងទំនាក់ទំនងនៃពាក្យដែលស្រដៀងគ្នា ផ្តល់លទ្ធផលល្អបំផុតក្នុងការចាត់ថ្នាក់មនោសញ្ចេតនា។	ត្រូវការទិន្នន័យច្រើនសម្រាប់ការហ្វឹកហាត់ និងស៊ីថាមពលកុំព្យូទ័រខ្ពស់ជាងម៉ាស៊ីនរៀនប្រពៃណី។	ទទួលបានពិន្ទុ F1 ខ្ពស់បំផុត ០.៨១ សម្រាប់ការចាត់ថ្នាក់មនោសញ្ចេតនាអត្ថបទធ្វីតអារ៉ាប់។
Deep Learning (CNN) with POS Tagging បណ្ដាញសរសៃប្រសាទសិប្បនិមិត្ត (CNN) ជាមួយការកត់សម្គាល់ថ្នាក់ពាក្យ (POS)	មានប្រសិទ្ធភាពខ្ពស់បំផុតក្នុងការចាប់យកទិដ្ឋភាព (Aspect) ពីព្រោះវាអាចផ្តោតសំខាន់ទៅលើនាមសព្ទ (Nouns) ដែលពិពណ៌នាពីសេវាកម្ម។	ទាមទារឧបករណ៍វិភាគថ្នាក់ពាក្យ (POS Tagger) ដែលមានភាពសុក្រឹតខ្ពស់ ដែលអាចជាបញ្ហាសម្រាប់ភាសាដែលមានធនធានឌីជីថលតិច។	សម្រេចបានភាពត្រឹមត្រូវ (Accuracy) ៧៥% សម្រាប់ការចាត់ថ្នាក់ទិដ្ឋភាពសេវាកម្ម។
SpaCy NER for Location Detection ម៉ូដែល SpaCy NER សម្រាប់ចាប់ទីតាំងភូមិសាស្ត្រ	អាចចាប់យកឈ្មោះទីក្រុងនិងតំបន់នានាពីអត្ថបទក្រៅផ្លូវការបានយ៉ាងល្អ ដោយប្រើប្រាស់ស្ថាបត្យកម្ម CNN និង LSTM។	ដំណើរការមិនសូវល្អប្រសិនបើអត្ថបទមានកំហុសអក្ខរាវិរុទ្ធ ឬលាយឡំភាសា (ឧទាហរណ៍៖ អារ៉ាប់លាយអង់គ្លេស)។	ទទួលបានភាពសុក្រឹត (Precision) ០.៨៩ សម្រាប់កម្រិតទីក្រុង (City) និង ០.៦០ សម្រាប់ទីតាំងចំណាប់អារម្មណ៍ (POI)។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាមិនបានបញ្ជាក់ពីតម្លៃជាសាច់ប្រាក់ដោយផ្ទាល់ ប៉ុន្តែការស្រាវជ្រាវនេះទាមទារការប្រើប្រាស់ធនធានផ្នែកទន់ ទិន្នន័យ និងថាមពលកុំព្យូទ័រមួយចំនួនធំសម្រាប់ការហ្វឹកហាត់ម៉ូដែល Deep Learning។

Software: ប្រើប្រាស់ Twitter API សម្រាប់ការទាញយកទិន្នន័យ, បណ្ណាល័យ SpaCy សម្រាប់ NER, Sklearn សម្រាប់ Machine Learning, និង Beautiful-Soup សម្រាប់ Web scraping។
Dataset: ត្រូវការទិន្នន័យធ្វីតចំនួន ៦១៨២ សម្រាប់ការវិភាគមនោសញ្ចេតនា និងទិន្នន័យពីកម្មវិធី AQAR ចំនួន ៧៩៨ សម្រាប់ហ្វឹកហាត់ការចាប់ទីតាំង រួមទាំងការប្រើប្រាស់ DataTurks សម្រាប់ចំណាំទិន្នន័យ (Data annotation)។
Hardware: តម្រូវឱ្យមានកុំព្យូទ័រដែលមានសមត្ថភាពដំណើរការល្បឿនលឿន (GPU) សម្រាប់ហ្វឹកហាត់ម៉ូដែល Deep Learning ដូចជា CNN និង LSTM ក្នុងចំនួនជុំ (Epochs) ច្រើន។
Expertise: ទាមទារអ្នកជំនាញផ្នែក Natural Language Processing (NLP) ដែលយល់ច្បាស់ពីលក្ខណៈភាសា និងបច្ចេកទេសបង្កើតការសម្គាល់ថ្នាក់ពាក្យ (POS) និង Word Embeddings។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រមូលទិន្នន័យពីអតិថិជនក្រុមហ៊ុនទូរគមនាគមន៍ក្នុងប្រទេសអារ៉ាប៊ីសាអ៊ូឌីត ដោយប្រើប្រាស់ភាសាអារ៉ាប់ក្រៅផ្លូវការ ដែលសម្បូរទៅដោយកំហុសអក្ខរាវិរុទ្ធនិងការប្រើពាក្យកាត់។ ចំណុចនេះមានសារៈសំខាន់សម្រាប់កម្ពុជា ព្រោះទិន្នន័យបណ្តាញសង្គមខ្មែរ (ដូចជាលើ Facebook និង TikTok) ក៏មានទម្រង់ស្រដៀងគ្នានេះដែរ ដូចជាការប្រើប្រាស់ភាសាខ្មែរក្រៅផ្លូវការ ការសរសេរអក្សរឡាតាំង (Khmeringlish) និងពាក្យស្លែង ដែលទាមទារការសម្អាតទិន្នន័យយ៉ាងម៉ត់ចត់មុននឹងវិភាគ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រក្នុងការស្រាវជ្រាវនេះមានសក្ដានុពល និងសារៈប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់ការវាយតម្លៃគុណភាពសេវាកម្មនៅប្រទេសកម្ពុជាតាមរយៈបណ្តាញសង្គម។

វិស័យទូរគមនាគមន៍ (Telecom Sector): ក្រុមហ៊ុនទូរស័ព្ទដូចជា Smart, Cellcard ឬ Metfone អាចប្រើគំរូនេះដើម្បីវិភាគមតិយោបល់អតិថិជន និងកំណត់ទីតាំងជាក់លាក់ (ឧ. ស្រុកណាមួយក្នុងខេត្តសៀមរាប ឬភ្នំពេញ) ដែលមានបញ្ហាសេវា ឬអ៊ីនធឺណិតយឺតរអាក់រអួល។
វិស័យធនាគារ និងហិរញ្ញវត្ថុ (Banking & Finance): ធនាគារនានាដូចជា ABA ឬ ACLEDA អាចតាមដានមតិរបស់អតិថិជនទៅលើកម្មវិធីទូរស័ព្ទ (Mobile App) របស់ពួកគេ ក៏ដូចជាចាប់យកទីតាំងសាខាដែលមានការរអ៊ូរទាំអំពីសេវាកម្មបម្រើអតិថិជនមិនល្អ។
វិស័យទេសចរណ៍ និងបដិសណ្ឋារកិច្ច (Tourism & Hospitality): ក្រសួងទេសចរណ៍អាចតាមដានមតិយោបល់របស់ភ្ញៀវទេសចរតាមរយៈការរំលេចទីតាំង (POI) ដូចជារមណីយដ្ឋាន និងសណ្ឋាគារ ដើម្បីកែលម្អសេវាកម្មឱ្យចំគោលដៅ។

សរុបមក ការអនុវត្តក្របខ័ណ្ឌការងារនេះនឹងជួយឱ្យស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាអាចធ្វើការសម្រេចចិត្តបានត្រឹមត្រូវនិងទាន់ពេលវេលា ដោយពឹងផ្អែកលើការស្ទង់មតិជាក់ស្តែងនិងទីតាំងភូមិសាស្ត្ររបស់ប្រជាពលរដ្ឋនៅលើបណ្តាញសង្គម។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការប្រមូលនិងសម្អាតទិន្នន័យភាសាខ្មែរ (Data Collection & Pre-processing): ទាញយកទិន្នន័យមតិយោបល់ពី Facebook ឬ Twitter API ដោយផ្តោតលើទំព័ររបស់ក្រុមហ៊ុនណាមួយ។ ប្រើប្រាស់ឧបករណ៍ដូចជា Beautiful-Soup ឬ Selenium សម្រាប់ប្រមូលទិន្នន័យ រួចធ្វើការសម្អាត (លុប Emoji, កែពាក្យខុសអក្ខរាវិរុទ្ធ) និងអនុវត្តការកាត់ពាក្យ (Word Segmentation) ដោយប្រើ Khmer NLTK ឬ Seang។
ការបង្កើតឯកសារចំណាំទិន្នន័យ (Data Annotation): ប្រើប្រាស់ប្រព័ន្ធគ្រប់គ្រងការចំណាំទិន្នន័យដូចជា Doccano ឬ Label Studio ដើម្បីឱ្យក្រុមការងារកំណត់ប្រភេទមនោសញ្ចេតនា (វិជ្ជមាន/អវិជ្ជមាន) ទិដ្ឋភាពសេវាកម្ម (តម្លៃ, ល្បឿនអ៊ីនធឺណិត) និងទីតាំងភូមិសាស្ត្រ (Location Entities) ទៅក្នុងអត្ថបទភាសាខ្មែរនីមួយៗ។
ការហ្វឹកហាត់ម៉ូដែលចាត់ថ្នាក់មនោសញ្ចេតនា (Sentiment & Aspect Classification): សាកល្បងប្រើប្រាស់ Scikit-learn សម្រាប់ម៉ូដែលមូលដ្ឋាន (Baseline) ដូចជា Logistic Regression បន្ទាប់មកត្រូវងាកទៅប្រើ TensorFlow ឬ PyTorch ដើម្បីបង្កើតម៉ូដែល CNN ភ្ជាប់ជាមួយ Word Embeddings ផ្ទាល់ខ្លួនសម្រាប់ភាសាខ្មែរ ដើម្បីបង្កើនភាពត្រឹមត្រូវនៃការវិភាគ។
ការចាប់យកទីតាំងភូមិសាស្ត្រតាមរយៈ NER: ប្ដូរមកប្រើប្រាស់បណ្ណាល័យ SpaCy សម្រាប់ការកំណត់អត្តសញ្ញាណទីតាំង (NER)។ អ្នកស្រាវជ្រាវត្រូវបង្ហាត់ម៉ូដែលនេះឡើងវិញ (Fine-tuning) ជាមួយទិន្នន័យឈ្មោះខេត្ត ស្រុក ឃុំ និងតំបន់នានានៅកម្ពុជា ដើម្បីចាប់យកទីតាំងដែលមានការត្អូញត្អែរ។
ការបង្កើតផ្ទាំងគ្រប់គ្រងទិន្នន័យផ្ទាល់ (Live Dashboard Integration): នាំយកលទ្ធផលនៃការវិភាគទាំងនោះទៅបង្ហាញជាទម្រង់រូបភាព និងផែនទី ដោយប្រើប្រាស់ Tableau ឬ Power BI ដើម្បីឱ្យអ្នកធ្វើសេចក្តីសម្រេចចិត្តអាចមើលឃើញនូវអារម្មណ៍របស់អតិថិជន និងទីតាំងភូមិសាស្ត្រដែលមានបញ្ហាផ្ទាល់ៗ (Real-time)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Word Embedding	ជាបច្ចេកទេសក្នុងដំណើរការភាសាធម្មជាតិ (NLP) ដែលបំប្លែងពាក្យទៅជាវ៉ិចទ័រលេខ ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ពីអត្ថន័យ និងទំនាក់ទំនងរវាងពាក្យដែលស្រដៀងគ្នា។ ពាក្យដែលមានអត្ថន័យ ឬបរិបទស្រដៀងគ្នានឹងមានតម្លៃវ៉ិចទ័រក្បែរគ្នា។	ដូចជាការរៀបចំសៀវភៅក្នុងបណ្ណាល័យដែលសៀវភៅប្រភេទដូចគ្នា (ឧ. ប្រវត្តិសាស្ត្រ) ត្រូវដាក់នៅលើធ្នើរជិតគ្នា ដើម្បីងាយស្រួលរក។
Named Entity Recognition (NER)	គឺជាដំណើរការនៃការទាញយក និងចាត់ថ្នាក់ពាក្យសំខាន់ៗ (Entities) ពីក្នុងអត្ថបទ ដូចជាឈ្មោះមនុស្ស ទីតាំង ស្ថាប័ន ឬកាលបរិច្ឆេទ ដើម្បីឱ្យម៉ាស៊ីនអាចដឹងថាពាក្យនីមួយៗតំណាងឱ្យអ្វីជាក់លាក់។	ដូចជាការអានសៀវភៅ រួចយកហ្វឺតគូសចំណាំពណ៌ខៀវលើឈ្មោះមនុស្ស និងពណ៌ក្រហមលើឈ្មោះទីក្រុង។
Part of Speech (POS)	គឺជាការកំណត់ថ្នាក់ពាក្យ (ដូចជានាម កិរិយាសព្ទ គុណនាម សព្វនាម) ទៅឱ្យពាក្យនីមួយៗក្នុងប្រយោគ ដែលជួយឱ្យប្រព័ន្ធយល់ពីទម្រង់វេយ្យាករណ៍ និងបរិបទនៃការប្រើប្រាស់ពាក្យទាំងនោះ។	ដូចជាការបំពាក់ស្លាកឈ្មោះតួនាទី (ឧ. មេក្រុម, សមាជិក, អ្នកកត់ត្រា) ឱ្យសិស្សម្នាក់ៗក្នុងក្រុម ដើម្បីដឹងថាអ្នកណាមានតួនាទីអ្វី។
Convolutional Neural Network (CNN)	ជាប្រភេទនៃបណ្ដាញសរសៃប្រសាទសិប្បនិមិត្ត (Deep Learning) ដែលប្រើជាទូទៅក្នុងការសម្គាល់រូបភាព ប៉ុន្តែក្នុងការសិក្សានេះ វាត្រូវបានប្រើដើម្បីទាញយកលក្ខណៈសំខាន់ៗពីទិន្នន័យអត្ថបទសម្រាប់ចាត់ថ្នាក់មនោសញ្ចេតនា និងចាប់ទីតាំង។	ដូចជាម៉ាស៊ីនស្កេនដែលរំកិលពីលើអត្ថបទមួយចំណែកម្ដងៗ ដើម្បីរកមើលពាក្យគន្លឹះ ឬលំនាំសំខាន់ៗដែលលេចធ្លោ។
Tokenization	ជាដំណើរការកាត់បំបែកអត្ថបទ ឬប្រយោគវែងៗ ទៅជាបំណែកតូចៗ (Tokens) ដូចជាពាក្យនីមួយៗ ឬឃ្លាខ្លីៗ (Unigram ឬ Bigram) ដើម្បីងាយស្រួលដល់ប្រព័ន្ធកុំព្យូទ័រក្នុងការអាន និងវិភាគទិន្នន័យបន្ត។	ដូចជាការកាត់នំប៉័ងមួយដើមធំទៅជាចំណិតតូចៗ ដើម្បីងាយស្រួលទំពារ និងរំលាយ។
Support Vector Machine (SVM)	ជាក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning algorithm) ដែលធ្វើការចាត់ថ្នាក់ទិន្នន័យដោយស្វែងរកបន្ទាត់ ឬព្រំដែន (Hyperplane) ដ៏ល្អបំផុតដើម្បីបំបែកក្រុមទិន្នន័យផ្សេងៗពីគ្នាឱ្យបានច្បាស់លាស់បំផុត។	ដូចជាការសង់របងចំកណ្តាលទីធ្លា ដើម្បីបំបែកហ្វូងចៀម និងហ្វូងពពែឱ្យនៅដាច់ពីគ្នាដោយមានគម្លាតសុវត្ថិភាពធំបំផុត។
Point of Interest (POI)	ក្នុងបរិបទនៃការចាប់ទីតាំង (Location Detection) វាសំដៅទៅលើទីតាំងភូមិសាស្ត្រជាក់លាក់ណាមួយដែលមានទំហំតូចជាងទីក្រុង ដូចជាតំបន់លំនៅដ្ឋាន ផ្សារទំនើប សួនច្បារ ឬអាគារ ដែលគេចាប់អារម្មណ៍ចង់ដឹង។	ដូចជាការដោតម្ជុល (Pin) លើផែនទី Google Map ដើម្បីចំណាំទីតាំងហាងកាហ្វេ ឬសាលារៀនដែលយើងចង់ទៅ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖