Original Title: Aspect-based Sentiment Analysis and Location Detection for Arabic Language Tweets
Source: doi.org/10.2478/acss-2022-0013
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគមនោសញ្ចេតនាផ្អែកលើទិដ្ឋភាព និងការចាប់យកទីតាំងសម្រាប់សារធ្វីត (Tweets) ជាភាសាអារ៉ាប់

ចំណងជើងដើម៖ Aspect-based Sentiment Analysis and Location Detection for Arabic Language Tweets

អ្នកនិពន្ធ៖ Norah AlShammari (King Abdulaziz University), Amal AlMansour (King Abdulaziz University)

ឆ្នាំបោះពុម្ព៖ 2022 (Applied Computer Systems)

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃការវាយតម្លៃមតិអតិថិជន និងការកំណត់ទីតាំងភូមិសាស្ត្រពីសារធ្វីត (Tweets) ជាភាសាអារ៉ាប់ ដើម្បីជួយស្ថាប័នទូរគមនាគមន៍ក្នុងការវិភាគកម្រិតពេញចិត្តរបស់អតិថិជនទៅលើទិដ្ឋភាពសេវាកម្មជាក់លាក់តាមតំបន់។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រមូលទិន្នន័យធ្វីតភាសាអារ៉ាប់ចំនួន ៦១៨២ និងបានអនុវត្តក្បួនដោះស្រាយ Machine Learning ប្រពៃណី និង Deep Learning ដើម្បីចាត់ថ្នាក់មនោសញ្ចេតនា ព្រមទាំងចាប់យកទិន្នន័យទីតាំង។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Traditional Machine Learning (LR, SVM, RF) with Unigrams
ម៉ាស៊ីនរៀនបែបប្រពៃណី (LR, SVM, RF) ជាមួយលក្ខណៈ Unigrams
ងាយស្រួលអនុវត្ត លឿន និងទទួលបានលទ្ធផលល្អគួរសមសម្រាប់ការវាយតម្លៃពាក្យទូទៅ។ មិនអាចយល់ពីអត្ថន័យស៊ីជម្រៅនៃបរិបទបានល្អនោះទេ ហើយការប្រើប្រាស់ Bigram បែរជាធ្វើឱ្យលទ្ធផលធ្លាក់ចុះយ៉ាងខ្លាំង។ ទទួលបានពិន្ទុ F1 ០.៧៧ (ដោយប្រើ Logistic Regression) សម្រាប់ការចាត់ថ្នាក់មនោសញ្ចេតនា។
Deep Learning (CNN) with Word Embeddings
បណ្ដាញសរសៃប្រសាទសិប្បនិមិត្ត (CNN) ជាមួយ Word Embeddings
មានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកអត្ថន័យ និងទំនាក់ទំនងនៃពាក្យដែលស្រដៀងគ្នា ផ្តល់លទ្ធផលល្អបំផុតក្នុងការចាត់ថ្នាក់មនោសញ្ចេតនា។ ត្រូវការទិន្នន័យច្រើនសម្រាប់ការហ្វឹកហាត់ និងស៊ីថាមពលកុំព្យូទ័រខ្ពស់ជាងម៉ាស៊ីនរៀនប្រពៃណី។ ទទួលបានពិន្ទុ F1 ខ្ពស់បំផុត ០.៨១ សម្រាប់ការចាត់ថ្នាក់មនោសញ្ចេតនាអត្ថបទធ្វីតអារ៉ាប់។
Deep Learning (CNN) with POS Tagging
បណ្ដាញសរសៃប្រសាទសិប្បនិមិត្ត (CNN) ជាមួយការកត់សម្គាល់ថ្នាក់ពាក្យ (POS)
មានប្រសិទ្ធភាពខ្ពស់បំផុតក្នុងការចាប់យកទិដ្ឋភាព (Aspect) ពីព្រោះវាអាចផ្តោតសំខាន់ទៅលើនាមសព្ទ (Nouns) ដែលពិពណ៌នាពីសេវាកម្ម។ ទាមទារឧបករណ៍វិភាគថ្នាក់ពាក្យ (POS Tagger) ដែលមានភាពសុក្រឹតខ្ពស់ ដែលអាចជាបញ្ហាសម្រាប់ភាសាដែលមានធនធានឌីជីថលតិច។ សម្រេចបានភាពត្រឹមត្រូវ (Accuracy) ៧៥% សម្រាប់ការចាត់ថ្នាក់ទិដ្ឋភាពសេវាកម្ម។
SpaCy NER for Location Detection
ម៉ូដែល SpaCy NER សម្រាប់ចាប់ទីតាំងភូមិសាស្ត្រ
អាចចាប់យកឈ្មោះទីក្រុងនិងតំបន់នានាពីអត្ថបទក្រៅផ្លូវការបានយ៉ាងល្អ ដោយប្រើប្រាស់ស្ថាបត្យកម្ម CNN និង LSTM។ ដំណើរការមិនសូវល្អប្រសិនបើអត្ថបទមានកំហុសអក្ខរាវិរុទ្ធ ឬលាយឡំភាសា (ឧទាហរណ៍៖ អារ៉ាប់លាយអង់គ្លេស)។ ទទួលបានភាពសុក្រឹត (Precision) ០.៨៩ សម្រាប់កម្រិតទីក្រុង (City) និង ០.៦០ សម្រាប់ទីតាំងចំណាប់អារម្មណ៍ (POI)។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាមិនបានបញ្ជាក់ពីតម្លៃជាសាច់ប្រាក់ដោយផ្ទាល់ ប៉ុន្តែការស្រាវជ្រាវនេះទាមទារការប្រើប្រាស់ធនធានផ្នែកទន់ ទិន្នន័យ និងថាមពលកុំព្យូទ័រមួយចំនួនធំសម្រាប់ការហ្វឹកហាត់ម៉ូដែល Deep Learning។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រមូលទិន្នន័យពីអតិថិជនក្រុមហ៊ុនទូរគមនាគមន៍ក្នុងប្រទេសអារ៉ាប៊ីសាអ៊ូឌីត ដោយប្រើប្រាស់ភាសាអារ៉ាប់ក្រៅផ្លូវការ ដែលសម្បូរទៅដោយកំហុសអក្ខរាវិរុទ្ធនិងការប្រើពាក្យកាត់។ ចំណុចនេះមានសារៈសំខាន់សម្រាប់កម្ពុជា ព្រោះទិន្នន័យបណ្តាញសង្គមខ្មែរ (ដូចជាលើ Facebook និង TikTok) ក៏មានទម្រង់ស្រដៀងគ្នានេះដែរ ដូចជាការប្រើប្រាស់ភាសាខ្មែរក្រៅផ្លូវការ ការសរសេរអក្សរឡាតាំង (Khmeringlish) និងពាក្យស្លែង ដែលទាមទារការសម្អាតទិន្នន័យយ៉ាងម៉ត់ចត់មុននឹងវិភាគ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រក្នុងការស្រាវជ្រាវនេះមានសក្ដានុពល និងសារៈប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់ការវាយតម្លៃគុណភាពសេវាកម្មនៅប្រទេសកម្ពុជាតាមរយៈបណ្តាញសង្គម។

សរុបមក ការអនុវត្តក្របខ័ណ្ឌការងារនេះនឹងជួយឱ្យស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាអាចធ្វើការសម្រេចចិត្តបានត្រឹមត្រូវនិងទាន់ពេលវេលា ដោយពឹងផ្អែកលើការស្ទង់មតិជាក់ស្តែងនិងទីតាំងភូមិសាស្ត្ររបស់ប្រជាពលរដ្ឋនៅលើបណ្តាញសង្គម។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ការប្រមូលនិងសម្អាតទិន្នន័យភាសាខ្មែរ (Data Collection & Pre-processing): ទាញយកទិន្នន័យមតិយោបល់ពី Facebook ឬ Twitter API ដោយផ្តោតលើទំព័ររបស់ក្រុមហ៊ុនណាមួយ។ ប្រើប្រាស់ឧបករណ៍ដូចជា Beautiful-SoupSelenium សម្រាប់ប្រមូលទិន្នន័យ រួចធ្វើការសម្អាត (លុប Emoji, កែពាក្យខុសអក្ខរាវិរុទ្ធ) និងអនុវត្តការកាត់ពាក្យ (Word Segmentation) ដោយប្រើ Khmer NLTKSeang
  2. ការបង្កើតឯកសារចំណាំទិន្នន័យ (Data Annotation): ប្រើប្រាស់ប្រព័ន្ធគ្រប់គ្រងការចំណាំទិន្នន័យដូចជា DoccanoLabel Studio ដើម្បីឱ្យក្រុមការងារកំណត់ប្រភេទមនោសញ្ចេតនា (វិជ្ជមាន/អវិជ្ជមាន) ទិដ្ឋភាពសេវាកម្ម (តម្លៃ, ល្បឿនអ៊ីនធឺណិត) និងទីតាំងភូមិសាស្ត្រ (Location Entities) ទៅក្នុងអត្ថបទភាសាខ្មែរនីមួយៗ។
  3. ការហ្វឹកហាត់ម៉ូដែលចាត់ថ្នាក់មនោសញ្ចេតនា (Sentiment & Aspect Classification): សាកល្បងប្រើប្រាស់ Scikit-learn សម្រាប់ម៉ូដែលមូលដ្ឋាន (Baseline) ដូចជា Logistic Regression បន្ទាប់មកត្រូវងាកទៅប្រើ TensorFlowPyTorch ដើម្បីបង្កើតម៉ូដែល CNN ភ្ជាប់ជាមួយ Word Embeddings ផ្ទាល់ខ្លួនសម្រាប់ភាសាខ្មែរ ដើម្បីបង្កើនភាពត្រឹមត្រូវនៃការវិភាគ។
  4. ការចាប់យកទីតាំងភូមិសាស្ត្រតាមរយៈ NER: ប្ដូរមកប្រើប្រាស់បណ្ណាល័យ SpaCy សម្រាប់ការកំណត់អត្តសញ្ញាណទីតាំង (NER)។ អ្នកស្រាវជ្រាវត្រូវបង្ហាត់ម៉ូដែលនេះឡើងវិញ (Fine-tuning) ជាមួយទិន្នន័យឈ្មោះខេត្ត ស្រុក ឃុំ និងតំបន់នានានៅកម្ពុជា ដើម្បីចាប់យកទីតាំងដែលមានការត្អូញត្អែរ។
  5. ការបង្កើតផ្ទាំងគ្រប់គ្រងទិន្នន័យផ្ទាល់ (Live Dashboard Integration): នាំយកលទ្ធផលនៃការវិភាគទាំងនោះទៅបង្ហាញជាទម្រង់រូបភាព និងផែនទី ដោយប្រើប្រាស់ TableauPower BI ដើម្បីឱ្យអ្នកធ្វើសេចក្តីសម្រេចចិត្តអាចមើលឃើញនូវអារម្មណ៍របស់អតិថិជន និងទីតាំងភូមិសាស្ត្រដែលមានបញ្ហាផ្ទាល់ៗ (Real-time)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Word Embedding ជាបច្ចេកទេសក្នុងដំណើរការភាសាធម្មជាតិ (NLP) ដែលបំប្លែងពាក្យទៅជាវ៉ិចទ័រលេខ ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ពីអត្ថន័យ និងទំនាក់ទំនងរវាងពាក្យដែលស្រដៀងគ្នា។ ពាក្យដែលមានអត្ថន័យ ឬបរិបទស្រដៀងគ្នានឹងមានតម្លៃវ៉ិចទ័រក្បែរគ្នា។ ដូចជាការរៀបចំសៀវភៅក្នុងបណ្ណាល័យដែលសៀវភៅប្រភេទដូចគ្នា (ឧ. ប្រវត្តិសាស្ត្រ) ត្រូវដាក់នៅលើធ្នើរជិតគ្នា ដើម្បីងាយស្រួលរក។
Named Entity Recognition (NER) គឺជាដំណើរការនៃការទាញយក និងចាត់ថ្នាក់ពាក្យសំខាន់ៗ (Entities) ពីក្នុងអត្ថបទ ដូចជាឈ្មោះមនុស្ស ទីតាំង ស្ថាប័ន ឬកាលបរិច្ឆេទ ដើម្បីឱ្យម៉ាស៊ីនអាចដឹងថាពាក្យនីមួយៗតំណាងឱ្យអ្វីជាក់លាក់។ ដូចជាការអានសៀវភៅ រួចយកហ្វឺតគូសចំណាំពណ៌ខៀវលើឈ្មោះមនុស្ស និងពណ៌ក្រហមលើឈ្មោះទីក្រុង។
Part of Speech (POS) គឺជាការកំណត់ថ្នាក់ពាក្យ (ដូចជានាម កិរិយាសព្ទ គុណនាម សព្វនាម) ទៅឱ្យពាក្យនីមួយៗក្នុងប្រយោគ ដែលជួយឱ្យប្រព័ន្ធយល់ពីទម្រង់វេយ្យាករណ៍ និងបរិបទនៃការប្រើប្រាស់ពាក្យទាំងនោះ។ ដូចជាការបំពាក់ស្លាកឈ្មោះតួនាទី (ឧ. មេក្រុម, សមាជិក, អ្នកកត់ត្រា) ឱ្យសិស្សម្នាក់ៗក្នុងក្រុម ដើម្បីដឹងថាអ្នកណាមានតួនាទីអ្វី។
Convolutional Neural Network (CNN) ជាប្រភេទនៃបណ្ដាញសរសៃប្រសាទសិប្បនិមិត្ត (Deep Learning) ដែលប្រើជាទូទៅក្នុងការសម្គាល់រូបភាព ប៉ុន្តែក្នុងការសិក្សានេះ វាត្រូវបានប្រើដើម្បីទាញយកលក្ខណៈសំខាន់ៗពីទិន្នន័យអត្ថបទសម្រាប់ចាត់ថ្នាក់មនោសញ្ចេតនា និងចាប់ទីតាំង។ ដូចជាម៉ាស៊ីនស្កេនដែលរំកិលពីលើអត្ថបទមួយចំណែកម្ដងៗ ដើម្បីរកមើលពាក្យគន្លឹះ ឬលំនាំសំខាន់ៗដែលលេចធ្លោ។
Tokenization ជាដំណើរការកាត់បំបែកអត្ថបទ ឬប្រយោគវែងៗ ទៅជាបំណែកតូចៗ (Tokens) ដូចជាពាក្យនីមួយៗ ឬឃ្លាខ្លីៗ (Unigram ឬ Bigram) ដើម្បីងាយស្រួលដល់ប្រព័ន្ធកុំព្យូទ័រក្នុងការអាន និងវិភាគទិន្នន័យបន្ត។ ដូចជាការកាត់នំប៉័ងមួយដើមធំទៅជាចំណិតតូចៗ ដើម្បីងាយស្រួលទំពារ និងរំលាយ។
Support Vector Machine (SVM) ជាក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning algorithm) ដែលធ្វើការចាត់ថ្នាក់ទិន្នន័យដោយស្វែងរកបន្ទាត់ ឬព្រំដែន (Hyperplane) ដ៏ល្អបំផុតដើម្បីបំបែកក្រុមទិន្នន័យផ្សេងៗពីគ្នាឱ្យបានច្បាស់លាស់បំផុត។ ដូចជាការសង់របងចំកណ្តាលទីធ្លា ដើម្បីបំបែកហ្វូងចៀម និងហ្វូងពពែឱ្យនៅដាច់ពីគ្នាដោយមានគម្លាតសុវត្ថិភាពធំបំផុត។
Point of Interest (POI) ក្នុងបរិបទនៃការចាប់ទីតាំង (Location Detection) វាសំដៅទៅលើទីតាំងភូមិសាស្ត្រជាក់លាក់ណាមួយដែលមានទំហំតូចជាងទីក្រុង ដូចជាតំបន់លំនៅដ្ឋាន ផ្សារទំនើប សួនច្បារ ឬអាគារ ដែលគេចាប់អារម្មណ៍ចង់ដឹង។ ដូចជាការដោតម្ជុល (Pin) លើផែនទី Google Map ដើម្បីចំណាំទីតាំងហាងកាហ្វេ ឬសាលារៀនដែលយើងចង់ទៅ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖