Original Title: Aspect Based Sentiment Analysis
Source: www2.aueb.gr
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគមនោសញ្ចេតនាផ្អែកលើទិដ្ឋភាព

ចំណងជើងដើម៖ Aspect Based Sentiment Analysis

អ្នកនិពន្ធ៖ Ioannis (John) Pavlopoulos (Athens University of Economics and Business)

ឆ្នាំបោះពុម្ព៖ 2014 (Ph.D. Thesis, Athens University of Economics and Business)

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធវិភាគមនោសញ្ចេតនាផ្អែកលើទិដ្ឋភាព (ABSA) ភាគច្រើនមិនមានការបែងចែកកិច្ចការច្បាស់លាស់ និងខ្វះរង្វាស់វាយតម្លៃស្តង់ដារសម្រាប់អនុគម្រោងដូចជាការទាញយកពាក្យ ការប្រមូលផ្តុំ និងការប៉ាន់ស្មានប៉ូលមនោសញ្ចេតនា។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានស្នើឡើងនូវការបែងចែកកិច្ចការថ្មីមួយដែលមាន៣ដំណាក់កាលរួមជាមួយនឹងការបង្កើតសំណុំទិន្នន័យគោល (Benchmark datasets) និងរង្វាស់វាយតម្លៃថ្មីៗដើម្បីដោះស្រាយបញ្ហាខាងលើ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Hu & Liu (H&L) Baseline
វិធីសាស្ត្រមូលដ្ឋានទាញយកទិដ្ឋភាពតាមរយៈការកំណត់នាម (Nouns)
ជាវិធីសាស្ត្រដែលមិនត្រូវការទិន្នន័យបង្ហាត់ (Unsupervised) និងងាយស្រួលក្នុងការទាញយកពាក្យនាមធ្វើជាទិដ្ឋភាពគោល។ ទាញយកពាក្យច្រើនលើសលប់ដែលមិនមែនជាទិដ្ឋភាពពិតប្រាកដ (False positives) និងមានភាពសុក្រឹតទាបសម្រាប់ពាក្យផ្សំ (Multi-word terms)។ ទទួលបានភាពត្រឹមត្រូវជាមធ្យម (AWP) ត្រឹមតែ 52.23% សម្រាប់ទិន្នន័យភោជនីយដ្ឋាន និង 49.73% សម្រាប់សណ្ឋាគារ។
H&L+W2V (Proposed ATE)
វិធីសាស្ត្រ H&L បូករួមជាមួយការកាត់ចេញដោយវ៉ិចទ័រពាក្យ (Word2Vec)
បង្កើនភាពសុក្រឹតយ៉ាងខ្លាំងដោយប្រើប្រាស់ Word Vectors ដើម្បីវាស់ស្ទង់និងកាត់ចោលពាក្យទូទៅដែលមិនពាក់ព័ន្ធនឹងដែនកំណត់ជាក់លាក់ (Domain-specific)។ តម្រូវឱ្យមានទិន្នន័យអត្ថបទធំៗ (Corpora) ដើម្បីហ្វឹកហាត់បង្កើតម៉ូដែល Continuous Word Vectors ជាមុន។ ធ្វើឲ្យកម្រិត AWP កើនឡើងដល់ 66.80% (ភោជនីយដ្ឋាន) និង 53.37% (សណ្ឋាគារ) ដែលលើសដាច់វិធីសាស្ត្រមូលដ្ឋាន។
WNDS with Sense Pruning (SP)
ការវាស់ភាពស្រដៀងគ្នាដោយប្រើ WordNet និង Distributional Similarity ជាមួយការកាត់ចេញអត្ថន័យ
លុបបំបាត់អត្ថន័យស្រដៀងគ្នាដែលមិនពាក់ព័ន្ធ និងរួមបញ្ចូលគ្នានូវស្ថិតិពីអត្ថបទពិតប្រាកដជាមួយនឹងរចនាសម្ព័ន្ធវចនានុក្រម ដែលធ្វើឲ្យការប្រមូលផ្តុំទិដ្ឋភាពកាន់តែសុក្រឹត។ ពឹងផ្អែកទាំងស្រុងលើធនធាន WordNet ដែលមានភាពសំបូរបែបសម្រាប់តែភាសាអង់គ្លេស ធ្វើឲ្យពិបាកអនុវត្តលើភាសាផ្សេង។ ទទួលបានពិន្ទុ Pearson correlation ខ្ពស់បំផុត (0.545 សម្រាប់ភោជនីយដ្ឋាន និង 0.546 សម្រាប់កុំព្យូទ័រយួរដៃ) បើធៀបនឹងវិធីសាស្ត្រដទៃ។
Two-stage SVM Classifier
ចំណាត់ថ្នាក់មនោសញ្ចេតនា SVM ចំនួនពីរដំណាក់កាល
ដោះស្រាយបញ្ហាវិសមភាពទិន្នន័យ (Class imbalance) បានល្អដោយបំបែកការកំណត់ថាមានឬគ្មានមនោសញ្ចេតនា (Subjectivity) ជាមុន សឹមបែងចែកជាវិជ្ជមានឬអវិជ្ជមានតាមក្រោយ។ ត្រូវការរៀបចំលក្ខណៈពិសេស (Feature engineering) ច្រើន ដោយពឹងផ្អែកលើវចនានុក្រមមនោសញ្ចេតនា (Sentiment Lexicons) ចំនួនច្រើន។ ជាប់ចំណាត់ថ្នាក់ទី៦ ក្នុងការប្រកួតប្រជែងថ្នាក់អន្តរជាតិ SemEval 2014 ដោយមានកំហុសទាបក្នុងការវាយតម្លៃប៉ូលមនោសញ្ចេតនា។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រល្មមសម្រាប់ការហ្វឹកហាត់ម៉ូដែលម៉ាស៊ីនរៀន (Machine Learning) ប៉ុន្តែពឹងផ្អែកយ៉ាងខ្លាំងលើធនធានភាសា (Linguistic Resources) ស្តង់ដារដើម្បីដំណើរការសន្មត់អត្ថន័យ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យអត្ថបទភាសាអង់គ្លេសពីការវាយតម្លៃអតិថិជនលើភោជនីយដ្ឋាន សណ្ឋាគារ និងកុំព្យូទ័រ និងពឹងផ្អែកខ្លាំងលើវចនានុក្រមភាសាអង់គ្លេស (WordNet, Lexicons)។ សម្រាប់កម្ពុជា ភាពលម្អៀងនេះជាឧបសគ្គធំ ដោយសារធនធានភាសាខ្មែរ (Khmer Lexicons/WordNet) មិនទាន់មានភាពពេញលេញ ដែលធ្វើឱ្យពិបាកក្នុងការទាញយកលទ្ធផលដូចគ្នាដោយផ្ទាល់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាខ្វះខាតធនធានភាសាក៏ដោយ គំនិតនៃការបែងចែកកិច្ចការ (Task decomposition) និងការប្រើប្រាស់ Word Vectors អាចផ្តល់ជាអត្ថប្រយោជន៍ដល់ការស្រាវជ្រាវ និងអាជីវកម្មនៅកម្ពុជា។

សរុបមក និក្ខេបបទនេះផ្តល់នូវក្របខណ្ឌដ៏រឹងមាំមួយ ដែលអាចអនុវត្តបានសម្រាប់ទីផ្សារកម្ពុជា ប្រសិនបើមានការវិនិយោគក្នុងការបង្កើតទិន្នន័យហ្វឹកហាត់ និងវចនានុក្រមមនោសញ្ចេតនាជាភាសាខ្មែរ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ប្រមូលទិន្នន័យ និងសាងសង់ Word Vectors: ប្រមូលមតិយោបល់របស់អតិថិជនជាភាសាខ្មែរពី Facebook ឬវេទិកាអនឡាញ បន្ទាប់មកធ្វើការកាត់ពាក្យ (Word Segmentation) និងប្រើប្រាស់ Word2VecFastText ដើម្បីបង្កើត Continuous Word Vectors សម្រាប់ភាសាខ្មែរ។
  2. អនុវត្តការទាញយកទិដ្ឋភាព (Aspect Extraction): សាកល្បងទាញយកពាក្យនាម (Nouns) ដែលមានប្រេកង់ខ្ពស់តាមរយៈការប្រើប្រាស់ POS Tagger របស់ខ្មែរ បន្ទាប់មកប្រើ Word Vectors ដែលបានហ្វឹកហាត់ដើម្បីកាត់ចេញ (Prune) ពាក្យដែលមិនពាក់ព័ន្ធ ដូចដែលបានស្នើក្នុងវិធីសាស្ត្រ H&L+W2V
  3. បង្កើតវចនានុក្រមមនោសញ្ចេតនាមូលដ្ឋាន (Sentiment Lexicon): ចាប់ផ្តើមចងក្រងបញ្ជីពាក្យវិជ្ជមាន និងអវិជ្ជមានជាភាសាខ្មែរដោយដៃ (Manual Annotation) ឬបកប្រែពាក្យសំខាន់ៗពី SentiWordNet ដើម្បីធ្វើជាប្រភពទិន្នន័យមូលដ្ឋានសម្រាប់ការវាយតម្លៃប៉ូលមនោសញ្ចេតនា។
  4. អភិវឌ្ឍម៉ូដែលវិភាគមនោសញ្ចេតនាពីរដំណាក់កាល: ប្រើប្រាស់បណ្ណាល័យ Scikit-learn ដើម្បីបង្វឹកម៉ូដែល SVM សម្រាប់បែងចែកមតិយោបល់ជា (១) មាន/គ្មានមនោសញ្ចេតនា និង (២) វិជ្ជមាន/អវិជ្ជមាន ដោយទាញយកលក្ខណៈពិសេស (Features) ពីវចនានុក្រមដែលបានបង្កើតឡើង។
  5. សាកល្បងការប្រមូលផ្តុំទិដ្ឋភាព (Aspect Aggregation): ប្រើប្រាស់កញ្ចប់កូដ SciPy ដើម្បីអនុវត្ត Agglomerative Hierarchical Clustering លើពាក្យទិដ្ឋភាពខ្មែរ ដោយគណនាចម្ងាយ (Cosine Distance) ផ្អែកលើ Word Vectors ជំនួសឲ្យការប្រើ WordNet ដែលយើងមិនទាន់មាន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Aspect Based Sentiment Analysis (ABSA) ជាប្រព័ន្ធវិភាគមនោសញ្ចេតនាដែលមិនត្រឹមតែប្រាប់ថាអត្ថបទមួយជាវិជ្ជមានឬអវិជ្ជមាននោះទេ ប៉ុន្តែវាស្វែងរកទិដ្ឋភាពជាក់លាក់ (ឧទាហរណ៍៖ សេវាកម្ម, អាហារ) ហើយវាយតម្លៃមតិលើទិដ្ឋភាពនីមួយៗនោះ។ ដូចជាការអានសៀវភៅកំណត់ហេតុរបស់អតិថិជន ហើយគូសចំណាំថាតើគេសរសើរពីអ្វី និងរិះគន់ពីអ្វីឱ្យច្បាស់ៗ មិនមែនគ្រាន់តែវាយតម្លៃជារួមនោះទេ។
Aspect Term Extraction (ATE) ជាដំណើរការទាញយកពាក្យឬឃ្លាពីក្នុងអត្ថបទ ដែលតំណាងឱ្យលក្ខណៈ ឬផ្នែកណាមួយនៃផលិតផល/សេវាកម្ម ដែលអតិថិជនកំពុងនិយាយដល់ (ឧ. ពាក្យ "ថ្ម" ឬ "អេក្រង់" សម្រាប់ទូរស័ព្ទ)។ ដូចជាការប្រើហាយឡាយ (Highlighter) គូសពីលើពាក្យគន្លឹះសំខាន់ៗដែលបញ្ជាក់ពីផ្នែកផ្សេងៗនៃផលិតផលដែលអតិថិជនកំពុងនិយាយដល់។
Continuous Space Word Vectors ជាបច្ចេកទេសបំប្លែងពាក្យទៅជាវ៉ិចទ័រលេខគណិតវិទ្យា ដែលអនុញ្ញាតឱ្យកុំព្យូទ័រអាចវាស់ស្ទង់ភាពស្រដៀងគ្នានៃអត្ថន័យរវាងពាក្យមួយទៅពាក្យមួយទៀតបានដោយគណនាចម្ងាយរវាងវ៉ិចទ័រទាំងនោះ។ ដូចជាការដាក់ទីតាំងពាក្យនីមួយៗលើផែនទី បើពាក្យមានន័យស្រដៀងគ្នា ពួកវានឹងស្ថិតនៅជិតគ្នាលើផែនទីនោះ។
Hierarchical Agglomerative Clustering ជាក្បួនដោះស្រាយការប្រមូលផ្តុំទិន្នន័យពីក្រោមឡើងលើ ដោយចាប់ផ្តើមពីធាតុនីមួយៗជាក្រុមដាច់ដោយឡែក រួចបន្តបញ្ចូលក្រុមដែលស្រដៀងគ្នាចូលគ្នាបន្តបន្ទាប់រហូតបង្កើតបានជារចនាសម្ព័ន្ធមែកធាង។ ដូចជាការចងក្រងសៀវភៅ ដោយផ្តុំទំព័រទៅជាជំពូក រួចផ្តុំជំពូកទៅជាផ្នែកធំៗ រហូតបានសៀវភៅមួយក្បាលពេញលេញ។
Support Vector Machine (SVM) ជាម៉ូដែលម៉ាស៊ីនរៀន (Machine Learning) សម្រាប់ធ្វើចំណាត់ថ្នាក់ទិន្នន័យ ដោយវាព្យាយាមគូសបន្ទាត់ ឬប្លង់ដែលបែងចែកក្រុមទិន្នន័យផ្សេងៗគ្នាឱ្យមានគម្លាតឆ្ងាយពីគ្នាបំផុត។ ដូចជាការគូសបន្ទាត់ព្រំដែនដ៏ធំទូលាយមួយ ដើម្បីបំបែកផ្លែប៉ោមព៌ណក្រហម និងព៌ណបៃតងឱ្យដាច់ពីគ្នាបានល្អបំផុត។
Pointwise Mutual Information (PMI) ជារង្វាស់ស្ថិតិដែលប្រើដើម្បីវាយតម្លៃថាតើពាក្យពីរតែងតែលេចឡើងជាមួយគ្នាញឹកញាប់កម្រិតណា បើធៀបនឹងការលេចឡើងដោយចៃដន្យដាច់ដោយឡែកពីគ្នា។ ដូចជារង្វាស់ដែលប្រាប់ថាតើអ្នក និងមិត្តភ័ក្តិម្នាក់ទៀតតែងតែទៅញ៉ាំអីជុំគ្នាញឹកញាប់ប៉ុណ្ណា បើធៀបនឹងការដើរម្នាក់ឯង។
WordNet ជាមូលដ្ឋានទិន្នន័យវចនានុក្រមដែលចងក្រងពាក្យភាសាអង់គ្លេសជាក្រុមនៃវេវចនសព្ទ (Synsets) និងភ្ជាប់ទំនាក់ទំនងគ្នាទៅតាមអត្ថន័យធំឬតូច (ឧ. ពាក្យទូទៅ និងពាក្យជាក់លាក់)។ ដូចជាបណ្តាញផែនទីគ្រួសារនៃពាក្យ ដែលបង្ហាញពីពូជពង្ស និងទំនាក់ទំនងសាច់ញាតិរវាងពាក្យនីមួយៗ។
Silhouette Index ជារង្វាស់សម្រាប់វាយតម្លៃគុណភាពនៃការប្រមូលផ្តុំទិន្នន័យ (Clustering) ដោយវាស់ថាតើទិន្នន័យមួយស័ក្តិសមជាមួយក្រុមរបស់វាប៉ុណ្ណា បើធៀបនឹងក្រុមដែលនៅក្បែរវាបំផុត។ ដូចជាការវាស់ស្ទង់ថាតើសិស្សម្នាក់មានភាពចុះសម្រុងនឹងសមាជិកក្រុមខ្លួនឯងកម្រិតណា បើធៀបនឹងសិស្សក្នុងក្រុមផ្សេង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖