បញ្ហា (The Problem)៖ ប្រព័ន្ធវិភាគមនោសញ្ចេតនាផ្អែកលើទិដ្ឋភាព (ABSA) ភាគច្រើនមិនមានការបែងចែកកិច្ចការច្បាស់លាស់ និងខ្វះរង្វាស់វាយតម្លៃស្តង់ដារសម្រាប់អនុគម្រោងដូចជាការទាញយកពាក្យ ការប្រមូលផ្តុំ និងការប៉ាន់ស្មានប៉ូលមនោសញ្ចេតនា។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានស្នើឡើងនូវការបែងចែកកិច្ចការថ្មីមួយដែលមាន៣ដំណាក់កាលរួមជាមួយនឹងការបង្កើតសំណុំទិន្នន័យគោល (Benchmark datasets) និងរង្វាស់វាយតម្លៃថ្មីៗដើម្បីដោះស្រាយបញ្ហាខាងលើ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Hu & Liu (H&L) Baseline វិធីសាស្ត្រមូលដ្ឋានទាញយកទិដ្ឋភាពតាមរយៈការកំណត់នាម (Nouns) |
ជាវិធីសាស្ត្រដែលមិនត្រូវការទិន្នន័យបង្ហាត់ (Unsupervised) និងងាយស្រួលក្នុងការទាញយកពាក្យនាមធ្វើជាទិដ្ឋភាពគោល។ | ទាញយកពាក្យច្រើនលើសលប់ដែលមិនមែនជាទិដ្ឋភាពពិតប្រាកដ (False positives) និងមានភាពសុក្រឹតទាបសម្រាប់ពាក្យផ្សំ (Multi-word terms)។ | ទទួលបានភាពត្រឹមត្រូវជាមធ្យម (AWP) ត្រឹមតែ 52.23% សម្រាប់ទិន្នន័យភោជនីយដ្ឋាន និង 49.73% សម្រាប់សណ្ឋាគារ។ |
| H&L+W2V (Proposed ATE) វិធីសាស្ត្រ H&L បូករួមជាមួយការកាត់ចេញដោយវ៉ិចទ័រពាក្យ (Word2Vec) |
បង្កើនភាពសុក្រឹតយ៉ាងខ្លាំងដោយប្រើប្រាស់ Word Vectors ដើម្បីវាស់ស្ទង់និងកាត់ចោលពាក្យទូទៅដែលមិនពាក់ព័ន្ធនឹងដែនកំណត់ជាក់លាក់ (Domain-specific)។ | តម្រូវឱ្យមានទិន្នន័យអត្ថបទធំៗ (Corpora) ដើម្បីហ្វឹកហាត់បង្កើតម៉ូដែល Continuous Word Vectors ជាមុន។ | ធ្វើឲ្យកម្រិត AWP កើនឡើងដល់ 66.80% (ភោជនីយដ្ឋាន) និង 53.37% (សណ្ឋាគារ) ដែលលើសដាច់វិធីសាស្ត្រមូលដ្ឋាន។ |
| WNDS with Sense Pruning (SP) ការវាស់ភាពស្រដៀងគ្នាដោយប្រើ WordNet និង Distributional Similarity ជាមួយការកាត់ចេញអត្ថន័យ |
លុបបំបាត់អត្ថន័យស្រដៀងគ្នាដែលមិនពាក់ព័ន្ធ និងរួមបញ្ចូលគ្នានូវស្ថិតិពីអត្ថបទពិតប្រាកដជាមួយនឹងរចនាសម្ព័ន្ធវចនានុក្រម ដែលធ្វើឲ្យការប្រមូលផ្តុំទិដ្ឋភាពកាន់តែសុក្រឹត។ | ពឹងផ្អែកទាំងស្រុងលើធនធាន WordNet ដែលមានភាពសំបូរបែបសម្រាប់តែភាសាអង់គ្លេស ធ្វើឲ្យពិបាកអនុវត្តលើភាសាផ្សេង។ | ទទួលបានពិន្ទុ Pearson correlation ខ្ពស់បំផុត (0.545 សម្រាប់ភោជនីយដ្ឋាន និង 0.546 សម្រាប់កុំព្យូទ័រយួរដៃ) បើធៀបនឹងវិធីសាស្ត្រដទៃ។ |
| Two-stage SVM Classifier ចំណាត់ថ្នាក់មនោសញ្ចេតនា SVM ចំនួនពីរដំណាក់កាល |
ដោះស្រាយបញ្ហាវិសមភាពទិន្នន័យ (Class imbalance) បានល្អដោយបំបែកការកំណត់ថាមានឬគ្មានមនោសញ្ចេតនា (Subjectivity) ជាមុន សឹមបែងចែកជាវិជ្ជមានឬអវិជ្ជមានតាមក្រោយ។ | ត្រូវការរៀបចំលក្ខណៈពិសេស (Feature engineering) ច្រើន ដោយពឹងផ្អែកលើវចនានុក្រមមនោសញ្ចេតនា (Sentiment Lexicons) ចំនួនច្រើន។ | ជាប់ចំណាត់ថ្នាក់ទី៦ ក្នុងការប្រកួតប្រជែងថ្នាក់អន្តរជាតិ SemEval 2014 ដោយមានកំហុសទាបក្នុងការវាយតម្លៃប៉ូលមនោសញ្ចេតនា។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រល្មមសម្រាប់ការហ្វឹកហាត់ម៉ូដែលម៉ាស៊ីនរៀន (Machine Learning) ប៉ុន្តែពឹងផ្អែកយ៉ាងខ្លាំងលើធនធានភាសា (Linguistic Resources) ស្តង់ដារដើម្បីដំណើរការសន្មត់អត្ថន័យ។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យអត្ថបទភាសាអង់គ្លេសពីការវាយតម្លៃអតិថិជនលើភោជនីយដ្ឋាន សណ្ឋាគារ និងកុំព្យូទ័រ និងពឹងផ្អែកខ្លាំងលើវចនានុក្រមភាសាអង់គ្លេស (WordNet, Lexicons)។ សម្រាប់កម្ពុជា ភាពលម្អៀងនេះជាឧបសគ្គធំ ដោយសារធនធានភាសាខ្មែរ (Khmer Lexicons/WordNet) មិនទាន់មានភាពពេញលេញ ដែលធ្វើឱ្យពិបាកក្នុងការទាញយកលទ្ធផលដូចគ្នាដោយផ្ទាល់។
ទោះបីជាខ្វះខាតធនធានភាសាក៏ដោយ គំនិតនៃការបែងចែកកិច្ចការ (Task decomposition) និងការប្រើប្រាស់ Word Vectors អាចផ្តល់ជាអត្ថប្រយោជន៍ដល់ការស្រាវជ្រាវ និងអាជីវកម្មនៅកម្ពុជា។
សរុបមក និក្ខេបបទនេះផ្តល់នូវក្របខណ្ឌដ៏រឹងមាំមួយ ដែលអាចអនុវត្តបានសម្រាប់ទីផ្សារកម្ពុជា ប្រសិនបើមានការវិនិយោគក្នុងការបង្កើតទិន្នន័យហ្វឹកហាត់ និងវចនានុក្រមមនោសញ្ចេតនាជាភាសាខ្មែរ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Aspect Based Sentiment Analysis (ABSA) | ជាប្រព័ន្ធវិភាគមនោសញ្ចេតនាដែលមិនត្រឹមតែប្រាប់ថាអត្ថបទមួយជាវិជ្ជមានឬអវិជ្ជមាននោះទេ ប៉ុន្តែវាស្វែងរកទិដ្ឋភាពជាក់លាក់ (ឧទាហរណ៍៖ សេវាកម្ម, អាហារ) ហើយវាយតម្លៃមតិលើទិដ្ឋភាពនីមួយៗនោះ។ | ដូចជាការអានសៀវភៅកំណត់ហេតុរបស់អតិថិជន ហើយគូសចំណាំថាតើគេសរសើរពីអ្វី និងរិះគន់ពីអ្វីឱ្យច្បាស់ៗ មិនមែនគ្រាន់តែវាយតម្លៃជារួមនោះទេ។ |
| Aspect Term Extraction (ATE) | ជាដំណើរការទាញយកពាក្យឬឃ្លាពីក្នុងអត្ថបទ ដែលតំណាងឱ្យលក្ខណៈ ឬផ្នែកណាមួយនៃផលិតផល/សេវាកម្ម ដែលអតិថិជនកំពុងនិយាយដល់ (ឧ. ពាក្យ "ថ្ម" ឬ "អេក្រង់" សម្រាប់ទូរស័ព្ទ)។ | ដូចជាការប្រើហាយឡាយ (Highlighter) គូសពីលើពាក្យគន្លឹះសំខាន់ៗដែលបញ្ជាក់ពីផ្នែកផ្សេងៗនៃផលិតផលដែលអតិថិជនកំពុងនិយាយដល់។ |
| Continuous Space Word Vectors | ជាបច្ចេកទេសបំប្លែងពាក្យទៅជាវ៉ិចទ័រលេខគណិតវិទ្យា ដែលអនុញ្ញាតឱ្យកុំព្យូទ័រអាចវាស់ស្ទង់ភាពស្រដៀងគ្នានៃអត្ថន័យរវាងពាក្យមួយទៅពាក្យមួយទៀតបានដោយគណនាចម្ងាយរវាងវ៉ិចទ័រទាំងនោះ។ | ដូចជាការដាក់ទីតាំងពាក្យនីមួយៗលើផែនទី បើពាក្យមានន័យស្រដៀងគ្នា ពួកវានឹងស្ថិតនៅជិតគ្នាលើផែនទីនោះ។ |
| Hierarchical Agglomerative Clustering | ជាក្បួនដោះស្រាយការប្រមូលផ្តុំទិន្នន័យពីក្រោមឡើងលើ ដោយចាប់ផ្តើមពីធាតុនីមួយៗជាក្រុមដាច់ដោយឡែក រួចបន្តបញ្ចូលក្រុមដែលស្រដៀងគ្នាចូលគ្នាបន្តបន្ទាប់រហូតបង្កើតបានជារចនាសម្ព័ន្ធមែកធាង។ | ដូចជាការចងក្រងសៀវភៅ ដោយផ្តុំទំព័រទៅជាជំពូក រួចផ្តុំជំពូកទៅជាផ្នែកធំៗ រហូតបានសៀវភៅមួយក្បាលពេញលេញ។ |
| Support Vector Machine (SVM) | ជាម៉ូដែលម៉ាស៊ីនរៀន (Machine Learning) សម្រាប់ធ្វើចំណាត់ថ្នាក់ទិន្នន័យ ដោយវាព្យាយាមគូសបន្ទាត់ ឬប្លង់ដែលបែងចែកក្រុមទិន្នន័យផ្សេងៗគ្នាឱ្យមានគម្លាតឆ្ងាយពីគ្នាបំផុត។ | ដូចជាការគូសបន្ទាត់ព្រំដែនដ៏ធំទូលាយមួយ ដើម្បីបំបែកផ្លែប៉ោមព៌ណក្រហម និងព៌ណបៃតងឱ្យដាច់ពីគ្នាបានល្អបំផុត។ |
| Pointwise Mutual Information (PMI) | ជារង្វាស់ស្ថិតិដែលប្រើដើម្បីវាយតម្លៃថាតើពាក្យពីរតែងតែលេចឡើងជាមួយគ្នាញឹកញាប់កម្រិតណា បើធៀបនឹងការលេចឡើងដោយចៃដន្យដាច់ដោយឡែកពីគ្នា។ | ដូចជារង្វាស់ដែលប្រាប់ថាតើអ្នក និងមិត្តភ័ក្តិម្នាក់ទៀតតែងតែទៅញ៉ាំអីជុំគ្នាញឹកញាប់ប៉ុណ្ណា បើធៀបនឹងការដើរម្នាក់ឯង។ |
| WordNet | ជាមូលដ្ឋានទិន្នន័យវចនានុក្រមដែលចងក្រងពាក្យភាសាអង់គ្លេសជាក្រុមនៃវេវចនសព្ទ (Synsets) និងភ្ជាប់ទំនាក់ទំនងគ្នាទៅតាមអត្ថន័យធំឬតូច (ឧ. ពាក្យទូទៅ និងពាក្យជាក់លាក់)។ | ដូចជាបណ្តាញផែនទីគ្រួសារនៃពាក្យ ដែលបង្ហាញពីពូជពង្ស និងទំនាក់ទំនងសាច់ញាតិរវាងពាក្យនីមួយៗ។ |
| Silhouette Index | ជារង្វាស់សម្រាប់វាយតម្លៃគុណភាពនៃការប្រមូលផ្តុំទិន្នន័យ (Clustering) ដោយវាស់ថាតើទិន្នន័យមួយស័ក្តិសមជាមួយក្រុមរបស់វាប៉ុណ្ណា បើធៀបនឹងក្រុមដែលនៅក្បែរវាបំផុត។ | ដូចជាការវាស់ស្ទង់ថាតើសិស្សម្នាក់មានភាពចុះសម្រុងនឹងសមាជិកក្រុមខ្លួនឯងកម្រិតណា បើធៀបនឹងសិស្សក្នុងក្រុមផ្សេង។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖