បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការវិភាគមនោសញ្ចេតនាផ្អែកលើទិដ្ឋភាព (Aspect-based Sentiment Analysis) ដើម្បីកំណត់ប្រភេទនៃទិដ្ឋភាព និងកម្រិតមនោសញ្ចេតនាដែលបានបញ្ចេញនៅក្នុងអត្ថបទវាយតម្លៃរបស់អតិថិជនលើភោជនីយដ្ឋាន។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់វិធីសាស្ត្ររៀនដោយម៉ាស៊ីន (Machine Learning) ផ្សេងៗគ្នាសម្រាប់កិច្ចការរងទាំងបីនៃកម្មវិធី SemEval-2015 រួមមាន ការចាត់ថ្នាក់ឯករាជ្យ ការកំណត់ស្លាកតាមលំដាប់ និងការរៀនតាមបែបបណ្តុំ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Random Forest Classifiers (One-vs-all with Unigrams) ចំណាត់ថ្នាក់ព្រៃចៃដន្យ (ប្រើ Unigrams សម្រាប់កិច្ចការទី១) |
មានភាពសាមញ្ញ លឿន និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការចាត់ថ្នាក់ទិន្នន័យអត្ថបទដែលមានទំហំតូច ដោយប្រើត្រឹមកញ្ចប់ពាក្យ (Bag of Words)។ | មិនអាចចាប់យកអត្ថន័យស៊ីជម្រៅនៃពាក្យ ឬបរិបទបានល្អដូចវិធីសាស្ត្រវ៉ិចទ័រពាក្យ (Word2Vec) នោះទេ។ | ទទួលបានពិន្ទុ F1 ០,៥៧ សម្រាប់កិច្ចការរកឃើញប្រភេទនៃទិដ្ឋភាព (ចំណាត់ថ្នាក់ទី៤)។ |
| Conditional Random Fields (CRF) using Mallet វាលចៃដន្យតាមលក្ខខណ្ឌ (CRF) សម្រាប់កិច្ចការទី២ |
ស័ក្តិសមបំផុតសម្រាប់ការចាត់ថ្នាក់តាមលំដាប់ (Sequence Labelling) និងការទាញយកកន្សោមពាក្យគោលដៅមតិ។ | ទាមទារការកំណត់លក្ខណៈពិសេសដោយដៃច្រើន (Hand-crafted features) ដូចជា POS, Dependency និងការបង្កើតបញ្ជីពាក្យ Seed lists។ | ទទួលបានពិន្ទុ F1 ០,៥៣ សម្រាប់កិច្ចការរកឃើញកន្សោមគោលដៅមតិ (ចំណាត់ថ្នាក់ទី៧)។ |
| Stacking Classifiers (Ensemble Learning) ការរៀនតាមបែបបណ្តុំចាត់ថ្នាក់ (Stacking សម្រាប់កិច្ចការទី៣) |
បង្កើនភាពត្រឹមត្រូវដោយរួមបញ្ចូលលទ្ធផលពីម៉ូដែលជាច្រើនបញ្ជូលគ្នា (SVM, SGD, AdaBoost) រួមជាមួយនឹងលក្ខណៈ Lexicon។ | ចំណាយពេលយូរជាងមុនក្នុងការបង្ហាត់ម៉ូដែល និងមានភាពស្មុគស្មាញក្នុងការរៀបចំលំហូរបណ្តុះបណ្តាលទិន្នន័យ។ | ទទួលបានពិន្ទុ F1 ០,៧១ សម្រាប់កិច្ចការចាត់ថ្នាក់មនោសញ្ចេតនា (ចំណាត់ថ្នាក់ទី៨)។ |
| Linear SVM with only lexicon features (Baseline) ម៉ាស៊ីនវ៉ិចទ័រគាំទ្របន្ទាត់ត្រង់ (ម៉ូដែលគោល/Baseline) |
លឿនជាង និងងាយស្រួលក្នុងការអនុវត្តដោយប្រើតែលក្ខណៈពិសេសពីវចនានុក្រម (Lexicon features) ប៉ុណ្ណោះ។ | ផ្តល់លទ្ធផលទាបជាងម៉ូដែលបែបបណ្តុំ (Ensemble) ដោយសារខ្វះការរៀនពីម៉ូដែលចាត់ថ្នាក់ផ្សេងៗទៀត។ | ទទួលបានពិន្ទុ Accuracy ត្រឹមតែ ០,៦៨ ដែលទាបជាងម៉ូដែល Stacking ចំនួន ០,០៣។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធនេះទាមទារធនធានកុំព្យូទ័រមធ្យម និងពេលវេលាច្រើនក្នុងការរៀបចំលក្ខណៈពិសេសនៃភាសា (Feature Engineering) និងបញ្ជីវចនានុក្រម។
ការសិក្សានេះផ្អែកទាំងស្រុងលើទិន្នន័យវាយតម្លៃភោជនីយដ្ឋានជាភាសាអង់គ្លេសពីកម្មវិធី SemEval (ភាគច្រើនជាទិន្នន័យបស្ចិមប្រទេស)។ វាមានសារៈសំខាន់សម្រាប់ប្រទេសកម្ពុជា ដោយសារភាសាខ្មែរមានទម្រង់វេយ្យាករណ៍ និងការបញ្ចេញមតិខុសគ្នា ដែលតម្រូវឱ្យមានការបង្កើតវចនានុក្រមមនោសញ្ចេតនា (Lexicons) និងទិន្នន័យស្រាវជ្រាវជាភាសាខ្មែរផ្ទាល់ ទើបអាចអនុវត្តបានប្រកបដោយប្រសិទ្ធភាព។
ទោះបីជាប្រព័ន្ធនេះត្រូវបានបង្កើតឡើងសម្រាប់ភាសាអង់គ្លេសក៏ដោយ វិធីសាស្ត្រ Aspect-Based Sentiment Analysis មានអត្ថប្រយោជន៍យ៉ាងខ្លាំងក្នុងការយកមកកែច្នៃប្រើប្រាស់សម្រាប់វិស័យពាណិជ្ជកម្ម និងសេវាកម្មនៅកម្ពុជា។
ជារួម ការអនុវត្តម៉ូដែលនេះនឹងជួយឱ្យអាជីវកម្មនៅកម្ពុជាអាចយល់ច្បាស់ពីចំណុចខ្លាំងនិងចំណុចខ្សោយរបស់ខ្លួន តាមរយៈការវិភាគមតិអតិថិជនយ៉ាងលម្អិតតាមផ្នែកនីមួយៗ (Aspect-level) ជាជាងការវាយតម្លៃជារួម។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Aspect Based Sentiment Analysis | ការវិភាគមនោសញ្ចេតនាដោយបំបែកតាមផ្នែក ឬលក្ខណៈពិសេសរបស់ផលិតផល/សេវាកម្ម ជាជាងការវាយតម្លៃជារួម ដើម្បីដឹងថាអតិថិជនពេញចិត្ត ឬមិនពេញចិត្តលើចំណុចណាខ្លះដោយឡែកពីគ្នា។ | ដូចជាការផ្តល់ពិន្ទុដាច់ដោយឡែកសម្រាប់ "រសជាតិម្ហូប" និង "សេវាកម្ម" នៅក្នុងភោជនីយដ្ឋានតែមួយ។ |
| Opinion Target Expression | កន្សោមពាក្យ ឬគោលដៅជាក់លាក់នៅក្នុងប្រយោគដែលអ្នកសរសេរចង់បញ្ចេញមតិយោបល់ទៅលើ (ឧទាហរណ៍ ពាក្យថា "fajitas" ក្នុងប្រយោគ "I loved the fajitas")។ | ជាពាក្យឬឈ្មោះវត្ថុដែលគេកំពុងនិយាយដើម ឬសរសើរ នៅក្នុងប្រយោគមួយ។ |
| Conditional Random Fields | ម៉ូដែលស្ថិតិនិងរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលប្រើសម្រាប់ទស្សន៍ទាយ និងចាត់ថ្នាក់ទិន្នន័យដែលមានលំដាប់លំដោយ ដូចជាការស្វែងរកពាក្យគោលដៅមតិនៅក្នុងលំដាប់នៃប្រយោគអត្ថបទដោយផ្អែកលើបរិបទជុំវិញ។ | ដូចជាអ្នកស៊ើបអង្កេតដែលទស្សន៍ទាយសកម្មភាពបន្ទាប់របស់ជនសង្ស័យ ដោយផ្អែកលើលំដាប់នៃសកម្មភាពមុនៗរបស់គេ។ |
| Stacking Classifiers | បច្ចេកទេសរៀនបែបបណ្តុំ (Ensemble Learning) ដែលប្រមូលផ្តុំលទ្ធផលទស្សន៍ទាយពីម៉ូដែលរៀនម៉ាស៊ីនជាច្រើន (Base models) រួចប្រើម៉ូដែលមួយទៀត (Meta-model) មកបូកសរុបដើម្បីសម្រេចចិត្តចុងក្រោយក្នុងការទស្សន៍ទាយ ដើម្បីបង្កើនភាពត្រឹមត្រូវ។ | ដូចជាការសួរយោបល់ពីគ្រូពេទ្យឯកទេស៣នាក់ រួចយកចម្លើយទាំង៣នោះទៅឱ្យប្រធានមន្ទីរពេទ្យសម្រេចចិត្តធ្វើរោគវិនិច្ឆ័យចុងក្រោយ។ |
| Word2Vec | ក្បួនដោះស្រាយបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត ដែលបំប្លែងពាក្យទៅជាវ៉ិចទ័រលេខ ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ពីអត្ថន័យ និងទំនាក់ទំនងរវាងពាក្យ ធ្វើឱ្យពាក្យដែលមានន័យស្រដៀងគ្នានឹងមានតម្លៃវ៉ិចទ័រក្បែរគ្នាក្នុងលំហទិន្នន័យ។ | ដូចជាការដាក់ទីតាំងនៅលើផែនទី ដែលទីតាំងឬពាក្យដែលមានលក្ខណៈស្រដៀងគ្នានឹងត្រូវដាក់នៅជិតគ្នា។ |
| TF-IDF | រូបមន្តគណនាទម្ងន់ ឬសារៈសំខាន់នៃពាក្យមួយនៅក្នុងឯកសារ ដោយវាផ្តល់ពិន្ទុខ្ពស់ដល់ពាក្យដែលលេចឡើងញឹកញាប់ក្នុងឯកសារនោះ ប៉ុន្តែកម្រមានក្នុងឯកសារផ្សេងទៀត ដើម្បីជួយញែកប្រធានបទ។ | ដូចជាការពាក់អាវពណ៌ក្រហមក្នុងចំណោមមនុស្សពាក់អាវសរាប់ពាន់នាក់ ធ្វើឱ្យអ្នកលេចធ្លោ និងងាយចំណាំជាងគេ។ |
| Random Forest Classifiers | ក្បួនដោះស្រាយនៃការរៀនម៉ាស៊ីន ដែលបង្កើត "ដើមឈើការសម្រេចចិត្ត" (Decision Trees) ជាច្រើន ហើយរួមបញ្ចូលលទ្ធផលរបស់វាចូលគ្នា ដើម្បីធ្វើការទស្សន៍ទាយប្រកបដោយភាពត្រឹមត្រូវ និងកាត់បន្ថយការទន្ទេញទិន្នន័យចាំ (Overfitting)។ | ដូចជាការបោះឆ្នោតជ្រើសរើសចម្លើយពីគណៈកម្មការរាប់សិបនាក់ ដើម្បីទទួលបានលទ្ធផលរួមដែលត្រឹមត្រូវបំផុត ជំនួសឱ្យការជឿលើមនុស្សតែម្នាក់។ |
| Support Vector Machines | ម៉ូដែលរៀនម៉ាស៊ីន ដែលព្យាយាមគូសបន្ទាត់ ឬព្រំដែន (Hyperplane) ដ៏ល្អបំផុត ដើម្បីបំបែកក្រុមទិន្នន័យ (ឧទាហរណ៍ បំបែកប្រយោគវិជ្ជមាន និងអវិជ្ជមាន) ឱ្យនៅដាច់ពីគ្នាបានច្បាស់លាស់បំផុត។ | ដូចជាការគូសបន្ទាត់ព្រំដែននៅលើវាលស្មៅ ដើម្បីបំបែកហ្វូងចៀម និងហ្វូងពពែឱ្យនៅឆ្ងាយពីគ្នាតាមដែលអាចធ្វើទៅបាន។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖