បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការវិភាគមនោសញ្ចេតនា និងទស្សនៈរបស់អ្នកប្រើប្រាស់នៅលើបណ្តាញសង្គម Twitter ដែលប្រឈមនឹងភាពស្មុគស្មាញដោយសារការប្រើប្រាស់ភាសាមិនផ្លូវការ និងការកំណត់ចំនួនតួអក្សរ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្រចម្រុះថ្មីមួយដោយប្រើប្រាស់ម៉ាស៊ីនរៀន (Machine Learning) និងវិធីសាស្ត្រផ្អែកលើវាក្យសព្ទ (Lexicon-based) ក្នុងពេលតែមួយដើម្បីធ្វើការវិភាគអត្ថបទ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| CART TSA (Proposed Hybrid Method) វិធីសាស្ត្រចម្រុះស្នើឡើង (មែកធាងសេចក្តីសម្រេច CART ជាមួយ SentiStrength) |
ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត និងកែលម្អការចាត់ថ្នាក់បានយ៉ាងល្អដោយសារការរួមបញ្ចូលគ្នានៃម៉ាស៊ីនរៀន និងក្បួនដោះស្រាយផ្អែកលើវាក្យសព្ទ។ | ត្រូវការដំណើរការរៀបចំទិន្នន័យជាមុនច្រើន (Data Preprocessing) និងប្រើប្រាស់ធនធានគណនាសម្រាប់ការវិភាគទិន្នន័យធំៗរហូតដល់រាប់ជីហ្គាបៃ។ | ភាពត្រឹមត្រូវ (Accuracy): ៨០%, ពិន្ទុ F1-Score: ៧៩.៩៩% |
| Seif et al. (SentiCircles and SVM) វិធីសាស្ត្ររបស់ Seif និងសហការី (ប្រើ SentiCircles និង SVM) |
អាចចាប់យកអត្ថន័យលាក់កំបាំងនៃពាក្យដោយផ្អែកលើលំនាំនៃការកើតឡើងរបស់វានៅក្នុងបរិបទប្រយោគ។ | ភាពត្រឹមត្រូវនៅមានកម្រិតទាបជាងវិធីសាស្ត្រចម្រុះដែលបានស្នើឡើងបន្តិចបន្តួចក្នុងការសិក្សានេះ។ | ភាពត្រឹមត្រូវ (Accuracy): ៧៩%, ពិន្ទុ F1-Score: ៧៨.៥០% |
| Thelwall (SentiStrength Lexicon) វិធីសាស្ត្ររបស់ Thelwall (ផ្អែកលើវាក្យសព្ទ SentiStrength តែមួយមុខ) |
ងាយស្រួលក្នុងការអនុវត្ត និងមានប្រសិទ្ធភាពសម្រាប់អត្ថបទខ្លីៗក្រៅផ្លូវការ ដោយពឹងផ្អែកលើវចនានុក្រមអារម្មណ៍។ | មិនសូវមានភាពបត់បែន និងមានភាពត្រឹមត្រូវទាបបំផុតបើប្រៀបធៀបទៅនឹងការប្រើប្រាស់ម៉ាស៊ីនរៀន។ | ភាពត្រឹមត្រូវ (Accuracy): ៦២%, ពិន្ទុ F1-Score: ៥០.៩៨% |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបង្ហាញពីការវាយតម្លៃលើពេលវេលាដំណើរការ (Execution Time) ដែលកើនឡើងជាលំដាប់ទៅតាមទំហំទិន្នន័យ (ពី 15MB ដល់ 1060MB) ប៉ុន្តែមិនបានបញ្ជាក់លម្អិតអំពីផ្នែករឹងកុំព្យូទ័រនោះទេ។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារ STS-Gold ដែលភាគច្រើនជាភាសាអង់គ្លេស។ វាមិនមានទិន្នន័យជាភាសាខ្មែរ ឬបរិបទសង្គមក្នុងតំបន់អាស៊ីអាគ្នេយ៍នោះទេ។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តវិធីសាស្ត្រនេះតម្រូវឱ្យមានការបង្កើតសំណុំទិន្នន័យភាសាខ្មែរ (Khmer Text Dataset) និងវចនានុក្រមអារម្មណ៍ផ្ទាល់ខ្លួនដើម្បីធានាបាននូវភាពត្រឹមត្រូវ។
វិធីសាស្ត្រចម្រុះនេះមានសក្តានុពលខ្ពស់សម្រាប់ស្ថាប័ននិងក្រុមហ៊ុននៅកម្ពុជា ក្នុងការស្វែងយល់ពីមតិយោបល់របស់សាធារណជននៅលើបណ្តាញសង្គមផ្សេងៗ មិនត្រឹមតែ Twitter ប៉ុណ្ណោះទេ។
ការរួមបញ្ចូលគ្នានៃម៉ាស៊ីនរៀន (CART) និងក្បួនដោះស្រាយផ្អែកលើវាក្យសព្ទ គឺជាដំណោះស្រាយដ៏រឹងមាំមួយដែលអាចយកមកបំប្លែងប្រើជាមួយអត្ថបទភាសាខ្មែរ ដើម្បីលើកកម្ពស់សេវាកម្មសាធារណៈ និងពាណិជ្ជកម្មនៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| CART Decision Tree | ជាក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning Algorithm) មួយប្រភេទដែលប្រើរចនាសម្ព័ន្ធដូចមែកធាង ដើម្បីធ្វើការសម្រេចចិត្តដោយបំបែកទិន្នន័យជាផ្នែកតូចៗតាមលក្ខខណ្ឌច្បាស់លាស់ រហូតដល់វាអាចទស្សន៍ទាយលទ្ធផល (ដូចជាចំណាត់ថ្នាក់មនោសញ្ចេតនាវិជ្ជមានឬអវិជ្ជមាន)។ | ដូចជាការលេងហ្គេមសួរសំណួរ "បាទ/ទេ" បន្តបន្ទាប់គ្នា ដើម្បីទាយឲ្យដឹងថាតើវត្ថុនោះជាអ្វី។ |
| SentiStrength Algorithm | ជាក្បួនដោះស្រាយផ្អែកលើវាក្យសព្ទ (Lexicon-based) ដែលផ្តល់ពិន្ទុវិជ្ជមានឬអវិជ្ជមានដល់ពាក្យនីមួយៗក្នុងអត្ថបទខ្លីៗ (ដូចជា Twitter) ដើម្បីវាយតម្លៃកម្រិតមនោសញ្ចេតនាសរុបនៃប្រយោគនោះ ដោយពិចារណាលើវណ្ណយុត្តិ និងពាក្យស្លែង។ | ដូចជាគ្រូបង្រៀនម្នាក់ដែលឲ្យពិន្ទុ +១ សម្រាប់ពាក្យល្អៗ និង -១ សម្រាប់ពាក្យអាក្រក់ៗ រួចបូកសរុបដើម្បីដឹងថាអត្ថបទនោះមានន័យល្អឬអាក្រក់សរុបកម្រិតណា។ |
| Text Mining | គឺជាដំណើរការទាញយកព័ត៌មាននិងចំណេះដឹងដែលមានតម្លៃចេញពីទិន្នន័យអត្ថបទដែលមិនមានរចនាសម្ព័ន្ធច្បាស់លាស់ តាមរយៈការប្រើប្រាស់បច្ចេកវិទ្យាកុំព្យូទ័រ និងការវិភាគស្ថិតិ ដើម្បីស្វែងរកលំនាំនិងអត្ថន័យលាក់កំបាំង។ | ដូចជាការរែងរកគ្រាប់មាសដ៏មានតម្លៃចេញពីគំនរខ្សាច់ដ៏ធំ។ |
| Sentiment Analysis | ជាការប្រើប្រាស់បច្ចេកវិទ្យាកែច្នៃភាសាធម្មជាតិ (NLP) និងម៉ាស៊ីនរៀន ដើម្បីកំណត់និងចាត់ថ្នាក់ថាតើទិន្នន័យអត្ថបទមួយ (ឧទាហរណ៍ មតិយោបល់អតិថិជន) មានលក្ខណៈវិជ្ជមាន អវិជ្ជមាន ឬអព្យាក្រឹត្យចំពោះប្រធានបទអ្វីមួយ។ | ដូចជាការស្កេនមើលទឹកមុខនិងកាយវិការរបស់មិត្តភក្តិដើម្បីដឹងថាគេកំពុងសប្បាយចិត្ត ខឹង ឬធម្មតា។ |
| Data Preprocessing | គឺជាជំហានដំបូងក្នុងការសម្អាតនិងរៀបចំទិន្នន័យដើម (ឧទាហរណ៍ ការលុបពាក្យមិនចាំបាច់ តំណភ្ជាប់ សញ្ញា ឬកែអក្ខរាវិរុទ្ធ) មុនពេលបញ្ចូលវាទៅក្នុងគំរូម៉ាស៊ីនរៀន ដើម្បីកាត់បន្ថយទិន្នន័យរំខាននិងបង្កើនភាពត្រឹមត្រូវនៃការវិភាគ។ | ដូចជាការលាងសម្អាត និងហាន់បន្លែសាច់ជាមុន មុននឹងចាប់ផ្តើមចម្អិនម្ហូប។ |
| F-Score | ជារង្វាស់វាយតម្លៃភាពត្រឹមត្រូវនៃម៉ូដែលចំណាត់ថ្នាក់ ដែលជាមធ្យមភាគសុខដុម (Harmonic Mean) រវាងភាពជាក់លាក់ (Precision) និងការរំលឹក (Recall) ដើម្បីបង្ហាញពីតុល្យភាពនៃកំហុសរបស់ម៉ូដែល ជាពិសេសនៅពេលដែលទិន្នន័យមិនមានតុល្យភាព។ | ដូចជាពិន្ទុសរុបរបស់សិស្សម្នាក់ដែលបង្ហាញថាគាត់ពូកែទាំងការចងចាំមេរៀនផង និងការអនុវត្តជាក់ស្តែងផង មិនមែនពូកែតែម្ខាងៗនោះទេ។ |
| Machine Learning | ជាអនុវិស័យនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលអនុញ្ញាតឱ្យប្រព័ន្ធកុំព្យូទ័ររៀនពីទិន្នន័យ និងកែលម្អដំណើរការរបស់វាដោយស្វ័យប្រវត្តិ ក្នុងការទស្សន៍ទាយឬធ្វើចំណាត់ថ្នាក់ ដោយមិនចាំបាច់សរសេរកូដបញ្ជាជាក់លាក់សម្រាប់រាល់សកម្មភាពនោះទេ។ | ដូចជាការបង្រៀនកូនក្មេងឱ្យស្គាល់សត្វឆ្កែដោយបង្ហាញរូបថតសត្វឆ្កែច្រើនសន្លឹក ជាជាងការពន្យល់ប្រាប់ពីលក្ខណៈលម្អិតរបស់វាម្តងមួយៗ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖