Original Title: ارائه رویکرد ترکیبی نوین جهت متن کاوی تحلیل احساسات در توییتر با استفاده از درخت تصمیم CART
Source: doi.org/10.22091/JEMSC.2018.1272
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបង្ហាញនូវវិធីសាស្ត្រចម្រុះថ្មីនៃការវិភាគមនោសញ្ចេតនាតាមរយៈការជីកកកាយអត្ថបទនៅលើ Twitter ដោយប្រើប្រាស់មែកធាងសេចក្តីសម្រេច CART

ចំណងជើងដើម៖ ارائه رویکرد ترکیبی نوین جهت متن کاوی تحلیل احساسات در توییتر با استفاده از درخت تصمیم CART

អ្នកនិពន្ធ៖ Nasir Tayarani Najaran (Islamic Azad University, Mashhad), Mehrdad Jalali (Islamic Azad University, Mashhad)

ឆ្នាំបោះពុម្ព៖ 2020 (Biannual Journal of Engineering Management and Soft Computing)

វិស័យសិក្សា៖ Computer Engineering

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការវិភាគមនោសញ្ចេតនា និងទស្សនៈរបស់អ្នកប្រើប្រាស់នៅលើបណ្តាញសង្គម Twitter ដែលប្រឈមនឹងភាពស្មុគស្មាញដោយសារការប្រើប្រាស់ភាសាមិនផ្លូវការ និងការកំណត់ចំនួនតួអក្សរ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្រចម្រុះថ្មីមួយដោយប្រើប្រាស់ម៉ាស៊ីនរៀន (Machine Learning) និងវិធីសាស្ត្រផ្អែកលើវាក្យសព្ទ (Lexicon-based) ក្នុងពេលតែមួយដើម្បីធ្វើការវិភាគអត្ថបទ។

ការចាត់ថ្នាក់តាមមែកធាងសេចក្តីសម្រេច (CART Decision Tree)
ការទាញយកកម្រិតមនោសញ្ចេតនាតាមរយៈក្បួនដោះស្រាយផ្អែកលើវាក្យសព្ទ (SentiStrength Algorithm)
ការរៀបចំទិន្នន័យជាមុន ដើម្បីលុបទិន្នន័យរំខាន (Data Preprocessing)
ការវាយតម្លៃដោយប្រើសំណុំទិន្នន័យខ្នាតគំរូ (STS-Gold Dataset)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រចម្រុះថ្មីនេះទទួលបានអត្រាភាពត្រឹមត្រូវ (Accuracy) រហូតដល់ ៨០% ក្នុងការចាត់ថ្នាក់មនោសញ្ចេតនាធៀបនឹងវិធីសាស្ត្រមុនៗ។
កម្រិតពិន្ទុ F1-Score ត្រូវបានកែលម្អរហូតដល់ ៧៩,៩៩% ដែលបង្ហាញពីដំណើរការដ៏ល្អប្រសើរនិងភាពជឿជាក់ខ្ពស់លើលទ្ធផល។
ការរួមបញ្ចូលគ្នារវាង CART និង SentiStrength ផ្តល់នូវសមត្ថភាពខ្ពស់ក្នុងការវិភាគអត្ថបទខ្លីៗ និងវាក្យសព្ទកាត់ៗនៅលើ Twitter យ៉ាងមានប្រសិទ្ធភាព។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
CART TSA (Proposed Hybrid Method) វិធីសាស្ត្រចម្រុះស្នើឡើង (មែកធាងសេចក្តីសម្រេច CART ជាមួយ SentiStrength)	ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត និងកែលម្អការចាត់ថ្នាក់បានយ៉ាងល្អដោយសារការរួមបញ្ចូលគ្នានៃម៉ាស៊ីនរៀន និងក្បួនដោះស្រាយផ្អែកលើវាក្យសព្ទ។	ត្រូវការដំណើរការរៀបចំទិន្នន័យជាមុនច្រើន (Data Preprocessing) និងប្រើប្រាស់ធនធានគណនាសម្រាប់ការវិភាគទិន្នន័យធំៗរហូតដល់រាប់ជីហ្គាបៃ។	ភាពត្រឹមត្រូវ (Accuracy): ៨០%, ពិន្ទុ F1-Score: ៧៩.៩៩%
Seif et al. (SentiCircles and SVM) វិធីសាស្ត្ររបស់ Seif និងសហការី (ប្រើ SentiCircles និង SVM)	អាចចាប់យកអត្ថន័យលាក់កំបាំងនៃពាក្យដោយផ្អែកលើលំនាំនៃការកើតឡើងរបស់វានៅក្នុងបរិបទប្រយោគ។	ភាពត្រឹមត្រូវនៅមានកម្រិតទាបជាងវិធីសាស្ត្រចម្រុះដែលបានស្នើឡើងបន្តិចបន្តួចក្នុងការសិក្សានេះ។	ភាពត្រឹមត្រូវ (Accuracy): ៧៩%, ពិន្ទុ F1-Score: ៧៨.៥០%
Thelwall (SentiStrength Lexicon) វិធីសាស្ត្ររបស់ Thelwall (ផ្អែកលើវាក្យសព្ទ SentiStrength តែមួយមុខ)	ងាយស្រួលក្នុងការអនុវត្ត និងមានប្រសិទ្ធភាពសម្រាប់អត្ថបទខ្លីៗក្រៅផ្លូវការ ដោយពឹងផ្អែកលើវចនានុក្រមអារម្មណ៍។	មិនសូវមានភាពបត់បែន និងមានភាពត្រឹមត្រូវទាបបំផុតបើប្រៀបធៀបទៅនឹងការប្រើប្រាស់ម៉ាស៊ីនរៀន។	ភាពត្រឹមត្រូវ (Accuracy): ៦២%, ពិន្ទុ F1-Score: ៥០.៩៨%

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបង្ហាញពីការវាយតម្លៃលើពេលវេលាដំណើរការ (Execution Time) ដែលកើនឡើងជាលំដាប់ទៅតាមទំហំទិន្នន័យ (ពី 15MB ដល់ 1060MB) ប៉ុន្តែមិនបានបញ្ជាក់លម្អិតអំពីផ្នែករឹងកុំព្យូទ័រនោះទេ។

Dataset: សំណុំទិន្នន័យស្តង់ដារ STS-Gold (ទិន្នន័យ Twitter ជាភាសាអង់គ្លេស) សម្រាប់ធ្វើការបណ្តុះបណ្តាល និងសាកល្បងម៉ូដែល។
Software & Algorithms: ក្បួនដោះស្រាយ CART Decision Tree និងវចនានុក្រមវិភាគអារម្មណ៍ SentiStrength។
Hardware: កុំព្យូទ័រដែលមានសមត្ថភាពអង្គចងចាំ (RAM) គ្រប់គ្រាន់ដើម្បីដំណើរការទិន្នន័យអត្ថបទធំៗ (Big Data) ក្នុងកម្រិតលើសពី 1GB។
Expertise: ចំណេះដឹងផ្នែកវិទ្យាសាស្ត្រទិន្នន័យ (Data Science) ម៉ាស៊ីនរៀន (Machine Learning) និងការកែច្នៃភាសាធម្មជាតិ (NLP) សម្រាប់ធ្វើ Preprocessing។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារ STS-Gold ដែលភាគច្រើនជាភាសាអង់គ្លេស។ វាមិនមានទិន្នន័យជាភាសាខ្មែរ ឬបរិបទសង្គមក្នុងតំបន់អាស៊ីអាគ្នេយ៍នោះទេ។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តវិធីសាស្ត្រនេះតម្រូវឱ្យមានការបង្កើតសំណុំទិន្នន័យភាសាខ្មែរ (Khmer Text Dataset) និងវចនានុក្រមអារម្មណ៍ផ្ទាល់ខ្លួនដើម្បីធានាបាននូវភាពត្រឹមត្រូវ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រចម្រុះនេះមានសក្តានុពលខ្ពស់សម្រាប់ស្ថាប័ននិងក្រុមហ៊ុននៅកម្ពុជា ក្នុងការស្វែងយល់ពីមតិយោបល់របស់សាធារណជននៅលើបណ្តាញសង្គមផ្សេងៗ មិនត្រឹមតែ Twitter ប៉ុណ្ណោះទេ។

វិស័យទូរគមនាគមន៍ (Telecommunications): ក្រុមហ៊ុនដូចជា Smart Axiata ឬ Cellcard អាចប្រើប្រាស់វាដើម្បីវិភាគមតិយោបល់អតិថិជននៅលើ Facebook ទាក់ទងនឹងគុណភាពសេវាអ៊ីនធឺណិត។
វិស័យធនាគារ និងហិរញ្ញវត្ថុ (Banking & Finance): ធនាគារ ABA ឬស្ថាប័នមីក្រូហិរញ្ញវត្ថុនានា អាចតាមដានការឆ្លើយតបរបស់អតិថិជនចំពោះសេវាកម្ម Mobile App ថ្មីៗ ដើម្បីកែលម្អបទពិសោធន៍អ្នកប្រើប្រាស់។
រដ្ឋាភិបាល និងស្ថាប័នសារព័ត៌មាន (Government & Media): ស្ថាប័នរដ្ឋអាចវាស់ស្ទង់ប្រតិកម្មរបស់ប្រជាពលរដ្ឋចំពោះគោលនយោបាយសេដ្ឋកិច្ច ឬព្រឹត្តិការណ៍សង្គម ដើម្បីឆ្លើយតបឲ្យបានទាន់ពេលវេលា។

ការរួមបញ្ចូលគ្នានៃម៉ាស៊ីនរៀន (CART) និងក្បួនដោះស្រាយផ្អែកលើវាក្យសព្ទ គឺជាដំណោះស្រាយដ៏រឹងមាំមួយដែលអាចយកមកបំប្លែងប្រើជាមួយអត្ថបទភាសាខ្មែរ ដើម្បីលើកកម្ពស់សេវាកម្មសាធារណៈ និងពាណិជ្ជកម្មនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ សិក្សាអំពីការកែច្នៃភាសាធម្មជាតិ (Learn NLP Basics): ចាប់ផ្តើមរៀនពីមូលដ្ឋានគ្រឹះនៃការរៀបចំទិន្នន័យអត្ថបទ (Text Preprocessing) ដូចជា Tokenization និង Stopword removal ដោយប្រើប្រាស់បណ្ណាល័យ NLTK ឬ spaCy នៅក្នុងភាសា Python។
ជំហានទី២៖ ស្វែងយល់ពីក្បួនដោះស្រាយផ្អែកលើវាក្យសព្ទ (Understand Lexicon-based methods): សិក្សាពីរបៀបបង្កើតវចនានុក្រមពាក្យវិជ្ជមាន/អវិជ្ជមាន និងសាកល្បងប្រើប្រាស់ឧបករណ៍ដូចជា SentiStrength ដើម្បីវាយតម្លៃអត្ថបទខ្លីៗ និងរៀនពីរបៀបចាត់ចែងពាក្យបដិសេធ (Negation)។
ជំហានទី៣៖ អនុវត្តគំរូម៉ាស៊ីនរៀនជាមួយ CART (Implement CART Decision Tree): ប្រើប្រាស់បណ្ណាល័យ Scikit-Learn ដើម្បីសរសេរកូដបង្កើតគំរូចាត់ថ្នាក់ DecisionTreeClassifier លើទិន្នន័យអត្ថបទដែលបានរៀបចំរួច រួចវាយតម្លៃភាពត្រឹមត្រូវ។
ជំហានទី៤៖ បង្កើតគម្រោងសាកល្បងផ្ទាល់ខ្លួន (Build a Mini Project): ប្រមូលទិន្នន័យមតិយោបល់ជាក់ស្តែងពីបណ្តាញសង្គម (ឧទាហរណ៍ យកមតិយោបល់ពី Facebook Pages ក្នុងស្រុក) យកមកវិភាគមនោសញ្ចេតនា រួចប្រៀបធៀបលទ្ធផលរវាងវិធីសាស្ត្រធម្មតា និងវិធីសាស្ត្រចម្រុះ (Hybrid Approach)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
CART Decision Tree	ជាក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning Algorithm) មួយប្រភេទដែលប្រើរចនាសម្ព័ន្ធដូចមែកធាង ដើម្បីធ្វើការសម្រេចចិត្តដោយបំបែកទិន្នន័យជាផ្នែកតូចៗតាមលក្ខខណ្ឌច្បាស់លាស់ រហូតដល់វាអាចទស្សន៍ទាយលទ្ធផល (ដូចជាចំណាត់ថ្នាក់មនោសញ្ចេតនាវិជ្ជមានឬអវិជ្ជមាន)។	ដូចជាការលេងហ្គេមសួរសំណួរ "បាទ/ទេ" បន្តបន្ទាប់គ្នា ដើម្បីទាយឲ្យដឹងថាតើវត្ថុនោះជាអ្វី។
SentiStrength Algorithm	ជាក្បួនដោះស្រាយផ្អែកលើវាក្យសព្ទ (Lexicon-based) ដែលផ្តល់ពិន្ទុវិជ្ជមានឬអវិជ្ជមានដល់ពាក្យនីមួយៗក្នុងអត្ថបទខ្លីៗ (ដូចជា Twitter) ដើម្បីវាយតម្លៃកម្រិតមនោសញ្ចេតនាសរុបនៃប្រយោគនោះ ដោយពិចារណាលើវណ្ណយុត្តិ និងពាក្យស្លែង។	ដូចជាគ្រូបង្រៀនម្នាក់ដែលឲ្យពិន្ទុ +១ សម្រាប់ពាក្យល្អៗ និង -១ សម្រាប់ពាក្យអាក្រក់ៗ រួចបូកសរុបដើម្បីដឹងថាអត្ថបទនោះមានន័យល្អឬអាក្រក់សរុបកម្រិតណា។
Text Mining	គឺជាដំណើរការទាញយកព័ត៌មាននិងចំណេះដឹងដែលមានតម្លៃចេញពីទិន្នន័យអត្ថបទដែលមិនមានរចនាសម្ព័ន្ធច្បាស់លាស់ តាមរយៈការប្រើប្រាស់បច្ចេកវិទ្យាកុំព្យូទ័រ និងការវិភាគស្ថិតិ ដើម្បីស្វែងរកលំនាំនិងអត្ថន័យលាក់កំបាំង។	ដូចជាការរែងរកគ្រាប់មាសដ៏មានតម្លៃចេញពីគំនរខ្សាច់ដ៏ធំ។
Sentiment Analysis	ជាការប្រើប្រាស់បច្ចេកវិទ្យាកែច្នៃភាសាធម្មជាតិ (NLP) និងម៉ាស៊ីនរៀន ដើម្បីកំណត់និងចាត់ថ្នាក់ថាតើទិន្នន័យអត្ថបទមួយ (ឧទាហរណ៍ មតិយោបល់អតិថិជន) មានលក្ខណៈវិជ្ជមាន អវិជ្ជមាន ឬអព្យាក្រឹត្យចំពោះប្រធានបទអ្វីមួយ។	ដូចជាការស្កេនមើលទឹកមុខនិងកាយវិការរបស់មិត្តភក្តិដើម្បីដឹងថាគេកំពុងសប្បាយចិត្ត ខឹង ឬធម្មតា។
Data Preprocessing	គឺជាជំហានដំបូងក្នុងការសម្អាតនិងរៀបចំទិន្នន័យដើម (ឧទាហរណ៍ ការលុបពាក្យមិនចាំបាច់ តំណភ្ជាប់ សញ្ញា ឬកែអក្ខរាវិរុទ្ធ) មុនពេលបញ្ចូលវាទៅក្នុងគំរូម៉ាស៊ីនរៀន ដើម្បីកាត់បន្ថយទិន្នន័យរំខាននិងបង្កើនភាពត្រឹមត្រូវនៃការវិភាគ។	ដូចជាការលាងសម្អាត និងហាន់បន្លែសាច់ជាមុន មុននឹងចាប់ផ្តើមចម្អិនម្ហូប។
F-Score	ជារង្វាស់វាយតម្លៃភាពត្រឹមត្រូវនៃម៉ូដែលចំណាត់ថ្នាក់ ដែលជាមធ្យមភាគសុខដុម (Harmonic Mean) រវាងភាពជាក់លាក់ (Precision) និងការរំលឹក (Recall) ដើម្បីបង្ហាញពីតុល្យភាពនៃកំហុសរបស់ម៉ូដែល ជាពិសេសនៅពេលដែលទិន្នន័យមិនមានតុល្យភាព។	ដូចជាពិន្ទុសរុបរបស់សិស្សម្នាក់ដែលបង្ហាញថាគាត់ពូកែទាំងការចងចាំមេរៀនផង និងការអនុវត្តជាក់ស្តែងផង មិនមែនពូកែតែម្ខាងៗនោះទេ។
Machine Learning	ជាអនុវិស័យនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលអនុញ្ញាតឱ្យប្រព័ន្ធកុំព្យូទ័ររៀនពីទិន្នន័យ និងកែលម្អដំណើរការរបស់វាដោយស្វ័យប្រវត្តិ ក្នុងការទស្សន៍ទាយឬធ្វើចំណាត់ថ្នាក់ ដោយមិនចាំបាច់សរសេរកូដបញ្ជាជាក់លាក់សម្រាប់រាល់សកម្មភាពនោះទេ។	ដូចជាការបង្រៀនកូនក្មេងឱ្យស្គាល់សត្វឆ្កែដោយបង្ហាញរូបថតសត្វឆ្កែច្រើនសន្លឹក ជាជាងការពន្យល់ប្រាប់ពីលក្ខណៈលម្អិតរបស់វាម្តងមួយៗ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖