Original Title: A Comparative Study of X Data About the NHS Using Sentiment Analysis
Source: doi.org/10.3390/bdcc9100244
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសិក្សាប្រៀបធៀបទិន្នន័យបណ្តាញសង្គម X អំពីសេវាសុខភាពជាតិ (NHS) ដោយប្រើប្រាស់ការវិភាគមនោសញ្ចេតនា

ចំណងជើងដើម៖ A Comparative Study of X Data About the NHS Using Sentiment Analysis

អ្នកនិពន្ធ៖ Saeed Ur Rehman (Faculty of Science and Engineering, University of Hull), Obi Oluchi Blessing (Faculty of Science and Engineering, University of Hull), Anwar Ali (Faculty of Science and Engineering, Swansea University)

ឆ្នាំបោះពុម្ព៖ 2025, Big Data and Cognitive Computing

វិស័យសិក្សា៖ Data Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះផ្តោតលើការវិភាគមនោសញ្ចេតនាសាធារណៈចំពោះសេវាសុខភាពជាតិ (NHS) របស់ចក្រភពអង់គ្លេស តាមរយៈទិន្នន័យបណ្តាញសង្គម X (អតីត Twitter) ក្នុងអំឡុងពេលយុទ្ធនាការបោះឆ្នោតទូទៅឆ្នាំ ២០២៤ ដែលពោរពេញដោយភាពចម្រូងចម្រាសផ្នែកនយោបាយ។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានប្រមូលទិន្នន័យចំនួន ៣៥,០០០ ធ្វីត (tweets) និងប្រើប្រាស់វិធីសាស្ត្រចម្រុះដើម្បីវាយតម្លៃ និងប្រៀបធៀបគំរូវិភាគមនោសញ្ចេតនាផ្សេងៗគ្នា។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Lexicon-based (VADER, TextBlob)
វិធីសាស្ត្រផ្អែកលើវចនានុក្រម (VADER និង TextBlob)
ងាយស្រួលប្រើប្រាស់ និងមិនតម្រូវឱ្យមានការហ្វឹកហាត់ទិន្នន័យ (Training Data) ជាមុន ព្រោះវាផ្អែកលើវចនានុក្រមដែលមានស្រាប់។ វាយតម្លៃមនោសញ្ចេតនាវិជ្ជមានខ្ពស់ហួសហេតុ ដោយសារតែការពឹងផ្អែកលើពាក្យគួរសម ដោយមិនយល់ពីបរិបទ ឬការនិយាយបញ្ជួស (Sarcasm) ឡើយ។ មិនមានតម្លៃច្បាស់លាស់សម្រាប់លទ្ធផលទូទៅ ប៉ុន្តែបានបង្ហាញពីភាពលម្អៀងខ្លាំងទៅរកមតិវិជ្ជមានខុសពីការពិត។
Traditional Machine Learning (Naive Bayes, Logistic Regression, SVM)
វិធីសាស្ត្ររៀនដោយម៉ាស៊ីនបែបប្រពៃណី (Naive Bayes, Logistic Regression, SVM)
ដំណើរការបានលឿន មានប្រសិទ្ធភាពខ្ពស់ក្នុងការចាត់ថ្នាក់ទិន្នន័យអត្ថបទធំៗដោយប្រើប្រាស់ TF-IDF សម្រាប់ការបំប្លែងទិន្នន័យ។ មានភាពលម្អៀងទៅរកការចាត់ថ្នាក់អវិជ្ជមាន ដោយសារទិន្នន័យហ្វឹកហាត់ (Training Data) ភាគច្រើនលើសលប់ជាមតិអវិជ្ជមាន (Class Imbalance)។ ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ពី ៨០% ទៅ ៨២% (មុនពេល Tuning)។
Ensemble Learning (Voting & Stacking Classifier)
វិធីសាស្ត្របណ្តុំគំរូ (Voting និង Stacking Classifier)
ផ្តល់នូវភាពត្រឹមត្រូវ (Accuracy) សរុបខ្ពស់បំផុត ដោយវាធ្វើការប្រមូលផ្តុំចំណុចខ្លាំងនៃគំរូ Machine Learning ជាច្រើនបញ្ចូលគ្នា។ ទោះបីជា Accuracy ខ្ពស់ក៏ដោយ គំរូនេះបរាជ័យទាំងស្រុងក្នុងការកំណត់ថ្នាក់មតិវិជ្ជមាន (Precision និង Recall ស្មើ ០) ក្រោយពេល Tuning ដោយសារភាពមិនមានតុល្យភាពនៃទិន្នន័យ។ ទទួលបានភាពត្រឹមត្រូវ (Accuracy) រហូតដល់ ៨៤% (Validation) និងជិត ១០០% (Test) ប៉ុន្តែមិនអាចចាប់យកមតិវិជ្ជមានបានឡើយ។
Deep Learning (BERT)
វិធីសាស្ត្ររៀនស៊ីជម្រៅ (BERT)
មានសមត្ថភាពខ្ពស់ក្នុងការស្វែងយល់ពីអត្ថន័យ និងបរិបទនៃភាសាស៊ីជម្រៅ តាមរយៈដំណើរការអត្ថបទពីរទិសដៅ (Bidirectional)។ ទាមទារទិន្នន័យហ្វឹកហាត់ទំហំធំ។ សម្រាប់ការសិក្សានេះ ដោយសារទិន្នន័យហ្វឹកហាត់មានចំនួនតិច គំរូនេះមិនអាចទស្សន៍ទាយមតិវិជ្ជមានបានទាល់តែសោះ។ ទទួលបានភាពត្រឹមត្រូវទាបជាងគេត្រឹមតែ ៧៣% និងបរាជ័យក្នុងការកំណត់ថ្នាក់មនោសញ្ចេតនាវិជ្ជមាន (0 Precision/Recall)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកម្រិតមធ្យមទៅខ្ពស់ ទាំងផ្នែកកម្លាំងម៉ាស៊ីនគណនាសម្រាប់ការហ្វឹកហាត់គំរូ Deep Learning និងកម្លាំងពលកម្មមនុស្សសម្រាប់ការរៀបចំនិងធ្វើចំណាត់ថ្នាក់ទិន្នន័យដោយដៃ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ទិន្នន័យនេះត្រូវបានប្រមូលពីបណ្តាញសង្គម X ផ្តោតទាំងស្រុងលើសេវាសុខភាពជាតិ (NHS) និងនយោបាយចក្រភពអង់គ្លេស ជាភាសាអង់គ្លេស និងមានភាពលម្អៀងខ្លាំងទៅរកមតិអវិជ្ជមាន។ សម្រាប់កម្ពុជា ការយកគំរូនេះមកអនុវត្តផ្ទាល់នឹងជួបប្រទះការលំបាក ដោយសារភាពខុសគ្នានៃប្រព័ន្ធសុខាភិបាល ការបញ្ចេញមតិក្នុងវប្បធម៌ខ្មែរ និងភាពស្មុគស្មាញនៃការកាត់ពាក្យ (Tokenization) ក្នុងភាសាខ្មែរ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាបរិបទមានភាពខុសគ្នាក៏ដោយ ក្របខ័ណ្ឌនៃវិធីសាស្ត្រក្នុងការស្រាវជ្រាវនេះ (Topic Modelling និង ABSA) មានតម្លៃខ្ពស់ក្នុងការយកមកអនុវត្តដើម្បីតាមដានមតិសាធារណៈលើវិស័យសេវាសាធារណៈនៅកម្ពុជា។

ការកសាងវចនានុក្រមមនោសញ្ចេតនាដែលស័ក្តិសមសម្រាប់ភាសាខ្មែរ និងការប្រមូលទិន្នន័យដែលមានតុល្យភាព គឺជាគន្លឹះដំបូងដ៏សំខាន់ឆ្ពោះទៅរកភាពជោគជ័យក្នុងការអនុវត្តវិធីសាស្ត្រទាំងនេះនៅក្នុងស្ថាប័ននានានៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ ការប្រមូលទិន្នន័យ និងសម្អាតអត្ថបទភាសាខ្មែរ: ប្រមូលទិន្នន័យមតិយោបល់ពីបណ្តាញសង្គម Facebook ឬ Telegram ដោយប្រើឧបករណ៍ដូចជា Selenium ឬ BeautifulSoup។ បន្ទាប់មក ធ្វើការសម្អាតទិន្នន័យដោយដកចេញនូវ Emoji ឬតំណភ្ជាប់ផ្សេងៗ និងប្រើប្រាស់បណ្ណាល័យដូចជា khmer-nltk ឬ sekhmer ដើម្បីធ្វើការកាត់ពាក្យភាសាខ្មែរ (Word Segmentation)។
  2. ជំហានទី២៖ ការកសាងនិងរៀបចំទិន្នន័យហ្វឹកហាត់ (Data Annotation): ជ្រើសរើសទិន្នន័យចំនួនសមស្រប (ឧទាហរណ៍ ២,០០០ មតិយោបល់) ដើម្បីឱ្យក្រុមការងារធ្វើចំណាត់ថ្នាក់មនោសញ្ចេតនាដោយដៃ (វិជ្ជមាន អវិជ្ជមាន អព្យាក្រឹត)។ ប្រសិនបើទិន្នន័យលម្អៀងខ្លាំងទៅរកភាពអវិជ្ជមាន សូមប្រើប្រាស់បច្ចេកទេស SMOTE ក្នុងបណ្ណាល័យ imbalanced-learn ដើម្បីបង្កើតតុល្យភាពឡើងវិញ។
  3. ជំហានទី៣៖ ការសាកល្បងគំរូ Machine Learning ជាមូលដ្ឋាន: ប្រើប្រាស់ scikit-learn ដើម្បីបំប្លែងអត្ថបទទៅជាលេខតាមរយៈ TF-IDF Vectorizer។ សាកល្បងហ្វឹកហាត់គំរូដើមដូចជា Naive Bayes, Logistic Regression ឬ Support Vector Machines (SVM) រួចវាស់ស្ទង់ភាពត្រឹមត្រូវ (Accuracy, F1-Score) ដើម្បីធ្វើជា Baseline។
  4. ជំហានទី៤៖ ការទាញយកប្រធានបទស៊ីជម្រៅ (Topic Modelling & ABSA): អនុវត្តក្បួនដោះស្រាយ Latent Dirichlet Allocation (LDA) ឬ BERTopic ដើម្បីទាញយកប្រធានបទលាក់កំបាំងពីអត្ថបទដែលមិនទាន់បានធ្វើចំណាត់ថ្នាក់ (Unlabelled Data) ដើម្បីដឹងថាប្រជាជនកំពុងជជែកអំពីបញ្ហាអ្វីខ្លះ (ឧទាហរណ៍៖ សេវាកម្ម, ថ្នាំពេទ្យ, តម្លៃ)។
  5. ជំហានទី៥៖ ការអនុវត្តគំរូ Deep Learning សម្រាប់ភាសាខ្មែរ: ជំនួសឱ្យការប្រើ BERT ជាភាសាអង់គ្លេស សូមស្វែងរកគំរូដែលហ្វឹកហាត់ជាភាសាខ្មែរស្រាប់ ដូចជា KhmBERT ពី Hugging Face ដើម្បី Fine-tune ជាមួយទិន្នន័យហ្វឹកហាត់ខាងលើ ដែលវានឹងជួយចាប់យកបរិបទ និងអត្ថន័យនៃភាសាខ្មែរបានកាន់តែស៊ីជម្រៅជាងម៉ូដែលប្រពៃណី។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Sentiment Analysis គឺជាដំណើរការប្រើប្រាស់កុំព្យូទ័រនិងក្បួនដោះស្រាយ ដើម្បីស្កេនអត្ថបទ និងកំណត់ថាតើអ្នកសរសេរមានអារម្មណ៍វិជ្ជមាន អវិជ្ជមាន ឬអព្យាក្រឹត។ វាជួយឱ្យយើងទាញយកនិន្នាការនៃមតិភាគច្រើនពីទិន្នន័យរាប់ម៉ឺនសារដោយស្វ័យប្រវត្តិ។ ដូចជាឧបករណ៍វាស់កម្តៅអារម្មណ៍ ដែលប្រាប់យើងថាហ្វូងមនុស្សក្នុងបណ្តាញសង្គមកំពុងសប្បាយចិត្ត ខឹង ឬព្រងើយកន្តើយចំពោះរឿងអ្វីមួយ។
Aspect-based sentiment analysis (ABSA) ជាវិធីសាស្ត្រវិភាគអារម្មណ៍កម្រិតលម្អិត ដែលមិនត្រឹមតែប្រាប់ថាអត្ថបទទាំងមូលល្អឬអាក្រក់នោះទេ តែវាបំបែករកមើលថាតើផ្នែកណាមួយ (Aspect) នៃសេវាកម្មដែលគេកំពុងសរសើរ ឬរិះគន់ (ឧទាហរណ៍៖ អតិថិជនសរសើរអាកប្បកិរិយាពេទ្យ តែរិះគន់ពេលវេលារង់ចាំ)។ ដូចជាការផ្តល់ពិន្ទុលើមុខម្ហូបមួយចាន ដោយបំបែកពិន្ទុរសជាតិផ្សេង ពិន្ទុការតុបតែងផ្សេង និងពិន្ទុតម្លៃផ្សេង ជាជាងការវាយតម្លៃម្ហូបនោះរួមទាំងមូល។
Topic modelling ជាក្បួនដោះស្រាយតាមបែបស្ថិតិ (ដូចជា LDA) ដែលកុំព្យូទ័រប្រើដើម្បីអានឯកសាររាប់ម៉ឺន ហើយចាត់ថ្នាក់ពាក្យដែលលេចឡើងជាមួយគ្នាញឹកញាប់ចូលជាក្រុមៗ ដើម្បីទាញយកប្រធានបទសំខាន់ៗដែលលាក់កំបាំងនៅក្នុងអត្ថបទទាំងនោះ។ ដូចជាបណ្ណារក្សដែលមិនចេះអានសៀវភៅ តែអាចរៀបសៀវភៅតាមប្រភេទ ដោយគ្រាន់តែសង្កេតមើលពាក្យដែលទាក់ទងគ្នាដដែលៗនៅលើក្រلافសៀវភៅ។
BERT ជាម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ប្រភេទ Deep Learning របស់ Google ដែលអានប្រយោគទាំងពីឆ្វេងទៅស្តាំ និងពីស្តាំមកឆ្វេងក្នុងពេលតែមួយ ដើម្បីយល់ពីបរិបទ អត្ថន័យជ្រៅ និងទំនាក់ទំនងនៃពាក្យនីមួយៗ ដូចជាការបញ្ជួស ឬការប្រើពាក្យមានន័យច្រើនជាដើម។ ដូចជាអ្នកបកប្រែភាសាដ៏ជំនាញម្នាក់ ដែលអានប្រយោគទាំងមូលឱ្យចប់សិនទើបចាប់ផ្តើមបកប្រែ ដើម្បីកុំឱ្យខុសអត្ថន័យ ផ្ទុយពីអ្នកដែលបកប្រែតាមពាក្យមួយៗពីមុខទៅក្រោយ។
Class imbalance គឺជាបញ្ហានៅពេលដែលទិន្នន័យសម្រាប់បង្រៀនម៉ាស៊ីន (Training Data) មានភាពលម្អៀងខ្លាំង ពោលគឺមានប្រភេទមតិមួយច្រើនលើសលប់ (ឧទាហរណ៍៖ មានមតិអវិជ្ជមានរហូតដល់ ៨០%) ដែលធ្វើឱ្យម៉ាស៊ីនរៀនទន្ទេញតែមតិនោះ និងមិនមានសមត្ថភាពចំណាំមតិផ្សេងទៀត។ ដូចជាកូនសិស្សដែលរៀនតែលំហាត់បូកលេខរាល់ថ្ងៃ ដល់ពេលប្រឡងចេញលំហាត់ដកលេខ ក៏ធ្វើមិនចេះ ព្រោះមិនសូវធ្លាប់ជួបពីមុនមក។
SMOTE ជាបច្ចេកទេសសម្រាប់ដោះស្រាយបញ្ហា Class Imbalance ដោយវាធ្វើការបង្កើតទិន្នន័យក្លែងក្លាយដែលមានលក្ខណៈប្រហាក់ប្រហែលទិន្នន័យដើម ដើម្បីបន្ថែមទៅលើប្រភេទមតិដែលមានចំនួនតិចតួច ក្នុងគោលបំណងធ្វើឱ្យទិន្នន័យមានតុល្យភាពឡើងវិញ។ ដូចជាការថតចម្លង (Photocopy) និងកែច្នៃបន្តិចបន្តួចនូវសៀវភៅកម្រ ដើម្បីឱ្យសិស្សមានសៀវភៅគ្រប់គ្រាន់សម្រាប់រៀនឱ្យបានស្មើៗគ្នានឹងមុខវិជ្ជាផ្សេងទៀត។
Term Frequency-Inverse Document Frequency (TF-IDF) ជារូបមន្តគណិតវិទ្យាសម្រាប់បំប្លែងអត្ថបទទៅជាលេខ (Numerical Features) ដោយផ្តល់ពិន្ទុខ្ពស់ដល់ពាក្យដែលលេចឡើងច្រើនក្នុងប្រយោគមួយ ប៉ុន្តែកម្រមានក្នុងប្រយោគផ្សេងទៀត ដើម្បីរកឱ្យឃើញពាក្យគន្លឹះដែលសំខាន់បំផុត។ ដូចជាការរែងស្វែងរកគ្រាប់ពេជ្រនៅក្នុងគំនរខ្សាច់ ដោយផ្តល់តម្លៃខ្ពស់ដល់វត្ថុដែលកម្រ (ពេជ្រ) និងមិនខ្វល់ពីវត្ថុដែលមាននៅគ្រប់ទីកន្លែង (គ្រាប់ខ្សាច់)។
Ensemble Learning ជាបច្ចេកទេសប្រមូលផ្តុំម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning Models) ជាច្រើនម៉ូដែលបញ្ចូលគ្នា (ដូចជា Voting ឬ Stacking) ដើម្បីធ្វើការសម្រេចចិត្តរួមគ្នា ដែលជួយកាត់បន្ថយភាពលម្អៀង និងបង្កើនភាពត្រឹមត្រូវនៃការទស្សន៍ទាយ។ ដូចជាការបង្កើតគណៈកម្មការវេជ្ជបណ្ឌិតជំនាញ ៥ នាក់ ដើម្បីពិភាក្សាវិនិច្ឆ័យជំងឺធ្ងន់ធ្ងរមួយ ជាជាងការពឹងផ្អែកលើការសម្រេចចិត្តរបស់គ្រូពេទ្យតែម្នាក់ឯង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖