Original Title: Oversampling Approach Using Radius-SMOTE for Imbalance Electroencephalography Datasets
Source: dx.doi.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្រ Oversampling ដោយប្រើ Radius-SMOTE សម្រាប់សំណុំទិន្នន័យអេឡិចត្រូអង់សេផាឡូក្រាមដែលគ្មានតុល្យភាព

ចំណងជើងដើម៖ Oversampling Approach Using Radius-SMOTE for Imbalance Electroencephalography Datasets

អ្នកនិពន្ធ៖ Retantyo Wardoyo (Universitas Gadjah Mada), I Made Agus Wirawan (Universitas Pendidikan Ganesha), I Gede Angga Pradipta (Institut Teknologi dan Bisnis STIKOM Bali)

ឆ្នាំបោះពុម្ព៖ 2022 Emerging Science Journal

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសម្គាល់អារម្មណ៍មនុស្សតាមរយៈសញ្ញាខួរក្បាល (EEG) ជារឿយៗជួបប្រទះនឹងបញ្ហាទិន្នន័យមិនមានតុល្យភាព (Imbalanced Data) ដូចជាក្នុងសំណុំទិន្នន័យ DEAP ដែលធ្វើឱ្យភាពត្រឹមត្រូវនៃការវាយតម្លៃអារម្មណ៍មានកម្រិតទាប។ ការសិក្សានេះព្យាយាមដោះស្រាយបញ្ហាអតុល្យភាពនេះដើម្បីបង្កើនប្រសិទ្ធភាពក្នុងការសម្គាល់អារម្មណ៍។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវបច្ចេកទេសបង្កើតទិន្នន័យបន្ថែមសម្រាប់ក្រុមភាគតិច (Radius-SMOTE) រួមផ្សំជាមួយម៉ូដែលទាញយកលក្ខណៈពិសេស និងម៉ូដែលចំណាត់ថ្នាក់តាមបែប Deep Learning។

ការទាញយកលក្ខណៈពិសេសដោយប្រើវិធីសាស្ត្រ (Differential Entropy Feature Extraction)
ការដោះស្រាយទិន្នន័យមិនមានតុល្យភាពតាមរយៈវិធីសាស្ត្រ (Radius-SMOTE Oversampling)
ការតំណាងលក្ខណៈពិសេសជារូបភាពបីវិមាត្រ (3D Cube Feature Representation)
ការចំណាត់ថ្នាក់ដោយប្រៀបធៀបរវាង (Convolutional Neural Network) និង (Decision Tree)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការប្រើប្រាស់វិធីសាស្ត្របណ្ដាញសរសៃប្រសាទ (CNN) ជាមួយទិន្នន័យដែលបានឆ្លងកាត់ Radius-SMOTE ទទួលបានភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ៨២,១១% សម្រាប់អារម្មណ៍ដឹងខ្លួន (Arousal) និង ៧៨,៩៩% សម្រាប់អារម្មណ៍ទូទៅ (Valence)។
ចំណែកឯការប្រើវិធីសាស្ត្រមែកធាងសេចក្តីសម្រេច (Decision Tree) ជាមួយ Radius-SMOTE ទទួលបានភាពត្រឹមត្រូវ ៧៨,៧៨% សម្រាប់ Arousal និង ៧៥,១៤% សម្រាប់ Valence។
ការសាកល្បងបង្ហាញថាវិធីសាស្ត្រ Radius-SMOTE ពិតជាអាចដោះស្រាយបញ្ហាទិន្នន័យត្រួតស៊ីគ្នា (Overlapping) និងបង្កើនភាពត្រឹមត្រូវខ្ពស់ជាងបច្ចេកទេស Oversampling និងម៉ូដែលផ្សេងៗដែលធ្លាប់មានពីមុនលើសំណុំទិន្នន័យ DEAP ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
CNN with Radius-SMOTE បណ្ដាញសរសៃប្រសាទ CNN ជាមួយការបង្កើតទិន្នន័យ Radius-SMOTE (ស្នើឡើង)	អាចដោះស្រាយបញ្ហាទិន្នន័យមិនមានតុល្យភាពបានយ៉ាងល្អ និងផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងការសម្គាល់អារម្មណ៍។	ទាមទារធនធានកុំព្យូទ័រខ្ពស់ និងចំណាយពេលយូរក្នុងការហ្វឹកហាត់ម៉ូដែល ដោយសារការប្រើប្រាស់ទិន្នន័យតំណាងរាងជា 3D Cube។	ទទួលបានភាពត្រឹមត្រូវ ៨២,១១% សម្រាប់ Arousal និង ៧៨,៩៩% សម្រាប់ Valence។
Decision Tree with Radius-SMOTE មែកធាងសេចក្តីសម្រេច (Decision Tree) ជាមួយ Radius-SMOTE (ស្នើឡើង)	ដំណើរការលឿន ងាយស្រួលបកស្រាយ និងមិនត្រូវការទិន្នន័យបញ្ចូលជាទម្រង់ 3D Cube ស្មុគស្មាញនោះទេ។	ភាពត្រឹមត្រូវនៅមានកម្រិតទាបជាងម៉ូដែល Deep Learning (CNN)។	ទទួលបានភាពត្រឹមត្រូវ ៧៨,៧៨% សម្រាប់ Arousal និង ៧៥,១៤% សម្រាប់ Valence។
CNN without Oversampling (Yang et al.) បណ្ដាញសរសៃប្រសាទ CNN ដោយគ្មានការបន្ថែមទិន្នន័យ (យោងតាម Yang et al.)	មិនត្រូវការឆ្លងកាត់ដំណាក់កាលបង្កើតទិន្នន័យសិប្បនិម្មិត ដែលធ្វើឱ្យដំណើរការរៀបចំទិន្នន័យមានភាពសាមញ្ញ។	រងផលប៉ះពាល់យ៉ាងខ្លាំងពីអតុល្យភាពនៃទិន្នន័យ ដែលធ្វើឱ្យការទស្សន៍ទាយលម្អៀងទៅរកក្រុមភាគច្រើន (Majority Class)។	ទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៦៩,៥៥% សម្រាប់ Arousal និង ៦៨,៥៦% សម្រាប់ Valence។
SVM with Random Oversampling (Ding et al.) ម៉ូដែល SVM ជាមួយ Random Oversampling (យោងតាម Ding et al.)	ងាយស្រួលក្នុងការអនុវត្តជាងវិធីសាស្ត្រ SMOTE ព្រោះវាគ្រាន់តែថតចម្លងទិន្នន័យដែលមានស្រាប់។	ងាយប្រឈមនឹងបញ្ហា Overfitting (ទន្ទេញចាំទិន្នន័យ) ដោយសារការថតចម្លងទិន្នន័យដដែលៗច្រើនដង។	ទទួលបានភាពត្រឹមត្រូវ ៧៦,៦៧% សម្រាប់ Arousal និង ៧២,៩៥% សម្រាប់ Valence។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់លម្អិតពីទំហំកម្លាំងម៉ាស៊ីនក៏ពិតមែន ប៉ុន្តែការប្រើប្រាស់បណ្ដាញ Deep Learning (CNN) ជាមួយទិន្នន័យតំណាងជា 3D Cube ទាមទារធនធានកុំព្យូទ័រធម្យមទៅខ្ពស់។

Software: ភាសាអូសទាញ Python និងកូដគំរូដែលមានស្រាប់នៅលើ GitHub ព្រមទាំងបណ្ណាល័យសម្រាប់ Machine Learning។
Hardware: ត្រូវការម៉ាស៊ីនដែលមានអង្គគណនាក្រាហ្វិក (GPU) ខ្លាំង ដើម្បីពន្លឿនការហ្វឹកហាត់ម៉ូដែល CNN (Convolutional Neural Network)។
Dataset: សំណុំទិន្នន័យ DEAP (ទិន្នន័យ EEG ពីអ្នកចូលរួម ៣២ នាក់) ដែលអាចស្នើសុំប្រើប្រាស់បានដោយឥតគិតថ្លៃសម្រាប់ការស្រាវជ្រាវ។
Expertise: ទាមទារចំណេះដឹងផ្នែកដំណើរការសញ្ញាជីវសាស្រ្ត (Biomedical Signal Processing) ការទាញយកលក្ខណៈពិសេស (Feature Extraction) និងការកសាងម៉ូដែល Deep Learning។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ DEAP ដែលប្រមូលពីអ្នកចូលរួមចំនួន ៣២នាក់ (អាយុ ១៩-៣៧ឆ្នាំ) នៅក្នុងមន្ទីរពិសោធន៍លោកខាងលិច។ កត្តានេះអាចជះឥទ្ធិពលនៅពេលយកមកអនុវត្តនៅកម្ពុជា ដោយសារការឆ្លើយតបនៃអារម្មណ៍ និងរលកខួរក្បាលអាចមានភាពខុសគ្នាយ៉ាងខ្លាំងទៅតាមវប្បធម៌ បរិបទសង្គម និងកម្រិតនៃការយល់ដឹង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសដោះស្រាយទិន្នន័យគ្មានតុល្យភាពនេះ មានសក្ដានុពលខ្ពស់សម្រាប់ការស្រាវជ្រាវបច្ចេកវិទ្យាវាស់ស្ទង់អារម្មណ៍នៅកម្ពុជា។

វិស័យសុខាភិបាលផ្លូវចិត្ត (Mental Healthcare): អាចសហការជាមួយមន្ទីរពេទ្យមិត្តភាពខ្មែរ-សូវៀត ឬគ្លីនិកចិត្តសាស្ត្រនានា ដើម្បីប្រើប្រាស់ការវិភាគ EEG ជំនួយក្នុងការវាយតម្លៃកម្រិតស្ត្រេស និងជំងឺបាក់ទឹកចិត្តរបស់អ្នកជំងឺ។
បច្ចេកវិទ្យាអប់រំនៅសាកលវិទ្យាល័យ (EdTech in Universities): អាចយកទៅសាកល្បងនៅតាមសាកលវិទ្យាល័យ (ឧទាហរណ៍ RUPP ឬ ITC) ដើម្បីវាស់ស្ទង់កម្រិតនៃការផ្តោតអារម្មណ៍ (Concentration) និងអារម្មណ៍របស់និស្សិតក្នុងពេលរៀនសូត្រ។
ការវិភាគទិន្នន័យ AI (AI Data Analysis): បច្ចេកទេស Radius-SMOTE អាចយកទៅអនុវត្តលើបញ្ហាទិន្នន័យអតុល្យភាពផ្សេងៗទៀតនៅកម្ពុជា មិនត្រឹមតែលើ EEG ទេ ដូចជាការទស្សន៍ទាយជំងឺ ឬការចាប់យកអំពើឆបោកផ្នែកហិរញ្ញវត្ថុ។

ជារួម បច្ចេកទេស Radius-SMOTE អាចជួយអ្នកស្រាវជ្រាវកម្ពុជាដោះស្រាយបញ្ហាកង្វះខាតទិន្នន័យគំរូ (Imbalanced Data) ក្នុងវិស័យ AI និងសុខាភិបាលបានយ៉ាងមានប្រសិទ្ធភាព និងចំណាយដើមទុនទាបក្នុងការកែច្នៃទិន្នន័យ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃសញ្ញា EEG និងការវាយតម្លៃអារម្មណ៍: ស្វែងយល់ពីប្រេកង់រលកខួរក្បាល (Theta, Alpha, Beta, Gamma) និងម៉ូដែលអារម្មណ៍ Russell Circumplex Model ដើម្បីយល់ច្បាស់ពីការបែងចែក Arousal និង Valence។
ជំហានទី២៖ ហាត់រៀនការកែច្នៃ និងទាញយកលក្ខណៈពិសេស (Feature Extraction): អនុវត្តការប្រើប្រាស់វិធីសាស្ត្រ Differential Entropy (DE) និងការបំប្លែងទិន្នន័យទៅជាតំណាង 3D Cube ដោយប្រើប្រាស់បណ្ណាល័យដូចជា MNE-Python និង SciPy។
ជំហានទី៣៖ អនុវត្តការដោះស្រាយទិន្នន័យមិនមានតុល្យភាព (Handling Imbalanced Data): សរសេរកូដសាកល្បងជាមួយបច្ចេកទេសថតចម្លងទិន្នន័យ (SMOTE និង Radius-SMOTE) ដោយប្រើប្រាស់បណ្ណាល័យ Imbalanced-learn នៅក្នុង Python។
ជំហានទី៤៖ កសាង និងហ្វឹកហាត់ម៉ូដែល Deep Learning: ប្រើប្រាស់ TensorFlow ឬ PyTorch ដើម្បីរចនា និងហ្វឹកហាត់ម៉ូដែល Convolutional Neural Network (CNN) ដូចដែលបានរៀបរាប់ក្នុងឯកសារស្រាវជ្រាវ។
ជំហានទី៥៖ ប្រមូលទិន្នន័យក្នុងស្រុកដើម្បីផ្ទៀងផ្ទាត់ (Local Data Collection): ប្រើប្រាស់ឧបករណ៍វាស់រលកខួរក្បាលដែលមានតម្លៃសមរម្យដូចជា OpenBCI ឬ Emotiv EPOC ដើម្បីប្រមូលទិន្នន័យ EEG ពីនិស្សិតកម្ពុជា និងសាកល្បងប្រសិទ្ធភាពម៉ូដែលក្នុងបរិបទជាក់ស្តែង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Electroencephalogram (EEG)	ជាវិធីសាស្ត្រក្នុងការវាស់ស្ទង់សកម្មភាពអគ្គិសនីនៃខួរក្បាលរបស់មនុស្ស ដោយការបិទសេនស័រ (Electrodes) នៅលើស្បែកក្បាល ដើម្បីថតយកកម្រិតរលកខួរក្បាលពេលមានប្រតិកម្មទៅនឹងរំញោចអ្វីមួយ។	ដូចជាម៉ាស៊ីនថតសំឡេងដែលយើងបិទជាប់ក្បាលដើម្បីលួចស្តាប់រលកសញ្ញាអគ្គិសនីដែលកោសិកាខួរក្បាលកំពុងនិយាយគ្នា។
Radius-SMOTE	ជាបច្ចេកទេសបង្កើតទិន្នន័យសិប្បនិម្មិតបន្ថែមសម្រាប់ក្រុមទិន្នន័យដែលមានចំនួនតិច (Minority Class) ដោយកំណត់ដែនកាំរង្វង់ (Radius) ដើម្បីចៀសវាងការបង្កើតទិន្នន័យត្រួតស៊ីគ្នាជាមួយក្រុមទិន្នន័យដែលមានចំនួនច្រើនរួចទៅហើយ។	ដូចជាការចម្លងមនុស្សបន្ថែមដាក់នៅទីតាំងដែលស្ងាត់ ដោយកំណត់គម្លាតសុវត្ថិភាពដើម្បីកុំឱ្យពួកគេទៅឈរជាន់កន្លែងដែលមានមនុស្សកកកុញច្រើនរួចទៅហើយ។
Differential Entropy (DE)	ជាវិធីសាស្ត្រគណិតវិទ្យាក្នុងការទាញយកលក្ខណៈពិសេសពីរលកសញ្ញាខួរក្បាល ដោយវាស់ស្ទង់កម្រិតនៃភាពស្មុគស្មាញ និងការប្រែប្រួលនៃរលកសញ្ញាទាំងនោះដើម្បីតំណាងឱ្យកម្រិតនៃអារម្មណ៍។	ដូចជាការវាស់ស្ទង់មើលថាតើទឹកសមុទ្រកំពុងតែស្ងប់ស្ងាត់ ឬមានរលកបោកបក់ខ្លាំងកម្រិតណា ដើម្បីដឹងពីស្ថានភាពអាកាសធាតុពិតប្រាកដ។
Convolutional Neural Network (CNN)	ជាប្រភេទម៉ូដែលបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Deep Learning) ដែលមានសមត្ថភាពខ្ពស់ក្នុងការវិភាគទិន្នន័យទម្រង់ជាក្រឡាចត្រង្គ (ដូចជារូបភាព ឬទិន្នន័យ 3D Cube) ដើម្បីទាញយកលក្ខណៈសម្គាល់សំខាន់ៗដោយស្វ័យប្រវត្តិ។	ដូចជាភ្នែកនិងខួរក្បាលរបស់មនុស្សដែលអាចមើលឃើញរូបភាពមួយ រួចដឹងភ្លាមៗថាវាជារូបឆ្មា ឬរូបឆ្កែ ដោយគ្រាន់តែសម្គាល់តាមទម្រង់ត្រចៀក ឬភ្នែករបស់វា។
Imbalanced Data	ជាបញ្ហានៅក្នុងសំណុំទិន្នន័យដែលក្រុមទិន្នន័យម្ខាងមានចំនួនច្រើនលើសលប់ (Majority Class) ខណៈក្រុមទិន្នន័យម្ខាងទៀតមានចំនួនតិចតួចពេក ដែលធ្វើឱ្យម៉ូដែល AI រៀនសូត្របានលម្អៀង និងទស្សន៍ទាយខុសនៅពេលជួបក្រុមភាគតិច។	ដូចជាគ្រូបង្រៀនម្នាក់ដែលចំណាយពេលបង្រៀនតែសិស្សពូកែ៣០នាក់ និងមិនសូវខ្វល់ពីសិស្សខ្សោយ២នាក់ ធ្វើឱ្យការប្រឡងរបស់សិស្សខ្សោយធ្លាក់ជានិច្ច។
3D Cube	ជាវិធីសាស្ត្ររៀបចំទិន្នន័យលក្ខណៈពិសេសរបស់រលកខួរក្បាល (DE features) ឱ្យទៅជាទម្រង់ម៉ាទ្រីស ៣ វិមាត្រ ដោយផ្គុំប្រេកង់រលកផ្សេងៗគ្នាចូលគ្នាជាស្រទាប់ៗ ដើម្បីងាយស្រួលសម្រាប់ម៉ូដែល CNN ធ្វើការវិភាគ។	ដូចជាការយកនំសាំងវិចដែលមានស្រទាប់សាច់ បន្លែ និងស៊ុត មកត្រួតស៊ីគ្នា ដើម្បីឱ្យម៉ាស៊ីនស្កេនមើលឃើញរសជាតិទាំងមូលក្នុងពេលតែមួយ។
Arousal and Valence	ជារង្វាស់ពីរវិមាត្រសម្រាប់វាយតម្លៃអារម្មណ៍របស់មនុស្ស។ Arousal វាស់ពីកម្រិតនៃភាពរំភើប (ពីស្ងប់ស្ងាត់ទៅរំភើបខ្លាំង) ចំណែក Valence វាស់ពីកម្រិតនៃភាពវិជ្ជមាន ឬអវិជ្ជមាននៃអារម្មណ៍ (ពីសោកសៅទៅសប្បាយចិត្ត)។	ដូចជាការស្តាប់វិទ្យុ ដែល Arousal គឺកម្រិតសំឡេង (ខ្លាំងឬខ្សោយ) ចំណែកឯ Valence គឺប្រភេទប៉ុស្តិ៍វិទ្យុ (ប៉ុស្តិ៍ចម្រៀងកម្សាន្ត ឬប៉ុស្តិ៍ព័ត៌មានដ៏សែនក្រៀមក្រំ)។
Feature Extraction	ជាដំណើរការនៃការបំប្លែងទិន្នន័យឆៅដ៏ច្រើនសន្ធឹកសន្ធាប់ (ដូចជារលកសញ្ញាខួរក្បាលជាបន្តបន្ទាប់) ទៅជាសំណុំនៃតួលេខឬលក្ខណៈសំខាន់ៗដែលម៉ាស៊ីន (AI) អាចយល់ និងរៀនសូត្របានប្រកបដោយប្រសិទ្ធភាព។	ដូចជាការចម្រាញ់យកតែទឹកផ្លែឈើសុទ្ធចេញពីផ្លែឈើទាំងមូលទម្ងន់ច្រើនគីឡូ ដើម្បីងាយស្រួលយកទៅធ្វើភេសជ្ជៈភ្លាមៗដោយមិនបាច់ទំពា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖