Original Title: CLASS IMBALANCE HANDLING TECHNIQUES USED IN DEPRESSION PREDICTION AND DETECTION
Source: doi.org/10.5121/ijdkp.2023.13202
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

បច្ចេកទេសដោះស្រាយអតុល្យភាពចំណាត់ថ្នាក់ដែលត្រូវបានប្រើប្រាស់ក្នុងការទស្សន៍ទាយ និងការរកឃើញជំងឺបាក់ទឹកចិត្ត

ចំណងជើងដើម៖ CLASS IMBALANCE HANDLING TECHNIQUES USED IN DEPRESSION PREDICTION AND DETECTION

អ្នកនិពន្ធ៖ Simisani Ndaba, Department of Computer Science, Faculty of Science, University of Botswana

ឆ្នាំបោះពុម្ព៖ 2023, International Journal of Data Mining & Knowledge Management Process (IJDKP)

វិស័យសិក្សា៖ Machine Learning / Health Informatics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ អត្ថបទនេះដោះស្រាយបញ្ហាអតុល្យភាពចំណាត់ថ្នាក់ទិន្នន័យ (Class Imbalance) នៅក្នុងការស្រាវជ្រាវតាមរយៈម៉ាស៊ីនរៀន (Machine Learning) សម្រាប់ការទស្សន៍ទាយ និងការរកឃើញជំងឺបាក់ទឹកចិត្ត ដោយសារអ្នកជំងឺបាក់ទឹកចិត្តតែងតែមានចំនួនតិចជាងអ្នកធម្មតានៅក្នុងសំណុំទិន្នន័យ (Datasets)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្ររំលឹកឡើងវិញជាប្រព័ន្ធ PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses) ដើម្បីប្រមូល និងវិភាគអត្ថបទស្រាវជ្រាវពាក់ព័ន្ធ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
SMOTE (Synthetic Minority Oversampling Technique)
បច្ចេកទេសបង្កើតទិន្នន័យសិប្បនិម្មិតសម្រាប់ក្រុមភាគតិច
អាចបង្កើតទិន្នន័យថ្មីដោយផ្អែកលើទិន្នន័យចាស់ដោយមិនចម្លងបេះបិទ ដែលជួយកាត់បន្ថយហានិភ័យនៃការ Overfitting។ ជាវិធីសាស្ត្រដែលពេញនិយម និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការបង្កើនភាពត្រឹមត្រូវនៃម៉ូដែល។ អាចនឹងមិនដំណើរការបានល្អជាមួយសំណុំទិន្នន័យដែលមានអថេរវិមាត្រខ្ពស់ (High dimensional variables) ខ្លាំងនោះទេ។ ទទួលបានភាពត្រឹមត្រូវ (Accuracy) រហូតដល់ 0.90 ទៅ 0.92 នៅពេលប្រើជាមួយ Random Forest និងម៉ូដែលផ្សេងៗ។
Random Oversampling
ការយកគំរូទិន្នន័យបន្ថែមសម្រាប់ក្រុមភាគតិចដោយចៃដន្យ
ងាយស្រួលក្នុងការអនុវត្ត និងជួយធ្វើឱ្យចំនួនទិន្នន័យរវាងក្រុមទាំងពីរមានតុល្យភាពបានលឿន។ ការចម្លងទិន្នន័យដដែលៗអាចធ្វើឱ្យកើនឡើងនូវពេលវេលានៃការហ្វឹកហាត់ម៉ាស៊ីន (Learning time) និងងាយបណ្តាលឱ្យមាន Overfitting។ ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ខ្ទង់ 0.82 ទៅ 0.90 និងអាចប្រសើរជាងនេះបើប្រើជាមួយវិធីសាស្ត្រផ្សេងទៀត។
Random Undersampling
ការកាត់បន្ថយទិន្នន័យក្រុមភាគច្រើនដោយចៃដន្យ
ជួយកាត់បន្ថយទំហំទិន្នន័យសរុប ដែលធ្វើឱ្យការហ្វឹកហាត់ម៉ូដែលដើរបានលឿន និងប្រើប្រាស់ធនធានកុំព្យូទ័រតិចជាងមុន។ ប្រឈមនឹងការបាត់បង់ព័ត៌មាន ឬទិន្នន័យសំខាន់ៗមួយចំនួនពីក្រុមភាគច្រើន។ ត្រូវបានបង្ហាញថាអាចទទួលបានភាពត្រឹមត្រូវ (Accuracy) ខ្ពស់រហូតដល់ 0.93 នៅពេលប្រើរួមផ្សំជាមួយ Random Forest និងការ Oversampling។
Autoencoder (Model Level Approach)
បច្ចេកទេសកម្រិតម៉ូដែលដោយប្រើប្រាស់ Autoencoder
មិនតម្រូវឱ្យមានការកែប្រែទិន្នន័យដើមនោះទេ ដោយវាអាចរៀនស្គាល់ទម្រង់ធម្មតា (ក្រុមភាគច្រើន) រួចចាប់យកអ្នកបាក់ទឹកចិត្តជាទិន្នន័យមិនប្រក្រតី (Anomalies)។ ទាមទារការយល់ដឹងស៊ីជម្រៅពីក្បួនដោះស្រាយ (Algorithms) និងចំណាយពេលច្រើនក្នុងការកែសម្រួលប៉ារ៉ាម៉ែត្រម៉ូដែល។ ទទួលបានពិន្ទុ F1-Score រហូតដល់ 0.91 ក្នុងការទស្សន៍ទាយជំងឺបាក់ទឹកចិត្ត។
Ensemble (SMOTE + Undersampling)
បច្ចេកទេសចម្រុះបញ្ចូលគ្នារវាងការបង្កើត និងការកាត់បន្ថយទិន្នន័យ
ប្រើប្រាស់ចំណុចខ្លាំងនៃវិធីសាស្ត្រទាំងពីរ ដោយកាត់បន្ថយទិន្នន័យភាគច្រើនផង និងបង្កើតទិន្នន័យភាគតិចបន្ថែមផង ដើម្បីទទួលបានតុល្យភាពល្អបំផុត។ ដំណើរការស្មុគស្មាញជាងវិធីសាស្ត្រទោល និងត្រូវការថាមពលកុំព្យូទ័រច្រើនក្នុងការកែច្នៃទិន្នន័យដំណាក់កាលដំបូង។ ផ្តល់លទ្ធផលល្អប្រសើរជាងការប្រើប្រាស់ត្រឹមតែ Undersampling តែមួយមុខ។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារមិនបានបញ្ជាក់ផ្ទាល់ពីតម្លៃ និងធនធានជាក់លាក់នោះទេ ប៉ុន្តែការប្រើប្រាស់បច្ចេកទេសរៀនស៊ីជម្រៅលើទិន្នន័យធំៗទាមទារនូវកម្លាំងម៉ាស៊ីន និងទិន្នន័យល្អិតល្អន់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកខ្លាំងលើសំណុំទិន្នន័យមកពីបស្ចិមប្រទេស ដូចជា DAIC-WOZ (អាមេរិក), កំណត់ត្រាសុខភាពអូស្ត្រាលី និងហូឡង់ (Lifelines) ដែលឆ្លុះបញ្ចាំងពីវប្បធម៌ និងភាសារបស់ពួកគេ។ នេះជាចំណុចខ្វះខាតធំមួយសម្រាប់កម្ពុជា ព្រោះការបង្ហាញពីជំងឺបាក់ទឹកចិត្តតាមរយៈពាក្យសម្តី ឬបណ្តាញសង្គមរបស់ប្រជាជនខ្មែរមានលក្ខណៈប្លែកពីគេ ដែលទាមទារឱ្យមានសំណុំទិន្នន័យក្នុងស្រុក (Localized Dataset) ជាចាំបាច់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាបរិបទវប្បធម៌ខុសគ្នាក៏ដោយ បច្ចេកទេសដោះស្រាយអតុល្យភាពទិន្នន័យទាំងនេះមានសក្តានុពលខ្លាំងណាស់ក្នុងការយកមកអភិវឌ្ឍប្រព័ន្ធតាមដានសុខភាពផ្លូវចិត្តនៅកម្ពុជា។

ជារួម បច្ចេកទេសទាំងនេះជាមូលដ្ឋានគ្រឹះដ៏រឹងមាំមួយ សម្រាប់អ្នកស្រាវជ្រាវកម្ពុជាក្នុងការអភិវឌ្ឍប្រព័ន្ធឆ្លាតវៃដែលអាចរកឃើញជំងឺបាក់ទឹកចិត្តបានកាន់តែសុក្រឹត ទោះបីជាក្នុងស្ថានភាពខ្វះខាតទិន្នន័យក៏ដោយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ប្រមូល និងរៀបចំសំណុំទិន្នន័យក្នុងស្រុក: ចាប់ផ្តើមប្រមូលទិន្នន័យពីកម្រងសំណួរ PHQ-9 ជាភាសាខ្មែរ ឬប្រមូលទិន្នន័យអត្ថបទពីបណ្តាញសង្គម Facebook ដោយមានការយល់ព្រមត្រឹមត្រូវ ដើម្បីបង្កើតសំណុំទិន្នន័យ (Dataset) ដំបូងអំពីជំងឺបាក់ទឹកចិត្តនៅកម្ពុជា។
  2. សិក្សាពីបណ្ណាល័យ Machine Learning និង Python: និស្សិតគួរស្វែងយល់ និងអនុវត្តកូដដោយប្រើប្រាស់ភាសា Python ជាពិសេសបណ្ណាល័យ Scikit-Learn សម្រាប់ការវិភាគ និង Imbalanced-learn សម្រាប់អនុវត្តបច្ចេកទេសដោះស្រាយអតុល្យភាព។
  3. អនុវត្តបច្ចេកទេសកម្រិតទិន្នន័យលើទិន្នន័យគំរូ: សាកល្បងប្រើប្រាស់វិធីសាស្ត្រ SMOTE និង Random Undersampling ទៅលើទិន្នន័យដែលប្រមូលបាន រួចដំណើរការជាមួយម៉ូដែលមូលដ្ឋានដូចជា Random Forest និង XGBoost ដើម្បីសង្កេតមើលការផ្លាស់ប្តូរនៃលទ្ធផល។
  4. ស្វែងយល់ពីវិធីសាស្ត្រ Model Level និង Deep Learning: ឈានទៅប្រើប្រាស់បច្ចេកទេសកម្រិតខ្ពស់ដោយសិក្សាពី Focal Loss Function និងការកសាងម៉ូដែល Autoencoder តាមរយៈ TensorFlow ឬ PyTorch សម្រាប់ទិន្នន័យដែលពិបាកធ្វើតុល្យភាពដោយផ្ទាល់។
  5. វាយតម្លៃប្រសិទ្ធភាពម៉ូដែលឱ្យបានត្រឹមត្រូវ: បញ្ឈប់ការផ្ដោតតែលើពិន្ទុ Accuracy តែមួយមុខ (ព្រោះវាមិនឆ្លុះបញ្ចាំងការពិតសម្រាប់ទិន្នន័យអតុល្យភាព) ផ្ទុយទៅវិញ ត្រូវប្រើប្រាស់រង្វាស់រង្វាល់ដូចជា F1-Score, Precision, Recall និង AUC ដើម្បីវាយតម្លៃសមត្ថភាពជាក់ស្តែងរបស់ម៉ូដែល។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Class Imbalance ជាស្ថានភាពនៃសំណុំទិន្នន័យដែលចំនួនទិន្នន័យនៃក្រុមមួយ (ឧទាហរណ៍៖ អ្នកមិនមានជំងឺបាក់ទឹកចិត្ត) មានទំហំធំធេងលើសលប់ធៀបនឹងក្រុមមួយទៀត (អ្នកមានជំងឺបាក់ទឹកចិត្ត)។ ស្ថានភាពនេះធ្វើឱ្យក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning Algorithms) ងាយនឹងមានភាពលម្អៀង និងទាយត្រូវតែក្រុមភាគច្រើន ហើយពុំសូវស្គាល់ក្រុមភាគតិចនោះទេ។ ដូចជាគ្រូបង្រៀនម្នាក់ដែលមានសិស្សពូកែ ៩០នាក់ និងសិស្សខ្សោយតែ ១០នាក់ ធ្វើឱ្យគ្រូធ្លាប់តែឃើញចម្លើយត្រូវ និងពិបាកចំណាំកំហុស ឬជួយកែតម្រូវសិស្សខ្សោយបានល្អ។
SMOTE ជាបច្ចេកទេសបង្កើតទិន្នន័យថ្មីសិប្បនិម្មិតសម្រាប់ក្រុមភាគតិច (Minority class) ដោយមិនធ្វើការចម្លងបេះបិទពីទិន្នន័យចាស់ឡើយ។ វាដំណើរការដោយការគណនាចម្ងាយរវាងទិន្នន័យចាស់ៗ រួចបង្កើតចំណុចទិន្នន័យថ្មីនៅចន្លោះពួកវា ដើម្បីជួយឱ្យទិន្នន័យមានតុល្យភាព និងចៀសវាងការចងចាំត្រួសៗ (Overfitting)។ ដូចជាការយកពណ៌ក្រហមចាស់ និងក្រហមស្រាលមកលាយបញ្ចូលគ្នា ដើម្បីបង្កើតបានជាពណ៌ក្រហមថ្មីមួយទៀត ជំនួសឱ្យការប្រើតែពណ៌ដើមដដែលៗ។
Random Oversampling ជាវិធីសាស្ត្រថតចម្លង ឬទាញយកទិន្នន័យពីក្រុមភាគតិច (អ្នកមានជំងឺ) មកប្រើដដែលៗដោយចៃដន្យ រហូតទាល់តែចំនួនទិន្នន័យរបស់វាមានតុល្យភាពស្មើនឹងក្រុមភាគច្រើន។ ទោះបីជាងាយស្រួល ប៉ុន្តែវាអាចបណ្តាលឱ្យម៉ូដែលចងចាំតែទិន្នន័យដដែលៗ។ ដូចជាការថតចម្លង (Copy) សន្លឹកកិច្ចការរបស់សិស្សម្នាក់ចំនួន ១០០សន្លឹក ដើម្បីឱ្យមើលទៅមានបរិមាណកិច្ចការច្រើនស្មើនឹងសិស្សដទៃទៀតដែរ។
Random Under sampling ជាការលុបចោលទិន្នន័យខ្លះៗពីក្រុមភាគច្រើន (អ្នកគ្មានជំងឺ) ដោយចៃដន្យ រហូតទាល់តែចំនួនរបស់វាធ្លាក់មកស្មើនឹងក្រុមភាគតិច។ បច្ចេកទេសនេះធ្វើឱ្យម៉ូដែលរៀនបានលឿនជាងមុន ប៉ុន្តែវាមានហានិភ័យក្នុងការបាត់បង់ព័ត៌មាន ឬទិន្នន័យសំខាន់ៗមួយចំនួនរបស់ក្រុមភាគច្រើន។ ដូចជាការបញ្ចុះចំនួនសិស្សក្នុងថ្នាក់ធំមួយពី ៥០នាក់មកត្រឹម ១០នាក់ដោយការចាប់ឆ្នោត ដើម្បីឱ្យស្មើនឹងថ្នាក់តូចមួយទៀត ប៉ុន្តែអាចធ្វើឱ្យបាត់បង់សិស្សពូកែៗមួយចំនួនដោយអចេតនា។
Autoencoder ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលរៀនបង្រួមទិន្នន័យទៅជាទម្រង់តូច (Encoding) រួចពង្រីកវាត្រឡប់មកវិញ (Decoding)។ ក្នុងការសិក្សានេះ វាត្រូវបានប្រើដើម្បីរៀនស្គាល់ទម្រង់នៃការរស់នៅធម្មតារបស់អ្នកគ្មានជំងឺ រួចចាត់ទុកអ្នកមានជំងឺជាទិន្នន័យដែលខុសប្រក្រតី (Anomalies)។ ដូចជាឆ្មាមួយក្បាលដែលចំណាំតែទម្រង់មុខម្ចាស់វាច្បាស់ ពេលមានជនប្លែកមុខដើរចូលផ្ទះ វាដឹងភ្លាមថាជាមនុស្សខុសប្រក្រតី។
Focal Loss Function ជារូបមន្តគណនាកំហុស (Loss Function) ក្នុងពេលហ្វឹកហាត់ម៉ូដែល ដែលត្រូវបានកែច្នៃឡើងដើម្បីផ្តោតការយកចិត្តទុកដាក់ខ្លាំងទៅលើទិន្នន័យណាដែលម៉ូដែលទស្សន៍ទាយពិបាកត្រូវ (ជាទូទៅគឺក្រុមភាគតិច) និងកាត់បន្ថយទម្ងន់តម្លៃទៅលើទិន្នន័យដែលងាយស្រួលទាយត្រូវ (ក្រុមភាគច្រើន)។ ដូចជាការដាក់ពិន្ទុវិញ្ញាសាប្រឡង ដែលគ្រូផ្តល់ពិន្ទុខ្ពស់ខ្លាំងដល់សំណួរពិបាក (កម្រជួប) ជាងសំណួរងាយៗដែលសិស្សភាគច្រើនចេះធ្វើ។
Ensemble Class Imbalanced Handling Technique ជាការរួមបញ្ចូលគ្នានូវបច្ចេកទេសដោះស្រាយអតុល្យភាពទិន្នន័យចាប់ពីពីរឡើងទៅ (ឧទាហរណ៍៖ ការប្រើបញ្ចូលគ្នារវាង SMOTE និង Random Undersampling) ដើម្បីកាត់បន្ថយចំណុចខ្សោយនៃវិធីនីមួយៗ និងទទួលបានការបង្ហាត់ម៉ាស៊ីនមួយដែលកាន់តែសុក្រឹត និងអាចជឿទុកចិត្តបាន។ ដូចជាការប្រើប្រាស់វេជ្ជបណ្ឌិតពីរនាក់ដើម្បីពិនិត្យអ្នកជំងឺម្នាក់រួមគ្នា ដែលម្នាក់ពូកែកាត់ចោលរោគសញ្ញាមិនពាក់ព័ន្ធ និងម្នាក់ទៀតពូកែវិភាគរោគសញ្ញាលាក់កំបាំង ដើម្បីផ្តល់លទ្ធផលច្បាស់លាស់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖