បញ្ហា (The Problem)៖ អត្ថបទនេះដោះស្រាយបញ្ហាអតុល្យភាពចំណាត់ថ្នាក់ទិន្នន័យ (Class Imbalance) នៅក្នុងការស្រាវជ្រាវតាមរយៈម៉ាស៊ីនរៀន (Machine Learning) សម្រាប់ការទស្សន៍ទាយ និងការរកឃើញជំងឺបាក់ទឹកចិត្ត ដោយសារអ្នកជំងឺបាក់ទឹកចិត្តតែងតែមានចំនួនតិចជាងអ្នកធម្មតានៅក្នុងសំណុំទិន្នន័យ (Datasets)។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្ររំលឹកឡើងវិញជាប្រព័ន្ធ PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses) ដើម្បីប្រមូល និងវិភាគអត្ថបទស្រាវជ្រាវពាក់ព័ន្ធ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| SMOTE (Synthetic Minority Oversampling Technique) បច្ចេកទេសបង្កើតទិន្នន័យសិប្បនិម្មិតសម្រាប់ក្រុមភាគតិច |
អាចបង្កើតទិន្នន័យថ្មីដោយផ្អែកលើទិន្នន័យចាស់ដោយមិនចម្លងបេះបិទ ដែលជួយកាត់បន្ថយហានិភ័យនៃការ Overfitting។ ជាវិធីសាស្ត្រដែលពេញនិយម និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការបង្កើនភាពត្រឹមត្រូវនៃម៉ូដែល។ | អាចនឹងមិនដំណើរការបានល្អជាមួយសំណុំទិន្នន័យដែលមានអថេរវិមាត្រខ្ពស់ (High dimensional variables) ខ្លាំងនោះទេ។ | ទទួលបានភាពត្រឹមត្រូវ (Accuracy) រហូតដល់ 0.90 ទៅ 0.92 នៅពេលប្រើជាមួយ Random Forest និងម៉ូដែលផ្សេងៗ។ |
| Random Oversampling ការយកគំរូទិន្នន័យបន្ថែមសម្រាប់ក្រុមភាគតិចដោយចៃដន្យ |
ងាយស្រួលក្នុងការអនុវត្ត និងជួយធ្វើឱ្យចំនួនទិន្នន័យរវាងក្រុមទាំងពីរមានតុល្យភាពបានលឿន។ | ការចម្លងទិន្នន័យដដែលៗអាចធ្វើឱ្យកើនឡើងនូវពេលវេលានៃការហ្វឹកហាត់ម៉ាស៊ីន (Learning time) និងងាយបណ្តាលឱ្យមាន Overfitting។ | ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ខ្ទង់ 0.82 ទៅ 0.90 និងអាចប្រសើរជាងនេះបើប្រើជាមួយវិធីសាស្ត្រផ្សេងទៀត។ |
| Random Undersampling ការកាត់បន្ថយទិន្នន័យក្រុមភាគច្រើនដោយចៃដន្យ |
ជួយកាត់បន្ថយទំហំទិន្នន័យសរុប ដែលធ្វើឱ្យការហ្វឹកហាត់ម៉ូដែលដើរបានលឿន និងប្រើប្រាស់ធនធានកុំព្យូទ័រតិចជាងមុន។ | ប្រឈមនឹងការបាត់បង់ព័ត៌មាន ឬទិន្នន័យសំខាន់ៗមួយចំនួនពីក្រុមភាគច្រើន។ | ត្រូវបានបង្ហាញថាអាចទទួលបានភាពត្រឹមត្រូវ (Accuracy) ខ្ពស់រហូតដល់ 0.93 នៅពេលប្រើរួមផ្សំជាមួយ Random Forest និងការ Oversampling។ |
| Autoencoder (Model Level Approach) បច្ចេកទេសកម្រិតម៉ូដែលដោយប្រើប្រាស់ Autoencoder |
មិនតម្រូវឱ្យមានការកែប្រែទិន្នន័យដើមនោះទេ ដោយវាអាចរៀនស្គាល់ទម្រង់ធម្មតា (ក្រុមភាគច្រើន) រួចចាប់យកអ្នកបាក់ទឹកចិត្តជាទិន្នន័យមិនប្រក្រតី (Anomalies)។ | ទាមទារការយល់ដឹងស៊ីជម្រៅពីក្បួនដោះស្រាយ (Algorithms) និងចំណាយពេលច្រើនក្នុងការកែសម្រួលប៉ារ៉ាម៉ែត្រម៉ូដែល។ | ទទួលបានពិន្ទុ F1-Score រហូតដល់ 0.91 ក្នុងការទស្សន៍ទាយជំងឺបាក់ទឹកចិត្ត។ |
| Ensemble (SMOTE + Undersampling) បច្ចេកទេសចម្រុះបញ្ចូលគ្នារវាងការបង្កើត និងការកាត់បន្ថយទិន្នន័យ |
ប្រើប្រាស់ចំណុចខ្លាំងនៃវិធីសាស្ត្រទាំងពីរ ដោយកាត់បន្ថយទិន្នន័យភាគច្រើនផង និងបង្កើតទិន្នន័យភាគតិចបន្ថែមផង ដើម្បីទទួលបានតុល្យភាពល្អបំផុត។ | ដំណើរការស្មុគស្មាញជាងវិធីសាស្ត្រទោល និងត្រូវការថាមពលកុំព្យូទ័រច្រើនក្នុងការកែច្នៃទិន្នន័យដំណាក់កាលដំបូង។ | ផ្តល់លទ្ធផលល្អប្រសើរជាងការប្រើប្រាស់ត្រឹមតែ Undersampling តែមួយមុខ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារមិនបានបញ្ជាក់ផ្ទាល់ពីតម្លៃ និងធនធានជាក់លាក់នោះទេ ប៉ុន្តែការប្រើប្រាស់បច្ចេកទេសរៀនស៊ីជម្រៅលើទិន្នន័យធំៗទាមទារនូវកម្លាំងម៉ាស៊ីន និងទិន្នន័យល្អិតល្អន់។
ការសិក្សានេះពឹងផ្អែកខ្លាំងលើសំណុំទិន្នន័យមកពីបស្ចិមប្រទេស ដូចជា DAIC-WOZ (អាមេរិក), កំណត់ត្រាសុខភាពអូស្ត្រាលី និងហូឡង់ (Lifelines) ដែលឆ្លុះបញ្ចាំងពីវប្បធម៌ និងភាសារបស់ពួកគេ។ នេះជាចំណុចខ្វះខាតធំមួយសម្រាប់កម្ពុជា ព្រោះការបង្ហាញពីជំងឺបាក់ទឹកចិត្តតាមរយៈពាក្យសម្តី ឬបណ្តាញសង្គមរបស់ប្រជាជនខ្មែរមានលក្ខណៈប្លែកពីគេ ដែលទាមទារឱ្យមានសំណុំទិន្នន័យក្នុងស្រុក (Localized Dataset) ជាចាំបាច់។
ទោះបីជាបរិបទវប្បធម៌ខុសគ្នាក៏ដោយ បច្ចេកទេសដោះស្រាយអតុល្យភាពទិន្នន័យទាំងនេះមានសក្តានុពលខ្លាំងណាស់ក្នុងការយកមកអភិវឌ្ឍប្រព័ន្ធតាមដានសុខភាពផ្លូវចិត្តនៅកម្ពុជា។
ជារួម បច្ចេកទេសទាំងនេះជាមូលដ្ឋានគ្រឹះដ៏រឹងមាំមួយ សម្រាប់អ្នកស្រាវជ្រាវកម្ពុជាក្នុងការអភិវឌ្ឍប្រព័ន្ធឆ្លាតវៃដែលអាចរកឃើញជំងឺបាក់ទឹកចិត្តបានកាន់តែសុក្រឹត ទោះបីជាក្នុងស្ថានភាពខ្វះខាតទិន្នន័យក៏ដោយ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Class Imbalance | ជាស្ថានភាពនៃសំណុំទិន្នន័យដែលចំនួនទិន្នន័យនៃក្រុមមួយ (ឧទាហរណ៍៖ អ្នកមិនមានជំងឺបាក់ទឹកចិត្ត) មានទំហំធំធេងលើសលប់ធៀបនឹងក្រុមមួយទៀត (អ្នកមានជំងឺបាក់ទឹកចិត្ត)។ ស្ថានភាពនេះធ្វើឱ្យក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning Algorithms) ងាយនឹងមានភាពលម្អៀង និងទាយត្រូវតែក្រុមភាគច្រើន ហើយពុំសូវស្គាល់ក្រុមភាគតិចនោះទេ។ | ដូចជាគ្រូបង្រៀនម្នាក់ដែលមានសិស្សពូកែ ៩០នាក់ និងសិស្សខ្សោយតែ ១០នាក់ ធ្វើឱ្យគ្រូធ្លាប់តែឃើញចម្លើយត្រូវ និងពិបាកចំណាំកំហុស ឬជួយកែតម្រូវសិស្សខ្សោយបានល្អ។ |
| SMOTE | ជាបច្ចេកទេសបង្កើតទិន្នន័យថ្មីសិប្បនិម្មិតសម្រាប់ក្រុមភាគតិច (Minority class) ដោយមិនធ្វើការចម្លងបេះបិទពីទិន្នន័យចាស់ឡើយ។ វាដំណើរការដោយការគណនាចម្ងាយរវាងទិន្នន័យចាស់ៗ រួចបង្កើតចំណុចទិន្នន័យថ្មីនៅចន្លោះពួកវា ដើម្បីជួយឱ្យទិន្នន័យមានតុល្យភាព និងចៀសវាងការចងចាំត្រួសៗ (Overfitting)។ | ដូចជាការយកពណ៌ក្រហមចាស់ និងក្រហមស្រាលមកលាយបញ្ចូលគ្នា ដើម្បីបង្កើតបានជាពណ៌ក្រហមថ្មីមួយទៀត ជំនួសឱ្យការប្រើតែពណ៌ដើមដដែលៗ។ |
| Random Oversampling | ជាវិធីសាស្ត្រថតចម្លង ឬទាញយកទិន្នន័យពីក្រុមភាគតិច (អ្នកមានជំងឺ) មកប្រើដដែលៗដោយចៃដន្យ រហូតទាល់តែចំនួនទិន្នន័យរបស់វាមានតុល្យភាពស្មើនឹងក្រុមភាគច្រើន។ ទោះបីជាងាយស្រួល ប៉ុន្តែវាអាចបណ្តាលឱ្យម៉ូដែលចងចាំតែទិន្នន័យដដែលៗ។ | ដូចជាការថតចម្លង (Copy) សន្លឹកកិច្ចការរបស់សិស្សម្នាក់ចំនួន ១០០សន្លឹក ដើម្បីឱ្យមើលទៅមានបរិមាណកិច្ចការច្រើនស្មើនឹងសិស្សដទៃទៀតដែរ។ |
| Random Under sampling | ជាការលុបចោលទិន្នន័យខ្លះៗពីក្រុមភាគច្រើន (អ្នកគ្មានជំងឺ) ដោយចៃដន្យ រហូតទាល់តែចំនួនរបស់វាធ្លាក់មកស្មើនឹងក្រុមភាគតិច។ បច្ចេកទេសនេះធ្វើឱ្យម៉ូដែលរៀនបានលឿនជាងមុន ប៉ុន្តែវាមានហានិភ័យក្នុងការបាត់បង់ព័ត៌មាន ឬទិន្នន័យសំខាន់ៗមួយចំនួនរបស់ក្រុមភាគច្រើន។ | ដូចជាការបញ្ចុះចំនួនសិស្សក្នុងថ្នាក់ធំមួយពី ៥០នាក់មកត្រឹម ១០នាក់ដោយការចាប់ឆ្នោត ដើម្បីឱ្យស្មើនឹងថ្នាក់តូចមួយទៀត ប៉ុន្តែអាចធ្វើឱ្យបាត់បង់សិស្សពូកែៗមួយចំនួនដោយអចេតនា។ |
| Autoencoder | ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលរៀនបង្រួមទិន្នន័យទៅជាទម្រង់តូច (Encoding) រួចពង្រីកវាត្រឡប់មកវិញ (Decoding)។ ក្នុងការសិក្សានេះ វាត្រូវបានប្រើដើម្បីរៀនស្គាល់ទម្រង់នៃការរស់នៅធម្មតារបស់អ្នកគ្មានជំងឺ រួចចាត់ទុកអ្នកមានជំងឺជាទិន្នន័យដែលខុសប្រក្រតី (Anomalies)។ | ដូចជាឆ្មាមួយក្បាលដែលចំណាំតែទម្រង់មុខម្ចាស់វាច្បាស់ ពេលមានជនប្លែកមុខដើរចូលផ្ទះ វាដឹងភ្លាមថាជាមនុស្សខុសប្រក្រតី។ |
| Focal Loss Function | ជារូបមន្តគណនាកំហុស (Loss Function) ក្នុងពេលហ្វឹកហាត់ម៉ូដែល ដែលត្រូវបានកែច្នៃឡើងដើម្បីផ្តោតការយកចិត្តទុកដាក់ខ្លាំងទៅលើទិន្នន័យណាដែលម៉ូដែលទស្សន៍ទាយពិបាកត្រូវ (ជាទូទៅគឺក្រុមភាគតិច) និងកាត់បន្ថយទម្ងន់តម្លៃទៅលើទិន្នន័យដែលងាយស្រួលទាយត្រូវ (ក្រុមភាគច្រើន)។ | ដូចជាការដាក់ពិន្ទុវិញ្ញាសាប្រឡង ដែលគ្រូផ្តល់ពិន្ទុខ្ពស់ខ្លាំងដល់សំណួរពិបាក (កម្រជួប) ជាងសំណួរងាយៗដែលសិស្សភាគច្រើនចេះធ្វើ។ |
| Ensemble Class Imbalanced Handling Technique | ជាការរួមបញ្ចូលគ្នានូវបច្ចេកទេសដោះស្រាយអតុល្យភាពទិន្នន័យចាប់ពីពីរឡើងទៅ (ឧទាហរណ៍៖ ការប្រើបញ្ចូលគ្នារវាង SMOTE និង Random Undersampling) ដើម្បីកាត់បន្ថយចំណុចខ្សោយនៃវិធីនីមួយៗ និងទទួលបានការបង្ហាត់ម៉ាស៊ីនមួយដែលកាន់តែសុក្រឹត និងអាចជឿទុកចិត្តបាន។ | ដូចជាការប្រើប្រាស់វេជ្ជបណ្ឌិតពីរនាក់ដើម្បីពិនិត្យអ្នកជំងឺម្នាក់រួមគ្នា ដែលម្នាក់ពូកែកាត់ចោលរោគសញ្ញាមិនពាក់ព័ន្ធ និងម្នាក់ទៀតពូកែវិភាគរោគសញ្ញាលាក់កំបាំង ដើម្បីផ្តល់លទ្ធផលច្បាស់លាស់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖