បញ្ហា (The Problem)៖ ការធ្វើចំណាត់ថ្នាក់ទិន្នន័យវេជ្ជសាស្រ្តតែងតែប្រឈមនឹងបញ្ហានៃការចែកចាយទិន្នន័យមិនមានតុល្យភាព ដែលបណ្តាលឱ្យមានកំហុសក្នុងការទស្សន៍ទាយ និងដំណើរការខ្សោយក្នុងការកំណត់អត្តសញ្ញាណទិន្នន័យភាគតិចដែលជាទិន្នន័យសំខាន់។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវគំរូកូនកាត់ដែលរួមបញ្ចូលការជ្រើសរើសលក្ខណៈពិសេស និងបណ្តាញសរសៃប្រសាទ ដើម្បីចាត់ថ្នាក់ទិន្នន័យវេជ្ជសាស្រ្តដែលគ្មានតុល្យភាពពីសំណុំទិន្នន័យជំងឺក្រពេញទីរ៉ូអ៊ីតរបស់ UCI ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Proposed Method (CO-SVM + Learning Automata Neural Network) វិធីសាស្ត្រដែលបានស្នើឡើង (ការជ្រើសរើសលក្ខណៈពិសេស CO-SVM រួមជាមួយ Neural Network ផ្អែកលើ Learning Automata) |
មានភាពត្រឹមត្រូវខ្ពស់បំផុត និងដោះស្រាយបញ្ហាទិន្នន័យមិនមានតុល្យភាពបានយ៉ាងល្អ ដោយកាត់បន្ថយលក្ខណៈពិសេសពី ២៩ មកត្រឹម ១៣។ | ទាមទារការគណនាស្មុគស្មាញ និងត្រូវការពេលវេលាដើម្បីអភិវឌ្ឍក្បួនដោះស្រាយ Cuckoo និង Automata។ | ទទួលបានភាពត្រឹមត្រូវ ៩៩.៦% និងកំហុស MSE ទាបបំផុតត្រឹមតែ ០.០២។ |
| Standard Neural Network (MATLAB Toolbox) បណ្តាញសរសៃប្រសាទស្តង់ដារ (ប្រើប្រាស់ MATLAB Toolbox) |
ងាយស្រួលក្នុងការអនុវត្ត ដោយសារមានមុខងារស្រាប់នៅក្នុងកម្មវិធី MATLAB។ | ភាពត្រឹមត្រូវទាបជាងវិធីសាស្ត្រដែលបានធ្វើឱ្យប្រសើរ និងងាយនឹងលំអៀងទៅរកទិន្នន័យភាគច្រើន (Majority Class)។ | ទទួលបានភាពត្រឹមត្រូវ ៩៨.០% និងកំហុស MSE ០.០៦។ |
| Decision Tree ចំណាត់ថ្នាក់តាមមែកធាងការសម្រេចចិត្ត (Decision Tree) |
ងាយស្រួលយល់ បកស្រាយច្បាស់លាស់ និងមិនសូវទាមទារធនធានកុំព្យូទ័រខ្ពស់។ | ភាពត្រឹមត្រូវធ្លាក់ចុះយ៉ាងខ្លាំងនៅពេលប្រឈមមុខនឹងទិន្នន័យវេជ្ជសាស្ត្រដែលមិនមានតុល្យភាព។ | ទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៨៨.០៧% ប៉ុណ្ណោះ។ |
| Support Vector Machine (Standalone) ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ (SVM ទោលដោយគ្មានការជ្រើសរើសលក្ខណៈពិសេសបញ្ញាសិប្បនិម្មិត) |
ដំណើរការល្អសម្រាប់ទិន្នន័យដែលមានវិមាត្រខ្ពស់ (High-dimensional data)។ | មិនស័ក្តិសមក្នុងការដោះស្រាយទិន្នន័យដែលលំអៀងខ្លាំង ប្រសិនបើគ្មានការធ្វើសមាហរណកម្មជាមួយក្បួនដោះស្រាយផ្សេង។ | ទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៨៥.៤%។ |
| Simple Bayesian ចំណាត់ថ្នាក់ Simple Bayesian |
ដំណើរការលឿន និងស័ក្តិសមបំផុតសម្រាប់ទិន្នន័យដែលមានលក្ខណៈឯករាជ្យពីគ្នា។ | ផ្តល់លទ្ធផលអន់បំផុតក្នុងការសិក្សានេះ ដោយសារទិន្នន័យវេជ្ជសាស្ត្រមានទំនាក់ទំនងគ្នាស្មុគស្មាញ។ | ទទួលបានភាពត្រឹមត្រូវទាបបំផុតគឺ ៧៨.៣%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះពឹងផ្អែកលើការក្លែងធ្វើដោយប្រើកម្មវិធីកុំព្យូទ័រ ដែលទាមទារធនធានគណនាសមរម្យសម្រាប់ការដំណើរការក្បួនដោះស្រាយបង្កើនប្រសិទ្ធភាព (Metaheuristic Optimization)។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យពីមូលដ្ឋានទិន្នន័យ UCI នៅសហរដ្ឋអាមេរិក ដែលប្រហែលជាមិនឆ្លុះបញ្ចាំងពីលក្ខណៈជីវសាស្រ្ត របបអាហារ (ដូចជាការទទួលទានអ៊ីយ៉ូត) និងប្រវត្តិវេជ្ជសាស្ត្ររបស់អ្នកជំងឺនៅប្រទេសកម្ពុជាឡើយ។ ដើម្បីឱ្យគំរូនេះមានសុក្រឹតភាពនៅកម្ពុជា ការប្រមូលទិន្នន័យក្នុងស្រុកពីមន្ទីរពេទ្យនានាគឺជារឿងចាំបាច់បំផុត ដើម្បីជៀសវាងភាពលំអៀង។
វិធីសាស្ត្រដោះស្រាយទិន្នន័យមិនមានតុល្យភាពនេះ មានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធបញ្ញាសិប្បនិម្មិតក្នុងវិស័យសុខាភិបាលកម្ពុជា ជាពិសេសសម្រាប់ជំងឺដែលមានករណីអ្នកឈឺតិចតួច។
ជារួម ការរួមបញ្ចូលគ្នានៃការកាត់បន្ថយទំហំទិន្នន័យ និងក្បួនដោះស្រាយដែលយកចិត្តទុកដាក់លើកូនសិស្សភាគតិច (Minority Class) គឺជាគន្លឹះដ៏សំខាន់សម្រាប់ការធ្វើបរិវត្តកម្មឌីជីថលសុខាភិបាលនៅកម្ពុជាប្រកបដោយបរិយាបន្ន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Imbalanced Data | សំណុំទិន្នន័យដែលចំនួនគំរូនៅក្នុងថ្នាក់នីមួយៗមានភាពខុសគ្នាខ្លាំង (ឧទាហរណ៍៖ ទិន្នន័យអ្នកជំងឺមានតិចតួចធៀបនឹងអ្នកជាសះស្បើយ) ដែលធ្វើឱ្យម៉ូដែលចំណាត់ថ្នាក់ងាយនឹងទស្សន៍ទាយលំអៀងទៅរកក្រុមដែលមានទិន្នន័យច្រើន និងមិនអើពើចំពោះក្រុមដែលមានទិន្នន័យតិច។ | ដូចជាការបោះឆ្នោតដែលមានអ្នកគាំទ្រគណបក្សមួយច្រើនលើសលប់ ដែលធ្វើឱ្យសំឡេងភាគតិចងាយនឹងត្រូវគេមើលរំលង។ |
| Learning Automata | យន្តការក្បួនដោះស្រាយដែលធ្វើការរៀនសូត្រពីបរិស្ថានតាមរយៈការសាកល្បងនិងកំហុស ដោយទទួលបានរង្វាន់ពេលជ្រើសរើសសកម្មភាពត្រូវ និងទទួលពិន័យពេលធ្វើខុស សំដៅស្វែងរកជម្រើសដែលល្អបំផុត (ដូចជាការកែតម្រូវទម្ងន់នៅក្នុងបណ្តាញសរសៃប្រសាទ) ដោយស្វ័យប្រវត្តិ។ | ដូចជាកូនក្មេងដែលរៀនជិះកង់ ដោយដឹងពីរបៀបរក្សាតុល្យភាពតាមរយៈការធ្លាក់ (ពិន័យ) និងការជិះបានត្រង់ល្អ (រង្វាន់)។ |
| Cuckoo Optimization Algorithm | ក្បួនដោះស្រាយសម្រាប់ស្វែងរកដំណោះស្រាយល្អបំផុតដោយយកតម្រាប់តាមអាកប្បកិរិយារបស់សត្វចាប Cuckoo ដែលពងដាក់សំបុកសត្វដទៃ។ វាតែងតែស្វែងរកទីតាំង (ដំណោះស្រាយ) ដែលផ្តល់ផលចំណេញបំផុត។ ក្នុងការសិក្សានេះ វាត្រូវបានប្រើដើម្បីជ្រើសរើសលក្ខណៈពិសេសរបស់ទិន្នន័យដែលសំខាន់ៗបំផុត។ | ដូចជាការស្វែងរកកន្លែងចតឡានល្អបំផុតក្នុងចំណត ដោយអ្នកបើកបរដើររកកន្លែងទំនេរដែលជិតច្រកចូលជាងគេបំផុត។ |
| Feature Selection | ដំណើរការនៃការស្កេននិងជ្រើសរើសយកតែលក្ខណៈសម្បត្តិ (អថេរ) ណាដែលសំខាន់ៗបំផុតពីក្នុងទិន្នន័យដើមដ៏ច្រើនសន្ធឹកសន្ធាប់ ដើម្បីយកមកបង្វឹកម៉ូដែល ដែលជួយកាត់បន្ថយភាពស្មុគស្មាញ និងបង្កើនល្បឿននិងភាពត្រឹមត្រូវក្នុងការទស្សន៍ទាយ។ | ដូចជាការរៀបចំបាលីដើរលេង ដោយរើសយកតែខោអាវណាដែលចាំបាច់បំផុត ហើយទុកចោលរបស់ដែលមិនត្រូវការដើម្បីកុំឱ្យធ្ងន់។ |
| Neural Network | ប្រព័ន្ធកុំព្យូទ័រដែលយកគំរូតាមបណ្តាញសរសៃប្រសាទខួរក្បាលមនុស្ស ដែលមានស្រទាប់ណឺរ៉ូនតភ្ជាប់គ្នាសម្រាប់ធ្វើការវិភាគ និងរៀនស្គាល់ទម្រង់ទិន្នន័យស្មុគស្មាញ ដើម្បីដោះស្រាយបញ្ហាដូចជាការធ្វើចំណាត់ថ្នាក់ជំងឺ។ | ដូចជាក្រុមការងាររោងចក្រដែលចែកចេញជាផ្នែកៗ ដោយផ្នែកនីមួយៗទទួលព័ត៌មាន បញ្ជូនបន្ត និងសម្រេចចិត្តរួមគ្នាដើម្បីបង្កើតផលិតផលសម្រេច។ |
| Support Vector Machine | ក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) ដែលបង្កើតបន្ទាត់ ឬប្លង់សម្រាប់ខណ្ឌចែកទិន្នន័យជាក្រុមផ្សេងៗគ្នាឱ្យមានគម្លាតធំបំផុតរវាងក្រុមទាំងនោះ។ ក្នុងការសិក្សានេះ វាត្រូវបានប្រើដើម្បីវាស់ស្ទង់គុណភាពនៃលក្ខណៈពិសេសដែលបានជ្រើសរើស។ | ដូចជាការគូសបន្ទាត់ព្រំដែនដ៏ធំទូលាយមួយ ដើម្បីញែកហ្វូងចៀម និងហ្វូងពពែឱ្យនៅដាច់ពីគ្នាច្បាស់លាស់។ |
| Mean Squared Error | រង្វាស់សម្រាប់វាស់កម្រិតកំហុសរបស់ម៉ូដែល ដោយគណនាមធ្យមភាគនៃការ៉េនៃផលសងរវាងតម្លៃដែលម៉ូដែលទស្សន៍ទាយបាន និងតម្លៃជាក់ស្តែង។ តម្លៃកាន់តែតូច បង្ហាញថាម៉ូដែរកាន់តែសុក្រឹតនិងមានកំហុសតិច។ | ដូចជាការវាស់ចម្ងាយព្រួញទាំងអស់ដែលអ្នកបាញ់ខុសពីចំណុចកណ្តាល យកមកបូកបញ្ចូលគ្នាដើម្បីវាយតម្លៃថាអ្នកបាញ់ខុសកម្រិតណាជារួម។ |
| ROC Curve | ក្រាហ្វដែលបង្ហាញពីប្រសិទ្ធភាពរបស់ម៉ូដែលចំណាត់ថ្នាក់ ដោយប្រៀបធៀបរវាងអត្រានៃការទស្សន៍ទាយត្រូវត្រឹមត្រូវ (True Positive) និងអត្រានៃការទស្សន៍ទាយខុស (False Positive) នៅកម្រិតខុសៗគ្នា។ ផ្ទៃក្រោមកោង (AUC) កាន់តែធំ ម៉ូដែលកាន់តែល្អ។ | ដូចជាតារាងពិន្ទុដែលបង្ហាញថា ឆ្មាំកាមេរ៉ាសុវត្ថិភាពចាប់ចោរពិតប្រាកដបានត្រូវប៉ុន្មាននាក់ ធៀបនឹងការសង្ស័យមនុស្សល្អខុសប៉ុន្មាននាក់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖