បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាទិន្នន័យវេជ្ជសាស្រ្តដែលគ្មានតុល្យភាព (Imbalanced datasets) ដែលធ្វើឱ្យម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine learning models) ប្រពៃណីមានការលំបាកក្នុងការទស្សន៍ទាយ និងធ្វើរោគវិនិច្ឆ័យជំងឺស្លេកស្លាំង (Anemia) បានត្រឹមត្រូវ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានបង្កើតម៉ូដែលរៀនដោយម៉ាស៊ីនកូនកាត់ថ្មីមួយឈ្មោះថា SMOTE-MRS ដោយរួមបញ្ចូលបច្ចេកទេសជាច្រើនដើម្បីធ្វើឱ្យទិន្នន័យមានតុល្យភាពមុននឹងធ្វើការវិភាគ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| SMOTE-MRS (Proposed) បច្ចេកទេស SMOTE-MRS (ម៉ូដែលស្នើឡើង) |
អាចបង្កើតទិន្នន័យសំយោគបានយ៉ាងសុក្រឹតតាមរយៈការធ្វើចង្កោម (Clustering) ជាមុន កាត់បន្ថយការចាត់ថ្នាក់ខុស និងមានតុល្យភាពខ្ពស់រវាង Recall និង Precision។ | ត្រូវការពេលវេលាគណនាច្រើនជាងគេបន្តិច (០.២៧០ វិនាទី) និងងាយរងឥទ្ធិពលពីការកំណត់ប៉ារ៉ាម៉ែត្រ (Parameters) ដូចជាចំនួនចង្កោមជាដើម។ | សម្រេចបានភាពត្រឹមត្រូវ ៩៧.៣%, AUC ៩៩.៤%, ភាពជាក់លាក់ (Precision) ៩៦.៨%, និងការចងចាំ (Recall) ៩៩.០%។ |
| SMOTE (Synthetic Minority Over-sampling Technique) បច្ចេកទេស SMOTE |
មានភាពពេញនិយម ងាយស្រួលប្រើប្រាស់ និងមានភាពរហ័សក្នុងការគណនាទិន្នន័យសំយោគ (០.២០៥ វិនាទី)។ | អាចបង្កើតទិន្នន័យក្លែងក្លាយដែលមិនសមស្រប (Noisy or unrealistic samples) ដោយសារតែការបង្កើតទិន្នន័យថ្មីឆ្លងកាត់តំបន់ទិន្នន័យខុសៗគ្នា។ | ផ្តល់ភាពត្រឹមត្រូវប្រែប្រួលពី ៨៨% ទៅ ១០០% អាស្រ័យលើភាពស្មុគស្មាញនៃសំណុំទិន្នន័យ។ |
| SMOTE-ENC (Encoded Nominal and Continuous) បច្ចេកទេស SMOTE-ENC |
មានដំណើរការលឿនជាងគេបំផុតក្នុងការសិក្សា (០.១៤៦ វិនាទី) និងអាចដោះស្រាយបានល្អជាមួយទិន្នន័យដែលមានទាំងប្រភេទ Nominal និង Continuous។ | ផ្តល់លទ្ធផលមិនសូវថេរ និងមានកម្រិតភាពត្រឹមត្រូវទាបជាង SMOTE-MRS ជាពិសេសនៅពេលអនុវត្តលើក្រុមទិន្នន័យភាគតិច។ | បង្ហាញភាពត្រឹមត្រូវចន្លោះពី ៧៦.៦៤% ទៅ ៧៩.២១% នៅលើសំណុំទិន្នន័យមួយចំនួន។ |
| ROS (Random Over Sampling) ការយកគំរូហួសកម្រិតដោយចៃដន្យ |
មានភាពសាមញ្ញបំផុតដោយគ្រាន់តែចម្លងទិន្នន័យដែលមានស្រាប់ ដើម្បីបង្កើនចំនួនក្រុមទិន្នន័យភាគតិច។ | ងាយនឹងធ្វើឱ្យម៉ូដែលរៀនទន្ទេញ (Overfitting) ដោយសារការថតចម្លងទិន្នន័យដដែលៗ ដោយមិនបានគិតពីភាពស្មុគស្មាញនៃទិន្នន័យ។ | ទោះបីជាបង្ហាញតួលេខខ្ពស់លើក្រដាស (៩៩.៨%) តែច្រើនតែមានដំណើរការជាក់ស្តែងខ្សោយជាងគេធៀបនឹងវិធីសាស្ត្រផ្សេងទៀត។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះបានវាស់វែងភាពស្មុគស្មាញនៃការគណនាដោយផ្តោតលើរយៈពេលនៃការប្រតិបត្តិ (Execution time) និងការប្រើប្រាស់អង្គចងចាំ (Memory usage) សម្រាប់បច្ចេកទេសនីមួយៗ។
សំណុំទិន្នន័យជំងឺស្លេកស្លាំងក្នុងការសិក្សានេះត្រូវបានប្រមូលពីប្រជាជនជនជាតិជ្វា (Javanese) ចំនួន ១៩០ នាក់ (ស្រី ១៦៥ នាក់, ប្រុស ២៥ នាក់) អាយុពី ១៥ ទៅ ៤១ ឆ្នាំ នៅខេត្តយុក្យាកាតា (Yogyakarta) ប្រទេសឥណ្ឌូនេស៊ី ចន្លោះឆ្នាំ ២០២០-២០២១។ ការប្រើប្រាស់ទិន្នន័យដែលមានភាពលម្អៀងខាងយេនឌ័រខ្លាំង និងកត្តាហ្សែនដាច់ដោយឡែកនេះ អាចតម្រូវឱ្យមានការកែសម្រួលនៅពេលយកមកអនុវត្តជាក់ស្តែងនៅកម្ពុជា ដើម្បីធានាបាននូវភាពសុក្រឹតខ្ពស់។
បច្ចេកទេស SMOTE-MRS ពិតជាមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅក្នុងវិស័យសុខាភិបាលកម្ពុជា ជាពិសេសក្នុងការដោះស្រាយបញ្ហាទិន្នន័យវេជ្ជសាស្ត្រដែលមានភាពមិនស្មើគ្នា។
ជារួម បច្ចេកទេសនេះគឺជាឧបករណ៍ដ៏មានប្រសិទ្ធភាពមួយដែលអាចជួយឱ្យប្រព័ន្ធថែទាំសុខភាព និងការស្រាវជ្រាវវេជ្ជសាស្ត្រនៅកម្ពុជា ប្រើប្រាស់បញ្ញាសិប្បនិម្មិត (AI) ដើម្បីទាញយកអត្ថប្រយោជន៍អតិបរមាពីសំណុំទិន្នន័យដែលមានកម្រិត។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| SMOTE (Synthetic Minority Over-sampling Technique) | ជាបច្ចេកទេសក្នុងរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលប្រើសម្រាប់ដោះស្រាយបញ្ហាទិន្នន័យមិនស្មើគ្នា ដោយការបង្កើតទិន្នន័យសិប្បនិម្មិតថ្មីៗសម្រាប់ក្រុមភាគតិច (Minority class) តាមរយៈការគណនាលាយបញ្ចូលគ្នារវាងទិន្នន័យពិតដែលមានស្រាប់ ជាជាងការថតចម្លងទិន្នន័យដដែលៗ។ | ដូចជាការគូររូបមនុស្សថ្មីម្នាក់ដោយយកទម្រង់មុខឪពុកនិងម្តាយមកផ្សំបញ្ចូលគ្នា ជាជាងការថតចម្លងរូបថតរបស់ឪពុកឬម្តាយដដែលៗបន្លំធ្វើជាមនុស្សថ្មី។ |
| K-Means Clustering | ជាក្បួនដោះស្រាយសម្រាប់បែងចែកទិន្នន័យទៅជាក្រុម (Clusters) ចំនួន K ផ្សេងៗគ្នា ដោយផ្អែកលើភាពស្រដៀងគ្នានៃលក្ខណៈទិន្នន័យ ដើម្បីធានាថាទិន្នន័យក្នុងក្រុមនីមួយៗមានភាពដូចគ្នាច្រើនបំផុត។ | ដូចជាការចាត់ថ្នាក់សិស្សក្នុងសាលាទៅតាមចំណង់ចំណូលចិត្តស្រដៀងគ្នាចូលទៅក្នុងក្លឹបផ្សេងៗគ្នា ដើម្បីងាយស្រួលគ្រប់គ្រង។ |
| Random Over Sampling (ROS) | ជាវិធីសាស្ត្រធ្វើឱ្យទិន្នន័យមានតុល្យភាព ដោយការថតចម្លង (Duplicate) ទិន្នន័យក្នុងក្រុមភាគតិចដោយចៃដន្យរហូតដល់មានចំនួនស្មើនឹងក្រុមភាគច្រើន ដែលងាយស្រួលអនុវត្តតែអាចបណ្តាលឱ្យម៉ូដែលទន្ទេញចាំទិន្នន័យ (Overfitting)។ | ដូចជាការថតចម្លង (Copy) សន្លឹកកិច្ចការដដែលៗជាច្រើនច្បាប់ ដើម្បីឱ្យមើលទៅមានចំនួនច្រើនស្មើនឹងកិច្ចការរបស់អ្នកដទៃ។ |
| 10-fold cross-validation | ជាបច្ចេកទេសវាយតម្លៃម៉ូដែល ដោយបែងចែកទិន្នន័យជា ១០ ចំណែកស្មើៗគ្នា រួចយក ៩ ចំណែកទៅបង្ហាត់ម៉ូដែល និង ១ ចំណែកទៀតទៅធ្វើតេស្ត ដោយធ្វើបែបនេះឆ្លាស់គ្នាចំនួន ១០ ដង ដើម្បីធានាថាម៉ូដែលពិតជាអាចដំណើរការបានល្អមិនលម្អៀងទៅលើផ្នែកណាមួយនៃទិន្នន័យ។ | ដូចជាការហ្វឹកហាត់ធ្វើលំហាត់គណិតវិទ្យា ១០ ជំពូក ដោយរៀន ៩ ជំពូក ហើយប្រឡង ១ ជំពូក ឆ្លាស់គ្នារហូតទាល់តែប្រឡងគ្រប់ជំពូកទាំងអស់ ដើម្បីប្រាកដថាអ្នកពិតជាចេះមែន។ |
| AUC (Area Under the Curve) | ជារង្វាស់រង្វាល់ស្តង់ដារមួយដែលបង្ហាញពីសមត្ថភាពរួមរបស់ម៉ូដែលក្នុងការបែងចែករវាងក្រុមទាំងពីរឱ្យបានត្រឹមត្រូវ (ឧទាហរណ៍៖ ការបែងចែកអ្នកមានជំងឺ និងអ្នកគ្មានជំងឺ)។ តម្លៃ AUC កាន់តែខិតជិត ១ បង្ហាញថាម៉ូដែលកាន់តែពូកែ។ | ដូចជាពិន្ទុរួមប្រចាំឆ្នាំរបស់សិស្ស ដែលបង្ហាញពីសមត្ថភាពទូទៅរបស់គាត់ក្នុងការប្រឡងជាប់គ្រប់មុខវិជ្ជា។ |
| Imbalanced Dataset | ជាសំណុំទិន្នន័យដែលមានចំនួនទិន្នន័យក្នុងក្រុមមួយច្រើនលើសលប់ (ក្រុមភាគច្រើន) ធៀបនឹងក្រុមមួយទៀត (ក្រុមភាគតិច) ដែលធ្វើឱ្យម៉ូដែលម៉ាស៊ីនរៀនងាយនឹងលម្អៀងទៅរកក្រុមភាគច្រើន និងទស្សន៍ទាយក្រុមភាគតិចខុស។ | ដូចជាការស្ទង់មតិក្នុងថ្នាក់ដែលមានសិស្សប្រុស ៩០ នាក់ និងសិស្សស្រី ១០ នាក់ លទ្ធផលភាគច្រើនប្រាកដជាលម្អៀងទៅតាមចំណង់ចំណូលចិត្តរបស់សិស្សប្រុស។ |
| Random Forest (RF) | ជាក្បួនដោះស្រាយរៀនដោយម៉ាស៊ីនប្រភេទ Ensemble ដែលបង្កើតដើមឈើសម្រេចចិត្ត (Decision Trees) ជាច្រើន ហើយធ្វើការបោះឆ្នោតរួមគ្នាដើម្បីទាញយកលទ្ធផលចុងក្រោយ ដែលជួយកាត់បន្ថយកំហុស និងបង្កើនភាពសុក្រឹតខ្ពស់ជាងការប្រើដើមឈើសម្រេចចិត្តតែមួយ។ | ដូចជាការសួរយោបល់ពីគ្រូពេទ្យជំនាញចំនួន ១០០ នាក់ មុននឹងសម្រេចចិត្តថាអ្នកមានជំងឺអ្វី ជាជាងជឿលើការធ្វើរោគវិនិច្ឆ័យរបស់គ្រូពេទ្យតែម្នាក់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖