បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការរកឃើញជំងឺផាកឃីនសុន (Parkinson's Disease) នៅដំណាក់កាលដំបូង ដោយប្រើប្រាស់បច្ចេកទេសមិនរាតត្បាត (Non-invasive) តាមរយៈការវិភាគលើភាពខុសគ្នានៃទម្រង់គំនូសសរសេរដោយដៃ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់បច្ចេកវិទ្យាកុំព្យូទ័រភ្នែក (Computer Vision) និងការរៀនដោយម៉ាស៊ីន (Machine Learning) ដើម្បីវិភាគទិន្នន័យគំនូសរាងខ្យង និងរលកដែលគូរដោយអ្នកជំងឺនិងមនុស្សដែលមានសុខភាពល្អ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Random Forest Classifier (for Spiral Images) ចំណាត់ថ្នាក់ Random Forest (សម្រាប់គំនូសរាងខ្យង) |
មានភាពត្រឹមត្រូវខ្ពស់ និងអាចកាត់បន្ថយបញ្ហា Overfitting បានល្អតាមរយៈបច្ចេកទេស Ensemble ដែលបូកបញ្ចូលដើមឈើសម្រេចចិត្ត (Decision Trees) ជាច្រើន។ | ត្រូវការកម្លាំងគណនា និងអង្គចងចាំច្រើនជាងម៉ូដែលសាមញ្ញបន្តិច ទោះបីជាវានៅតែលឿនធៀបនឹង Deep Learning ក៏ដោយ។ | ទទួលបានកម្រិតភាពត្រឹមត្រូវ (Accuracy) ៨៦,៦៧% ល្អក្នុងការបែងចែកអ្នកជំងឺនិងអ្នកមានសុខភាពល្អ។ |
| K-Nearest Neighbours (for Wave Images) ក្បួនដោះស្រាយ K-Nearest Neighbours ឬ KNN (សម្រាប់គំនូសរាងរលក) |
ងាយស្រួលយល់ និងអនុវត្ត ជាប្រភេទ Lazy Learner ដែលមិនត្រូវការពេលវេលា Train យូរ និងស័ក្តិសមសម្រាប់ទិន្នន័យដែលបានរៀបចំរួច។ | ងាយរងឥទ្ធិពលពី Noise ក្នុងទិន្នន័យ និងអាចដំណើរការយឺតនៅពេលទំហំសំណុំទិន្នន័យធំ ព្រោះវាត្រូវគណនាចម្ងាយគ្រប់ចំណុច។ | ទទួលបានកម្រិតភាពត្រឹមត្រូវ (Accuracy) ៧៦,៦៧% ដែលនៅមានកម្រិតទាបជាង Random Forest។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់ពីការប្រើប្រាស់ធនធានកុំព្យូទ័រខ្នាតធំនោះទេ ដោយសារវាប្រើប្រាស់ក្បួនដោះស្រាយ Machine Learning ប្រភេទបុរាណ ដែលមានទម្ងន់ស្រាល និងអាចដំណើរការលើកុំព្យូទ័រទូទៅបានយ៉ាងងាយស្រួល។
ទិន្នន័យដែលប្រើប្រាស់ត្រូវបានទាញយកពីវេទិកា Kaggle ដែលមានទំហំតូច (ត្រឹមតែ ១០២ រូបភាពសម្រាប់ប្រភេទនីមួយៗមុនការបង្កើន) និងមិនបានបញ្ជាក់ពីប្រភពប្រជាសាស្ត្រ (អាយុ ភេទ ឬជាតិសាសន៍)។ សម្រាប់ប្រទេសកម្ពុជា វាមានសារៈសំខាន់ណាស់ក្នុងការប្រមូលទិន្នន័យជាក់ស្តែងពីចាស់ជរាក្នុងស្រុក ព្រោះទម្លាប់នៃការកាន់ប៊ិច ឬការសរសេររបស់ប្រជាជនខ្មែរអាចមានលក្ខណៈខុសប្លែកពីប្រជាជននៅអឺរ៉ុប។
វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ និងស័ក្តិសមបំផុតសម្រាប់អនុវត្តនៅក្នុងប្រព័ន្ធសុខាភិបាលប្រទេសកម្ពុជា ដោយសារចំណាយទាប និងមិនមានការរាតត្បាតដល់រាងកាយ (Non-invasive)។
ការបំប្លែងវិធីសាស្ត្រស្រាវជ្រាវនេះទៅជាកម្មវិធីទូរស័ព្ទដៃ (Mobile App) នឹងជួយពង្រីកលទ្ធភាពនៃការធ្វើរោគវិនិច្ឆ័យជំងឺសរសៃប្រសាទនៅកម្ពុជាឲ្យកាន់តែទូលំទូលាយ មានភាពងាយស្រួល និងចំណាយតិចបំផុត។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Histogram of Oriented Gradients (HOG) | វាជាបច្ចេកទេសក្នុងកុំព្យូទ័រភ្នែក (Computer Vision) ដែលទាញយកលក្ខណៈពិសេសនៃរូបភាព ដោយគណនាទិសដៅ និងទំហំនៃបម្រែបម្រួលកម្រិតពន្លឺ (ពីងងឹតទៅភ្លឺ) នៅក្នុងប្លុកតូចៗ ដើម្បីចាប់យករូបរាងនិងគែមនៃវត្ថុ។ | ដូចជាការគូររូបដោយប្រើតែបន្ទាត់ខ្លីៗចង្អុលប្រាប់ទិសដៅនៃពន្លឺនិងស្រមោល ដើម្បីបង្កើតចេញជារូបរាងរួមនៃគំនូស។ |
| Random Forest Classifier | ជាក្បួនដោះស្រាយរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលបង្កើត "ដើមឈើសម្រេចចិត្ត" (Decision Trees) ចំនួនច្រើន ហើយប្រមូលយកលទ្ធផលបោះឆ្នោតភាគច្រើនពីដើមឈើទាំងអស់នោះ ដើម្បីធ្វើការទស្សន៍ទាយចុងក្រោយ។ | ដូចជាការសួរយោបល់ពីក្រុមគ្រូពេទ្យជំនាញជាច្រើននាក់ ដើម្បីធ្វើរោគវិនិច្ឆ័យជំងឺរួមគ្នា ជាជាងជឿលើគ្រូពេទ្យតែម្នាក់។ |
| K-Nearest Neighbours (KNN) | ជាក្បួនដោះស្រាយដែលចាត់ថ្នាក់ទិន្នន័យថ្មីមួយ ដោយពឹងផ្អែកលើភាពស្រដៀងគ្នាទៅនឹងទិន្នន័យចាស់ៗដែលនៅជិតវាបំផុតចំនួន K (ឧទាហរណ៍ ៣ ឬ ៥ ចំណុចដែលនៅជិតជាងគេ) នៅក្នុងលំហទិន្នន័យ។ | ដូចជាការវាយតម្លៃថាមនុស្សម្នាក់ជាសិស្សពូកែ ប្រសិនបើមិត្តភក្តិជិតស្និទ្ធបំផុតរបស់គាត់ភាគច្រើនសុទ្ធតែជាសិស្សពូកែ។ |
| Data Augmentation | ជាបច្ចេកទេសបង្កើនចំនួនទិន្នន័យសម្រាប់បង្ហាត់ម៉ូដែល ដោយយកទិន្នន័យដើមមកកែច្នៃបន្តិចបន្តួច ដូចជាការបង្វិល ការផ្លាស់ប្តូរពន្លឺ ឬពណ៌ ដើម្បីឲ្យម៉ូដែលស្គាល់ទម្រង់ដែលប្រែប្រួលផ្សេងៗ។ | ដូចជាការបង្រៀនក្មេងឲ្យស្គាល់សត្វឆ្កែ ដោយបង្ហាញរូបថតឆ្កែដដែល ប៉ុន្តែថតពីជ្រុងខុសៗគ្នា ឬក្នុងពន្លឺខុសៗគ្នា។ |
| Confusion Matrix | ជាតារាងម៉ាទ្រីសដែលប្រើសម្រាប់វាយតម្លៃកម្រិតភាពត្រឹមត្រូវនៃម៉ូដែលចំណាត់ថ្នាក់ ដោយបង្ហាញយ៉ាងច្បាស់ពីចំនួនទិន្នន័យដែលម៉ូដែលទាយត្រូវ (True Positives/Negatives) និងចំនួនដែលម៉ូដែលទាយខុស (False Positives/Negatives)។ | ដូចជារបាយការណ៍លទ្ធផលប្រឡងដែលមិនត្រឹមតែប្រាប់ពិន្ទុរួម តែបញ្ជាក់ថាអ្នកធ្វើត្រូវប៉ុន្មានសំណួរ និងធ្លាក់លើមុខវិជ្ជាណាខ្លះយ៉ាងច្បាស់លាស់។ |
| Ensemble learning | វិធីសាស្ត្រនៃការបូកបញ្ចូលម៉ូដែលរៀនដោយម៉ាស៊ីនជាច្រើនចូលគ្នា (ដូចជាក្នុង Random Forest) ដើម្បីបង្កើតជាម៉ូដែលមួយដែលមានភាពរឹងមាំ និងអាចធ្វើការទស្សន៍ទាយបានត្រឹមត្រូវជាងម៉ូដែលទោល។ | ដូចជាការប្រគុំតន្ត្រីវង់ធំ ដែលការរួមបញ្ចូលគ្នានៃឧបករណ៍ភ្លេងជាច្រើនបង្កើតបានជាសម្លេងពិរោះនិងមានតុល្យភាពជាងការលេងឧបករណ៍តែមួយ។ |
| F1 score | ជារង្វាស់វាយតម្លៃម៉ូដែលដែលគណនាមធ្យមភាគអប្បរមា (Harmonic mean) រវាង Precision (ភាពសុក្រឹតនៃការទាយ) និង Recall (សមត្ថភាពស្វែងរកករណីពិត) ដែលមានប្រយោជន៍ខ្លាំងពេលទិន្នន័យមិនមានតុល្យភាព។ | ដូចជាការវាយតម្លៃអ្នកចាំទី ដោយមើលលើសមត្ថភាពចាប់បាល់ជាប់ (មិនរបូត) ផង និងសមត្ថភាពលោតទៅទាន់បាល់ទាំងអស់ដែលស៊ុតមកផង។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖