បញ្ហា (The Problem)៖ បញ្ហាចម្បងនៅក្នុងគុណភាពទិន្នន័យសម្រាប់ការរៀនរបស់ម៉ាស៊ីន (Machine Learning) គឺវត្តមាននៃតម្លៃដែលបាត់បង់ (Missing Values) ទាំងនៅក្នុងដំណាក់កាលបណ្តុះបណ្តាល និងដំណាក់កាលសាកល្បង ដែលប៉ះពាល់យ៉ាងខ្លាំងដល់ភាពត្រឹមត្រូវនៃការទស្សន៍ទាយ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការពិសោធន៍ដោយប្រើសំណុំទិន្នន័យពី UCI Repository ដើម្បីវិភាគភាពឆបគ្នារវាងវិធីសាស្ត្រផ្សេងៗក្នុងការដោះស្រាយតម្លៃដែលបាត់បង់។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Delete Records (Complete Case Analysis) ការលុបចោលកំណត់ត្រាដែលមានទិន្នន័យបាត់បង់ |
ងាយស្រួលអនុវត្តបំផុត និងមិនត្រូវការការគណនាស្មុគស្មាញ។ | បាត់បង់ទិន្នន័យសំខាន់ៗជាច្រើន និងអាចធ្វើឱ្យលទ្ធផលលំអៀង (Bias) ប្រសិនបើទិន្នន័យមិនបាត់បង់ដោយចៃដន្យ (Not MCAR)។ | ទទួលបានលទ្ធផលទាបជាងគេក្នុងការពិសោធន៍ ជាពិសេសលើសំណុំទិន្នន័យ Credit (ធ្លាក់ចុះដល់ ៦៤%)។ |
| Imputation (Mean/Mode) ការបំពេញតម្លៃដែលបាត់ដោយប្រើមធ្យមភាគ ឬតម្លៃដែលញឹកញាប់បំផុត |
រក្សាចំនួនទិន្នន័យបានពេញលេញ និងងាយស្រួលក្នុងការអនុវត្តមុនពេលបង្កើតម៉ូដែល។ | អាចបង្កើតទំនាក់ទំនងមិនពិតរវាងអថេរ និងកាត់បន្ថយភាពប្រែប្រួលនៃទិន្នន័យ។ | មានប្រសិទ្ធភាពល្អបង្គួរ និងមានភាពឆបគ្នា (Compatible) ជាមួយ C4.5 ក្នុងការបង្កើនភាពត្រឹមត្រូវ។ |
| C4.5 Strategy (Probabilistic Split) យុទ្ធសាស្ត្ររបស់ C4.5 (បំបែកទិន្នន័យតាមប្រូបាប៊ីលីតេ) |
ប្រើប្រាស់ព័ត៌មានដែលមានស្រាប់ទាំងអស់ដោយមិនបាច់បំពេញតម្លៃក្លែងក្លាយ។ | មានភាពស្មុគស្មាញក្នុងការគណនាជាងការបំពេញតម្លៃធម្មតា។ | ផ្តល់លទ្ធផលខ្ពស់ និងមានស្ថេរភាពលើសំណុំទិន្នន័យភាគច្រើន (ឧទាហរណ៍ ៧៨% លើ Breast Cancer)។ |
| Known Value Strategy (Lazy Decision Tree) យុទ្ធសាស្ត្រតម្លៃដែលស្គាល់ (ប្រើតែអថេរដែលមានតម្លៃនៅពេលសាកល្បង) |
ដោះស្រាយបញ្ហាទិន្នន័យបាត់បង់នៅពេលសាកល្បង (Testing phase) បានយ៉ាងល្អតាមធម្មជាតិ។ | ចំណាយធនធានគណនាខ្ពស់ (High Computational Cost) ព្រោះត្រូវបង្កើតដើមឈើថ្មីសម្រាប់ករណីសាកល្បងនីមួយៗ។ | ជាយុទ្ធសាស្ត្រដែលមានប្រសិទ្ធភាពបំផុតនៅពេលធ្វើតេស្តសាកល្បង (Testing)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រទូទៅសម្រាប់ការបណ្តុះបណ្តាលម៉ូដែល C4.5 ប៉ុន្តែវិធីសាស្ត្រ Lazy Decision Tree ទាមទារថាមពលគណនាខ្ពស់ជាងគេ។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារពី UCI (ដូចជា Breast Cancer, Credit, Diabetes) ដែលជាទិន្នន័យរបស់បរទេស។ នេះអាចជាចំណុចខ្វះខាតសម្រាប់កម្ពុជា ប្រសិនបើយើងអនុវត្តលើទិន្នន័យដែលមានលក្ខណៈពិសេសក្នុងស្រុក ដូចជាទិន្នន័យកសិកម្ម ឬសេដ្ឋកិច្ចក្រៅប្រព័ន្ធ ដែលអាចមានទម្រង់នៃការបាត់បង់ទិន្នន័យ (Missingness pattern) ខុសគ្នា។
វិធីសាស្ត្រនេះមានសារៈសំខាន់ខ្លាំងសម្រាប់កម្ពុជា ដោយសារបញ្ហាទិន្នន័យមិនពេញលេញគឺជាបញ្ហាប្រឈមទូទៅនៅក្នុងស្ថាប័នជាច្រើន។
ការប្រើប្រាស់វិធីសាស្ត្រ Imputation ជាមួយនឹង C4.5 គឺជាដំណោះស្រាយដែលមានប្រសិទ្ធភាព និងចំណាយតិចសម្រាប់ស្ថាប័ននៅកម្ពុជាដែលមិនទាន់មានប្រព័ន្ធប្រមូលទិន្នន័យទំនើប។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Imputation | ដំណើរការនៃការជំនួសទិន្នន័យដែលបាត់បង់ (Missing Values) ដោយតម្លៃប៉ាន់ស្មាន ដូចជាមធ្យមភាគ (Mean) ឬតម្លៃដែលកើតឡើងញឹកញាប់បំផុត (Mode) ដើម្បីឱ្យសំណុំទិន្នន័យមានភាពពេញលេញសម្រាប់យកទៅវិភាគ ឬបណ្តុះបណ្តាលម៉ូដែល។ | ដូចជាការយកឥដ្ឋថ្មីទៅដាក់ជំនួសកន្លែងដែលបាក់បែកនៅជញ្ជាំង ដើម្បីឱ្យជញ្ជាំងនោះពេញលេញឡើងវិញ។ |
| Lazy Decision Tree | វិធីសាស្ត្រដែលមិនបង្កើតម៉ូដែលទុកជាមុន (No pre-built model) ប៉ុន្តែវាបង្កើតដើមឈើសម្រេចចិត្តនៅពេលមានទិន្នន័យថ្មីចូលមកភ្លាមៗ ដើម្បីធ្វើការទស្សន៍ទាយ ដោយប្រើតែព័ត៌មានដែលមានជាក់ស្តែងនៅពេលនោះប៉ុណ្ណោះ។ | ដូចជាចុងភៅដែលមិនចំអិនម្ហូបទុកចោល តែចាប់ផ្តើមចំអិនភ្លាមៗនៅពេលមានភ្ញៀវកម្មង់ ដោយមើលតាមគ្រឿងផ្សំដែលមានជាក់ស្តែង។ |
| Missing Completely At Random (MCAR) | ស្ថានភាពដែលទិន្នន័យបាត់បង់ដោយចៃដន្យសុទ្ធសាធ ដោយមិនមានទំនាក់ទំនងជាមួយតម្លៃនៃទិន្នន័យនោះ ឬទិន្នន័យផ្សេងទៀតឡើយ ដែលអនុញ្ញាតឱ្យអ្នកវិភាគលុបវាចោលបានដោយមិនធ្វើឱ្យលទ្ធផលលំអៀង (Bias)។ | ដូចជាសំបុត្រដែលបាត់ដោយសារឡានប្រៃសណីយ៍ខូចតាមផ្លូវដោយចៃដន្យ មិនមែនដោយសារគេលាក់បាំង ឬខ្លឹមសារសំបុត្រនោះទេ។ |
| C4.5 Strategy | ក្បួនដោះស្រាយសម្រាប់បង្កើតដើមឈើសម្រេចចិត្ត ដែលដោះស្រាយទិន្នន័យបាត់បង់ដោយបំបែកទិន្នន័យនោះទៅគ្រប់សាខាដែលអាចទៅរួច ដោយផ្តល់ទម្ងន់តាមភាគរយ (Probabilistic Split) ជំនួសឱ្យការជ្រើសរើសផ្លូវតែមួយ។ | ដូចជាការបែងចែកក្រុមរុករកទៅគ្រប់ផ្លូវបំបែកទាំងអស់ ដើម្បីស្វែងរកចម្លើយ នៅពេលដែលយើងមិនដឹងច្បាស់ថាត្រូវទៅផ្លូវណា។ |
| Expectation-Maximization (EM) | វិធីសាស្ត្រស្ថិតិដ៏ស្មុគស្មាញមួយដែលធ្វើការប៉ាន់ស្មានតម្លៃដែលបាត់ និងកែតម្រូវម៉ូដែលឆ្លាស់គ្នាម្ដងហើយម្ដងទៀត (Iterative process) រហូតដល់ទទួលបានតម្លៃដែលទំនងបំផុតសម្រាប់ទិន្នន័យដែលបាត់នោះ។ | ដូចជាការទាយចម្លើយនៃល្បែងផ្គុំរូប ដោយដាក់បំណែកសាកល្បង រួចកែតម្រូវបន្តិចម្តងៗរហូតដល់រូបភាពនោះត្រឹមត្រូវ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖