បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាជាក់លាក់ទាក់ទងនឹងការបាត់បង់តម្លៃទិន្នន័យ (Missing Values) នៅដំណាក់កាលធ្វើការទស្សន៍ទាយ (Prediction Time) ដែលខុសពីការសិក្សាភាគច្រើនដែលផ្តោតតែលើការបាត់បង់ទិន្នន័យនៅពេលបណ្តុះបណ្តាលគំរូ (Induction Time)។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានធ្វើការប្រៀបធៀបពិសោធន៍យ៉ាងទូលំទូលាយទៅលើវិធីសាស្ត្រចំនួន ៣ និងបានណែនាំវិធីសាស្ត្រកូនកាត់ (Hybrid approaches) ដើម្បីថ្លឹងថ្លែងរវាងភាពត្រឹមត្រូវ និងតម្លៃនៃការគណនា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Reduced-Feature Models គំរូកាត់បន្ថយលក្ខណៈ (Reduced-Feature Models) |
មានភាពត្រឹមត្រូវខ្ពស់បំផុត និងមានស្ថេរភាព (Robust) លើគ្រប់កម្រិតនៃការទស្សន៍ទាយលក្ខណៈ (Feature Imputability)។ | ទាមទារធនធានផ្ទុកទិន្នន័យ និងការគណនាខ្ពស់ ដោយសារត្រូវបង្កើតគំរូជាច្រើនសម្រាប់ករណីបាត់បង់ទិន្នន័យនីមួយៗ។ | ដំណើរការល្អជាងគេលើសំណុំទិន្នន័យចំនួន ១៥ ដោយកាត់បន្ថយអត្រាខុសឆ្គងបានយ៉ាងច្រើនបើធៀបនឹងវិធីសាស្ត្រផ្សេងទៀត។ |
| Predictive Value Imputation (PVI) ការបំពេញតម្លៃដោយការទស្សន៍ទាយ (PVI) |
មានប្រសិទ្ធភាពខ្ពស់នៅពេលដែលលក្ខណៈទិន្នន័យ (Features) មានទំនាក់ទំនងខ្លាំងនឹងគ្នា។ | ដំណើរការមិនល្អនៅពេលដែលលក្ខណៈទិន្នន័យមានទំនាក់ទំនងខ្សោយ ហើយអាចបង្កើតភាពលំអៀង (Bias) ដល់គំរូ។ | ល្អជាង DBI នៅពេលដែលលក្ខណៈទិន្នន័យអាចទស្សន៍ទាយបានខ្ពស់ (High Imputability) ប៉ុន្តែនៅតែចាញ់ Reduced-Feature Models។ |
| Distribution-based Imputation (DBI - C4.5) ការបំពេញតម្លៃដោយផ្អែកលើការបែងចែក (DBI - វិធីសាស្ត្រ C4.5) |
ជាស្តង់ដារនៅក្នុងកម្មវិធី C4.5 និងមានប្រសិទ្ធភាពសម្រាប់ទិន្នន័យដែលមានទំនាក់ទំនងខ្សោយ។ | បរាជ័យធ្ងន់ធ្ងរនៅពេលដែលលក្ខណៈទិន្នន័យមានទំនាក់ទំនងខ្លាំង (Redundant features) ដោយសារវាព្យាយាមបែងចែកទម្ងន់។ | ដំណើរការល្អជាង PVI ក្នុងករណីដែលលក្ខណៈទិន្នន័យមិនសូវមានទំនាក់ទំនងគ្នា (Low Feature Imputability)។ |
| Hybrid Models គំរូកូនកាត់ (Hybrid Models) |
ផ្តល់នូវតុល្យភាពល្អរវាងភាពត្រឹមត្រូវ និងប្រសិទ្ធភាពនៃការប្រើប្រាស់ធនធាន។ | មានភាពស្មុគស្មាញក្នុងការអនុវត្តជាងវិធីសាស្ត្រ Imputation ធម្មតា ដោយត្រូវកំណត់យុទ្ធសាស្ត្រជ្រើសរើសគំរូ។ | ផ្តល់លទ្ធផលល្អប្រសើរជាង Imputation សុទ្ធសាធ ទោះបីជាប្រើប្រាស់ធនធានផ្ទុកទិន្នន័យបន្ថែមបន្តិចបន្តួចក៏ដោយ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ វិធីសាស្ត្រដែលមានប្រសិទ្ធភាពបំផុត (Reduced-Feature Models) ទាមទារការចំណាយខ្ពស់លើការផ្ទុកទិន្នន័យ (Storage) និងពេលវេលាគណនា (Computation Time) ខណៈដែលវិធីសាស្ត្រ Imputation មានតម្លៃទាបជាង។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារពី UCI Machine Learning Repository និងទិន្នន័យអាជីវកម្មមួយចំនួន ដែលភាគច្រើនតំណាងឱ្យបរិបទលោកខាងលិច។ សម្រាប់កម្ពុជា លក្ខណៈនៃការបាត់បង់ទិន្នន័យ (Missingness Pattern) អាចមានភាពខុសគ្នា ដោយសារកត្តាវប្បធម៌ក្នុងការឆ្លើយសំណួរ ឬប្រព័ន្ធកត់ត្រាទិន្នន័យដែលមិនទាន់មានស្តង់ដារ។
វិធីសាស្ត្រនេះមានសារៈសំខាន់ខ្លាំងណាស់សម្រាប់កម្ពុជា ដោយសារបញ្ហាទិន្នន័យមិនពេញលេញគឺជាឧបសគ្គចម្បងក្នុងការវិភាគទិន្នន័យនៅតាមស្ថាប័ននានា។
ការអនុវត្តវិធីសាស្ត្រ Reduced-Feature Models ឬ Hybrid នឹងជួយបង្កើនភាពជឿជាក់នៃប្រព័ន្ធសម្រេចចិត្តស្វ័យប្រវត្តិ (Decision Support Systems) នៅកម្ពុជា ដែលបច្ចុប្បន្នច្រើនតែជួបបញ្ហាដោយសារគុណភាពទិន្នន័យទាប។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Reduced-feature Models | ជាវិធីសាស្ត្រមួយដែលមិនព្យាយាមបំពេញតម្លៃដែលបាត់បង់នោះទេ ប៉ុន្តែផ្ទុយទៅវិញវាប្រើប្រាស់គំរូ (Model) ថ្មីមួយដែលត្រូវបានបណ្តុះបណ្តាលដោយប្រើតែលក្ខណៈ (Features) ដែលមានស្រាប់ប៉ុណ្ណោះ។ សម្រាប់រាល់ទម្រង់នៃការបាត់បង់ទិន្នន័យ វាប្រើគំរូដាច់ដោយឡែកមួយដែលសមស្របនឹងទិន្នន័យដែលនៅសល់។ | ដូចជាការចម្អិនម្ហូបដោយប្រើរូបមន្តថ្មីដែលមិនត្រូវការគ្រឿងផ្សំដែលអ្នកកំពុងខ្វះ ជាជាងព្យាយាមដាក់របស់ផ្សេងជំនួស។ |
| Predictive Value Imputation (PVI) | ជាបច្ចេកទេសដែលប្រើប្រាស់គំរូស្ថិតិដាច់ដោយឡែកមួយ ដើម្បីទស្សន៍ទាយតម្លៃដែលបាត់បង់ដោយផ្អែកលើទិន្នន័យផ្សេងទៀតដែលមានក្នុងប្រព័ន្ធ។ បន្ទាប់ពីទស្សន៍ទាយបានតម្លៃហើយ វានឹងយកតម្លៃនោះទៅបំពេញកន្លែងដែលខ្វះ ហើយដំណើរការគំរូដើមដូចធម្មតា។ | ដូចជាការទាយពាក្យដែលរលុបបាត់នៅក្នុងប្រយោគមួយ ដោយផ្អែកលើអត្ថន័យនៃពាក្យផ្សេងទៀតដែលនៅជុំវិញវា។ |
| Distribution-based Imputation (DBI) | ជាវិធីសាស្ត្រដែលប្រើក្នុងក្បួនដោះស្រាយ C4.5 (Decision Trees)។ ជំនួសឱ្យការជ្រើសរើសតម្លៃតែមួយដើម្បីបំពេញកន្លែងដែលបាត់ វាបំបែកទិន្នន័យនោះជាផ្នែកតូចៗ (Fractional Instances) ទៅតាមប្រូបាប៊ីលីតេនៃតម្លៃដែលអាចកើតមាន រួចគណនាលទ្ធផលចុងក្រោយដោយបូកសរុបទម្ងន់នៃផ្នែកទាំងនោះ។ | ដូចជាការភ្នាល់លើសេះគ្រប់ក្បាលទាំងអស់ដោយដាក់លុយតាមសមាមាត្រនៃឱកាសឈ្នះ ព្រោះអ្នកមិនដឹងថាសេះមួយណាពិតជានឹងឈ្នះ។ |
| Feature Imputability | ជាគោលគំនិតដែលវាស់វែងថាតើលក្ខណៈ (Feature) មួយងាយស្រួលទស្សន៍ទាយបានកម្រិតណា ដោយពឹងផ្អែកលើលក្ខណៈផ្សេងទៀត។ ប្រសិនបើ Feature Imputability ខ្ពស់ មានន័យថាទិន្នន័យនោះមានទំនាក់ទំនងខ្លាំងជាមួយទិន្នន័យផ្សេងទៀត ហើយងាយស្រួលបំពេញ។ | ដូចជាប្រសិនបើអ្នកដឹងថាថ្ងៃនេះជាថ្ងៃអាទិត្យ អ្នកអាចទាយបាន ១០០% ថាថ្ងៃស្អែកគឺជាថ្ងៃច័ន្ទ (នេះហៅថា Imputability ខ្ពស់)។ |
| Missing Completely At Random (MCAR) | ជាសម្មតិកម្មដែលចាត់ទុកថា ការបាត់បង់ទិន្នន័យគឺកើតឡើងដោយចៃដន្យសុទ្ធសាធ និងមិនមានទំនាក់ទំនងអ្វីទាំងអស់ទៅនឹងតម្លៃនៃទិន្នន័យខ្លួនឯង ឬទិន្នន័យផ្សេងទៀត។ | ដូចជាសន្លឹកសៀវភៅមួយទំព័រដែលរហែកបាត់ដោយចៃដន្យ មិនមែនបាត់ដោយសារតែនរណាម្នាក់ហែកវាចោលព្រោះមិនចង់ឱ្យគេឃើញខ្លឹមសារនោះទេ។ |
| Bagging (Bootstrap Aggregating) | ជាបច្ចេកទេសបង្កើតគំរូច្រើន (Ensemble) ដោយប្រើសំណុំទិន្នន័យដែលជ្រើសរើសដោយចៃដន្យ (Random Sampling) រួចយកលទ្ធផលពីគំរូទាំងអស់មកបូកបញ្ចូលគ្នា (Average/Vote) ដើម្បីកាត់បន្ថយភាពលំអៀង និងបង្កើនភាពត្រឹមត្រូវ។ | ដូចជាការសួរយោបល់ពីគណៈកម្មការដែលមានសមាជិកច្រើននាក់ ជាជាងជឿជាក់លើការសម្រេចចិត្តរបស់មនុស្សតែម្នាក់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖