បញ្ហា (The Problem)៖ ទិន្នន័យដែលបាត់ (Missing Data) គឺជាបញ្ហាប្រឈមដ៏ធំមួយក្នុងការវិភាគស្ថិតិ និងការរៀនរបស់ម៉ាស៊ីន (Machine Learning) ដែលអាចនាំឱ្យលទ្ធផលមានភាពលម្អៀង និងកាត់បន្ថយប្រសិទ្ធភាពនៃការទស្សន៍ទាយ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះធ្វើការពិនិត្យឡើងវិញ និងវាយតម្លៃលើបច្ចេកទេសបំពេញទិន្នន័យផ្សេងៗ ដោយបែងចែកជាវិធីសាស្ត្រកំណត់ (Deterministic), គំរូប្រូបាប៊ីលីតេ និងក្បួនដោះស្រាយការរៀនរបស់ម៉ាស៊ីន។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Mean/Median Imputation ការជំនួសដោយមធ្យមភាគ ឬមេដ្យាន |
ងាយស្រួលអនុវត្ត និងចំណាយពេលគណនតិចបំផុត ល្អសម្រាប់ទិន្នន័យដែលមានការបែងចែកធម្មតា (Normal Distribution)។ | អាចបង្កឱ្យមានភាពលម្អៀង (Bias) ខ្ពស់ និងមិនបានគិតគូរពីទំនាក់ទំនងរវាងអថេរផ្សេងៗ ដែលធ្វើឱ្យកាត់បន្ថយភាពប្រែប្រួល (Variance) នៃទិន្នន័យ។ | មានប្រសិទ្ធភាពចំពោះទិន្នន័យបាត់តិចតួច ប៉ុន្តែផ្តល់លទ្ធផលមិនល្អចំពោះទិន្នន័យស្មុគស្មាញ បើធៀបនឹងវិធីសាស្ត្រ Machine Learning។ |
| K-Nearest Neighbors (KNN) ការជំនួសដោយផ្អែកលើទិន្នន័យជិតខាងបំផុត (KNN) |
អាចប្រើបានទាំងទិន្នន័យលេខ និងប្រភេទ (Categorical) ដោយគិតគូរពីទំនាក់ទំនងរវាងអថេរជិតខាង។ | ចំណាយពេលគណនាយូរ (Computationally expensive) ចំពោះសំណុំទិន្នន័យធំ និងងាយរងផលប៉ះពាល់ដោយទិន្នន័យមិនប្រក្រតី (Outliers)។ | ផ្តល់ភាពត្រឹមត្រូវខ្ពស់ជាងការជំនួសដោយមធ្យមភាគ ជាពិសេសនៅពេលមានទំនាក់ទំនងខ្លាំងរវាងអថេរ។ |
| Multiple Imputation by Chained Equations (MICE) ការជំនួសទិន្នន័យច្រើនដងតាមសមីការច្រវាក់ (MICE) |
គិតគូរពីភាពមិនច្បាស់លាស់ (Uncertainty) នៃទិន្នន័យដែលបាត់ និងផ្តល់នូវការប៉ាន់ប្រមាណដែលមានស្ថេរភាពជាងមុន។ | ទាមទារការសន្មតថាទិន្នន័យបាត់ដោយចៃដន្យ (MAR) និងត្រូវការធនធានគណនាច្រើនជាងវិធីសាស្ត្រសាមញ្ញ។ | ជាវិធីសាស្ត្រស្តង់ដារមាស (Gold Standard) សម្រាប់ការវិភាគស្ថិតិដែលផ្តល់លទ្ធផលគួរឱ្យទុកចិត្តជាងវិធីសាស្ត្រជំនួសតែមួយដង (Single Imputation)។ |
| Generative Adversarial Networks (GANs) បណ្តាញសរសៃប្រសាទបង្កើតទិន្នន័យ (GANs) |
មានសមត្ថភាពបង្កើតទិន្នន័យជំនួសដែលមានភាពប្រាកដនិយមខ្ពស់ និងចាប់យកទំនាក់ទំនងមិនលីនេអ៊ែរ (Non-linear) ដ៏ស្មុគស្មាញ។ | ពិបាកក្នុងការបង្វឹក (Training) ទាមទារទិន្នន័យច្រើន និងត្រូវការថាមពលកុំព្យូទ័រខ្លាំង (High computational power)។ | វិធីសាស្ត្រ GAIN (ដែលផ្អែកលើ GAN) បង្ហាញប្រសិទ្ធភាពខ្ពស់បំផុតចំពោះទិន្នន័យដែលមានភាគរយនៃការបាត់ខ្ពស់។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះបង្ហាញថា វិធីសាស្ត្រប្រពៃណីត្រូវការធនធានតិចតួច ប៉ុន្តែវិធីសាស្ត្រ Deep Learning ទាមទារធនធានខ្ពស់ទាំងផ្នែករឹង និងទិន្នន័យ។
ការសិក្សានេះគឺជាការពិនិត្យឡើងវិញ (Review Paper) ដែលប្រមូលផ្តុំលទ្ធផលពីការសិក្សាជាច្រើន (ដូចជាទិន្នន័យអាកាសធាតុ NCDC ទិន្នន័យសុខភាព និងការអប់រំ)។ សម្រាប់កម្ពុជា ការប្រុងប្រយ័ត្នគឺចាំបាច់ព្រោះយន្តការនៃការបាត់ទិន្នន័យ (Missing Mechanism) នៅកម្ពុជាអាចខុសគ្នាដោយសារកត្តាបច្ចេកវិទ្យា និងការបញ្ចូលទិន្នន័យដោយដៃដែលងាយមានកំហុស។
វិធីសាស្ត្រដែលបានលើកឡើងគឺមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់កម្ពុជា ដែលជារឿយៗជួបប្រទះបញ្ហាទិន្នន័យមិនពេញលេញនៅក្នុងវិស័យសាធារណៈ និងឯកជន។
ការអនុវត្តវិធីសាស្ត្របំពេញទិន្នន័យត្រឹមត្រូវនឹងជួយឱ្យអ្នកស្រាវជ្រាវ និងអ្នកបង្កើតគោលនយោបាយនៅកម្ពុជា អាចធ្វើការសម្រេចចិត្តដោយផ្អែកលើទិន្នន័យ (Data-driven decision) ដែលមានគុណភាព និងភាពជឿជាក់ខ្ពស់។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Imputation | ដំណើរការនៃការជំនួសទិន្នន័យដែលបាត់នៅក្នុងសំណុំទិន្នន័យ (Dataset) ដោយតម្លៃប៉ាន់ស្មានដែលមានភាពសមហេតុផល ដើម្បីឱ្យទិន្នន័យពេញលេញ និងអាចយកទៅវិភាគបន្តបានដោយមិនមានកំហុស។ | ដូចជាការប៉ះអាវដែលរហែកដោយប្រើបំណែកក្រណាត់ដែលមានពណ៌ និងសាច់ក្រណាត់ស្រដៀងគ្នា ដើម្បីឱ្យអាវនោះអាចប្រើប្រាស់បានវិញ។ |
| Missing Completely at Random (MCAR) | ជាប្រភេទនៃការបាត់ទិន្នន័យដែលកើតឡើងដោយចៃដន្យសុទ្ធសាធ ដោយមិនមានទំនាក់ទំនងជាមួយតម្លៃនៃទិន្នន័យខ្លួនឯង ឬទិន្នន័យផ្សេងទៀតឡើយ គឺដូចជាការចាប់ឆ្នោត។ | ដូចជាសន្លឹកឯកសារមួយដែលរបូតធ្លាក់ពីសៀវភៅដោយចៃដន្យ មិនមែនដោយសារមានគេលាក់ ឬហែកចេញនោះទេ។ |
| Missing Not at Random (MNAR) | ជាការបាត់ទិន្នន័យដែលមូលហេតុនៃការបាត់គឺទាក់ទងផ្ទាល់ទៅនឹងតម្លៃពិតនៃទិន្នន័យនោះ។ ឧទាហរណ៍៖ អ្នកដែលមានប្រាក់ខែខ្ពស់ មិនព្រមផ្តល់ព័ត៌មានអំពីប្រាក់ខែរបស់ពួកគេ។ | ដូចជាសិស្សដែលមិនមកប្រឡង ព្រោះពួកគេដឹងថាខ្លួនឯងមិនចេះមេរៀន (ការបាត់ខ្លួនទាក់ទងនឹងហេតុផលផ្ទាល់ខ្លួន)។ |
| K-Nearest Neighbors (KNN) | ជាក្បួនដោះស្រាយដែលស្វែងរកចំណុចទិន្នន័យផ្សេងទៀតដែលមានលក្ខណៈស្រដៀងបំផុត (ជិតខាង) នឹងទិន្នន័យដែលបាត់ រួចយកតម្លៃមធ្យម ឬតម្លៃដែលជួបញឹកញាប់របស់ពួកគេមកបំពេញកន្លែងដែលបាត់។ | ដូចជាការទស្សន៍ទាយតម្លៃផ្ទះមួយ ដោយមើលទៅលើតម្លៃផ្ទះរបស់អ្នកជិតខាងដែលនៅក្បែរៗនោះ។ |
| Multiple Imputation | ជាបច្ចេកទេសស្ថិតិដែលបង្កើតសំណុំទិន្នន័យពេញលេញជាច្រើនច្បាប់ (ដោយប្រើតម្លៃប៉ាន់ស្មានផ្សេងៗគ្នាសម្រាប់កន្លែងដែលបាត់) រួចធ្វើការវិភាគរួមគ្នា ដើម្បីកាត់បន្ថយភាពលម្អៀង និងគិតគូរពីភាពមិនច្បាស់លាស់។ | ដូចជាការសួរយោបល់ពីអ្នកជំនាញ ៥ នាក់ផ្សេងគ្នាអំពីចម្លើយដែលបាត់ រួចយកមធ្យមភាគនៃចម្លើយទាំងនោះមកប្រើ ដើម្បីឱ្យកាន់តែសុក្រឹត។ |
| Generative Adversarial Networks (GANs) | ជាប្រព័ន្ធបញេ្ញាសិប្បនិម្មិត (AI) ដែលមានម៉ូដែលពីរប្រកួតប្រជែងគ្នា៖ មួយព្យាយាមបង្កើតទិន្នន័យក្លែងក្លាយឱ្យដូចពិត (Generator) និងមួយទៀតព្យាយាមចាប់កំហុស (Discriminator) រហូតទាល់តែទិន្នន័យដែលបង្កើតថ្មីនោះល្អឥតខ្ចោះ។ | ដូចជាអ្នកក្លែងបន្លំគំនូរម្នាក់ព្យាយាមគូរឱ្យដូចដើមបំផុត ខណៈដែលអ្នកជំនាញព្យាយាមចាប់កំហុស រហូតទាល់តែគំនូរនោះមើលទៅដូចរបស់ពិត ១០០%។ |
| Autoencoder | ជាប្រភេទនៃបណ្តាញសរសៃប្រសាទ (Neural Network) ដែលរៀនបង្រួមទិន្នន័យ (Encode) ហើយពន្លាវាវិញ (Decode)។ ដំណើរការនេះជួយឱ្យវាចេះពីទម្រង់នៃទិន្នន័យ និងអាចបង្កើតផ្នែកដែលបាត់ឡើងវិញបាន។ | ដូចជាការរៀនសង្ខេបសាច់រឿងសៀវភៅមួយក្បាល ហើយអាចសរសេរទំព័រដែលបាត់ឡើងវិញបាន ដោយផ្អែកលើការយល់ដឹងពីសាច់រឿងរួម។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖