បញ្ហា (The Problem)៖ តម្លៃដែលបាត់បង់ (Missing values) គឺជាបញ្ហាទូទៅនៅក្នុងការជីកយកទិន្នន័យ (Data Mining) ដែលអាចនាំឱ្យមានការវិភាគលំអៀង និងការសន្និដ្ឋានមិនត្រឹមត្រូវ ជាពិសេសនៅក្នុងវិស័យស្រាវជ្រាវវេជ្ជសាស្ត្រ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះធ្វើការប្រៀបធៀបប្រសិទ្ធភាពនៃក្បួនដោះស្រាយការរៀនរបស់ម៉ាស៊ីន (Machine Learning) ចំនួនបី ដើម្បីបំពេញទិន្នន័យដែលបាត់បង់ ដោយធ្វើការពិសោធន៍លើសំណុំទិន្នន័យជាក់ស្តែងចំនួនដប់។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Bayesian Networks បណ្តាញបេ (Bayesian Networks) |
ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុត (Highest Accuracy) ដោយរក្សាទំនាក់ទំនងរវាងអថេរ និងការចែកចាយប្រូបាប៊ីលីតេរួម (Joint Probability Distribution)។ | ទាមទារការគណនាស្មុគស្មាញ និងចំណាយធនធានច្រើនសម្រាប់សំណុំទិន្នន័យធំ ហើយតម្រូវឱ្យមានការបំបែកទិន្នន័យ (Discretization)។ | មានកំហុសទាបបំផុត (Lowest MAE, MSE, RMSE) ក្នុងចំណោមវិធីសាស្ត្រទាំងបី ជាពិសេសលើទិន្នន័យតូចដែលមានការបាត់បង់តិចជាង ២០%។ |
| Decision Tree ដើមឈើសម្រេចចិត្ត (Decision Tree) |
មានតម្លាភាពក្នុងការធ្វើសេចក្តីសម្រេចចិត្ត និងដំណើរការបានល្អសម្រាប់សំណុំទិន្នន័យធំដែលមានភាគរយនៃតម្លៃបាត់បង់ខ្ពស់។ | ចំណាយពេលយូរក្នុងការសាងសង់រចនាសម្ព័ន្ធដើមឈើ (Training time) និងអាចមានភាពលំអៀងប្រសិនបើមិនមានការគ្រប់គ្រងល្អ។ | ជាជម្រើសល្អទីពីរ (Second best) និងមានស្ថេរភាពក្នុងការបំពេញទិន្នន័យសម្រាប់សំណុំទិន្នន័យធំៗ។ |
| K-Nearest Neighbors (KNN) K-អ្នកជិតខាងដែលនៅជិតបំផុត (K-Nearest Neighbors) |
ជាវិធីសាស្ត្រសាមញ្ញ និងងាយស្រួលយល់ ដោយផ្អែកលើចម្ងាយរវាងទិន្នន័យ (Euclidean distance)។ | ដំណើរការយឺតខ្លាំងលើទិន្នន័យធំ ដោយសារត្រូវស្កេនទិន្នន័យទាំងមូល និងងាយរងផលប៉ះពាល់ដោយទិន្នន័យមិនប្រក្រតី (Noise/Outliers)។ | មានកំហុសខ្ពស់ជាងគេ និងមិនអាចទស្សន៍ទាយតម្លៃដែលនៅក្រៅដែនកំណត់នៃទិន្នន័យដែលមានស្រាប់បានទេ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះបង្ហាញថាការចំណាយលើការគណនា (Computational Cost) គឺជាកត្តាសំខាន់ ដោយវិធីសាស្ត្រខ្លះត្រូវការធនធានច្រើនជាងវិធីសាស្ត្រផ្សេងទៀត។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យវេជ្ជសាស្ត្រមកពីចក្រភពអង់គ្លេស (data.gov.uk), កាណាដា, និង WHO ដែលមិនឆ្លុះបញ្ចាំងពីបរិបទសុខភាពនៅកម្ពុជា។ លក្ខណៈនៃទិន្នន័យអ្នកជំងឺ និងប្រភេទជំងឺអាចខុសគ្នាពីប្រព័ន្ធសុខាភិបាលក្នុងស្រុក។
វិធីសាស្ត្រនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់កម្ពុជា ជាពិសេសក្នុងបរិបទដែលប្រព័ន្ធទិន្នន័យឌីជីថលកំពុងចាប់ផ្តើមរីកចម្រើន ប៉ុន្តែនៅមានចន្លោះខ្វះខាតច្រើន។
ការអនុវត្តក្បួនដោះស្រាយការរៀនរបស់ម៉ាស៊ីន (Machine Learning) នឹងជួយកាត់បន្ថយភាពមិនច្បាស់លាស់ក្នុងការវិភាគទិន្នន័យ និងជួយឱ្យអ្នកធ្វើគោលនយោបាយនៅកម្ពុជាទទួលបានព័ត៌មានដែលគួរឱ្យទុកចិត្តជាងមុន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Data Imputation | ដំណើរការនៃការជំនួសទិន្នន័យដែលបាត់បង់ (Missing Data) ដោយតម្លៃប៉ាន់ស្មានដែលសមស្រប ដើម្បីធ្វើឱ្យសំណុំទិន្នន័យពេញលេញ និងអាចយកទៅវិភាគបានដោយមិនមានកំហុស ឬភាពលំអៀង។ | ដូចជាការទាយពាក្យដែលបាត់នៅក្នុងប្រយោគមួយ ដោយមើលទៅលើពាក្យផ្សេងទៀតដែលនៅជុំវិញវា ដើម្បីឱ្យប្រយោគនោះមានន័យពេញលេញ។ |
| Bayesian Networks | ជាគំរូស្ថិតិដែលប្រើប្រូបាប៊ីលីតេ (Probability) ដើម្បីបង្ហាញពីទំនាក់ទំនងរវាងអថេរផ្សេងៗ។ វាគណនាឱកាសនៃតម្លៃដែលបាត់ ដោយផ្អែកលើចំណេះដឹងដែលមានស្រាប់ និងទំនាក់ទំនងហេតុផលរវាងទិន្នន័យ។ | ដូចជាគ្រូពេទ្យដែលទាយថាអ្នកមានជំងឺអ្វី ដោយផ្អែកលើរោគសញ្ញាដែលអ្នកកំពុងមាន និងប្រវត្តិជំងឺពីមុន (ប្រើហេតុផលភ្ជាប់គ្នាជាបណ្តាញ)។ |
| K-Nearest Neighbors (KNN) | ក្បួនដោះស្រាយដែលស្វែងរកចំណុចទិន្នន័យដែលមានលក្ខណៈស្រដៀងគ្នាបំផុត (ហៅថាអ្នកជិតខាង) ចំនួន 'k' ដើម្បីយកមកគណនារកតម្លៃមធ្យម ឬតម្លៃដែលដូចគ្នាសម្រាប់បំពេញចន្លោះដែលបាត់។ | ដូចជាប្រសិនបើអ្នកមិនដឹងតម្លៃផ្ទះមួយ អ្នកអាចសាកសួរតម្លៃផ្ទះ ៣ ដែលនៅក្បែរនោះ ហើយយកតម្លៃមធ្យមរបស់ផ្ទះទាំងនោះមកកំណត់ជាតម្លៃផ្ទះរបស់អ្នក។ |
| Root Mean Square Error (RMSE) | រង្វាស់ស្តង់ដារសម្រាប់វាស់កម្រិតនៃកំហុសរវាងតម្លៃដែលម៉ាស៊ីនទស្សន៍ទាយ និងតម្លៃជាក់ស្តែង។ តម្លៃ RMSE កាន់តែតូច បង្ហាញថាម៉ាស៊ីនធ្វើការកាន់តែត្រឹមត្រូវ និងមានកំហុសតិច។ | ដូចជាការវាស់ចម្ងាយថាការទស្សន៍ទាយរបស់អ្នកខុសពីការពិតប៉ុន្មានម៉ែត្រ (លេខកាន់តែតូច គឺកាន់តែល្អ)។ |
| Missing Completely at Random (MCAR) | ស្ថានភាពដែលទិន្នន័យបាត់បង់ដោយចៃដន្យសុទ្ធសាធ ដោយមិនមានការពាក់ព័ន្ធនឹងតម្លៃនៃទិន្នន័យនោះ ឬទិន្នន័យផ្សេងទៀតឡើយ ដែលធ្វើឱ្យការវិភាគមិនសូវមានភាពលំអៀង។ | ដូចជាការធ្វើឱ្យកំពប់ទឹកលើឯកសារដោយអចេតនា ដែលធ្វើឱ្យអក្សរខ្លះរលុបបាត់ដោយគ្មានហេតុផលជាក់លាក់ ឬចេតនាលាក់បាំង។ |
| Maximum Likelihood | វិធីសាស្ត្រស្ថិតិសម្រាប់ប៉ាន់ស្មានតម្លៃប៉ារ៉ាម៉ែត្រនៃគំរូមួយ ដោយស្វែងរកតម្លៃណាដែលទំនងបំផុតនឹងបង្កើតទិន្នន័យដែលយើងបានសង្កេតឃើញ។ | ដូចជាការសន្និដ្ឋានថា មេឃនឹងភ្លៀង ដោយសារឃើញពពកខ្មៅ និងខ្យល់បក់ខ្លាំង (ព្រោះវាជាហេតុផលដែលទំនងបំផុតឱ្យកើតមានហេតុការណ៍នេះ)។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖