បញ្ហា (The Problem)៖ បញ្ហានៃតម្លៃដែលបាត់បង់ (Missing Values) នៅក្នុងសំណុំទិន្នន័យ (Data Sets) បណ្តាលឱ្យមានការថយចុះនូវភាពត្រឹមត្រូវ និងប្រសិទ្ធភាពក្នុងការវិភាគទិន្នន័យ ដែលតម្រូវឱ្យមានបច្ចេកទេសសមស្របដើម្បីដោះស្រាយ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះគឺជាការពិនិត្យឡើងវិញនូវអក្សរសិល្ប៍ដែលមានស្រាប់តាមលំដាប់ឆ្នាំ (Year-wise study) ដើម្បីស្វែងយល់ពីបច្ចេកទេសបំពេញទិន្នន័យផ្សេងៗ និងប្រៀបធៀបប្រសិទ្ធភាពរបស់វា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Mean/Mode Imputation ការជំនួសដោយតម្លៃមធ្យម ឬតម្លៃដែលញឹកញាប់បំផុត |
ងាយស្រួលអនុវត្ត និងមានល្បឿនលឿនក្នុងការគណនា។ | អាចបង្កើតភាពលំអៀង (Bias) ខ្ពស់ និងកាត់បន្ថយបម្រែបម្រួលនៃទិន្នន័យ ដែលធ្វើឱ្យលទ្ធផលវិភាគមិនសូវសុក្រឹត។ | ជាវិធីសាស្ត្រមូលដ្ឋាន ប៉ុន្តែផ្តល់លទ្ធផលមិនល្អស្មើនឹងវិធីសាស្ត្រទំនើប ជាពិសេសនៅពេលទិន្នន័យបាត់បង់មានចំនួនច្រើន។ |
| K-Nearest Neighbors (KNN) Imputation ការជំនួសដោយប្រើវិធីសាស្ត្រអ្នកជិតខាងដែលនៅជិតបំផុតចំនួន K |
មានភាពធន់ (Robust) និងផ្តល់សុក្រឹតភាពខ្ពស់ជាងវិធីសាស្ត្រ Mean/Mode ដោយផ្អែកលើភាពស្រដៀងគ្នានៃទិន្នន័យ។ | ចំណាយពេលគណនាយូរ (Computationally expensive) សម្រាប់សំណុំទិន្នន័យធំៗ។ | ត្រូវបានរកឃើញថាមានប្រសិទ្ធភាពជាង Mean/Mode និង Case Deletion នៅក្នុងការពិសោធន៍ភាគច្រើន។ |
| Deep Learning / Neural Networks ការប្រើប្រាស់បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (ដូចជា Autoencoders) |
មានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកទំនាក់ទំនងស្មុគស្មាញនៅក្នុងទិន្នន័យ ជាពិសេសសម្រាប់ការទស្សន៍ទាយចរាចរណ៍ ឬទិន្នន័យដែលមានលក្ខណៈមិនលីនេអ៊ែរ។ | តម្រូវឱ្យមានទិន្នន័យច្រើនសម្រាប់បង្ហាត់ និងធនធានកុំព្យូទ័រខ្លាំង។ | ផ្តល់លទ្ធផលល្អប្រសើរក្នុងការកាត់បន្ថយការបាត់បង់ទិន្នន័យចរាចរណ៍ (Traffic data) និងរក្សាសុក្រឹតភាពនៃការទស្សន៍ទាយ។ |
| Fuzzy Clustering Approaches វិធីសាស្ត្រចង្កោមស្រពិចស្រពិល (Fuzzy C-Means) |
ល្អសម្រាប់ការដោះស្រាយភាពមិនច្បាស់លាស់នៅក្នុងទិន្នន័យវេជ្ជសាស្ត្រ ឬទិន្នន័យដែលមានព្រំដែនមិនច្បាស់លាស់។ | មានភាពស្មុគស្មាញក្នុងការកំណត់ប៉ារ៉ាម៉ែត្រ (Parameters) ឱ្យបានត្រឹមត្រូវ។ | ធ្វើឱ្យប្រសើរឡើងនូវភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់ (Classification accuracy) លើសពីវិធីសាស្ត្រស្តង់ដារ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារមិនបានបញ្ជាក់ពីតម្លៃជាទឹកប្រាក់ទេ ប៉ុន្តែបានបង្ហាញពីតម្រូវការធនធានបច្ចេកទេស និងកម្លាំងគណនា។
ការសិក្សានេះផ្អែកលើការពិនិត្យឡើងវិញនូវឯកសារស្រាវជ្រាវដែលភាគច្រើនប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារអន្តរជាតិ (UCI Machine Learning Repository) និងទិន្នន័យវេជ្ជសាស្ត្រលោកខាងលិច។ នេះអាចជាចំណុចខ្វះខាតសម្រាប់កម្ពុជា ដែលទិន្នន័យជាក់ស្តែងអាចមានភាពរញ៉េរញ៉ៃជាង (Noisy) ឬមានទម្រង់នៃការបាត់បង់ទិន្នន័យខុសគ្នាដោយសារបញ្ហាបច្ចេកទេស ឬកត្តាមនុស្ស។
បច្ចេកទេសដែលបានរៀបរាប់នៅក្នុងឯកសារនេះមានសារៈសំខាន់យ៉ាងខ្លាំងសម្រាប់កម្ពុជា ដែលកំពុងស្ថិតក្នុងដំណាក់កាលបរិវត្តកម្មឌីជីថល និងប្រមូលទិន្នន័យ។
ការជ្រើសរើសវិធីសាស្ត្របំពេញទិន្នន័យឱ្យបានត្រឹមត្រូវនឹងជួយឱ្យស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាទទួលបានការវិភាគដែលមានគុណភាពខ្ពស់ ទោះបីជាប្រព័ន្ធប្រមូលទិន្នន័យបច្ចុប្បន្ននៅមានកម្រិតក៏ដោយ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Imputation | ដំណើរការបច្ចេកទេសនៃការជំនួសទិន្នន័យដែលបាត់បង់ (Missing Data) ដោយតម្លៃដែលបានប៉ាន់ស្មានថ្មីមួយ ដោយផ្អែកលើការវិភាគនៃទិន្នន័យផ្សេងទៀតដែលមានស្រាប់ ដើម្បីឱ្យសំណុំទិន្នន័យមានភាពពេញលេញសម្រាប់ការវិភាគបន្ត។ | ដូចជាការទាយពាក្យដែលបាត់នៅក្នុងប្រយោគមួយ ដោយមើលទៅលើពាក្យផ្សេងទៀតដែលនៅជុំវិញវា ដើម្បីឱ្យប្រយោគនោះមានន័យពេញលេញ។ |
| K-Nearest Neighbor (KNN) | ជាអាល់កូរីតដែលប៉ាន់ស្មានតម្លៃដែលបាត់ ដោយស្វែងរកចំណុចទិន្នន័យចំនួន K ដែលមានលក្ខណៈស្រដៀងបំផុត (នៅជិតបំផុត) នឹងទិន្នន័យដែលបាត់នោះ ហើយយកមធ្យមភាគ ឬលក្ខណៈរបស់ពួកវាវាមកជំនួស។ | ប្រៀបបាននឹងការសួរមនុស្ស ៥ នាក់ដែលនៅជិតផ្ទះអ្នក ដើម្បីប៉ាន់ស្មានតម្លៃផ្ទះរបស់អ្នក ដោយសន្មតថាផ្ទះនៅជិតគ្នាមានតម្លៃប្រហាក់ប្រហែលគ្នា។ |
| Root Mean Square Error (RMSE) | រង្វាស់ស្ថិតិសម្រាប់វាយតម្លៃភាពត្រឹមត្រូវនៃម៉ូដែល ដោយគណនាគម្លាតស្តង់ដារនៃកំហុសរវាងតម្លៃដែលបានទស្សន៍ទាយ (Predicted values) និងតម្លៃជាក់ស្តែង (Actual values)។ តម្លៃ RMSE កាន់តែទាប បញ្ជាក់ថាម៉ូដែលកាន់តែមានសុក្រឹតភាព។ | ដូចជាការវាស់ថាតើការទស្សន៍ទាយរបស់អ្នកខុសពីការពិតប៉ុន្មានជាមធ្យម; បើលេខនេះកាន់តែតូច មានន័យថាការទាយរបស់អ្នកកាន់តែត្រឹមត្រូវ។ |
| Fuzzy Clustering | វិធីសាស្ត្របែងចែកទិន្នន័យជាក្រុម ដែលអនុញ្ញាតឱ្យទិន្នន័យមួយអាចជាសមាជិកនៃក្រុមច្រើនក្នុងពេលតែមួយ (Partial membership) ផ្ទុយពីការបែងចែកដាច់ស្រេច (Hard clustering)។ វាមានប្រយោជន៍សម្រាប់ទិន្នន័យដែលមានភាពមិនច្បាស់លាស់។ | ដូចជាការចាត់ថ្នាក់ពណ៌មួយថាជា 'ពណ៌ទឹកក្រូច' ដែលមានជាតិក្រហម ៦០% និងលឿង ៤០% ជាជាងការកំណត់ថាវាជាពណ៌ក្រហម ឬលឿងដាច់ខាត។ |
| Maximum Likelihood Estimation (MLE) | វិធីសាស្ត្រស្ថិតិដើម្បីប៉ាន់ស្មានប៉ារ៉ាម៉ែត្រនៃគំរូទិន្នន័យ ដោយជ្រើសរើសតម្លៃណាដែលធ្វើឱ្យទិន្នន័យដែលបានសង្កេតឃើញមានឱកាសកើតឡើងខ្ពស់បំផុត (Highest Probability)។ | ដូចជាការសន្និដ្ឋានថា មេឃទំនងជាភ្លៀង នៅពេលអ្នកឃើញផ្លូវសើម ព្រោះវាជាហេតុផលដែលសមហេតុផលបំផុតចំពោះអ្វីដែលអ្នកកំពុងឃើញ។ |
| Multilayer Perceptrons (MLP) | ប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Artificial Neural Network) ដែលមានស្រទាប់ច្រើន (Input, Hidden, Output) សម្រាប់រៀនពីទំនាក់ទំនងដ៏ស្មុគស្មាញនៅក្នុងទិន្នន័យ ដើម្បីធ្វើការទស្សន៍ទាយ ឬបំពេញតម្លៃ។ | ប្រៀបដូចជាប្រព័ន្ធខួរក្បាលសិប្បនិម្មិតដែលមានស្រទាប់សម្រេចចិត្តជាច្រើនដំណាក់កាល ដើម្បីដោះស្រាយបញ្ហាដែលស្មុគស្មាញ។ |
| Genetic Algorithm | វិធីសាស្ត្រដោះស្រាយបញ្ហាដែលយកគំរូតាមដំណើរការនៃការវិវត្តន៍ធម្មជាតិ (Natural Selection) ដោយបង្កើត ចម្រាញ់ និងផ្លាស់ប្តូរដំណោះស្រាយជាច្រើនជំនាន់ ដើម្បីស្វែងរកដំណោះស្រាយដែលល្អបំផុត (Optimization)។ | ដូចជាការបង្កាត់ពូជដំណាំ ដើម្បីទទួលបានគ្រាប់ពូជដែលល្អបំផុតតាមរយៈការជ្រើសរើសពូជដែលខ្លាំងជាងគេពីមួយជំនាន់ទៅមួយជំនាន់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖