Original Title: Imputation of missing data using machine learning techniques
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបំពេញទិន្នន័យដែលបាត់ដោយប្រើបច្ចេកទេសរៀនរបស់ម៉ាស៊ីន (Machine Learning)

ចំណងជើងដើម៖ Imputation of missing data using machine learning techniques

អ្នកនិពន្ធ៖ Kamakshi Lakshminarayan (Honeywell Technology Center), Steven A. Harp (Honeywell Technology Center), Robert Goldman (Honeywell Technology Center), Tariq Samad (Honeywell Technology Center)

ឆ្នាំបោះពុម្ព៖ 1996 (KDD-96 Proceedings)

វិស័យសិក្សា៖ Computer Science / Data Mining

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាទិន្នន័យមិនពេញលេញ ឬបាត់បង់នៅក្នុងមូលដ្ឋានទិន្នន័យឧស្សាហកម្ម ដែលរាំងស្ទះដល់ការវិភាគ និងការធ្វើសេចក្តីសម្រេចចិត្តច្បាស់លាស់។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានធ្វើការពិសោធន៍ប្រៀបធៀប និងរួមបញ្ចូលគ្នានូវបច្ចេកទេសរៀនរបស់ម៉ាស៊ីន (Machine Learning) ចំនួនពីរ ដើម្បីបំពេញទិន្នន័យដែលបាត់ដោយស្វ័យប្រវត្តិ។

ការប្រើប្រាស់ AutoClass ដែលជាវិធីសាស្រ្តចង្កោមបែបបេយ៉េស (Unsupervised Bayesian Clustering) ដើម្បីព្យាករណ៍ទិន្នន័យ។
ការប្រើប្រាស់ C4.5 ដែលជាវិធីសាស្រ្តដើមឈើសម្រេចចិត្ត (Supervised Decision Tree) ដើម្បីស្វែងរកតម្លៃដែលបាត់ជាក់លាក់។
ការធ្វើតេស្តលើទិន្នន័យថែទាំឧស្សាហកម្មពីក្រុមហ៊ុន Honeywell ដែលមានកំណត់ត្រាចំនួន ៤៣៨៣ និងអថេរចំនួន ៨២។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

សម្រាប់ការព្យាករណ៍តម្លៃតែមួយ វិធីសាស្រ្ត C4.5 មានអត្រាខុស (Error Rate) ទាបជាងគឺ ២២.៦% ខណៈដែល AutoClass មានអត្រាខុសដល់ទៅ ៤៨.៧%។
AutoClass មានប្រសិទ្ធភាពខ្ពស់ក្នុងការផ្តល់ជម្រើសជាច្រើន (Multiple Choices) ដោយមានភាពត្រឹមត្រូវ ៨២% សម្រាប់ជម្រើសកំពូលទាំង ៣ (Top 3 choices)។
ការរួមបញ្ចូលគ្នាដោយប្រើលទ្ធផលពី AutoClass ជាទិន្នន័យបញ្ចូលឱ្យ C4.5 ផ្តល់លទ្ធផលល្អបំផុត ដោយកាត់បន្ថយអត្រាខុសមកត្រឹម ២០.១%។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
C4.5 (Supervised Decision Tree) ការរៀនដោយប្រើដើមឈើសម្រេចចិត្ត (Decision Tree) ដែលមានការត្រួតពិនិត្យ	មានភាពជាក់លាក់ខ្ពស់ក្នុងការទស្សន៍ទាយតម្លៃតែមួយ (Single value) និងងាយស្រួលបកស្រាយលទ្ធផល។	ត្រូវការការបង្វឹក (Training) ដាច់ដោយឡែកសម្រាប់អថេរនីមួយៗដែលចង់បំពេញ និងមិនអាចដោះស្រាយទិន្នន័យបាត់បង់ក្នុងពេលបង្វឹកបានល្អដូចវិធីសាស្រ្ត Bayesian។	អត្រាមានកំហុស (Error Rate) ២២.៦% ក្នុងការទស្សន៍ទាយក្រុមហ៊ុនផលិតឧបករណ៍។
AutoClass (Unsupervised Bayesian Clustering) ការធ្វើចង្កោមទិន្នន័យបែបបេយ៉េស (Bayesian Clustering) ដោយគ្មានការត្រួតពិនិត្យ	អាចបង្កើតម៉ូដែលតែមួយសម្រាប់ទស្សន៍ទាយគ្រប់អថេរ និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការផ្តល់ជម្រើសជាច្រើន (Multiple choices) ដល់អ្នកប្រើប្រាស់។	មានអត្រាខុសខ្ពស់នៅពេលបង្ខំឱ្យទស្សន៍ទាយតម្លៃតែមួយ ហើយការបែងចែកថ្នាក់ (Class) អាចមានភាពស្មុគស្មាញ។	អត្រាមានកំហុស ៤៨.៧% សម្រាប់ការទស្សន៍ទាយតម្លៃតែមួយ ប៉ុន្តែមានភាពត្រឹមត្រូវ ៨២% បើគិតលើជម្រើសកំពូលទាំង ៣។
Hybrid (AutoClass + C4.5) វិធីសាស្រ្តចម្រុះ (ការប្រើលទ្ធផល AutoClass ជាធាតុចូលឱ្យ C4.5)	ទាញយកអត្ថប្រយោជន៍ពីការធ្វើចង្កោមដើម្បីកាត់បន្ថយភាពស្មុគស្មាញនៃទិន្នន័យ មុននឹងប្រើដើមឈើសម្រេចចិត្ត។	តម្រូវឱ្យមានជំហានដំណើរការពីរដំណាក់កាល ដែលធ្វើឱ្យប្រព័ន្ធកាន់តែស្មុគស្មាញ។	អត្រាមានកំហុសទាបបំផុតគឺ ២០.១% (ធ្វើឱ្យប្រសើរឡើងបានប្រហែល ២.៥% ធៀបនឹងការប្រើ C4.5 តែឯង)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រក្នុងកម្រិតមធ្យម ប៉ុន្តែត្រូវការការរៀបចំទិន្នន័យច្រើន។

Computational Power: មិនតម្រូវឱ្យមានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ខ្លាំងទេ (អាចដំណើរការលើកុំព្យូទ័រការិយាល័យបាន) ប៉ុន្តែល្បឿននៃការបង្វឹកម៉ូដែល C4.5 អាស្រ័យលើចំនួនអថេរដែលបាត់។
Dataset Quality: ត្រូវការទិន្នន័យដែលបានកំណត់អត្តសញ្ញាណត្រឹមត្រូវ (Labeled Data) មួយចំនួនសម្រាប់ការបង្វឹក C4.5 ជាពិសេសទិន្នន័យដែលគ្មានកំហុស (Clean records) សម្រាប់បង្កើតជាសំណាកគំរូ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីមូលដ្ឋានទិន្នន័យថែទាំឧបករណ៍របស់ក្រុមហ៊ុន Honeywell នៅសហរដ្ឋអាមេរិក ដែលមានលក្ខណៈបច្ចេកទេសខ្ពស់និងស្តង់ដារជាក់លាក់។ សម្រាប់កម្ពុជា ការអនុវត្តអាចជួបបញ្ហាដោយសារទិន្នន័យក្នុងស្រុកភាគច្រើន (ដូចជាទិន្នន័យសេវាសាធារណៈ ឬកសិកម្ម) អាចមិនមានរចនាសម្ព័ន្ធច្បាស់លាស់ (Unstructured) ឬមានកម្រិតបាត់បង់ទិន្នន័យខ្ពស់ជាងនេះ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសនេះមានសារៈសំខាន់ខ្លាំងសម្រាប់កម្ពុជាក្នុងការធ្វើឌីជីថលូបនីយកម្ម (Digitalization) លើឯកសារចាស់ៗដែលមិនពេញលេញ។

វិស័យធនាគារ និងមីក្រូហិរញ្ញវត្ថុ (Banking & MFI): ប្រើសម្រាប់បំពេញព័ត៌មានអតិថិជនដែលបាត់នៅក្នុងពាក្យស្នើសុំប្រាក់កម្ចី ដើម្បីវាយតម្លៃហានិភ័យឥណទាន (Credit Scoring) បានកាន់តែសុក្រឹត។
វិទ្យាស្ថានជាតិស្ថិតិ (NIS) - ជំរឿន: អាចប្រើវិធីសាស្រ្ត Hybrid ដើម្បីបំពេញទិន្នន័យដែលបាត់នៅក្នុងការស្ទង់មតិប្រជាសាស្ត្រ ឬសេដ្ឋកិច្ចសង្គម ដោយផ្អែកលើចង្កោមនៃគ្រួសារដែលមានលក្ខណៈស្រដៀងគ្នា។
វិស័យសុខាភិបាល (Public Health): ជួយក្នុងការបំពេញប្រវត្តិអ្នកជំងឺនៅតាមមន្ទីរពេទ្យបង្អែក ដែលជារឿយៗការកត់ត្រាទិន្នន័យមិនមានភាពពេញលេញ។

ការប្រើប្រាស់វិធីសាស្រ្តនេះនឹងជួយកាត់បន្ថយពេលវេលាត្រួតពិនិត្យទិន្នន័យដោយដៃ និងបង្កើនគុណភាពនៃការវិភាគទិន្នន័យថ្នាក់ជាតិ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការសិក្សាមូលដ្ឋានគ្រឹះ: និស្សិតគួរចាប់ផ្តើមពីការយល់ដឹងអំពីគោលការណ៍នៃ Bayesian Statistics និងរបៀបដំណើរការរបស់ Decision Trees (ដូចជា C4.5 ឬ CART)។
ការជ្រើសរើសឧបករណ៍: រៀនប្រើប្រាស់បណ្ណាល័យ Python ដូចជា (Scikit-learn) សម្រាប់ Decision Tree និង (Gaussian Mixture Models) ដើម្បីជំនួស AutoClass សម្រាប់ការធ្វើចង្កោម។
ការពិសោធន៍ជាមួយទិន្នន័យជាក់ស្តែង: ទាញយកទិន្នន័យពី (Open Development Cambodia) ដែលមានចន្លោះខ្វះខាត ហើយសាកល្បងបង្កើតម៉ូដែលដើម្បីបំពេញទិន្នន័យនោះ រួចផ្ទៀងផ្ទាត់ភាពត្រឹមត្រូវ។
ការអនុវត្តវិធីសាស្រ្តចម្រុះ: សាកល្បងបច្ចេកទេស Hybrid ដោយប្រើលទ្ធផលពីការធ្វើចង្កោម (Clustering) ជាមុខងារបន្ថែម (Feature) នៅក្នុងការបង្វឹកម៉ូដែល Supervised Learning ដើម្បីមើលពីការកើនឡើងនៃប្រសិទ្ធភាព។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Imputation	ដំណើរការនៃការបំពេញទិន្នន័យដែលបាត់បង់ (Missing Data) ដោយប្រើតម្លៃដែលបានប៉ាន់ស្មានតាមរយៈរូបមន្តស្ថិតិ ឬបញ្ញាសិប្បនិម្មិត ដើម្បីឱ្យសំណុំទិន្នន័យមានលក្ខណៈពេញលេញសម្រាប់យកទៅវិភាគ។	ដូចជាការទាយពាក្យដែលបាត់នៅក្នុងប្រយោគមួយ ដោយផ្អែកលើអត្ថន័យនៃពាក្យផ្សេងទៀតដែលនៅជុំវិញវា។
Unsupervised clustering	បច្ចេកទេសរៀនរបស់ម៉ាស៊ីនដែលកុំព្យូទ័រព្យាយាមរកលំនាំ ឬក្រុម (Clusters) ដែលមានលក្ខណៈស្រដៀងគ្នានៅក្នុងទិន្នន័យ ដោយមិនមានការបង្រៀន ឬប្រាប់ចម្លើយជាមុនថាទិន្នន័យនោះជាអ្វីឡើយ។	ដូចជាការបែងចែកផ្លែឈើមួយកន្ត្រកជាគំនរផ្សេងៗគ្នាទៅតាមពណ៌ និងរូបរាង ដោយមិនចាំបាច់ស្គាល់ឈ្មោះផ្លែឈើទាំងនោះ។
Supervised induction	ដំណើរការបង្កើតច្បាប់ ឬម៉ូដែលពីទិន្នន័យដែលមានចម្លើយស្រាប់ (Labeled Data) ដើម្បីយកទៅទស្សន៍ទាយចម្លើយសម្រាប់ទិន្នន័យថ្មី។ ក្នុងឯកសារនេះសំដៅលើការប្រើ C4.5។	ដូចជាសិស្សរៀនដោះស្រាយលំហាត់គណិតវិទ្យាដោយមើលឧទាហរណ៍ដែលមានចម្លើយស្រាប់ជាមុនសិន មុននឹងទៅធ្វើលំហាត់ប្រឡង។
Bayesian classification	វិធីសាស្រ្តចាត់ថ្នាក់ទិន្នន័យដោយប្រើទ្រឹស្តីប្រូបាប (Probability Theory) ដើម្បីគណនាថាទិន្នន័យមួយគួរស្ថិតនៅក្នុងក្រុមណា ដោយផ្អែកលើភស្តុតាងដែលមាន និងចំណេះដឹងពីមុន (Prior Knowledge)។	ដូចជាការព្យាករណ៍អាកាសធាតុថា "ភ្លៀង" ឬ "មិនភ្លៀង" ដោយផ្អែកលើភាគរយនៃពពកខ្មៅ និងកម្លាំងខ្យល់ដែលបានវាស់វែង។
Gain ratio	រង្វាស់ដែលប្រើនៅក្នុងក្បួនដោះស្រាយ C4.5 ដើម្បីជ្រើសរើសថា តើគួរប្រើអថេរមួយណាដើម្បីបំបែកទិន្នន័យជាក្រុមតូចៗ ដើម្បីទទួលបានព័ត៌មានច្បាស់លាស់បំផុត (Information Gain)។	ដូចជាការលេងល្បែងទាយឈ្មោះសត្វ ហើយអ្នកសួរថា "តើវាមានជើង ៤ មែនទេ?" ដើម្បីកាត់បន្ថយជម្រើសចម្លើយឱ្យនៅសល់តិចបំផុតជាជាងសួរថា "តើវាឈ្មោះអាខ្មៅមែនទេ?"។
Hot-deck imputation	វិធីសាស្រ្តបំពេញទិន្នន័យបាត់ ដោយការចម្លងតម្លៃពីកំណត់ត្រាផ្សេងទៀត (Donor) ដែលមានលក្ខណៈស្រដៀងគ្នាបំផុតនៅក្នុងសំណុំទិន្នន័យតែមួយ។	ដូចជាការខ្ចីចម្លើយកិច្ចការផ្ទះពីមិត្តភក្តិម្នាក់ដែលអង្គុយជិត ហើយមានប្រវត្តិរៀនពូកែដូចគ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖