បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាទិន្នន័យមិនពេញលេញ ឬបាត់បង់នៅក្នុងមូលដ្ឋានទិន្នន័យឧស្សាហកម្ម ដែលរាំងស្ទះដល់ការវិភាគ និងការធ្វើសេចក្តីសម្រេចចិត្តច្បាស់លាស់។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានធ្វើការពិសោធន៍ប្រៀបធៀប និងរួមបញ្ចូលគ្នានូវបច្ចេកទេសរៀនរបស់ម៉ាស៊ីន (Machine Learning) ចំនួនពីរ ដើម្បីបំពេញទិន្នន័យដែលបាត់ដោយស្វ័យប្រវត្តិ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| C4.5 (Supervised Decision Tree) ការរៀនដោយប្រើដើមឈើសម្រេចចិត្ត (Decision Tree) ដែលមានការត្រួតពិនិត្យ |
មានភាពជាក់លាក់ខ្ពស់ក្នុងការទស្សន៍ទាយតម្លៃតែមួយ (Single value) និងងាយស្រួលបកស្រាយលទ្ធផល។ | ត្រូវការការបង្វឹក (Training) ដាច់ដោយឡែកសម្រាប់អថេរនីមួយៗដែលចង់បំពេញ និងមិនអាចដោះស្រាយទិន្នន័យបាត់បង់ក្នុងពេលបង្វឹកបានល្អដូចវិធីសាស្រ្ត Bayesian។ | អត្រាមានកំហុស (Error Rate) ២២.៦% ក្នុងការទស្សន៍ទាយក្រុមហ៊ុនផលិតឧបករណ៍។ |
| AutoClass (Unsupervised Bayesian Clustering) ការធ្វើចង្កោមទិន្នន័យបែបបេយ៉េស (Bayesian Clustering) ដោយគ្មានការត្រួតពិនិត្យ |
អាចបង្កើតម៉ូដែលតែមួយសម្រាប់ទស្សន៍ទាយគ្រប់អថេរ និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការផ្តល់ជម្រើសជាច្រើន (Multiple choices) ដល់អ្នកប្រើប្រាស់។ | មានអត្រាខុសខ្ពស់នៅពេលបង្ខំឱ្យទស្សន៍ទាយតម្លៃតែមួយ ហើយការបែងចែកថ្នាក់ (Class) អាចមានភាពស្មុគស្មាញ។ | អត្រាមានកំហុស ៤៨.៧% សម្រាប់ការទស្សន៍ទាយតម្លៃតែមួយ ប៉ុន្តែមានភាពត្រឹមត្រូវ ៨២% បើគិតលើជម្រើសកំពូលទាំង ៣។ |
| Hybrid (AutoClass + C4.5) វិធីសាស្រ្តចម្រុះ (ការប្រើលទ្ធផល AutoClass ជាធាតុចូលឱ្យ C4.5) |
ទាញយកអត្ថប្រយោជន៍ពីការធ្វើចង្កោមដើម្បីកាត់បន្ថយភាពស្មុគស្មាញនៃទិន្នន័យ មុននឹងប្រើដើមឈើសម្រេចចិត្ត។ | តម្រូវឱ្យមានជំហានដំណើរការពីរដំណាក់កាល ដែលធ្វើឱ្យប្រព័ន្ធកាន់តែស្មុគស្មាញ។ | អត្រាមានកំហុសទាបបំផុតគឺ ២០.១% (ធ្វើឱ្យប្រសើរឡើងបានប្រហែល ២.៥% ធៀបនឹងការប្រើ C4.5 តែឯង)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រក្នុងកម្រិតមធ្យម ប៉ុន្តែត្រូវការការរៀបចំទិន្នន័យច្រើន។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីមូលដ្ឋានទិន្នន័យថែទាំឧបករណ៍របស់ក្រុមហ៊ុន Honeywell នៅសហរដ្ឋអាមេរិក ដែលមានលក្ខណៈបច្ចេកទេសខ្ពស់និងស្តង់ដារជាក់លាក់។ សម្រាប់កម្ពុជា ការអនុវត្តអាចជួបបញ្ហាដោយសារទិន្នន័យក្នុងស្រុកភាគច្រើន (ដូចជាទិន្នន័យសេវាសាធារណៈ ឬកសិកម្ម) អាចមិនមានរចនាសម្ព័ន្ធច្បាស់លាស់ (Unstructured) ឬមានកម្រិតបាត់បង់ទិន្នន័យខ្ពស់ជាងនេះ។
បច្ចេកទេសនេះមានសារៈសំខាន់ខ្លាំងសម្រាប់កម្ពុជាក្នុងការធ្វើឌីជីថលូបនីយកម្ម (Digitalization) លើឯកសារចាស់ៗដែលមិនពេញលេញ។
ការប្រើប្រាស់វិធីសាស្រ្តនេះនឹងជួយកាត់បន្ថយពេលវេលាត្រួតពិនិត្យទិន្នន័យដោយដៃ និងបង្កើនគុណភាពនៃការវិភាគទិន្នន័យថ្នាក់ជាតិ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Imputation | ដំណើរការនៃការបំពេញទិន្នន័យដែលបាត់បង់ (Missing Data) ដោយប្រើតម្លៃដែលបានប៉ាន់ស្មានតាមរយៈរូបមន្តស្ថិតិ ឬបញ្ញាសិប្បនិម្មិត ដើម្បីឱ្យសំណុំទិន្នន័យមានលក្ខណៈពេញលេញសម្រាប់យកទៅវិភាគ។ | ដូចជាការទាយពាក្យដែលបាត់នៅក្នុងប្រយោគមួយ ដោយផ្អែកលើអត្ថន័យនៃពាក្យផ្សេងទៀតដែលនៅជុំវិញវា។ |
| Unsupervised clustering | បច្ចេកទេសរៀនរបស់ម៉ាស៊ីនដែលកុំព្យូទ័រព្យាយាមរកលំនាំ ឬក្រុម (Clusters) ដែលមានលក្ខណៈស្រដៀងគ្នានៅក្នុងទិន្នន័យ ដោយមិនមានការបង្រៀន ឬប្រាប់ចម្លើយជាមុនថាទិន្នន័យនោះជាអ្វីឡើយ។ | ដូចជាការបែងចែកផ្លែឈើមួយកន្ត្រកជាគំនរផ្សេងៗគ្នាទៅតាមពណ៌ និងរូបរាង ដោយមិនចាំបាច់ស្គាល់ឈ្មោះផ្លែឈើទាំងនោះ។ |
| Supervised induction | ដំណើរការបង្កើតច្បាប់ ឬម៉ូដែលពីទិន្នន័យដែលមានចម្លើយស្រាប់ (Labeled Data) ដើម្បីយកទៅទស្សន៍ទាយចម្លើយសម្រាប់ទិន្នន័យថ្មី។ ក្នុងឯកសារនេះសំដៅលើការប្រើ C4.5។ | ដូចជាសិស្សរៀនដោះស្រាយលំហាត់គណិតវិទ្យាដោយមើលឧទាហរណ៍ដែលមានចម្លើយស្រាប់ជាមុនសិន មុននឹងទៅធ្វើលំហាត់ប្រឡង។ |
| Bayesian classification | វិធីសាស្រ្តចាត់ថ្នាក់ទិន្នន័យដោយប្រើទ្រឹស្តីប្រូបាប (Probability Theory) ដើម្បីគណនាថាទិន្នន័យមួយគួរស្ថិតនៅក្នុងក្រុមណា ដោយផ្អែកលើភស្តុតាងដែលមាន និងចំណេះដឹងពីមុន (Prior Knowledge)។ | ដូចជាការព្យាករណ៍អាកាសធាតុថា "ភ្លៀង" ឬ "មិនភ្លៀង" ដោយផ្អែកលើភាគរយនៃពពកខ្មៅ និងកម្លាំងខ្យល់ដែលបានវាស់វែង។ |
| Gain ratio | រង្វាស់ដែលប្រើនៅក្នុងក្បួនដោះស្រាយ C4.5 ដើម្បីជ្រើសរើសថា តើគួរប្រើអថេរមួយណាដើម្បីបំបែកទិន្នន័យជាក្រុមតូចៗ ដើម្បីទទួលបានព័ត៌មានច្បាស់លាស់បំផុត (Information Gain)។ | ដូចជាការលេងល្បែងទាយឈ្មោះសត្វ ហើយអ្នកសួរថា "តើវាមានជើង ៤ មែនទេ?" ដើម្បីកាត់បន្ថយជម្រើសចម្លើយឱ្យនៅសល់តិចបំផុតជាជាងសួរថា "តើវាឈ្មោះអាខ្មៅមែនទេ?"។ |
| Hot-deck imputation | វិធីសាស្រ្តបំពេញទិន្នន័យបាត់ ដោយការចម្លងតម្លៃពីកំណត់ត្រាផ្សេងទៀត (Donor) ដែលមានលក្ខណៈស្រដៀងគ្នាបំផុតនៅក្នុងសំណុំទិន្នន័យតែមួយ។ | ដូចជាការខ្ចីចម្លើយកិច្ចការផ្ទះពីមិត្តភក្តិម្នាក់ដែលអង្គុយជិត ហើយមានប្រវត្តិរៀនពូកែដូចគ្នា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖