បញ្ហា (The Problem)៖ ការសិក្សានេះឆ្លើយតបទៅនឹងតម្រូវការក្នុងការកំណត់ប្រសិទ្ធភាពនៃអាល់គោរីតមម៉ាស៊ីនរៀនបែបមានការត្រួតពិនិត្យ (Supervised Machine Learning) ដោយផ្អែកលើទំហំទិន្នន័យ និងចំនួនអថេរ ដើម្បីស្វែងរកគំរូដ៏ល្អបំផុតសម្រាប់ការធ្វើចំណាត់ថ្នាក់ទិន្នន័យ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់កម្មវិធី WEKA ដើម្បីប្រៀបធៀបអាល់គោរីតមចំនួន ៧ ដោយធ្វើការពិសោធន៍លើសំណុំទិន្នន័យជំងឺទឹកនោមផ្អែមដែលមានទំហំខុសៗគ្នា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Support Vector Machine (SVM) ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ (SVM) |
មានកម្រិតភាពត្រឹមត្រូវខ្ពស់បំផុត (Highest Accuracy) និងដំណើរការបានល្អជាមួយទិន្នន័យដែលមានវិមាត្រច្រើន។ | ត្រូវការការកំណត់ប៉ារ៉ាម៉ែត្រឱ្យបានច្បាស់លាស់ ហើយវាត្រូវការធនធានគណនាកម្រិតមធ្យម។ | ទទួលបានភាពត្រឹមត្រូវខ្ពស់ជាងគេគឺ ៧៧.៣៤% និងចំណាយពេល ០.០៩ វិនាទី។ |
| Naïve Bayes ណាវបេយស៍ (Naïve Bayes) |
មានល្បឿនលឿនបំផុតក្នុងការបង្កើតគំរូ (០.០៣ វិនាទី) និងត្រូវការទិន្នន័យតូចក៏អាចដំណើរការបានល្អ។ | សន្មតថាគ្រប់អថេរទាំងអស់មិនមានទំនាក់ទំនងគ្នា (Independence assumption) ដែលមិនតែងតែពិតក្នុងករណីជាក់ស្តែង។ | ទទួលបានភាពត្រឹមត្រូវលំដាប់ទីពីរគឺ ៧៦.៣០%។ |
| Neural Networks (Perceptron) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត |
មានសមត្ថភាពខ្ពស់ក្នុងការស្វែងរកលំនាំស្មុគស្មាញនៅពេលមានទិន្នន័យច្រើន។ | ចំណាយពេលយូរបំផុតក្នុងការបង្កើតគំរូ (០.៨១ វិនាទី) និងមានប្រសិទ្ធភាពធ្លាក់ចុះខ្លាំងនៅពេលទិន្នន័យមានចំនួនតិច (ធ្លាក់ដល់ ៥៩%)។ | ទទួលបានភាពត្រឹមត្រូវ ៧៥.១៣% លើទិន្នន័យធំ ប៉ុន្តែដំណើរការមិនល្អលើទិន្នន័យតូច។ |
| Decision Tree (J48) ដើមឈើសម្រេចចិត្ត (J48) |
ងាយស្រួលក្នុងការបកស្រាយ និងយល់ពីលទ្ធផល (Rules generation)។ | មានកម្រិតភាពត្រឹមត្រូវទាបជាង SVM និង Naïve Bayes ក្នុងការសិក្សានេះ។ | ទទួលបានភាពត្រឹមត្រូវ ៧៣.៨៣%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនតម្រូវឱ្យមានធនធានធំដុំទេ ដោយសារទិន្នន័យមានទំហំតូច (ក្រោម ១០០០ ករណី) និងប្រើប្រាស់កម្មវិធីកុំព្យូទ័រទូទៅ។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យ Pima Indians Diabetes Database ដែលប្រមូលពីស្ត្រីដែលមានដើមកំណើត Pima Indian នៅសហរដ្ឋអាមេរិក។ នេះជាការលំអៀងនៃទិន្នន័យ (Data Bias) ព្រោះលក្ខណៈហ្សែន និងរបបអាហារខុសពីប្រជាជនកម្ពុជា ដូច្នេះគំរូនេះមិនអាចយកមកប្រើដើម្បីវិភាគជំងឺទឹកនោមផ្អែមនៅកម្ពុជាដោយផ្ទាល់បានទេ ប្រសិនបើគ្មានការបង្វឹកឡើងវិញជាមួយទិន្នន័យក្នុងស្រុក។
វិធីសាស្ត្រ និងការរកឃើញនៅក្នុងការសិក្សានេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់អ្នកអភិវឌ្ឍន៍បច្ចេកវិទ្យានៅកម្ពុជា ដើម្បីជ្រើសរើសអាល់គោរីតមដែលត្រឹមត្រូវសម្រាប់កម្មវិធីនានា។
ទោះបីជាទិន្នន័យមិនអាចប្រើផ្ទាល់បាន ប៉ុន្តែការសន្និដ្ឋានថា SVM និង Naïve Bayes ជាជម្រើសល្អបំផុតសម្រាប់ទិន្នន័យបែបនេះ គឺជាចំណេះដឹងដ៏មានតម្លៃសម្រាប់ការបង្កើត AI នៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Supervised Machine Learning | ជាវិធីសាស្ត្រមួយដែលកុំព្យូទ័ររៀនពីទិន្នន័យដែលមានចម្លើយត្រឹមត្រូវរួចស្រាប់ (Labeled Data) ដើម្បីបង្កើតជាគំរូសម្រាប់ទស្សន៍ទាយទិន្នន័យថ្មីៗនៅពេលអនាគត។ | ដូចជាសិស្សរៀនមេរៀនដោយមានគ្រូកែដាក់ពិន្ទុ និងប្រាប់ចម្លើយត្រូវភ្លាមៗ ដើម្បីឱ្យសិស្សចងចាំសម្រាប់ពេលប្រឡង។ |
| Classification | ដំណើរការនៃការបែងចែកទិន្នន័យទៅជាក្រុម ឬប្រភេទផ្សេងៗគ្នា (ដូចជា 'ឈឺ' ឬ 'មិនឈឺ') ដោយផ្អែកលើលក្ខណៈសម្បត្តិនៃទិន្នន័យនោះ។ | ដូចជាការបែងចែកផ្លែឈើដាក់ក្នុងកន្ត្រកផ្សេងគ្នា (ផ្លែប៉ pommes ដាក់មួយកន្ត្រក ផ្លែក្រូចដាក់មួយកន្ត្រក) ទៅតាមប្រភេទរបស់វា។ |
| Support Vector Machine (SVM) | ជាអាល់គោរីតមដែលស្វែងរកបន្ទាត់ព្រំដែន (Hyperplane) ដ៏ល្អបំផុតដើម្បីញែកទិន្នន័យជាពីរក្រុមដាច់ពីគ្នា ដោយព្យាយាមរក្សាគម្លាតឱ្យធំបំផុតរវាងក្រុមទាំងពីរនោះ ដើម្បីឱ្យការទស្សន៍ទាយមានភាពច្បាស់លាស់។ | ដូចជាការគូសបន្ទាត់ព្រំដែននៅលើដី ដើម្បីញែកក្រុមមនុស្សពីរក្រុមដាច់ពីគ្នា ដោយមិនឱ្យនរណាម្នាក់ឈរជាន់បន្ទាត់នោះ។ |
| Kappa statistic | ជាមេគុណស្ថិតិសម្រាប់វាស់វែងកម្រិតនៃភាពត្រឹមត្រូវនៃការធ្វើចំណាត់ថ្នាក់ ដោយដកចេញនូវកត្តាដែលអាចកើតឡើងដោយការទាយព្រាវ (Random chance) ដើម្បីឱ្យដឹងថាគំរូនោះពិតជាចេះមែនឬអត់។ | ដូចជាការវាស់សមត្ថភាពសិស្សពិតប្រាកដ ដោយមិនរាប់បញ្ចូលពិន្ទុដែលសិស្សទទួលបានពីការគូសវាសចម្លើយព្រាវៗត្រូវដោយចៃដន្យ។ |
| Mean Absolute Error (MAE) | ជាមធ្យមភាគនៃកំហុស (Error) រវាងតម្លៃដែលម៉ាស៊ីនទស្សន៍ទាយ និងតម្លៃជាក់ស្តែង។ តម្លៃ MAE កាន់តែតូច បង្ហាញថាគំរូនោះកាន់តែមានភាពត្រឹមត្រូវ។ | ដូចជាការវាស់ចម្ងាយថាគ្រាប់ព្រួញដែលបាញ់ខុស ស្ថិតនៅឆ្ងាយប៉ុណ្ណាពីចំណុចកណ្តាលនៃផ្ទាំងស៊ីប។ |
| 10-fold cross-validation | បច្ចេកទេសវាយតម្លៃម៉ូដែលដោយបែងចែកទិន្នន័យជា ១០ ផ្នែកស្មើគ្នា រួចធ្វើការបង្វឹក និងតេស្តចំនួន ១០ ដង (រាល់ដងទុក ១ ផ្នែកសម្រាប់តេស្ត) ដើម្បីធានាថាវាដំណើរការល្អលើគ្រប់ផ្នែកនៃទិន្នន័យ។ | ដូចជាការបែងចែកសៀវភៅជា ១០ ជំពូក រួចធ្វើតេស្តសិស្ស ១០ ដង ដោយរាល់ដងទុក ១ ជំពូកសម្រាប់ប្រឡង និង ៩ ជំពូកទៀតសម្រាប់រៀន។ |
| Naïve Bayes | ជាអាល់គោរីតមគណនាប្រូបាប៊ីលីតេដែលសន្មតថាគ្រប់លក្ខខណ្ឌទាំងអស់មិនមានទំនាក់ទំនងគ្នា (Independent)។ វាមានល្បឿនលឿន និងសាមញ្ញ ប៉ុន្តែមានប្រសិទ្ធភាពសម្រាប់ការងារជាច្រើន។ | ដូចជាការសន្និដ្ឋានថាអ្នកមានជំងឺគ្រុនផ្តាសាយ ដោយគ្រាន់តែឃើញអ្នកក្អក និងក្តៅខ្លួនដាច់ដោយឡែកពីគ្នា ដោយមិនខ្វល់ថាក្អកបណ្តាលមកពីក្តៅខ្លួនឬអត់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖