បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃការកើនឡើងនូវការក្លែងបន្លំកាតឥណទាន និងកម្រិតកំណត់នៃប្រព័ន្ធស្វែងរកបច្ចុប្បន្ន ដោយផ្តោតជាពិសេសលើបញ្ហាអតុល្យភាពទិន្នន័យ (Data Imbalance) ដែលធ្វើឱ្យពិបាកក្នុងការកំណត់អត្តសញ្ញាណប្រតិបត្តិការក្លែងបន្លំដែលមានចំនួនតិចតួចធៀបនឹងប្រតិបត្តិការធម្មតា។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានស្នើឡើងនូវគំរូថ្មីមួយដែលរួមបញ្ចូលគ្នានូវវិធីសាស្ត្របណ្តុំ (Ensemble Model) ដោយប្រើប្រាស់ក្បួនដោះស្រាយរៀនម៉ាស៊ីន (Machine Learning) ជាច្រើន និងបច្ចេកទេសដោះស្រាយអតុល្យភាពទិន្នន័យ ដើម្បីបង្កើនប្រសិទ្ធភាពនៃការទស្សន៍ទាយ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Random Forest (RF) & Boosting ក្បួនដោះស្រាយ Random Forest និង Boosting |
មានសមត្ថភាពខ្ពស់បំផុតក្នុងការបែងចែករវាងប្រតិបត្តិការធម្មតា និងការក្លែងបន្លំ ដោយកាត់បន្ថយយ៉ាងខ្លាំងនូវកំហុសវិជ្ជមានមិនពិត (False Positives)។ | ទាមទារធនធានគណនាខ្ពស់ជាងម៉ូដែលធម្មតា ហើយអាចចំណាយពេលយូរក្នុងការបណ្តុះបណ្តាលលើទិន្នន័យធំ។ | សម្រេចបានភាពត្រឹមត្រូវ (Accuracy) ១០០% លើការធ្វើតេស្តមួយចំនួន និងរក្សាបានពិន្ទុ F1-Score ខ្ពស់បំផុត។ |
| Logistic Regression (LR) ក្បួនដោះស្រាយតក្កវិទ្យា (Logistic Regression) |
ដំណើរការលឿន ងាយស្រួលយល់ និងប្រើប្រាស់ធនធានតិចក្នុងការគណនា។ | មានកម្រិតភាពត្រឹមត្រូវទាបជាងគេ (ប្រហែល ៩៤-៩៥%) និងមានអត្រាកំហុសខ្ពស់ក្នុងការមិនចាប់យកការក្លែងបន្លំ (False Negatives)។ | ភាពត្រឹមត្រូវមានកម្រិតទាបជាងម៉ូដែលដទៃទៀត ជាពិសេសនៅពេលប្រើជាមួយទិន្នន័យដែលមិនមានតុល្យភាព។ |
| Proposed Ensemble Model (PM) គំរូបណ្តុំដែលបានស្នើឡើង (រួមបញ្ចូល SVM, KNN, RF, Bagging, Boosting) |
មានស្ថេរភាពខ្ពស់ និងកាត់បន្ថយហានិភ័យនៃការទស្សន៍ទាយខុសដោយពឹងផ្អែកលើការសម្រេចចិត្តរួមគ្នា (Voting Mechanism) នៃម៉ូដែលជាច្រើន។ | មានភាពស្មុគស្មាញក្នុងការរៀបចំ និងទាមទារពេលវេលាដំណើរការយូរជាងម៉ូដែលទោល។ | សម្រេចបានភាពត្រឹមត្រូវ ៩៩.៩៦% នៅពេលប្រើជាមួយបច្ចេកទេស SMOTE ដែលខ្ពស់ជាងការប្រើ Under-sampling។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកម្រិតមធ្យមដែលអាចដំណើរការបាននៅលើកុំព្យូទ័រយួរដៃទូទៅ ឬថ្នាលក្លOUD ដោយមិនចាំបាច់មានម៉ាស៊ីនមេកម្រិតខ្ពស់ពេកទេ ប៉ុន្តែត្រូវការ RAM គ្រប់គ្រាន់សម្រាប់ដំណើរការទិន្នន័យ SMOTE។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពីអឺរ៉ុបក្នុងឆ្នាំ ២០១៣ ដែលអាចមិនឆ្លុះបញ្ចាំងពេញលេញពីឥរិយាបថនៃការប្រើប្រាស់កាត ឬការទូទាត់តាមឌីជីថល (Digital Payment) នៅក្នុងប្រទេសកម្ពុជាបច្ចុប្បន្ន ដែលមានការនិយមប្រើប្រាស់ QR Code និងប្រព័ន្ធទូទាត់ចល័តច្រើនជាងការប្រើកាតឥណទានបែបប្រពៃណី។
វិធីសាស្ត្រដែលបានស្នើឡើងនេះមានសារៈសំខាន់ខ្លាំង និងអាចអនុវត្តបានខ្ពស់សម្រាប់វិស័យធនាគារ និងហិរញ្ញវត្ថុនៅកម្ពុជា ដើម្បីពង្រឹងសុវត្ថិភាពប្រព័ន្ធទូទាត់។
ទោះបីជាទិន្នន័យបរទេសត្រូវបានប្រើប្រាស់ក៏ដោយ បច្ចេកវិទ្យា Ensemble Learning និងការដោះស្រាយទិន្នន័យមិនមានតុល្យភាព (Imbalanced Data) គឺជាដំណោះស្រាយដ៏ចាំបាច់សម្រាប់ពង្រឹងសន្តិសុខសាយប័រក្នុងវិស័យហិរញ្ញវត្ថុកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Ensemble Machine Learning | គឺជាបច្ចេកទេសដែលរួមបញ្ចូលគ្នានូវម៉ូដែលកុំព្យូទ័រជាច្រើន (ដូចជា SVM, KNN, RF) ដើម្បីធ្វើការទស្សន៍ទាយរួមគ្នា។ វិធីនេះជួយកាត់បន្ថយចំណុចខ្សោយរបស់ម៉ូដែលនីមួយៗ និងធ្វើឱ្យលទ្ធផលចុងក្រោយមានភាពសុក្រឹតជាងការប្រើម៉ូដែលតែមួយ។ | ដូចជាការសុំយោបល់ពីអ្នកជំនាញជាច្រើននាក់ដើម្បីធ្វើការសម្រេចចិត្ត ជាជាងជឿលើមនុស្សតែម្នាក់។ |
| SMOTE (Synthetic Minority Over-sampling Technique) | ជាវិធីសាស្ត្រស្ថិតិដែលត្រូវបានប្រើដើម្បីដោះស្រាយបញ្ហាទិន្នន័យមិនមានតុល្យភាព។ វាបង្កើតទិន្នន័យក្លែងក្លាយថ្មីៗសម្រាប់ក្រុមដែលមានចំនួនតិច (ដូចជាករណីលួចបន្លំ) ដោយផ្អែកលើលក្ខណៈនៃទិន្នន័យដែលមានស្រាប់ ដើម្បីឱ្យកុំព្យូទ័រមានឧទាហរណ៍គ្រប់គ្រាន់សម្រាប់រៀន។ | ដូចជាការថតចម្លងរូបភាពរបស់សត្វកម្រ ហើយកែសម្រួលវាបន្តិចបន្តួចដើម្បីឱ្យសិស្សមានរូបភាពគ្រប់គ្រាន់សម្រាប់សិក្សា។ |
| Data Imbalance | សំដៅលើស្ថានភាពដែលប្រភេទទិន្នន័យមួយមានចំនួនច្រើនលើសលប់ធៀបនឹងប្រភេទមួយទៀត (ឧទាហរណ៍៖ ប្រតិបត្តិការត្រឹមត្រូវមានរាប់លាន តែការលួចបន្លំមានតែពីរបី) ដែលធ្វើឱ្យម៉ូដែលកុំព្យូទ័រពិបាករៀនសម្គាល់ករណីកម្រនោះ។ | ដូចជាការស្វែងរកម្ជុលក្នុងគំនរចំបើង ឬការបង្រៀនសិស្សឱ្យស្គាល់មុខចោរ តែមានរូបចោរតែមួយសន្លឹក ក្នុងចំណោមរូបមនុស្សល្អរាប់ពាន់សន្លឹក។ |
| Voting Classifier | គឺជាយន្តការមួយនៅក្នុង Ensemble Learning ដែលប្រមូលចម្លើយពីម៉ូដែលជាច្រើន ហើយជ្រើសរើសយកចម្លើយណាដែលម៉ូដែលភាគច្រើនបានយល់ស្របគ្នា ដើម្បីកំណត់លទ្ធផលចុងក្រោយ។ | ដូចជាគណៈកម្មការវិនិច្ឆ័យ ដែលសមាជិកម្នាក់ៗផ្តល់ពិន្ទុ ហើយលទ្ធផលចុងក្រោយគឺផ្អែកលើសំឡេងភាគច្រើន។ |
| Confusion Matrix | គឺជាតារាងដែលប្រើសម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែល ដោយបង្ហាញលម្អិតនូវចំនួនដែលទស្សន៍ទាយត្រូវ និងខុស ទាំងលើករណីវិជ្ជមាន (លួចបន្លំ) និងអវិជ្ជមាន (មិនលួចបន្លំ)។ | ដូចជាតារាងពិន្ទុដែលប្រាប់លម្អិតថា អ្នកឆ្លើយត្រូវប៉ុន្មានសំណួរ និងឆ្លើយខុសត្រង់ចំណុចណាខ្លះ (មិនមែនគ្រាន់តែប្រាប់ពិន្ទុសរុបទេ)។ |
| Bagging (Bootstrap Aggregating) | ជាបច្ចេកទេសដែលបំបែកទិន្នន័យជាផ្នែកតូចៗ ហើយឱ្យម៉ូដែលជាច្រើនរៀនពីផ្នែកនីមួយៗដាច់ដោយឡែកពីគ្នា (ជាលក្ខណៈស្របគ្នា) រួចយកលទ្ធផលមកបូកបញ្ចូលគ្នាដើម្បីកាត់បន្ថយភាពលំអៀង។ | ដូចជាការចែកសៀវភៅមួយក្បាលជាផ្នែកៗឱ្យសិស្សរៀនរៀងខ្លួន រួចយកចំណេះដឹងមកចែករំលែកគ្នាវិញ។ |
| Boosting | ជាបច្ចេកទេសដែលបង្កើតម៉ូដែលជាបន្តបន្ទាប់ (Sequential) ដោយម៉ូដែលក្រោយព្យាយាមកែតម្រូវកំហុសដែលម៉ូដែលមុនបានធ្វើខុស ដើម្បីឱ្យលទ្ធផលចុងក្រោយមានភាពត្រឹមត្រូវបំផុត។ | ដូចជាគ្រូដែលកែតម្រូវកំហុសសិស្ស ហើយឱ្យសិស្សផ្តោតរៀនតែចំណុចដែលធ្លាប់ធ្វើខុស ដើម្បីឱ្យកាន់តែពូកែនៅពេលប្រឡងលើកក្រោយ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖