បញ្ហា (The Problem)៖ ការពង្រីកយ៉ាងឆាប់រហ័សនៃបណ្តាញសង្គមបាននាំឱ្យមានការកើនឡើងនូវគណនីក្លែងក្លាយ ដែលគំរាមកំហែងដល់ភាពឯកជន សុវត្ថិភាព និងសុចរិតភាពរបស់អ្នកប្រើប្រាស់នៅលើអ៊ីនធឺណិត ព្រមទាំងបង្កឱ្យមានបញ្ហាដូចជាការឆបោកទិន្នន័យ និងព័ត៌មានមិនពិត។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់ការរចនាការស្រាវជ្រាវបែបបរិមាណ (Quantitative design) និងវិធីសាស្ត្រម៉ាស៊ីនរៀនមានការត្រួតពិនិត្យ (Supervised machine learning) ដើម្បីចាត់ថ្នាក់គណនីបណ្តាញសង្គមថាជាគណនីពិត ឬក្លែងក្លាយ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Extreme Gradient Boosting (XGBoost) ក្បួនដោះស្រាយ XGBoost ផ្អែកលើបច្ចេកទេស Boosting |
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុត កាត់បន្ថយកំហុសឆ្គង (False Positives/Negatives) បានយ៉ាងល្អ និងគាំទ្រការបាត់ទិន្នន័យ (Missing data)។ | អាចទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameter tuning) ច្រើន និងប្រើប្រាស់ធនធានកុំព្យូទ័រច្រើនជាងម៉ូដែលសាមញ្ញ។ | ទទួលបានភាពត្រឹមត្រូវ ៩៨.៧%, Precision ៩៧.៨%, Recall ៩៩.០%, F1-score ៩៨.៤% និងពិន្ទុ AUC ០.៩៩១។ |
| Random Forest ក្បួនដោះស្រាយ Random Forest ផ្អែកលើបច្ចេកទេស Ensemble នៃមែកធាងការសម្រេចចិត្ត |
ងាយស្រួលក្នុងការប្រើប្រាស់ មានស្ថេរភាពខ្ពស់ និងមិនងាយជួបបញ្ហា Overfitting ដោយសារការប្រើប្រាស់មែកធាងច្រើន។ | មានភាពត្រឹមត្រូវទាបជាង XGBoost បន្តិចនៅក្នុងការវិភាគទិន្នន័យនេះ។ | ទទួលបានភាពត្រឹមត្រូវ ៩៣.៣%, Precision ៩១.៧%, Recall ៩៤.៧%, F1-score ៩៣.២% និងពិន្ទុ AUC ០.៩៦៥។ |
| Long Short-Term Memory (LSTM) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) សម្រាប់ការវិភាគទិន្នន័យតាមលំដាប់លំដោយ |
មានសមត្ថភាពក្នុងការចងចាំទិន្នន័យរយៈពេលយូរ និងល្អសម្រាប់ការវិភាគទិន្នន័យដែលមានលំដាប់លំដោយ (Sequential data) ដូចជាសកម្មភាពអ្នកប្រើប្រាស់។ | ទទួលបានលទ្ធផលខ្សោយជាងគេក្នុងចំណោមម៉ូដែលទាំងបីសម្រាប់ការវិភាគទិន្នន័យទម្រង់ Tabular នេះ និងត្រូវការពេលវេលាបង្វឹកយូរ។ | ទទួលបានភាពត្រឹមត្រូវទាបជាងគេត្រឹម ៨៩.៣%, Precision ៨៨.២%, Recall ៩០.៥%, F1-score ៨៩.៣% និងពិន្ទុ AUC ០.៩១០។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់លម្អិតអំពីការចំណាយធនធានក៏ដោយ ការអភិវឌ្ឍម៉ូដែល Machine Learning និង Deep Learning (ដូចជា LSTM) ជាទូទៅទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យជាក់លាក់។
ការសិក្សានេះប្រើប្រាស់សំណាកទិន្នន័យតូចខ្លាំង (ត្រឹមតែ ១៥០ គណនីប៉ុណ្ណោះ គឺពិត ៧៥ និងក្លែងក្លាយ ៧៥) ពីសំណុំទិន្នន័យ MIB ដែលអាចមិនតំណាងឱ្យភាពចម្រុះនៃគណនីក្លែងក្លាយទាំងអស់នៅលើបណ្តាញសង្គមផ្សេងៗ។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកលើទិន្នន័យបរទេសនេះអាចនឹងមិនឆ្លុះបញ្ចាំងពីលក្ខណៈ ឬទម្រង់នៃការឆបោកជាក់លាក់នៅលើបណ្តាញសង្គមក្នុងស្រុក (ដូចជា Facebook, Telegram ឬ TikTok) ដែលប្រើប្រាស់ភាសាខ្មែរឡើយ។
ទោះបីជាទិន្នន័យមានកម្រិតក៏ដោយ វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅប្រទេសកម្ពុជា ដើម្បីពង្រឹងសន្តិសុខតាមប្រព័ន្ធអ៊ីនធឺណិត។
សរុបមក ការអនុវត្តបច្ចេកទេស Machine Learning នេះទាមទារឱ្យមានការប្រមូលទិន្នន័យគណនីក្លែងក្លាយក្នុងស្រុកដើម្បីជួយឱ្យម៉ូដែលដំណើរការបានច្បាស់លាស់ និងមានប្រសិទ្ធភាពឆ្លើយតបទៅនឹងបរិបទកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Extreme Gradient Boosting (XGBoost) | ជាក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) កម្រិតខ្ពស់ដែលបង្កើតមែកធាងការសម្រេចចិត្តជាបន្តបន្ទាប់ ដោយមែកធាងនីមួយៗផ្តោតលើការកែតម្រូវកំហុសដែលបានបង្កើតដោយមែកធាងមុនៗ ដើម្បីបង្កើនភាពជាក់លាក់ក្នុងការទស្សន៍ទាយលទ្ធផលចុងក្រោយ។ | ដូចជាសិស្សមួយក្រុមដែលធ្វើការរួមគ្នា ពេលសិស្សទីមួយធ្វើខុស សិស្សទីពីររៀនពីកំហុសនោះហើយកែតម្រូវរហូតដល់ទទួលបានចម្លើយល្អឥតខ្ចោះ។ |
| Random Forest | ជាបច្ចេកទេសម៉ាស៊ីនរៀនដែលបង្កើតមែកធាងការសម្រេចចិត្តជាច្រើនដាច់ដោយឡែកពីគ្នានៅពេលបង្វឹក ហើយយកលទ្ធផលរបស់មែកធាងទាំងអស់នោះមកបោះឆ្នោតជ្រើសរើសចម្លើយដែលមានសំឡេងគាំទ្រច្រើនជាងគេ ដើម្បីកំណត់ថាគណនីមួយពិត ឬក្លែងក្លាយ។ | ដូចជាការសួរយោបល់ពីគ្រូពេទ្យ១០០នាក់ផ្សេងៗគ្នាពីជំងឺមួយ ហើយយកចម្លើយណាដែលគ្រូពេទ្យភាគច្រើនយល់ស្របគ្នាមកធ្វើជាការសម្រេចចិត្តចុងក្រោយ។ |
| Long Short-Term Memory (LSTM) | ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) ដែលត្រូវបានរចនាឡើងដើម្បីចងចាំព័ត៌មានពីមុនៗក្នុងរយៈពេលយូរ ដែលស័ក្តិសមបំផុតសម្រាប់ការវិភាគទិន្នន័យដែលមានលំដាប់លំដោយ ដូចជាការវិភាគលើប្រវត្តិសកម្មភាពរបស់អ្នកប្រើប្រាស់។ | ដូចជាមនុស្សម្នាក់ដែលកំពុងអានសៀវភៅរឿង ដោយអាចចងចាំសាច់រឿងពីជំពូកទីមួយយ៉ាងច្បាស់ ដើម្បីយល់ពីហេតុការណ៍ដែលកើតឡើងនៅជំពូកចុងក្រោយ។ |
| ROC Curve | ជាក្រាហ្វិកសម្រាប់វាស់ស្ទង់និងបង្ហាញពីសមត្ថភាពរបស់ម៉ូដែលក្នុងការបែងចែករវាងទិន្នន័យពិត និងទិន្នន័យក្លែងក្លាយ តាមរយៈការប្រៀបធៀបអត្រានៃការទាយត្រូវ (True Positive Rate) និងការទាយខុស (False Positive Rate)។ | ដូចជាតារាងពិន្ទុដែលបង្ហាញពីកម្រិតសមត្ថភាពរបស់ឆ្មាយាមផ្ទះ ថាតើវាចាប់កណ្តុរបានប៉ុន្មានក្បាល ហើយច្រឡំខាំមាន់ស្រុកអស់ប៉ុន្មានក្បាល។ |
| Confusion Matrix | ជាតារាងសង្ខេបលទ្ធផលដែលបង្ហាញពីចំនួនដងដែលម៉ូដែលទស្សន៍ទាយត្រូវ និងទស្សន៍ទាយខុសយ៉ាងលម្អិត ដោយបែងចែកជាទិន្នន័យពិតដែលទាយថាពិត និងទិន្នន័យពិតដែលទាយខុសថាជាក្លែងក្លាយ។ | ដូចជាបញ្ជីរាយនាមសិស្សប្រឡង ដែលបង្ហាញច្បាស់ថាសិស្សណាខ្លះប្រឡងជាប់ពិតមែន សិស្សណាធ្លាក់ពិតមែន និងសិស្សណាដែលគ្រូច្រឡំដាក់ពិន្ទុឱ្យធ្លាក់។ |
| F1-Score | ជារង្វាស់នៃភាពត្រឹមត្រូវរបស់ម៉ូដែលដែលគណនាដោយយកមធ្យមភាគរវាង Precision (ភាពច្បាស់លាស់) និង Recall (សមត្ថភាពស្វែងរកទិន្នន័យគោលដៅ) ដើម្បីធានាថាម៉ូដែលមិនលម្អៀងទៅរកភាពត្រឹមត្រូវក្លែងបន្លំពេលទិន្នន័យមិនស្មើគ្នា។ | ដូចជាការវាយតម្លៃអ្នកបាញ់ធ្នូ ដែលមិនត្រឹមតែមើលថាតើគាត់បាញ់ចំគោលដៅប៉ុន្មានដងទេ តែថែមទាំងពិនិត្យមើលថាគាត់បាញ់ខុសគោលដៅអស់ប៉ុន្មានព្រួញដែរ។ |
| Data Pre-processing | ជាដំណាក់កាលនៃការរៀបចំ សម្អាត និងបំលែងទិន្នន័យឆៅ (ដូចជាការបំពេញតម្លៃដែលបាត់ ឬលុបទិន្នន័យមិនពាក់ព័ន្ធ) ឱ្យទៅជាទម្រង់ស្តង់ដារមួយដែលក្បួនដោះស្រាយម៉ាស៊ីនរៀនអាចយកទៅដំណើរការបានដោយរលូន និងមានប្រសិទ្ធភាព។ | ដូចជាការលាងសម្អាត បកសំបក និងហាន់បន្លែសាច់ជាមុនសិន មុននឹងដាក់ចូលទៅក្នុងឆ្នាំងដើម្បីចម្អិនជាម្ហូប។ |
| Phishing | ជាទម្រង់នៃការវាយប្រហារតាមប្រព័ន្ធអ៊ីនធឺណិត ដោយជនខិលខូចប្រើប្រាស់គណនី ឬតំណភ្ជាប់ក្លែងក្លាយ (ជាញឹកញាប់នៅលើបណ្តាញសង្គម) ដើម្បីបញ្ឆោតអ្នកប្រើប្រាស់ឱ្យផ្តល់ព័ត៌មានផ្ទាល់ខ្លួនដូចជា លេខសម្ងាត់ ឬទិន្នន័យធនាគារ។ | ដូចជាការដាក់នុយបន្លំនៅលើផ្លែសន្ទូច ដើម្បីទាក់ទាញត្រីឱ្យមកស៊ីនុយនោះអញ្ចឹងដែរ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖