បញ្ហា (The Problem)៖ ឯកសារនេះធ្វើការដោះស្រាយបញ្ហានៃការរៀនពីទិន្នន័យដែលមានអតុល្យភាពចំណាត់ថ្នាក់ (Class Imbalance) នៅក្នុងវិស័យជីកទិន្នន័យ (Data Mining) ដែលជាបញ្ហាធ្វើឱ្យម៉ូដែលចំណាត់ថ្នាក់មានភាពលម្អៀងទៅរកចំណាត់ថ្នាក់ដែលមានទិន្នន័យច្រើន (Majority Class)។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះគឺជាការត្រួតពិនិត្យយ៉ាងទូលំទូលាយ (Comprehensive Review) ទៅលើបច្ចេកវិទ្យា និងវិធីសាស្ត្របច្ចុប្បន្នសម្រាប់ការកសាងម៉ូដែល និងដោះស្រាយអតុល្យភាពទិន្នន័យ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Random Undersampling ការយកគំរូទាបដោយចៃដន្យ (កាត់បន្ថយទិន្នន័យក្រុមភាគច្រើន) |
ជួយធ្វើឱ្យទិន្នន័យមានតុល្យភាពលឿន និងកាត់បន្ថយទំហំទិន្នន័យដែលធ្វើឱ្យដំណើរការរៀនបានលឿន។ | អាចបាត់បង់ទិន្នន័យសំខាន់ៗពី Majority class ដែលចាំបាច់សម្រាប់ការសាងសង់ម៉ូដែលបានត្រឹមត្រូវ។ | ជាវិធីសាស្ត្រមូលដ្ឋានដែលជួយសម្រួលការបែងចែកចំណាត់ថ្នាក់ ប៉ុន្តែងាយបាត់បង់ព័ត៌មានមានតម្លៃ។ |
| Random Oversampling ការយកគំរូលើបដោយចៃដន្យ (ចម្លងទិន្នន័យក្រុមភាគតិច) |
មិនមានការបាត់បង់ព័ត៌មានពីទិន្នន័យដើមឡើយ និងជួយបង្កើនអត្រានៃការរៀនលើទិន្នន័យក្រុមភាគតិច។ | អាចបណ្តាលឱ្យមានបញ្ហា Overfitting យ៉ាងងាយ ដោយសារតែវាគ្រាន់តែធ្វើការចម្លង (copy) ទិន្នន័យដដែលៗ។ | ជាទូទៅផ្តល់ភាពត្រឹមត្រូវខ្ពស់ជាង undersampling លើ minority class ប៉ុន្តែប្រឈមនឹងបញ្ហា overfitting ខ្លាំង។ |
| Hybrid Methods (e.g., SMOTEBoost, RUSBoost) វិធីសាស្ត្រកូនកាត់ និងការរៀនជាក្រុម (បញ្ចូលការយកគំរូជាមួយវិធីសាស្ត្រ Boosting) |
កាត់បន្ថយបញ្ហា Overfitting នៃ oversampling ព្រមទាំងផ្តល់លទ្ធផលល្អប្រសើរដោយប្រើបច្ចេកទេសបង្កើតទិន្នន័យសំយោគ (SMOTE)។ | មានភាពស្មុគស្មាញខ្ពស់ និងតម្រូវការកម្លាំងកុំព្យូទ័រ (computation power) ច្រើនជាងវិធីសាស្ត្រធម្មតា។ | ផ្តល់នូវសមត្ថភាពទស្សន៍ទាយខ្ពស់ និងជាក្បួនដោះស្រាយដ៏មានប្រសិទ្ធភាពបំផុតមួយនៅក្នុងការសិក្សាស្រាវជ្រាវនេះ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីតម្លៃធនធាន Hardware ឬ Software នោះទេ ដោយសារវាជាឯកសារប្រមូលផ្តុំការសិក្សា (Survey Paper) ប៉ុន្តែការអនុវត្តវិធីសាស្ត្រទាំងនេះទាមទារបរិស្ថានសរសេរកូដ និងធនធានម៉ាស៊ីនកម្រិតស្តង់ដារ។
ការសិក្សានេះពឹងផ្អែកលើសំណុំទិន្នន័យគោលរបស់ UCI (Benchmark Datasets) ពីជុំវិញពិភពលោក ដែលភាគច្រើនមិនឆ្លុះបញ្ចាំងពីបរិបទប្រជាសាស្ត្រជាក់លាក់ណាមួយឡើយ។ សម្រាប់កម្ពុជា ការយល់ដឹងពីបញ្ហាអតុល្យភាពទិន្នន័យនេះមានសារៈសំខាន់ខ្លាំង ព្រោះទិន្នន័យក្នុងស្រុក (ដូចជាកំណត់ត្រាវេជ្ជសាស្ត្រ ឬទិន្នន័យហិរញ្ញវត្ថុ) តែងតែមានលក្ខណៈលម្អៀង និងអតុល្យភាពខ្លាំង។
វិធីសាស្ត្រក្នុងឯកសារនេះមានអត្ថប្រយោជន៍យ៉ាងធំធេង និងអាចយកមកអនុវត្តជាក់ស្តែងសម្រាប់ការវិភាគទិន្នន័យនៅប្រទេសកម្ពុជា។
ជារួម ការអនុវត្តបច្ចេកទេសដោះស្រាយអតុល្យភាពទិន្នន័យនេះ នឹងជួយពង្រឹងភាពត្រឹមត្រូវនៃម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដែលកំពុងអភិវឌ្ឍដោយស្ថាប័នរដ្ឋ និងឯកជននៅក្នុងប្រទេសកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Class Imbalance Learning | ជាដំណើរការបង្រៀនម៉ាស៊ីនកុំព្យូទ័រ (Machine Learning) ឱ្យចេះបែងចែកចំណាត់ថ្នាក់ទិន្នន័យ ក្នុងស្ថានភាពដែលក្រុមទិន្នន័យមួយមានចំនួនច្រើនលើសលប់ ខណៈក្រុមទិន្នន័យមួយទៀតមានចំនួនតិចតួចបំផុត ដែលធ្វើឱ្យកុំព្យូទ័រងាយនឹងទស្សន៍ទាយលម្អៀង។ | ដូចជាការបង្រៀនសិស្សឱ្យស្គាល់សត្វ ដោយបង្ហាញរូបសត្វឆ្កែ១០០សន្លឹក និងរូបសត្វខ្លាឃ្មុំតែ១សន្លឹក ដែលធ្វើឱ្យសិស្សងាយនឹងច្រឡំឆ្លើយថាខ្លាឃ្មុំនោះជាឆ្កែដែរ។ |
| Decision trees | ជាក្បួនដោះស្រាយសម្រាប់ធ្វើចំណាត់ថ្នាក់ទិន្នន័យ ដែលមានទម្រង់ដូចជាមែកធាង ដោយចាប់ផ្តើមពីសំណួរបែងចែកលក្ខណៈទូទៅបំផុត រហូតដល់ចម្លើយចុងក្រោយនៅខាងចុងស្លឹក ដែលជាចំណាត់ថ្នាក់ត្រឹមត្រូវនៃទិន្នន័យ។ | ដូចជាការលេងហ្គេមសួរសំណួរ 'បាទ/ទេ' បន្តបន្ទាប់គ្នា (ឧ. តើសត្វនេះមានរោមឬទេ? តើវាចេះហោះឬទេ?) ដើម្បីស្វែងរកចម្លើយចុងក្រោយថាតើវាជាសត្វអ្វី។ |
| Random oversampling | ជាបច្ចេកទេសដោះស្រាយអតុល្យភាពទិន្នន័យ ដោយធ្វើការថតចម្លង (Copy) ទិន្នន័យក្នុងក្រុមភាគតិច (Minority class) ដោយចៃដន្យ រហូតទាល់តែចំនួនរបស់វាស្មើនឹងក្រុមភាគច្រើន ដើម្បីកុំឱ្យម៉ូដែលរៀនលម្អៀង។ | ដូចជាការថតចម្លងសន្លឹកកិច្ចការរបស់សិស្សពូកែម្នាក់ជាច្រើនសន្លឹក ដើម្បីឱ្យមានចំនួនកិច្ចការស្មើនឹងសិស្សធម្មតាដ៏ច្រើនផ្សេងទៀត។ |
| Random undersampling | ជាបច្ចេកទេសធ្វើឱ្យទិន្នន័យមានតុល្យភាព ដោយធ្វើការលុបចោលនូវទិន្នន័យមួយចំនួនក្នុងក្រុមភាគច្រើន (Majority class) ដោយចៃដន្យ ដើម្បីឱ្យចំនួនរបស់វាធ្លាក់មកស្មើនឹងក្រុមភាគតិចវិញ។ | ដូចជាការដកសិស្សធម្មតាជំនាញទូទៅចេញពីថ្នាក់រៀនខ្លះ ដើម្បីឱ្យមានចំនួនស្មើគ្នានឹងសិស្សជំនាញពិសេសដែលមានចំនួនតិចតួចនៅក្នុងថ្នាក់នោះ។ |
| SMOTE (Synthetic minority oversampling technique) | ជាបច្ចេកទេសបង្កើតទិន្នន័យថ្មីសម្រាប់ក្រុមភាគតិច ជំនួសឱ្យការគ្រាន់តែថតចម្លងទិន្នន័យចាស់។ វាគណនាលក្ខណៈស្រដៀងគ្នានៃទិន្នន័យជិតខាង រួចបង្កើតជាទិន្នន័យសំយោគថ្មីមួយដែលមានលក្ខណៈសមហេតុផល។ | ដូចជាការបង្កើតមុខម្ហូបថ្មីមួយ ដោយយកលាយបញ្ចូលគ្នានូវគ្រឿងផ្សំពីមុខម្ហូបពីរមុខដែលអ្នកធ្លាប់ស្គាល់ ដើម្បីឱ្យបានមុខម្ហូបថ្មីតែមានរសជាតិស្រដៀងរបស់ដើម។ |
| Cost-sensitive learning | ជាវិធីសាស្ត្របង្រៀនម៉ូដែលកុំព្យូទ័រ ដោយដាក់ការពិន័យ (Cost) ខ្ពស់នៅពេលដែលវាទស្សន៍ទាយខុសទៅលើក្រុមទិន្នន័យភាគតិច (ដែលជាទិន្នន័យសំខាន់) ដើម្បីបង្ខំឱ្យម៉ូដែលប្រុងប្រយ័ត្នជាងមុនក្នុងការទស្សន៍ទាយក្រុមនោះ។ | ដូចជាការប្រាប់សិស្សថា បើធ្វើខុសលំហាត់ធម្មតាត្រូវកាត់១ពិន្ទុ តែបើធ្វើខុសលំហាត់ពិសេសត្រូវកាត់១០ពិន្ទុ ដើម្បីឱ្យសិស្សប្រុងប្រយ័ត្នខ្លាំងលើលំហាត់ពិសេស។ |
| Ensemble learning | ជាការរួមបញ្ចូលគ្នានូវម៉ូដែលកុំព្យូទ័រតូចៗជាច្រើន (ដូចជា Decision trees ច្រើនដើម) ដើម្បីធ្វើការទស្សន៍ទាយរួមគ្នា ដែលផ្តល់នូវលទ្ធផលត្រឹមត្រូវ និងមានស្ថេរភាពជាងការប្រើប្រាស់ម៉ូដែលតែមួយ។ | ដូចជាការប្រជុំក្រុមគ្រូពេទ្យ៥នាក់ដើម្បីវិភាគរោគសញ្ញាអ្នកជំងឺម្នាក់ ដែលអាចផ្តល់ការសន្និដ្ឋានច្បាស់លាស់ជាងការពិនិត្យដោយគ្រូពេទ្យតែម្នាក់ឯង។ |
| Area under Curve (AUC) | ជារង្វាស់មួយសម្រាប់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែលចំណាត់ថ្នាក់ ក្នុងការបែងចែករវាងក្រុមទិន្នន័យពីរផ្សេងគ្នា (ឧ. អ្នកឈឺ និងអ្នកជា) ដែលស័ក្តិសមបំផុតសម្រាប់វាស់ស្ទង់ទិន្នន័យដែលមានអតុល្យភាពខ្លាំង។ | ដូចជាពិន្ទុវាយតម្លៃរួមមួយដែលបង្ហាញថាតើអ្នកស៊ើបអង្កេតម្នាក់ពូកែបំបែករវាងជនសង្ស័យ និងជនស្លូតត្រង់កម្រិតណា ទោះបីជាចំនួនជនសង្ស័យមានតិចតួចក៏ដោយ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖