បញ្ហា (The Problem)៖ ឯកសារនេះផ្តោតលើការដោះស្រាយបញ្ហាភាពលម្អៀងនៅក្នុងក្បួនដោះស្រាយនៃការរៀនរបស់ម៉ាស៊ីន (Machine Learning algorithms) ដែលបណ្តាលមកពីទិន្នន័យមិនមានតុល្យភាព (Imbalanced datasets) ដែលអាចនាំឱ្យមានការសម្រេចចិត្តមិនស្មើភាពគ្នាលើក្រុមជនជាតិ ឬយេនឌ័រណាមួយ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រកែតម្រូវទំហំនិងរបាយទិន្នន័យ ដើម្បីសាកល្បងលើម៉ូដែលវាយតម្លៃនិងជ្រើសរើសបេក្ខជនឱ្យមានតម្លាភាព។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Upsampling (Oversampling) ការបង្កើនទិន្នន័យ (Upsampling) |
ជួយរក្សាតុល្យភាពទិន្នន័យដោយមិនបាត់បង់ព័ត៌មានដើម និងផ្តល់ឱ្យម៉ូដែលនូវទិន្នន័យគ្រប់គ្រាន់សម្រាប់រៀនពីក្រុមភាគតិច។ | អាចបណ្តាលឱ្យមានបញ្ហា Overfitting និងបង្កើនទិន្នន័យរំខាន (Noise) នៅក្នុងប្រព័ន្ធដោយសារការចម្លងទិន្នន័យដដែលៗ។ | ធ្វើឱ្យទិន្នន័យបេក្ខជនភេទប្រុស និងស្រីមានចំនួនស្មើគ្នា (៧០៩ នាក់) និងជួយឱ្យបេក្ខនារីម្នាក់ដែលត្រូវគេបដិសេធពីដំបូង អាចជាប់ឈ្មោះត្រឡប់មកវិញ។ |
| Downsampling (Undersampling) ការកាត់បន្ថយទិន្នន័យ (Downsampling) |
ជួយឱ្យម៉ូដែលធ្វើការវាយតម្លៃបានទូលំទូលាយ (Generalization) កាត់បន្ថយភាពលម្អៀងទៅរកក្រុមភាគច្រើន និងសន្សំសំចៃថាមពលកុំព្យូទ័រ។ | ប្រឈមនឹងការបាត់បង់ព័ត៌មាន ឬលំនាំទិន្នន័យសំខាន់ៗពីក្រុមភាគច្រើនដោយសារតែការលុបចោលកំណត់ត្រាដោយចៃដន្យ។ | កាត់បន្ថយទិន្នន័យក្រុមភាគច្រើនឱ្យមានទំហំស្មើនឹងក្រុមភាគតិច (ឧទាហរណ៍៖ កាត់បន្ថយពី ១០០ មកត្រឹម ១០ ដើម្បឱ្យស្មើគ្នានឹងក្រុមមួយទៀត)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់ពីការចំណាយលើធនធានកុំព្យូទ័រធំដុំនោះទេ ដោយសារវាប្រើប្រាស់ទិន្នន័យតូច (១០០០ ជួរ) និងម៉ូដែលសាមញ្ញ។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយអ្នកស្រាវជ្រាវនៅស្ថាប័ន Pune Institute នៃប្រទេសឥណ្ឌា ដោយប្រើប្រាស់សំណុំទិន្នន័យជ្រើសរើសបុគ្គលិកដែលមានបេក្ខជន ១០០០ នាក់ (មានបុរសលើសលុប)។ ទោះបីជាទិន្នន័យនេះមិនមែនជារបស់កម្ពុជាដោយផ្ទាល់ក៏ដោយ ប៉ុន្តែវាឆ្លុះបញ្ចាំងយ៉ាងច្បាស់ពីបញ្ហាអតុល្យភាពយេនឌ័រនៅក្នុងទីផ្សារការងារ ដែលជារឿងគួរឱ្យកត់សម្គាល់បំផុតសម្រាប់ប្រទេសកម្ពុជាក្នុងការរៀបចំប្រព័ន្ធ AI នាពេលអនាគត។
បច្ចេកទេសកាត់បន្ថយភាពលម្អៀងទាំងនេះមានសារៈសំខាន់ និងអាចអនុវត្តបានយ៉ាងល្អនៅក្នុងបរិបទនៃការរីកចម្រើននៃប្រព័ន្ធបច្ចេកវិទ្យានៅកម្ពុជា។
ការអនុវត្តបច្ចេកទេសកែតម្រូវទិន្នន័យទាំងនេះ នឹងជួយឱ្យស្ថាប័ននៅកម្ពុជាអាចកសាងប្រព័ន្ធ AI មួយដែលប្រកបដោយក្រមសីលធម៌ យុត្តិធម៌ និងមិនរើសអើង។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Upsampling | ដំណើរការនៃការបង្កើនចំនួនទិន្នន័យនៃក្រុមភាគតិច (Minority class) នៅក្នុងសំណុំទិន្នន័យ ដើម្បីឱ្យមានតុល្យភាពជាមួយក្រុមភាគច្រើន ដោយការចម្លងទិន្នន័យដើមដដែលៗ ឬប្រើក្បួនដើម្បីបង្កើតទិន្នន័យថ្មី។ | ដូចជាការថតចម្លង (Copy) ឯកសារសំខាន់ៗដែលមានតិចតួចឱ្យបានច្រើនសន្លឹក ដើម្បីឱ្យមានចំនួនស្មើនឹងឯកសារទូទៅផ្សេងទៀត។ |
| Downsampling | ការកាត់បន្ថយទំហំទិន្នន័យនៃក្រុមភាគច្រើន (Majority class) ឱ្យមកត្រឹមចំនួនមួយដែលស្មើនឹងក្រុមភាគតិច ដោយការលុបចោលកំណត់ត្រាមួយចំនួនដោយចៃដន្យ ដើម្បីជៀសវាងម៉ូដែលលម្អៀង។ | ដូចជាការដកសិស្សប្រុសមួយចំនួនចេញពីក្រុមដែលមានប្រុសច្រើនពេក ដើម្បីឱ្យចំនួនសិស្សប្រុសនិងសិស្សស្រីនៅក្នុងក្រុមមានតុល្យភាពគ្នាស្មើៗគ្នា។ |
| SMOTE (Synthetic Minority Over-sampling Technique) | បច្ចេកទេសមួយក្នុងការធ្វើ Upsampling ដែលមិនមែនគ្រាន់តែចម្លងទិន្នន័យចាស់ដដែលៗនោះទេ ប៉ុន្តែវាប្រើប្រាស់ក្បួនគណិតវិទ្យាដើម្បីបង្កើតទិន្នន័យថ្មីៗ (Synthetic data) ដែលមានលក្ខណៈស្រដៀងទៅនឹងទិន្នន័យភាគតិចដើម។ | ដូចជាការយកពណ៌ក្រហមដែលមានតិចតួចមកលាយជាមួយពណ៌ទឹកក្រូច ដើម្បីបង្កើតជាពណ៌ថ្មីមួយទៀតដែលមានលក្ខណៈស្រដៀងពណ៌ក្រហម ជំនួសឱ្យការគ្រាន់តែចាក់ពណ៌ក្រហមដដែលៗ។ |
| Overfitting | បញ្ហាដែលកើតឡើងនៅពេលដែលម៉ូដែល Machine Learning រៀនទន្ទេញចាំទិន្នន័យហ្វឹកហាត់ (Training data) និងទិន្នន័យរំខាន (Noise) ខ្លាំងពេក រហូតដល់មិនអាចធ្វើការទស្សន៍ទាយបានត្រឹមត្រូវលើទិន្នន័យថ្មីដែលវាមិនធ្លាប់ជួបពីមុនមក។ | ដូចជាសិស្សដែលទន្ទេញចាំតែវិញ្ញាសាចាស់ៗដើម្បីប្រឡង ប៉ុន្តែពេលគ្រូចេញវិញ្ញាសាថ្មីបែរជាធ្វើមិនបាន ព្រោះគាត់មិនយល់ពីមេរៀនពិតប្រាកដ។ |
| Generative Adversarial Networks (GANs) | ប្រព័ន្ធ AI ដែលមានបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតចំនួនពីរប្រកួតប្រជែងគ្នា (មួយបង្កើតទិន្នន័យ មួយទៀតពិនិត្យទិន្នន័យ) ដើម្បីបង្កើតទិន្នន័យថ្មីដែលមើលទៅដូចជារបស់ពិត។ ក្នុងករណីនេះ វាត្រូវបានប្រើដើម្បីបង្កើតទិន្នន័យបន្ថែមសម្រាប់ក្រុមភាគតិចដើម្បីដោះស្រាយភាពលម្អៀង។ | ដូចជាជាងគំនូរក្លែងក្លាយខិតខំគូររូបឱ្យដូចពិតប្រាកដ ខណៈពេលដែលអ្នកត្រួតពិនិត្យសិល្បៈខិតខំចាប់កំហុស រហូតទាល់តែអ្នកត្រួតពិនិត្យមើលលែងដឹងថាមួយណាពិតមួយណាក្លែងក្លាយ។ |
| Adversarial Debiasing | បច្ចេកទេសកាត់បន្ថយភាពលម្អៀងដោយប្រើប្រព័ន្ធពីរប្រកួតគ្នា៖ មួយព្យាករណ៍លទ្ធផល និងមួយទៀតព្យាយាមទាយថាតើលទ្ធផលនោះមានភាពលម្អៀងដែរឬទេ។ វាដំណើរការរហូតដល់ប្រព័ន្ធទីពីរលែងអាចរកឃើញភាពលម្អៀង។ | ដូចជាចៅក្រមម្នាក់ខិតខំកាត់ក្តីឱ្យយុត្តិធម៌បំផុត ដើម្បីកុំឱ្យអ្នកសារព័ត៌មានដែលចាំតែចាប់កំហុស អាចរកឃើញចំណុចលម្អៀងណាមួយពីការកាត់ក្តីនោះបាន។ |
| Meta-learning | បច្ចេកទេសនៃការ "រៀនពីរបៀបរៀន" ដោយបង្វឹកម៉ូដែលឱ្យដោះស្រាយកិច្ចការផ្សេងៗគ្នាជាច្រើន ដើម្បីឱ្យវាអាចសម្របខ្លួននិងរៀនកិច្ចការថ្មីៗបានយ៉ាងរហ័ស ទោះបីជាមានទិន្នន័យតិចតួចក៏ដោយ។ | ដូចជាការបង្រៀនក្មេងម្នាក់ឱ្យចេះពីរបៀបអានសៀវភៅនិងស្រាវជ្រាវដោយខ្លួនឯង ដូច្នេះនៅពេលគាត់ជួបមុខវិជ្ជាថ្មី គាត់អាចរៀនយល់បានលឿនជាងក្មេងដែលរង់ចាំតែគ្រូបង្រៀន។ |
| Distributionally Robust Optimization (DRO) | វិធីសាស្ត្របង្វឹកម៉ូដែលកុំព្យូទ័រឱ្យអាចដំណើរការបានល្អបំផុត សូម្បីតែនៅក្នុងស្ថានភាពអាក្រក់បំផុត (Worst-case scenarios) ឬនៅពេលដែលរបាយទិន្នន័យមានការប្រែប្រួលខ្លាំង ដែលជាទូទៅពាក់ព័ន្ធនឹងក្រុមទិន្នន័យដែលកម្រមាន។ | ដូចជាការបង្ហាត់ទាហានឱ្យចេះប្រយុទ្ធក្នុងស្ថានភាពអាក្រក់បំផុតដូចជាភ្លៀងធ្លាក់ខ្លាំង ឬខ្វះអាវុធ ដើម្បីធានាថាពួកគេអាចតស៊ូបានគ្រប់កាលៈទេសៈទាំងអស់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖