បញ្ហា (The Problem)៖ ការរកឃើញទិន្នន័យខុសប្រក្រតី (Outlier detection) នៅក្នុងសំណុំទិន្នន័យជាក់ស្តែងដែលមានទំហំធំ និងមិនមានតុល្យភាព ប្រឈមនឹងបញ្ហាភាពស្មុគស្មាញនៃពេលវេលា អត្រាផ្តល់សញ្ញាខុសខ្ពស់ និងភាពត្រឹមត្រូវទាប។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះណែនាំវិធីសាស្ត្រចំនួនបីដំណាក់កាលដោយរួមបញ្ចូលការរៀបចំទិន្នន័យ ការបង្កើនប្រសិទ្ធភាពដោយក្បួនដោះស្រាយ BAT និងការចង្កោមពាក់កណ្តាលមានការត្រួតពិនិត្យ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| GSSBAT (Proposed) ក្បួនដោះស្រាយ GSSBAT (ការចង្កោមពាក់កណ្តាលមានការត្រួតពិនិត្យផ្អែកលើក្រាហ្វជាមួយ BAT) |
មានពេលវេលាដំណើរការលឿនបំផុត អត្រារកឃើញខ្ពស់ និងអាចដោះស្រាយបញ្ហាទិន្នន័យមិនមានតុល្យភាពបានយ៉ាងល្អ។ | ទាមទារការយល់ដឹងស៊ីជម្រៅក្នុងការបញ្ចូលគ្នារវាងទ្រឹស្តីក្រាហ្វ និងក្បួនដោះស្រាយបង្កើនប្រសិទ្ធភាពជីវសាស្ត្រ (BAT algorithm)។ | កំហុស NRMSE ទាបបំផុត (0.02) និងអត្រារកឃើញ (DR) ខ្ពស់ដល់ 0.8856។ |
| EMPWC ក្បួនដោះស្រាយ EMPWC (Expectation Maximization Particle Swarm Optimization Weighted Clustering) |
ដំណើរការបានល្អជាងវិធីសាស្ត្រចាស់ៗ និងមានភាពបត់បែនក្នុងការរកឃើញទិន្នន័យខុសប្រក្រតី។ | ប្រើប្រាស់ពេលវេលាយូរក្នុងការគណនា និងមានកម្រិតក្នុងការដោះស្រាយទិន្នន័យដែលមានវិមាត្រធំ និងមិនមានតុល្យភាព។ | កំហុស NRMSE ស្មើនឹង 0.04 និងអត្រា AUC ទាបជាង GSSBAT បន្តិច។ |
| ITB-SS / ITB-SP វិធីសាស្ត្រផ្អែកលើទ្រឹស្តីព័ត៌មាន (Information-Theory-Based) |
មិនតម្រូវឱ្យអ្នកប្រើប្រាស់កំណត់ប៉ារ៉ាម៉ែត្រជាមុនក្នុងការរកឃើញទិន្នន័យខុសប្រក្រតី។ | ជួបប្រទះការលំបាកយ៉ាងខ្លាំងនៅពេលដោះស្រាយជាមួយសំណុំទិន្នន័យដែលមានវិមាត្រច្រើន និងទំហំធំ។ | កំហុស NRMSE ខ្ពស់រហូតដល់ 0.09 (សម្រាប់ ITB-SS) និង 0.11 (សម្រាប់ ITB-SP)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីតម្រូវការផ្នែករឹង (Hardware) នោះទេ ប៉ុន្តែវិធីសាស្ត្រនេះទាមទារសមត្ថភាពគណនាល្មមដើម្បីដំណើរការលើសំណុំទិន្នន័យធំៗ។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារសាធារណៈពី UCI (ដូចជា ទិន្នន័យជំងឺទឹកនោមផ្អែម ទិន្នន័យឥណទាន និងសណ្តែកសៀង) ដែលមិនមែនជាទិន្នន័យជាក់លាក់របស់ប្រទេសកម្ពុជាទេ។ យ៉ាងណាមិញ វិធីសាស្ត្រនេះមានលក្ខណៈទូទៅដែលអាចយកមកអនុវត្តលើទិន្នន័យក្នុងស្រុកបាន ដរាបណាទិន្នន័យនោះត្រូវបានប្រមូល និងរៀបចំបានត្រឹមត្រូវ។
វិធីសាស្ត្រ GSSBAT មានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅកម្ពុជា ជាពិសេសក្នុងវិស័យដែលត្រូវការតាមដានភាពមិនប្រក្រតីនៃទិន្នន័យក្នុងទ្រង់ទ្រាយធំ។
ជារួម ក្បួនដោះស្រាយ GSSBAT ផ្តល់នូវដំណោះស្រាយដ៏មានប្រសិទ្ធភាព និងចំណាយពេលតិច សម្រាប់ការរកឃើញទិន្នន័យកម្រ ដែលជាកត្តាជំរុញដ៏សំខាន់សម្រាប់ការធ្វើឌីជីថលូបនីយកម្មប្រកបដោយសុវត្ថិភាពនៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Outlier Detection | គឺជាដំណើរការនៃការស្វែងរកទិន្នន័យ ឬចំណុចដែលមានលក្ខណៈខុសប្លែកយ៉ាងខ្លាំងពីទិន្នន័យទូទៅផ្សេងទៀតនៅក្នុងសំណុំទិន្នន័យ ដែលជាញឹកញាប់ត្រូវបានចាត់ទុកថាជាកំហុស ព័ត៌មានក្លែងបន្លំ ឬជាព័ត៌មានដ៏មានតម្លៃ។ | ដូចជាការរកឃើញសត្វក្អែកពណ៌សមួយក្បាល នៅក្នុងហ្វូងសត្វក្អែកពណ៌ខ្មៅរាប់ពាន់ក្បាល។ |
| BAT Algorithm | ជាក្បួនដោះស្រាយបង្កើនប្រសិទ្ធភាពដែលយកលំនាំតាមការបញ្ចេញសំឡេង (Echolocation) របស់សត្វប្រចៀវដើម្បីស្វែងរកចំណី ដោយវាផ្លាស់ប្តូរប្រេកង់ និងកម្រិតសំឡេងដើម្បីស្វែងរកចម្លើយដែលល្អបំផុតនៅក្នុងលំហទិន្នន័យ។ | ដូចជាមនុស្សខ្វាក់ប្រើឈើច្រត់គោះដីស្តាប់សម្លេងត្រឡប់មកវិញ ដើម្បីដឹងថាមានឧបសគ្គ ឬផ្លូវដើរនៅខាងមុខ ក្នុងគោលបំណងរកផ្លូវដែលល្អបំផុត។ |
| Semi Supervised Clustering | ជាបច្ចេកទេសបែងចែកក្រុមទិន្នន័យដោយប្រើប្រាស់ទិន្នន័យដែលស្គាល់អត្តសញ្ញាណ (Labeled data) មួយចំនួនតូច ដើម្បីជួយណែនាំ ឬបង្រៀនម៉ូដែលក្នុងការបែងចែកទិន្នន័យដែលមិនស្គាល់អត្តសញ្ញាណ (Unlabeled data) ដ៏ច្រើនសន្ធឹកសន្ធាប់ដោយស្វ័យប្រវត្តិ។ | ដូចជាគ្រូបង្រៀនប្រាប់សិស្សពីរបៀបញែកផ្លែឈើ៣-៤ផ្លែជាមុន រួចឱ្យសិស្សបន្តញែកផ្លែឈើមួយគំនរធំដោយខ្លួនឯងតាមគំរូនោះ។ |
| Min-Max Normalization | ជាវិធីសាស្ត្ររៀបចំទិន្នន័យជាមុនដោយបំប្លែងតម្លៃទិន្នន័យទាំងអស់ឱ្យស្ថិតនៅក្នុងចន្លោះលីមីតជាក់លាក់មួយ (ជាទូទៅចន្លោះពី ០ ដល់ ១) ដើម្បីការពារកុំឱ្យទិន្នន័យដែលមានតម្លៃលេខធំៗគ្របដណ្តប់លើទិន្នន័យដែលមានតម្លៃលេខតូចៗក្នុងការគណនា។ | ដូចជាការប្តូរពិន្ទុមុខវិជ្ជាផ្សេងៗគ្នា (ខ្លះពិន្ទុពេញ ១០០, ខ្លះ ៥០) ឱ្យទៅជាប្រព័ន្ធពិន្ទុភាគរយ (១០០%) ដូចគ្នាដើម្បីងាយស្រួលបូកសរុប។ |
| SMOTE | អក្សរកាត់ពី Synthetic Minority Over-sampling Technique គឺជាបច្ចេកទេសសម្រាប់ដោះស្រាយបញ្ហាសំណុំទិន្នន័យមិនមានតុល្យភាព ដោយវាបង្កើតទិន្នន័យក្លែងក្លាយបន្ថែមសម្រាប់ក្រុមទិន្នន័យដែលមានចំនួនតិចតួច ដើម្បីឱ្យមានតុល្យភាពជាមួយក្រុមទិន្នន័យធំ។ | ដូចជាការថតចម្លងឯកសារ (Copy) នៃក្រុមមនុស្សភាគតិចឱ្យបានច្រើនសន្លឹក ដើម្បីឱ្យមើលទៅមានតុល្យភាពជាមួយក្រុមមនុស្សភាគច្រើនក្នុងការធ្វើការស្ទង់មតិ។ |
| Holoentropy | ជារង្វាស់នៅក្នុងទ្រឹស្តីព័ត៌មានដែលរួមបញ្ចូលគ្នារវាងអង់ត្រូពី (កម្រិតភាពមិនប្រាកដប្រជា) និងទំនាក់ទំនងសរុបនៃទិន្នន័យ ដើម្បីវាស់ស្ទង់ពីលទ្ធភាពនៃភាពមិនប្រក្រតីរបស់ទិន្នន័យនីមួយៗ និងកាត់បន្ថយការបាត់បង់ព័ត៌មាន។ | ដូចជាការវាយតម្លៃលទ្ធផលសិក្សារបស់សិស្សម្នាក់ដោយមើលទាំងពិន្ទុប្រចាំខែ និងសកម្មភាពចូលរួមក្នុងថ្នាក់រួមបញ្ចូលគ្នា ជាជាងមើលតែលើពិន្ទុប្រឡងតែមួយមុខ។ |
| Jensen-Shannon Divergence (JSD) | ជារូបមន្តគណិតវិទ្យាសម្រាប់វាស់ស្ទង់ភាពខុសគ្នា ឬភាពស្រដៀងគ្នារវាងរបាយប្រូបាប៊ីលីតេ (Probability distributions) ពីរផ្សេងគ្នា ដើម្បីជួយម៉ូដែលក្នុងការផ្តល់ទម្ងន់ត្រឹមត្រូវដល់លក្ខណៈនៃទិន្នន័យ។ | ដូចជាឧបករណ៍វាស់កម្រិតភាពស្រដៀងគ្នានៃរសជាតិស៊ុបពីរឆ្នាំងផ្សេងគ្នា ថាមានរសជាតិប្រហាក់ប្រហែលគ្នាប៉ុណ្ណា។ |
| Normalized Root Mean Square Error (NRMSE) | ជារង្វាស់វាយតម្លៃកំហុសរបស់ម៉ូដែល ដោយវាស់ស្ទង់ភាពខុសគ្នារវាងតម្លៃដែលម៉ូដែលបានទាយទុក និងតម្លៃពិតប្រាកដ រួចធ្វើការធ្វើឱ្យមានស្តង់ដារជាភាគរយ ដើម្បីងាយស្រួលប្រៀបធៀបប្រសិទ្ធភាពរវាងម៉ូដែលផ្សេងៗ។ | ដូចជាការវាស់ស្ទង់ថាការបាញ់ធ្នូរបស់យើងខុសពីចំណុចកណ្តាលប៉ុន្មានសង់ទីម៉ែត្រ រួចគិតជាភាគរយនៃទំហំផ្ទាំងស៊ីបទាំងមូល ដើម្បីដឹងថាយើងបាញ់ខុសកម្រិតណា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖