Original Title: Efficient Outlier Detection Using Graph Based Semi Supervised Clustering with BAT Algorithm
Source: jset.sasapublications.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរកឃើញទិន្នន័យខុសប្រក្រតីប្រកបដោយប្រសិទ្ធភាពដោយប្រើការចង្កោមពាក់កណ្តាលមានការត្រួតពិនិត្យផ្អែកលើក្រាហ្វជាមួយក្បួនដោះស្រាយ BAT

ចំណងជើងដើម៖ Efficient Outlier Detection Using Graph Based Semi Supervised Clustering with BAT Algorithm

អ្នកនិពន្ធ៖ J. Rajeswari (Karpagam University, Coimbatore), Dr. R. Gunasundari (Karpagam University, Coimbatore)

ឆ្នាំបោះពុម្ព៖ 2016, Journal on Science Engineering & Technology

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការរកឃើញទិន្នន័យខុសប្រក្រតី (Outlier detection) នៅក្នុងសំណុំទិន្នន័យជាក់ស្តែងដែលមានទំហំធំ និងមិនមានតុល្យភាព ប្រឈមនឹងបញ្ហាភាពស្មុគស្មាញនៃពេលវេលា អត្រាផ្តល់សញ្ញាខុសខ្ពស់ និងភាពត្រឹមត្រូវទាប។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះណែនាំវិធីសាស្ត្រចំនួនបីដំណាក់កាលដោយរួមបញ្ចូលការរៀបចំទិន្នន័យ ការបង្កើនប្រសិទ្ធភាពដោយក្បួនដោះស្រាយ BAT និងការចង្កោមពាក់កណ្តាលមានការត្រួតពិនិត្យ។

ការរៀបចំទិន្នន័យជាមុន (Pre-processing) តាមរយៈការធ្វើ Min-Max Normalization និង SMOTE ជាមួយ kNN ដើម្បីដោះស្រាយសំណុំទិន្នន័យមិនមានតុល្យភាព
ការប៉ាន់ស្មានទិន្នន័យខុសប្រក្រតី (Outlier Estimation) ដោយប្រើក្បួនដោះស្រាយបង្កើនប្រសិទ្ធភាព BAT ផ្អែកលើសូចនាករអង់ត្រូពី (Weighted Holoentropy)
ការចង្កោម (Clustering) ដោយប្រើក្បួនដោះស្រាយការចង្កោមពាក់កណ្តាលមានការត្រួតពិនិត្យផ្អែកលើក្រាហ្វ (GSS Algorithm)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ក្បួនដោះស្រាយ GSSBAT ទទួលបានអត្រានៃការរកឃើញទិន្នន័យខុសប្រក្រតី (Detection Rate) ខ្ពស់រហូតដល់ 0.8856 ធៀបនឹងវិធីសាស្ត្រ EMPWC, AMCEM មុនៗ
ប្រព័ន្ធនេះជួយកាត់បន្ថយកំហុស Normalized Mean Square Error (NMSE) មកនៅត្រឹម 0.02 ដែលជាកម្រិតទាបបំផុត
ពេលវេលាដំណើរការ (Execution time) និងអត្រាផ្តល់សញ្ញាខុស (False Alarm Rate) ត្រូវបានកាត់បន្ថយយ៉ាងមានប្រសិទ្ធភាព ធ្វើឱ្យវាស័ក្តិសមបំផុតសម្រាប់ទិន្នន័យចម្រុះដែលមានទំហំធំ

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
GSSBAT (Proposed) ក្បួនដោះស្រាយ GSSBAT (ការចង្កោមពាក់កណ្តាលមានការត្រួតពិនិត្យផ្អែកលើក្រាហ្វជាមួយ BAT)	មានពេលវេលាដំណើរការលឿនបំផុត អត្រារកឃើញខ្ពស់ និងអាចដោះស្រាយបញ្ហាទិន្នន័យមិនមានតុល្យភាពបានយ៉ាងល្អ។	ទាមទារការយល់ដឹងស៊ីជម្រៅក្នុងការបញ្ចូលគ្នារវាងទ្រឹស្តីក្រាហ្វ និងក្បួនដោះស្រាយបង្កើនប្រសិទ្ធភាពជីវសាស្ត្រ (BAT algorithm)។	កំហុស NRMSE ទាបបំផុត (0.02) និងអត្រារកឃើញ (DR) ខ្ពស់ដល់ 0.8856។
EMPWC ក្បួនដោះស្រាយ EMPWC (Expectation Maximization Particle Swarm Optimization Weighted Clustering)	ដំណើរការបានល្អជាងវិធីសាស្ត្រចាស់ៗ និងមានភាពបត់បែនក្នុងការរកឃើញទិន្នន័យខុសប្រក្រតី។	ប្រើប្រាស់ពេលវេលាយូរក្នុងការគណនា និងមានកម្រិតក្នុងការដោះស្រាយទិន្នន័យដែលមានវិមាត្រធំ និងមិនមានតុល្យភាព។	កំហុស NRMSE ស្មើនឹង 0.04 និងអត្រា AUC ទាបជាង GSSBAT បន្តិច។
ITB-SS / ITB-SP វិធីសាស្ត្រផ្អែកលើទ្រឹស្តីព័ត៌មាន (Information-Theory-Based)	មិនតម្រូវឱ្យអ្នកប្រើប្រាស់កំណត់ប៉ារ៉ាម៉ែត្រជាមុនក្នុងការរកឃើញទិន្នន័យខុសប្រក្រតី។	ជួបប្រទះការលំបាកយ៉ាងខ្លាំងនៅពេលដោះស្រាយជាមួយសំណុំទិន្នន័យដែលមានវិមាត្រច្រើន និងទំហំធំ។	កំហុស NRMSE ខ្ពស់រហូតដល់ 0.09 (សម្រាប់ ITB-SS) និង 0.11 (សម្រាប់ ITB-SP)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីតម្រូវការផ្នែករឹង (Hardware) នោះទេ ប៉ុន្តែវិធីសាស្ត្រនេះទាមទារសមត្ថភាពគណនាល្មមដើម្បីដំណើរការលើសំណុំទិន្នន័យធំៗ។

Hardware: កុំព្យូទ័រដែលមានអង្គចងចាំ (RAM) និងស៊ីភីយូ (CPU) គ្រប់គ្រាន់សម្រាប់ផ្ទុក និងគណនាម៉ាទ្រីសក្រាហ្វនៃសំណុំទិន្នន័យធំៗ។
Software: បរិស្ថានសរសេរកូដដែលអាចដំណើរការក្បួនដោះស្រាយស្មុគស្មាញ (ឧទាហរណ៍ Python ឬ MATLAB)។
Dataset: សំណុំទិន្នន័យស្តង់ដារពី UCI Machine Learning Repository (ដូចជា Breast-c, Credit-a, Diabetes, Ecoli) សម្រាប់ធ្វើតេស្ត។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារសាធារណៈពី UCI (ដូចជា ទិន្នន័យជំងឺទឹកនោមផ្អែម ទិន្នន័យឥណទាន និងសណ្តែកសៀង) ដែលមិនមែនជាទិន្នន័យជាក់លាក់របស់ប្រទេសកម្ពុជាទេ។ យ៉ាងណាមិញ វិធីសាស្ត្រនេះមានលក្ខណៈទូទៅដែលអាចយកមកអនុវត្តលើទិន្នន័យក្នុងស្រុកបាន ដរាបណាទិន្នន័យនោះត្រូវបានប្រមូល និងរៀបចំបានត្រឹមត្រូវ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ GSSBAT មានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅកម្ពុជា ជាពិសេសក្នុងវិស័យដែលត្រូវការតាមដានភាពមិនប្រក្រតីនៃទិន្នន័យក្នុងទ្រង់ទ្រាយធំ។

វិស័យធនាគារ និងហិរញ្ញវត្ថុ (Banking & Finance): ធនាគារពាណិជ្ជ ឬស្ថាប័នហិរញ្ញវត្ថុនៅកម្ពុជា អាចប្រើប្រាស់វាដើម្បីរកឃើញប្រតិបត្តិការបន្លំ (Fraud Detection) ឬសកម្មភាពឥណទានខុសប្រក្រតីឱ្យបានទាន់ពេលវេលា។
វិស័យសុខាភិបាល (Healthcare): មន្ទីរពេទ្យធំៗ ឬក្រសួងសុខាភិបាល អាចប្រើវាដើម្បីវិភាគទិន្នន័យអ្នកជំងឺ (ឧទាហរណ៍ កំណត់សម្គាល់ករណីជំងឺកម្រ ឬទិន្នន័យជំងឺទឹកនោមផ្អែម) ដើម្បីធ្វើរោគវិនិច្ឆ័យបានរហ័ស។
វិស័យកសិកម្ម (Agriculture): ដោយសារការសិក្សានេះប្រើទិន្នន័យសណ្តែកសៀង ក្រសួងកសិកម្មអាចអនុវត្តគំរូនេះដើម្បីតាមដាន និងរកឃើញការខូចខាតដំណាំដោយសារសត្វល្អិត ឬអាកាសធាតុប្រែប្រួល។

ជារួម ក្បួនដោះស្រាយ GSSBAT ផ្តល់នូវដំណោះស្រាយដ៏មានប្រសិទ្ធភាព និងចំណាយពេលតិច សម្រាប់ការរកឃើញទិន្នន័យកម្រ ដែលជាកត្តាជំរុញដ៏សំខាន់សម្រាប់ការធ្វើឌីជីថលូបនីយកម្មប្រកបដោយសុវត្ថិភាពនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ សិក្សាពីការដោះស្រាយទិន្នន័យមិនមានតុល្យភាព (Data Imbalance): ស្វែងយល់ពីបច្ចេកទេស SMOTE និង KNN ដើម្បីរៀបចំទិន្នន័យជាមុន ដោយអនុវត្តសរសេរកូដសាកល្បងជាមួយបណ្ណាល័យ Scikit-Learn និង Imbalanced-learn ក្នុងភាសា Python។
ជំហានទី២៖ ស្វែងយល់ពី BAT Algorithm: សិក្សាពីទ្រឹស្តីនៃការបញ្ចេញសំឡេងរកទីតាំងរបស់សត្វប្រចៀវ (Echolocation) និងរបៀបបំប្លែងវាទៅជាក្បួនដោះស្រាយបង្កើនប្រសិទ្ធភាព។ អ្នកអាចសាកល្បងប្រើប្រាស់បណ្ណាល័យ Niapy ឬសរសេរកូដពីសូន្យ (From scratch)។
ជំហានទី៣៖ សិក្សាពីការចង្កោមដោយប្រើក្រាហ្វ (Graph-Based Clustering): រៀនពីរបៀបបង្កើតក្រាហ្វ K-nearest neighbors ដោយប្រើប្រាស់អនុគមន៍ Gaussian និងរង្វាស់ចម្ងាយ Euclidean ដោយសាកល្បងប្រើប្រាស់ NetworkX សម្រាប់បង្កើតគំរូក្រាហ្វក្នុង Python។
ជំហានទី៤៖ សាកល្បងអនុវត្តជាមួយទិន្នន័យពិត (Real-world Data Implementation): ទាញយកសំណុំទិន្នន័យដូចជា Credit Approval ពី UCI Repository រួចសាកល្បងបញ្ចូលគ្នានូវក្បួន BAT និងការចង្កោមពាក់កណ្តាលមានការត្រួតពិនិត្យ ដើម្បីវាយតម្លៃអត្រា AUC និង NRMSE ដូចការសិក្សាដើម។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Outlier Detection	គឺជាដំណើរការនៃការស្វែងរកទិន្នន័យ ឬចំណុចដែលមានលក្ខណៈខុសប្លែកយ៉ាងខ្លាំងពីទិន្នន័យទូទៅផ្សេងទៀតនៅក្នុងសំណុំទិន្នន័យ ដែលជាញឹកញាប់ត្រូវបានចាត់ទុកថាជាកំហុស ព័ត៌មានក្លែងបន្លំ ឬជាព័ត៌មានដ៏មានតម្លៃ។	ដូចជាការរកឃើញសត្វក្អែកពណ៌សមួយក្បាល នៅក្នុងហ្វូងសត្វក្អែកពណ៌ខ្មៅរាប់ពាន់ក្បាល។
BAT Algorithm	ជាក្បួនដោះស្រាយបង្កើនប្រសិទ្ធភាពដែលយកលំនាំតាមការបញ្ចេញសំឡេង (Echolocation) របស់សត្វប្រចៀវដើម្បីស្វែងរកចំណី ដោយវាផ្លាស់ប្តូរប្រេកង់ និងកម្រិតសំឡេងដើម្បីស្វែងរកចម្លើយដែលល្អបំផុតនៅក្នុងលំហទិន្នន័យ។	ដូចជាមនុស្សខ្វាក់ប្រើឈើច្រត់គោះដីស្តាប់សម្លេងត្រឡប់មកវិញ ដើម្បីដឹងថាមានឧបសគ្គ ឬផ្លូវដើរនៅខាងមុខ ក្នុងគោលបំណងរកផ្លូវដែលល្អបំផុត។
Semi Supervised Clustering	ជាបច្ចេកទេសបែងចែកក្រុមទិន្នន័យដោយប្រើប្រាស់ទិន្នន័យដែលស្គាល់អត្តសញ្ញាណ (Labeled data) មួយចំនួនតូច ដើម្បីជួយណែនាំ ឬបង្រៀនម៉ូដែលក្នុងការបែងចែកទិន្នន័យដែលមិនស្គាល់អត្តសញ្ញាណ (Unlabeled data) ដ៏ច្រើនសន្ធឹកសន្ធាប់ដោយស្វ័យប្រវត្តិ។	ដូចជាគ្រូបង្រៀនប្រាប់សិស្សពីរបៀបញែកផ្លែឈើ៣-៤ផ្លែជាមុន រួចឱ្យសិស្សបន្តញែកផ្លែឈើមួយគំនរធំដោយខ្លួនឯងតាមគំរូនោះ។
Min-Max Normalization	ជាវិធីសាស្ត្ររៀបចំទិន្នន័យជាមុនដោយបំប្លែងតម្លៃទិន្នន័យទាំងអស់ឱ្យស្ថិតនៅក្នុងចន្លោះលីមីតជាក់លាក់មួយ (ជាទូទៅចន្លោះពី ០ ដល់ ១) ដើម្បីការពារកុំឱ្យទិន្នន័យដែលមានតម្លៃលេខធំៗគ្របដណ្តប់លើទិន្នន័យដែលមានតម្លៃលេខតូចៗក្នុងការគណនា។	ដូចជាការប្តូរពិន្ទុមុខវិជ្ជាផ្សេងៗគ្នា (ខ្លះពិន្ទុពេញ ១០០, ខ្លះ ៥០) ឱ្យទៅជាប្រព័ន្ធពិន្ទុភាគរយ (១០០%) ដូចគ្នាដើម្បីងាយស្រួលបូកសរុប។
SMOTE	អក្សរកាត់ពី Synthetic Minority Over-sampling Technique គឺជាបច្ចេកទេសសម្រាប់ដោះស្រាយបញ្ហាសំណុំទិន្នន័យមិនមានតុល្យភាព ដោយវាបង្កើតទិន្នន័យក្លែងក្លាយបន្ថែមសម្រាប់ក្រុមទិន្នន័យដែលមានចំនួនតិចតួច ដើម្បីឱ្យមានតុល្យភាពជាមួយក្រុមទិន្នន័យធំ។	ដូចជាការថតចម្លងឯកសារ (Copy) នៃក្រុមមនុស្សភាគតិចឱ្យបានច្រើនសន្លឹក ដើម្បីឱ្យមើលទៅមានតុល្យភាពជាមួយក្រុមមនុស្សភាគច្រើនក្នុងការធ្វើការស្ទង់មតិ។
Holoentropy	ជារង្វាស់នៅក្នុងទ្រឹស្តីព័ត៌មានដែលរួមបញ្ចូលគ្នារវាងអង់ត្រូពី (កម្រិតភាពមិនប្រាកដប្រជា) និងទំនាក់ទំនងសរុបនៃទិន្នន័យ ដើម្បីវាស់ស្ទង់ពីលទ្ធភាពនៃភាពមិនប្រក្រតីរបស់ទិន្នន័យនីមួយៗ និងកាត់បន្ថយការបាត់បង់ព័ត៌មាន។	ដូចជាការវាយតម្លៃលទ្ធផលសិក្សារបស់សិស្សម្នាក់ដោយមើលទាំងពិន្ទុប្រចាំខែ និងសកម្មភាពចូលរួមក្នុងថ្នាក់រួមបញ្ចូលគ្នា ជាជាងមើលតែលើពិន្ទុប្រឡងតែមួយមុខ។
Jensen-Shannon Divergence (JSD)	ជារូបមន្តគណិតវិទ្យាសម្រាប់វាស់ស្ទង់ភាពខុសគ្នា ឬភាពស្រដៀងគ្នារវាងរបាយប្រូបាប៊ីលីតេ (Probability distributions) ពីរផ្សេងគ្នា ដើម្បីជួយម៉ូដែលក្នុងការផ្តល់ទម្ងន់ត្រឹមត្រូវដល់លក្ខណៈនៃទិន្នន័យ។	ដូចជាឧបករណ៍វាស់កម្រិតភាពស្រដៀងគ្នានៃរសជាតិស៊ុបពីរឆ្នាំងផ្សេងគ្នា ថាមានរសជាតិប្រហាក់ប្រហែលគ្នាប៉ុណ្ណា។
Normalized Root Mean Square Error (NRMSE)	ជារង្វាស់វាយតម្លៃកំហុសរបស់ម៉ូដែល ដោយវាស់ស្ទង់ភាពខុសគ្នារវាងតម្លៃដែលម៉ូដែលបានទាយទុក និងតម្លៃពិតប្រាកដ រួចធ្វើការធ្វើឱ្យមានស្តង់ដារជាភាគរយ ដើម្បីងាយស្រួលប្រៀបធៀបប្រសិទ្ធភាពរវាងម៉ូដែលផ្សេងៗ។	ដូចជាការវាស់ស្ទង់ថាការបាញ់ធ្នូរបស់យើងខុសពីចំណុចកណ្តាលប៉ុន្មានសង់ទីម៉ែត្រ រួចគិតជាភាគរយនៃទំហំផ្ទាំងស៊ីបទាំងមូល ដើម្បីដឹងថាយើងបាញ់ខុសកម្រិតណា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖