Original Title: Analysis of the Different Statistical Metrics in Machine Learning
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគលើរង្វាស់ស្ថិតិផ្សេងៗគ្នានៅក្នុងការរៀនរបស់ម៉ាស៊ីន (Machine Learning)

ចំណងជើងដើម៖ Analysis of the Different Statistical Metrics in Machine Learning

អ្នកនិពន្ធ៖ Shukun Geng (Xi’an Jiaotong-liverpool University)

ឆ្នាំបោះពុម្ព៖ 2024 (Highlights in Science, Engineering and Technology)

វិស័យសិក្សា៖ Computer Science / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការវាយតម្លៃប្រសិទ្ធភាពនៃម៉ូដែលរៀនរបស់ម៉ាស៊ីន (Machine Learning Models) ដែលកាន់តែមានភាពស្មុគស្មាញ និងតម្រូវការក្នុងការជ្រើសរើសរង្វាស់ (Metrics) ឱ្យបានត្រឹមត្រូវដើម្បីជៀសវាងភាពលំអៀងនៃការវាយតម្លៃ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្រ្តវិភាគ និងត្រួតពិនិត្យឡើងវិញលើទ្រឹស្តី និងរូបមន្តនៃរង្វាស់ស្ថិតិសំខាន់ៗដែលប្រើក្នុងការរៀនរបស់ម៉ាស៊ីន ដោយបែងចែកទៅតាមប្រភេទនៃកិច្ចការនីមួយៗ។

រង្វាស់សម្រាប់ចំណាត់ថ្នាក់ក្រុម (Classification Metrics: Accuracy, Precision, Recall, F1-Score)
រង្វាស់សម្រាប់តម្រូវថមថយ (Regression Metrics: MSE, RMSE, MAE, R-squared)
រង្វាស់សម្រាប់បណ្តុំទិន្នន័យ (Clustering Metrics: Silhouette Score, Davies-Bouldin Index)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

រង្វាស់នីមួយៗមានភាពសាកសមទៅតាមបរិបទខុសៗគ្នា ដូចជា F1-Score សំខាន់សម្រាប់ទិន្នន័យមិនមានតុល្យភាព ខណៈដែល RMSE មានប្រសិទ្ធភាពក្នុងការរកឃើញតម្លៃមិនប្រក្រតី (Outliers) នៅក្នុងម៉ូដែលតម្រូវថមថយ។
ការជ្រើសរើសរង្វាស់តែមួយអាចបង្កឱ្យមានភាពលំអៀង (Bias) និងការលះបង់ (Trade-offs) រវាងលក្ខណៈវិនិច្ឆ័យផ្សេងៗ ដូចជាទំនាក់ទំនងបញ្ច្រាសរវាង Precision និង Recall ជាដើម។
អនាគតនៃការវាយតម្លៃម៉ូដែល នឹងឆ្ពោះទៅរកការប្រើប្រាស់រង្វាស់ច្រើនបញ្ចូលគ្នា (Multi-metric assessments) និងការធ្វើឱ្យប្រព័ន្ធបញ្ញាសិប្បនិម្មិតអាចពន្យល់បាន (Explainable AI) ដើម្បីបង្កើនតម្លាភាព និងទំនុកចិត្ត។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Classification Metrics (Accuracy, Precision, Recall, F1-Score) រង្វាស់សម្រាប់ចំណាត់ថ្នាក់ក្រុម (Classification Metrics)	មានសារៈសំខាន់សម្រាប់ការវិនិច្ឆ័យជំងឺ និងការរកឃើញការក្លែងបន្លំ (Fraud Detection) ដោយ F1-Score ជួយថ្លឹងថ្លែងរវាង Precision និង Recall ។	ការប្រើ Accuracy តែមួយមុខអាចផ្តល់ភាពលំអៀងខ្លាំងចំពោះទិន្នន័យដែលមិនមានតុល្យភាព (Imbalanced datasets) ហើយការបង្កើន Precision អាចធ្វើឱ្យ Recall ធ្លាក់ចុះ។	ប្រើប្រាស់សមីការ (១) ដល់ (៤) ដើម្បីវាស់វែងប្រសិទ្ធភាពនៃការបែងចែកក្រុមទិន្នន័យ។
Regression Metrics (MSE, RMSE, MAE, R-squared) រង្វាស់សម្រាប់តម្រូវថមថយ (Regression Metrics)	RMSE មានប្រយោជន៍ក្នុងការដាក់ពិន័យលើកំហុសធំៗ (Large errors) ខណៈដែល MAE ធន់នឹងទិន្នន័យមិនប្រក្រតី (Outliers)។	តម្លៃ RMSE ពិបាកបកស្រាយដោយផ្ទាល់ជាង MAE ហើយអាចត្រូវបានជះឥទ្ធិពលយ៉ាងខ្លាំងដោយទិន្នន័យមិនប្រក្រតីតែមួយ។	R-squared បង្ហាញពីកម្រិតនៃបំរែបំរួល (Variance) ដែលពន្យល់ដោយម៉ូដែល (សមីការ ៨)។
Clustering Metrics (Silhouette Score, Davies-Bouldin Index) រង្វាស់សម្រាប់បណ្តុំទិន្នន័យ (Clustering Metrics)	ជួយវាយតម្លៃគុណភាពនៃការបែងចែកក្រុមដោយមិនត្រូវការទិន្នន័យដែលមានស្លាក (Unlabeled data) ដូចជាការបែងចែកអតិថិជន។	ការបកស្រាយលទ្ធផលអាចមានភាពស្មុគស្មាញនៅពេលដែលទិន្នន័យមានវិមាត្រខ្ពស់ ឬរាងមិនទៀងទាត់។	ពិន្ទុ Silhouette (សមីការ ៩) កាន់តែខ្ពស់បង្ហាញថាបណ្តុំទិន្នន័យ (Clusters) ត្រូវបានបែងចែកដាច់ពីគ្នាកាន់តែច្បាស់។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះគឺជាការសិក្សាស្រាវជ្រាវបែបត្រួតពិនិត្យ (Review Study) ដូច្នេះមិនមានការបញ្ជាក់ជាក់លាក់អំពីធនធានកុំព្យូទ័រទេ ប៉ុន្តែការអនុវត្តជាក់ស្តែងទាមទារឧបករណ៍ស្តង់ដារ។

Software Libraries: ត្រូវការប្រើប្រាស់បណ្ណាល័យកូដដូចជា TensorFlow, PyTorch ឬ Scikit-learn ដើម្បីគណនារង្វាស់ទាំងនេះ។
Data Requirements: ទាមទារសំណុំទិន្នន័យដែលមានគុណភាព និងមានស្លាក (Labeled Data) សម្រាប់ Supervised Learning ដើម្បីគណនា Accuracy ឬ F1-Score ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះគឺជាការសង្ខេបទ្រឹស្តីទូទៅ ដោយមិនបានផ្អែកលើសំណុំទិន្នន័យជាក់លាក់ណាមួយឡើយ។ សម្រាប់កម្ពុជា អ្នកស្រាវជ្រាវត្រូវប្រុងប្រយ័ត្នពេលអនុវត្តរង្វាស់ទាំងនេះលើទិន្នន័យក្នុងស្រុកដែលមានលក្ខណៈខុសប្លែកពីទិន្នន័យលោកខាងលិច ដូចជាភាសាខ្មែរ (NLP) ឬទិន្នន័យសេដ្ឋកិច្ចសង្គម។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្រ្តវាយតម្លៃទាំងនេះមានសារៈសំខាន់ខ្លាំងណាស់សម្រាប់ការអភិវឌ្ឍវិស័យបច្ចេកវិទ្យានៅកម្ពុជា ដើម្បីធានាថាម៉ូដែល AI ដំណើរការបានត្រឹមត្រូវ។

វិស័យធនាគារ និងមីក្រូហិរញ្ញវត្ថុ (Fintech): ការប្រើប្រាស់ Precision និង Recall មានសារៈសំខាន់ណាស់ក្នុងការរកឃើញប្រតិបត្តិការក្លែងបន្លំ (Fraud Detection) នៅតាមធនាគារក្នុងស្រុក ដើម្បីកាត់បន្ថយការខាតបង់។
វិស័យកសិកម្ម (Agriculture): ការប្រើប្រាស់ Regression Metrics (ដូចជា RMSE) អាចជួយក្នុងការបង្កើតម៉ូដែលព្យាករណ៍ទិន្នផលស្រូវ ឬដំណាំផ្សេងៗដោយផ្អែកលើកត្តាអាកាសធាតុ។
វិស័យសុខាភិបាល (Healthcare): ការប្រើប្រាស់ F1-Score និង Recall គឺចាំបាច់សម្រាប់ការធ្វើរោគវិនិច្ឆ័យជំងឺដោយប្រើ AI នៅក្នុងមន្ទីរពេទ្យ ដើម្បីជៀសវាងការខកខានមិនបានរកឃើញអ្នកជំងឺពិតប្រាកដ (False Negatives)។

ការយល់ដឹងច្បាស់លាស់អំពីរង្វាស់ទាំងនេះ នឹងជួយឱ្យអ្នកអភិវឌ្ឍន៍នៅកម្ពុជាអាចបង្កើតប្រព័ន្ធ AI ដែលមានទំនួលខុសត្រូវ និងប្រសិទ្ធភាពខ្ពស់សម្រាប់ដោះស្រាយបញ្ហាជាក់ស្តែង។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាទ្រឹស្តី និងរូបមន្ត: និស្សិតត្រូវស្វែងយល់ឱ្យច្បាស់ពីរូបមន្តគណិតវិទ្យានៃរង្វាស់នីមួយៗ (Accuracy, F1, RMSE, Silhouette) ដែលមានក្នុងឯកសារនេះ ជាពិសេសទំនាក់ទំនងរវាង Precision និង Recall។
ការអនុវត្តជាមួយ Scikit-Learn: សាកល្បងសរសេរកូដ Python ដោយប្រើបណ្ណាល័យ Scikit-Learn (metrics module) ដើម្បីគណនារង្វាស់ទាំងនេះលើសំណុំទិន្នន័យគំរូ (Toy Datasets)។
ការពិសោធន៍លើទិន្នន័យមិនមានតុល្យភាព: បង្កើតពិសោធន៍មួយដើម្បីប្រៀបធៀប Accuracy និង F1-Score លើទិន្នន័យដែលមានតុល្យភាពខុសគ្នាខ្លាំង (Imbalanced Data) ដើម្បីយល់ពីចំណុចខ្សោយនៃ Accuracy។
ស្វែងយល់ពី Explainable AI (XAI): ស្រាវជ្រាវបន្ថែមអំពីរបៀបដែលរង្វាស់ថ្មីៗក្នុងវិស័យ Explainable AI អាចបំពេញបន្ថែមឱ្យរង្វាស់ស្ថិតិប្រពៃណី ដើម្បីធ្វើឱ្យម៉ូដែលកាន់តែមានតម្លាភាព។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Supervised Learning	គឺជាវិធីសាស្ត្របង្រៀនកុំព្យូទ័រដោយប្រើទិន្នន័យដែលមានចម្លើយត្រឹមត្រូវ (labeled data) រួចជាស្រេច ដើម្បីឱ្យកុំព្យូទ័រអាចរៀន និងទស្សន៍ទាយលទ្ធផលសម្រាប់ទិន្នន័យថ្មីៗបាន។	ដូចជាសិស្សរៀនមេរៀនដោយមានគ្រូកែ និងប្រាប់ចម្លើយដែលត្រឹមត្រូវភ្លាមៗ។
Unsupervised Learning	គឺជាការប្រើប្រាស់ក្បួនដោះស្រាយដើម្បីស្វែងរកគំរូ ឬក្រុមដែលលាក់នៅក្នុងទិន្នន័យ ដោយមិនមានការដាក់ស្លាក ឬប្រាប់ចម្លើយជាមុនឡើយ គឺឱ្យកុំព្យូទ័ររកលក្ខណៈដូចគ្នាដោយខ្លួនឯង។	ដូចជាការបែងចែកផ្លែឈើជាគំនរផ្សេងៗគ្នាទៅតាមពណ៌ និងរូបរាង ដោយមិនស្គាល់ឈ្មោះផ្លែឈើទាំងនោះ។
F1-Score	ជារង្វាស់ស្ថិតិដែលរួមបញ្ចូលគ្នានូវភាពសុក្រឹត (Precision) និងអត្រាប្រមូលត្រឡប់ (Recall) ដើម្បីវាយតម្លៃប្រសិទ្ធភាពរបស់ម៉ូដែលឱ្យកាន់តែច្បាស់លាស់ ជាពិសេសនៅពេលទិន្នន័យមិនមានតុល្យភាព។	ដូចជាការផ្តល់ពិន្ទុដល់កីឡាករ ដោយមើលទាំងភាពត្រឹមត្រូវនៃការលេង និងចំនួនដងដែលគេរកពិន្ទុបាន។
Root Mean Squared Error (RMSE)	គឺជារង្វាស់នៃកំហុសមធ្យមរវាងតម្លៃដែលម៉ូដែលបានទស្សន៍ទាយ និងតម្លៃជាក់ស្តែង ដោយផ្តោតសំខាន់លើការរកឃើញកំហុសធំៗ (Extreme errors) នៅក្នុងការវិភាគតម្រែតម្រង់ (Regression)។	ដូចជាការវាស់វែងថាតើការទស្សន៍ទាយអាកាសធាតុរបស់អ្នក ឃ្លាតឆ្ងាយពីសីតុណ្ហភាពជាក់ស្តែងកម្រិតណាជាមធ្យម។
Silhouette Score	ប្រើសម្រាប់វាស់វែងគុណភាពនៃការបែងចែកក្រុម (Clustering) ដោយពិនិត្យមើលថាតើទិន្នន័យនៅក្នុងក្រុមនីមួយៗនៅជិតគ្នាប៉ុណ្ណា និងនៅឆ្ងាយពីក្រុមផ្សេងទៀតប៉ុណ្ណា។	ដូចជាការពិនិត្យមើលថាតើសិស្សក្នុងថ្នាក់មួយ អង្គុយជិតមិត្តរួមថ្នាក់ខ្លួនឯង និងអង្គុយឆ្ងាយពីសិស្សថ្នាក់ផ្សេងកម្រិតណា។
Explainable AI (XAI)	គឺជាប្រព័ន្ធ AI ដែលត្រូវបានបង្កើតឡើងដើម្បីឱ្យមនុស្សអាចយល់ពីមូលហេតុ និងដំណើរការនៃការសម្រេចចិត្តរបស់វា ជួយបង្កើនទំនុកចិត្ត និងតម្លាភាពក្នុងការប្រើប្រាស់។	ដូចជាគ្រូពេទ្យដែលមិនត្រឹមតែចេញវេជ្ជបញ្ជា តែថែមទាំងពន្យល់ពីមូលហេតុនៃជំងឺ និងរបៀបដែលថ្នាំព្យាបាលជំងឺនោះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖