Original Title: Game Theory Meets Explainable AI: An Enhanced Approach to Understanding Black Box Models Through Shapley Values
Source: www.ijacsa.thesai.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ទ្រឹស្តីល្បែងជួបជាមួយបញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន៖ អភិក្រមដែលត្រូវបានកែលម្អដើម្បីស្វែងយល់ពីម៉ូដែលប្រអប់ខ្មៅតាមរយៈតម្លៃ Shapley

ចំណងជើងដើម៖ Game Theory Meets Explainable AI: An Enhanced Approach to Understanding Black Box Models Through Shapley Values

អ្នកនិពន្ធ៖ Mouad Louhichi (ENSIAS, Mohammed V University in Rabat), Redwane Nesmaoui (ENSIAS, Mohammed V University in Rabat), Mohamed Lazaar (ENSIAS, Mohammed V University in Rabat)

ឆ្នាំបោះពុម្ព៖ 2025, International Journal of Advanced Computer Science and Applications

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ភាពស្មុគស្មាញកាន់តែខ្លាំងនៃម៉ូដែលយន្តការរៀន (Machine Learning) ជាពិសេសក្នុងកិច្ចការចង្កោម (Clustering) ដែលគ្មានស្លាកកំណត់ជាមុន បានបង្កើតប្រព័ន្ធម៉ូដែល 'ប្រអប់ខ្មៅ' ងងឹត ដែលខ្វះលទ្ធភាពបកស្រាយសម្រាប់ការសម្រេចចិត្តក្នុងវិស័យសំខាន់ៗ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវក្របខ័ណ្ឌថ្មីមួយដែលរួមបញ្ចូលទ្រឹស្តីល្បែងសហប្រតិបត្តិការ (Cooperative Game Theory) និងការចង្កោមពហុកម្រិត ដើម្បីវាយតម្លៃការចូលរួមរបស់លក្ខណៈនីមួយៗក្នុងការបង្កើតចង្កោមទិន្នន័យ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Proposed Framework (PCA + K-Means + LightGBM + SHAP)
ក្របខ័ណ្ឌដែលបានស្នើឡើង (PCA រួមបញ្ចូលជាមួយ K-Means, LightGBM និង SHAP)
ផ្តល់នូវលទ្ធភាពបកស្រាយទាំងកម្រិតមូលដ្ឋាននិងសកល កាត់បន្ថយវិមាត្រទិន្នន័យបានល្អ និងរក្សាបាននូវភាពច្បាស់លាស់ខ្ពស់ដោយផ្អែកលើទ្រឹស្តីហ្គេមគណិតវិទ្យា។ ការគណនាតម្លៃ SHAP អាចមានតម្លៃថ្លៃ និងទាមទារកម្លាំងម៉ាស៊ីនខ្ពស់ (Computationally expensive) ជាពិសេសសម្រាប់សំណុំទិន្នន័យដែលមានទំហំធំ និងវិមាត្រច្រើន។ សម្រេចបានពិន្ទុគុណភាពចង្កោម Silhouette 0.63 និងសន្ទស្សន៍ Davies-Bouldin (DB) 0.55 លើទិន្នន័យគុណភាពខ្យល់។
LIME (Local Interpretable Model-agnostic Explanations)
វិធីសាស្ត្រ LIME (ការពន្យល់ម៉ូដែលកម្រិតមូលដ្ឋាន)
មានភាពសាមញ្ញ ងាយស្រួលយល់ និងអាចពន្យល់ពីការទស្សន៍ទាយនីមួយៗ (local explanations) បានយ៉ាងលឿន។ មានកម្រិតត្រឹមតែការបកស្រាយមូលដ្ឋាន ពឹងផ្អែកលើម៉ូដែលជំនួស (surrogate models) ដែលអាចធ្វើឱ្យបាត់បង់ភាពស្មុគស្មាញ និងងាយរងឥទ្ធិពលអវិជ្ជមានពីការផ្លាស់ប្តូរទិន្នន័យបញ្ចូល (input perturbations)។ ទទួលបានពិន្ទុ Silhouette ទាបជាង (ប្រហែល 0.14) បើប្រៀបធៀបទៅនឹងការប្រើប្រាស់ SHAP (0.37) ក្នុងការសិក្សាស្រដៀងគ្នាពីមុន។
Standard K-Means / Non-XAI Clustering
ការប្រើប្រាស់ K-Means ធម្មតា ឬការចង្កោមដែលគ្មាន XAI
ដំណើរការលឿន ចំណាយធនធានកុំព្យូទ័រតិច និងងាយស្រួលក្នុងការសរសេរកូដអនុវត្ត (easy to implement)។ មិនអាចពន្យល់ពីមូលហេតុដែលទិន្នន័យត្រូវបានចាត់ចូលទៅក្នុងចង្កោមណាមួយនោះទេ ដែលបង្កើតបានជាម៉ូដែល 'ប្រអប់ខ្មៅ' (Black Box) និងពិបាកយកទៅប្រើប្រាស់ក្នុងការសម្រេចចិត្តសំខាន់ៗ។ ខ្វះការយល់ដឹងពីអន្តរកម្មនៃលក្ខណៈតាមឋានានុក្រម (hierarchical feature interactions) ដែលធ្វើឱ្យមិនអាចដឹងថាកត្តាអ្វីជះឥទ្ធិពលខ្លាំងជាងគេនោះទេ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តក្របខ័ណ្ឌនេះទាមទារធនធានកុំព្យូទ័រធម្យមទៅខ្ពស់ ដោយសារតែការគណនាតម្លៃ Exact Shapley លើទិន្នន័យធំៗមានទំហំស្មុគស្មាញ និងតម្រូវឱ្យមានដំណើរការស្របគ្នា (Parallel processing) ដើម្បីកាត់បន្ថយពេលវេលា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់សំណុំទិន្នន័យគុណភាពស្រាព័រទុយហ្គាល់ និងទិន្នន័យគុណភាពខ្យល់ពីទីក្រុងប៉េកាំង ប្រទេសចិន ដែលមិនមានទិន្នន័យផ្ទាល់ពីកម្ពុជានោះទេ។ ទោះជាយ៉ាងណាក៏ដោយ លក្ខណៈនៃទិន្នន័យគុណភាពខ្យល់ (PM2.5, NO2, សីតុណ្ហភាព, សំណើម) គឺមានភាពស្រដៀងគ្នាច្រើនទៅនឹងបរិបទបម្រែបម្រួលអាកាសធាតុនៅកម្ពុជា ដែលធ្វើឱ្យវិធីសាស្ត្រនេះអាចត្រូវបានយកមកកែច្នៃប្រើប្រាស់ដើម្បីដោះស្រាយបញ្ហាក្នុងស្រុកបាន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅប្រទេសកម្ពុជា ជាពិសេសក្នុងវិស័យដែលត្រូវការការសម្រេចចិត្តប្រកបដោយតម្លាភាព។

ជារួម ការអនុវត្តក្របខ័ណ្ឌ XAI នេះនឹងជួយពង្រឹងគណនេយ្យភាព និងទំនុកចិត្តលើប្រព័ន្ធបញ្ញាសិប្បនិម្មិត (AI) ដែលកំពុងមានការចាប់អារម្មណ៍កាន់តែខ្លាំងពីស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាក្នុងការធ្វើបរិវត្តកម្មឌីជីថល។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ស្វែងយល់ពីមូលដ្ឋានគ្រឹះនៃ XAI និង Game Theory: និស្សិតគួរចាប់ផ្តើមសិក្សាពីទ្រឹស្តីល្បែង (Cooperative Game Theory) និងគោលការណ៍នៃតម្លៃ Shapley Values ព្រមទាំងអនុវត្តការសរសេរកូដជាមូលដ្ឋានដោយប្រើប្រាស់ SHAP library នៅក្នុង Python ដើម្បីយល់ពីរបៀបដែលលក្ខណៈនីមួយៗរួមចំណែកដល់លទ្ធផល។
  2. អនុវត្តការកាត់បន្ថយវិមាត្រ និងការចង្កោមទិន្នន័យ: ប្រើប្រាស់ StandardScaler ដើម្បីធ្វើប្រក្រតីកម្មទិន្នន័យ បន្ទាប់មកអនុវត្តក្បួន PCA (Principal Component Analysis) ដើម្បីកាត់បន្ថយវិមាត្រទិន្នន័យ។ បន្តប្រើប្រាស់ K-Means Clustering ពី scikit-learn ដើម្បីបង្កើតចង្កោមទិន្នន័យដោយសាកល្បងលើទិន្នន័យតូចៗសិន។
  3. ស្ថាបនាម៉ូដែល LightGBM និងភ្ជាប់ជាមួយ SHAP: ហ្វឹកហាត់ម៉ូដែល LightGBM multi-class classifier ដើម្បីទស្សន៍ទាយចង្កោមទិន្នន័យដែលបានបង្កើតពីជំហានមុន។ បន្ទាប់មកប្រើប្រាស់ SHAP TreeExplainer បញ្ចូលទៅលើម៉ូដែលនេះដើម្បីទាញយកតម្លៃអន្តរកម្មលក្ខណៈទិន្នន័យសម្រាប់ចង្កោមនីមួយៗ។
  4. ការវាយតម្លៃ និងការបង្ហាញលទ្ធផល (Data Visualization): ប្រើប្រាស់រង្វាស់រង្វាល់ដូចជា Silhouette Score និង Davies-Bouldin Index ដើម្បីវាយតម្លៃគុណភាពនៃការចង្កោម។ បន្ទាប់មក ប្រើប្រាស់បណ្ណាល័យ Altair ឬកញ្ចប់ SHAP summary_plot ដើម្បីបង្កើតក្រាហ្វិកបង្ហាញពីឥទ្ធិពលនៃលក្ខណៈទិន្នន័យទៅលើកម្រិតមូលដ្ឋាននិងសកល។
  5. សាកល្បងលើទិន្នន័យបរិបទកម្ពុជា: ប្រមូលទិន្នន័យក្នុងស្រុកពិតប្រាកដ (ឧទាហរណ៍៖ ទិន្នន័យគុណភាពខ្យល់ទាញយកពី AirVisual API ឬទិន្នន័យឥណទានបើកចំហរ) រួចអនុវត្តក្របខ័ណ្ឌទាំងមូលនេះឡើងវិញ ដើម្បីស្វែងរកលទ្ធផលនិងដំណោះស្រាយដែលអាចយកទៅជួយដល់ស្ថាប័នពាក់ព័ន្ធនៅកម្ពុជាបាន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Shapley values ជាវិធីសាស្ត្រក្នុងទ្រឹស្តីល្បែងសហប្រតិបត្តិការ (Cooperative Game Theory) ដែលត្រូវបានប្រើក្នុងបញ្ញាសិប្បនិម្មិតដើម្បីវាស់ស្ទង់ និងបែងចែកឥទ្ធិពល ឬការរួមចំណែករបស់លក្ខណៈទិន្នន័យ (feature) នីមួយៗទៅលើលទ្ធផលនៃការទស្សន៍ទាយរបស់ម៉ូដែលប្រកបដោយសមធម៌និងភាពត្រឹមត្រូវតាមគណិតវិទ្យា។ ដូចជាការបែងចែកប្រាក់រង្វាន់ដល់សមាជិកក្រុមនីមួយៗយ៉ាងយុត្តិធម៌ យោងទៅតាមទំហំការងារនិងការខិតខំប្រឹងប្រែងដែលពួកគេម្នាក់ៗបានធ្វើដើម្បីសម្រេចជោគជ័យគម្រោងរួមមួយ។
Explainable Artificial Intelligence (XAI) ជាបណ្ដុំនៃដំណើរការ និងវិធីសាស្ត្រដែលអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់យល់ដឹង និងទុកចិត្តលើលទ្ធផលដែលបង្កើតដោយក្បួនដោះស្រាយម៉ាស៊ីន (Machine Learning) ដោយបំបាត់ភាពងងឹតនៃ "ប្រអប់ខ្មៅ" និងពន្យល់ពីមូលហេតុនៃការសម្រេចចិត្ត។ ដូចជាគ្រូពេទ្យដែលមិនត្រឹមតែប្រាប់ពីឈ្មោះជំងឺរបស់អ្នកប៉ុណ្ណោះទេ តែថែមទាំងពន្យល់ពីមូលហេតុ និងរោគសញ្ញាលម្អិតដែលនាំឱ្យគាត់សន្និដ្ឋានបែបនេះ។
Black box models ជាប្រព័ន្ធម៉ូដែលបញ្ញាសិប្បនិម្មិតដ៏ស្មុគស្មាញ (ដូចជា Deep Neural Networks) ដែលផ្ដល់លទ្ធផលទស្សន៍ទាយមានភាពត្រឹមត្រូវខ្ពស់ ប៉ុន្តែដំណើរការខាងក្នុងនៃការសម្រេចចិត្តរបស់វាគឺលាក់កំបាំង និងមិនអាចពន្យល់បានដោយងាយដោយមនុស្ស។ ដូចជាម៉ាស៊ីនវេទមន្តមួយដែលយើងដាក់វត្ថុធាតុដើមចូល រួចវាបញ្ចេញនំខេកយ៉ាងឆ្ងាញ់មកក្រៅ ប៉ុន្តែយើងមិនដឹងទាល់តែសោះថាវាឆ្លងកាត់ដំណើរការដុតនំបែបណានៅខាងក្នុង។
Principal Component Analysis (PCA) ជាបច្ចេកទេសកាត់បន្ថយវិមាត្រទិន្នន័យ (Dimensionality Reduction) ដែលបំប្លែងសំណុំទិន្នន័យមានលក្ខណៈច្រើនស្មុគស្មាញ ទៅជាសមាសធាតុសំខាន់ៗតិចតួច ដែលរក្សាបាននូវព័ត៌មានស្នូលច្រើនជាងគេបំផុត ដើម្បីបង្កើនល្បឿនក្នុងការគណនា។ ដូចជាការសង្ខេបសៀវភៅដ៏ក្រាស់មួយក្បាល មកត្រឹមតែ២ទំព័រ ដែលនៅតែរក្សាអត្ថន័យសំខាន់ៗនៃសាច់រឿងទាំងមូលបានដោយមិនបាត់បង់ខ្លឹមសារ។
K-means clustering ជាក្បួនដោះស្រាយរៀនដោយគ្មានការត្រួតពិនិត្យ (Unsupervised learning algorithm) ដែលបែងចែកទិន្នន័យទៅជា K ចង្កោម (Clusters) ផ្សេងៗគ្នា ដោយដាក់ចំណុចទិន្នន័យដែលមានលក្ខណៈស្រដៀងគ្នាចូលទៅក្នុងក្រុមតែមួយ ដោយគណនាចម្ងាយពីផ្ចិតនៃចង្កោម។ ដូចជាការរៀបចំផ្លែឈើចម្រុះជាគំនរផ្សេងៗគ្នា ដោយដាក់ផ្លែប៉ោមនៅមួយគំនរ ផ្លែក្រូចនៅមួយគំនរ ដោយផ្អែកលើពណ៌ និងរូបរាងរបស់វាដោយស្វ័យប្រវត្តិ។
LightGBM ជាក្របខ័ណ្ឌ (Framework) កសាងម៉ូដែល Machine Learning ប្រភេទ Gradient Boosting ដែលមានល្បឿនលឿន និងប្រសិទ្ធភាពខ្ពស់ ប្រើសម្រាប់ចាត់ថ្នាក់ទិន្នន័យដោយពឹងផ្អែកលើក្បួនរចនាសម្ព័ន្ធមែកធាងសម្រេចចិត្ត (Decision Trees) ច្រើនបញ្ចូលគ្នា។ ដូចជាក្រុមអ្នកជំនាញពិគ្រោះយោបល់ដែលធ្វើការបន្តបន្ទាប់គ្នា ដោយអ្នកក្រោយកែតម្រូវកំហុសរបស់អ្នកមុនៗ ដើម្បីទទួលបានលទ្ធផលសម្រេចចិត្តមួយដ៏ល្អឥតខ្ចោះ។
Silhouette coefficient ជារង្វាស់សម្រាប់វាយតម្លៃគុណភាពនៃការចង្កោមទិន្នន័យ (Clustering Evaluation) ដោយវាស់ស្ទង់ថាតើទិន្នន័យនីមួយៗមានភាពស្រដៀងគ្នាខ្លាំងកម្រិតណាទៅនឹងចង្កោមរបស់វាផ្ទាល់ បើប្រៀបធៀបទៅនឹងចង្កោមផ្សេងទៀត (ពិន្ទុចន្លោះពី -1 ដល់ 1)។ ដូចជាការវាស់ស្ទង់ថាតើសិស្សម្នាក់ចូលចិត្តនិងស៊ីចង្វាក់ជាមួយមិត្តភក្ដិក្នុងក្រុមរបស់ខ្លួនឯងខ្លាំងជាង ឬចង់ទៅចូលលេងជាមួយក្រុមផ្សេង។
Cooperative game theory ជាសាខានៃគណិតវិទ្យាដែលសិក្សាពីអាកប្បកិរិយារបស់អ្នកលេង (players/agents) ដែលសហការគ្នាដើម្បីសម្រេចគោលដៅរួមមួយ និងរបៀបកំណត់ពីការបែងចែកផលចំណេញដែលទទួលបានដោយផ្អែកលើតម្លៃនៃភាគទានរបស់ម្នាក់ៗ។ ដូចជាច្បាប់ក្នុងការបែងចែកប្រាក់ចំណេញរវាងមិត្តភក្ដិមួយក្រុម បន្ទាប់ពីពួកគេបានរួមទុន និងរួមចំណែកកម្លាំងខុសៗគ្នាដើម្បីបើកហាងកាហ្វេមួយប្រកបដោយជោគជ័យ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖