Original Title: Shapley Values for Explanation in Two-sided Matching Applications
Source: doi.org/10.48786/edbt.2024.50
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

តម្លៃ Shapley សម្រាប់ការបកស្រាយនៅក្នុងកម្មវិធីផ្គូផ្គងទ្វេភាគី

ចំណងជើងដើម៖ Shapley Values for Explanation in Two-sided Matching Applications

អ្នកនិពន្ធ៖ Suraj Shetiya, Ian P. Swift, Abolfazl Asudeh, Gautam Das

ឆ្នាំបោះពុម្ព៖ 2024 Proceedings of the 27th International Conference on Extending Database Technology (EDBT)

វិស័យសិក្សា៖ Computer Science / Explainable AI

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធផ្គូផ្គងទ្វេភាគីទំនើបៗ (ដូចជាកម្មវិធីស្វែងរកការងារ និងការណាត់ជួប) ផ្តល់ជូនបញ្ជីផ្គូផ្គងតាមចំណាត់ថ្នាក់កំពូល (top-k) ប៉ុន្តែខ្វះតម្លាភាពក្នុងការបកស្រាយប្រាប់អ្នកប្រើប្រាស់ថា ហេតុអ្វីបានជាពួកគេមាន ឬមិនមានឈ្មោះក្នុងបញ្ជីទាំងនោះ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្រផ្អែកលើទ្រឹស្តីល្បែងកម្សាន្ត (Game Theory) ដើម្បីគណនាឥទ្ធិពលនៃលក្ខណៈសម្បត្តិនីមួយៗក្នុងការសម្រេចលទ្ធផលនៃការផ្គូផ្គង។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Exact Shapley Value (Brute-force)
ការគណនាតម្លៃ Shapley ពិតប្រាកដ (Brute-force)
ផ្តល់តម្លៃពិតប្រាកដ និងមានភាពត្រឹមត្រូវដាច់ខាតដោយមិនមានកំហុស។ ទាមទារពេលវេលាគណនាច្រើនជាអិចស្ប៉ូណង់ស្យែល (O(2^d)) ដែលមិនអាចអនុវត្តបានជាមួយទិន្នន័យដែលមានលក្ខណៈសម្បត្តិច្រើន (High dimensions)។ ត្រូវបានប្រើប្រាស់ជាទិន្នន័យគោល (Ground truth) សម្រាប់ធ្វើតេស្ត និងផ្ទៀងផ្ទាត់ភាពត្រឹមត្រូវនៃវិធីសាស្ត្រប៉ាន់ស្មានផ្សេងទៀត។
Approximate Sampling-based Shapley
ការប៉ាន់ស្មានតម្លៃ Shapley តាមរយៈការយកគំរូចៃដន្យ
កាត់បន្ថយពេលវេលាគណនាបានច្រើន និងមានការធានាលើដែនកំណត់កំហុសតាមបែបទ្រឹស្តី (Theoretical error bounds)។ នៅតែត្រូវការចំនួនគំរូច្រើនទើបទទួលបានភាពត្រឹមត្រូវខ្ពស់ បើប្រៀបធៀបជាមួយអត្រានៃការទាញរកលទ្ធផលរបស់ KernelSHAP។ ទទួលបានលទ្ធផលនៃការបកស្រាយដូចគ្នានឹងវិធីសាស្ត្រ Brute-force ក្នុង ១១៩ លើ ១២០ ករណីនៃការធ្វើតេស្ត (១១៩/១២០ trials)។
KernelSHAP
វិធីសាស្ត្រប៉ាន់ស្មាន KernelSHAP
ដំណើរការបានលឿន និងមានកម្រិតលម្អៀង (Error) ទាបជាងវិធីសាស្ត្រយកគំរូចៃដន្យសម្រាប់ចំនួនគំរូដូចគ្នា។ មិនមានការធានាលើដែនកំណត់នៃកំហុសតាមបែបទ្រឹស្តី (Lacks theoretical guarantees) ដូចវិធីសាស្ត្រយកគំរូចៃដន្យនោះទេ។ បង្ហាញពីប្រសិទ្ធភាពនិងល្បឿនលឿនក្នុងការបកស្រាយលទ្ធផលផ្គូផ្គង ខណៈដែលកំហុសមានទំហំតូចបំផុតនៅពេលប្តូរចំនួនគំរូ។
LIME (Local Interpretable Model-agnostic Explanations)
វិធីសាស្ត្របកស្រាយ LIME (ប្រើជា Baseline ក្នុងការសិក្សាលើអ្នកប្រើប្រាស់)
ងាយស្រួលអនុវត្ត លឿន និងមានប្រជាប្រិយភាពក្នុងការបកស្រាយម៉ូដែល Machine Learning ទូទៅ។ ការបកស្រាយមិនសូវស៊ីជម្រៅនិងមិនសូវត្រូវនឹងធម្មជាតិនៃការប្រកួតប្រជែងក្នុងបញ្ហាផ្គូផ្គង (Top-k ranking) បើធៀបនឹង Shapley។ ទទួលបានការគាំទ្រតិចជាង Shapley (១០ នាក់ ធៀបនឹង ១៨ នាក់) ក្នុងការសិក្សាវាយតម្លៃពីអ្នកប្រើប្រាស់ផ្ទាល់។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់សម្រាប់ការគណនាបែប Exact Shapley ប៉ុន្តែត្រូវការធនធានកម្រិតមធ្យមសម្រាប់វិធីសាស្ត្រប៉ាន់ស្មាន KernelSHAP ដែលអាចដំណើរការបានលើកុំព្យូទ័រទូទៅ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យបេក្ខជនការងារ និងការចូលរៀនសាកលវិទ្យាល័យ ដែលមានប្រភពពី Kaggle ដែលអាចឆ្លុះបញ្ចាំងតែពីបរិបទប្រទេសលោកខាងលិចប៉ុណ្ណោះ។ លក្ខណៈវិនិច្ឆ័យ ទម្លាប់ និងតម្រូវការទីផ្សារការងារនៅកម្ពុជាមានភាពខុសគ្នា ដូចនេះការអនុវត្តជាក់ស្តែងនៅកម្ពុជាតម្រូវឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកដើម្បីចៀសវាងភាពលម្អៀង (Data Bias)។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្របកស្រាយលទ្ធផលនៃការផ្គូផ្គងនេះមានសក្តានុពលខ្ពស់ក្នុងការបង្កើនតម្លាភាពសម្រាប់ប្រព័ន្ធបច្ចេកវិទ្យានៅកម្ពុជា ជាពិសេសក្នុងការអប់រំ និងការងារ។

ជារួម ការដាក់បញ្ចូលបច្ចេកវិទ្យាបកស្រាយ (Explainable AI) តាមរយៈ Shapley Values អាចជួយកាត់បន្ថយភាពមន្ទិលសង្ស័យ និងបង្កើនទំនុកចិត្តពីសាធារណជនមកលើប្រព័ន្ធសម្រេចចិត្តដោយស្វ័យប្រវត្តិនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃទ្រឹស្តីល្បែង និងការផ្គូផ្គង (Game Theory & Top-k Matching): និស្សិតត្រូវចាប់ផ្តើមស្វែងយល់ពីគោលការណ៍ក្បួនគណនានៃ Shapley Values ព្រមទាំងយន្តការនៃការរៀបចំណាត់ថ្នាក់តាមលំដាប់ Top-k ranking mechanisms
  2. រៀបចំសំណុំទិន្នន័យសាកល្បងក្នុងស្រុក: ប្រមូលទិន្នន័យពីការជ្រើសរើសបុគ្គលិក ឬលទ្ធផលប្រឡងអាហារូបករណ៍ រួចធ្វើការសម្អាតទិន្នន័យ (Data Preprocessing) ដោយប្រើប្រាស់ Python និងបណ្ណាល័យ Pandas
  3. អនុវត្តក្បួនដោះស្រាយ KernelSHAP: សរសេរកូដដោយប្រើប្រាស់បណ្ណាល័យ KernelSHAP នៅក្នុង Python ដើម្បីវាយតម្លៃសំណុំទិន្នន័យ ជៀសវាងការប្រើ Brute-force (Exact Shapley) ដែលចំណាយពេលយូរ។
  4. បង្កើតចំណុចប្រទាក់សម្រាប់អ្នកប្រើប្រាស់ (User Interface): រៀបចំផ្ទាំងបង្ហាញលទ្ធផល (Dashboard) ឧទាហរណ៍ដោយប្រើ Streamlit ដើម្បីបង្ហាញហេតុផលនៃការផ្គូផ្គងឱ្យងាយយល់ និងយកទៅធ្វើតេស្តសាកល្បងជាមួយអ្នកប្រើប្រាស់ពិតប្រាកដ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Shapley values ជារង្វាស់ក្នុងទ្រឹស្តីល្បែងកម្សាន្តដែលប្រើសម្រាប់បែងចែកដោយយុត្តិធម៌នូវការរួមចំណែករបស់កត្តា (ឬអ្នកលេង) នីមួយៗទៅលើលទ្ធផលសរុប។ នៅក្នុងការស្រាវជ្រាវនេះ វាត្រូវបានប្រើដើម្បីគណនាថាតើលក្ខណៈសម្បត្តិណាមួយរបស់បេក្ខជនមានឥទ្ធិពលខ្លាំងជាងគេក្នុងការធ្វើឱ្យគេជាប់ ឬធ្លាក់ក្នុងការផ្គូផ្គង។ ដូចជាការបែងចែកប្រាក់រង្វាន់ដល់សមាជិកក្រុមបាល់ទាត់ ដោយវាយតម្លៃដោយយុត្តិធម៌លើការប្រឹងប្រែងជាក់ស្តែងរបស់អ្នកនីមួយៗក្នុងការនាំឱ្យក្រុមទទួលបានជ័យជម្នះ។
Two-sided matching ជាដំណើរការផ្គូផ្គងរវាងភាគីពីរដែលមានតម្រូវការរៀងៗខ្លួន (ឧទាហរណ៍ ក្រុមហ៊ុនស្វែងរកបុគ្គលិក និងបុគ្គលិកស្វែងរកការងារ) ដែលភាគីនីមួយៗមានចំណូលចិត្ត ឬលក្ខណៈវិនិច្ឆ័យផ្ទាល់ខ្លួន ហើយប្រព័ន្ធត្រូវរកចំណុចកណ្តាលដែលភាគីទាំងសងខាងអាចទទួលយកបាន។ ដូចជាកម្មវិធីណាត់ជួប (Dating App) ដែលភាគីសងខាងត្រូវតែពេញចិត្តនឹងប្រវត្តិរូបគ្នាមុននឹងអាចចាប់គូ (Match) គ្នាបានដោយជោគជ័យ។
Top-k matching model ជាប្រព័ន្ធក្បួនដោះស្រាយដែលរៀបចំណាត់ថ្នាក់ទិន្នន័យ ហើយជ្រើសរើសយកជម្រើសល្អបំផុតចំនួន k (ឧ. ជម្រើសកំពូលទាំង ៥ ឬ ១០) ពីក្នុងបញ្ជីទិន្នន័យដ៏ធំមួយ ដើម្បីបង្ហាញជូនអ្នកប្រើប្រាស់ ដោយផ្អែកលើពិន្ទុភាពស័ក្តិសមខ្ពស់ជាងគេ។ ដូចជាការប្រកាសលទ្ធផលសិស្សពូកែប្រចាំថ្នាក់ ដោយមិនអានឈ្មោះសិស្សទាំង ៥០ នាក់ទេ គឺយកតែអ្នកមានពិន្ទុខ្ពស់ជាងគេ ៣ នាក់ (Top-3) ប៉ុណ្ណោះមកផ្តល់រង្វាន់។
KernelSHAP ជាក្បួនដោះស្រាយប៉ាន់ស្មានតម្លៃ Shapley ដ៏មានប្រសិទ្ធភាពមួយនៅក្នុងម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដែលជួយពន្យល់ពីមូលហេតុនៃការសម្រេចចិត្តរបស់ប្រព័ន្ធម៉ាស៊ីន ដោយមិនចាំបាច់ប្រើពេលវេលាគណនាច្រំដែលច្រើនពេកដែលស៊ីពេលយូរ។ ដូចជាការសួរសាក្សីសំខាន់ៗចំនួន ៥ នាក់ដើម្បីសន្និដ្ឋានសាច់រឿងឱ្យបានលឿន ជាជាងការដើរសួរមនុស្សរាប់ពាន់នាក់ដែលអាចចំណាយពេលរាប់ខែ។
Bipartite graph ជាទម្រង់ក្រាហ្វក្នុងគណិតវិទ្យាដែលបែងចែកចំណុច (Nodes) ជាពីរសំណុំដាច់ដោយឡែកពីគ្នា ហើយខ្សែភ្ជាប់ (Edges) អាចមានបានតែរវាងចំណុចពីសំណុំមួយទៅសំណុំមួយទៀតប៉ុណ្ណោះ មិនអាចភ្ជាប់គ្នាឯងក្នុងសំណុំតែមួយឡើយ។ ដូចជាការគូសបន្ទាត់ភ្ជាប់រវាងបញ្ជីឈ្មោះសិស្ស (ក្រុមទី១) និងបញ្ជីឈ្មោះមុខវិជ្ជា (ក្រុមទី២) ដោយសិស្សមិនអាចគូសបន្ទាត់ភ្ជាប់ទៅសិស្សគ្នាឯងបានទេ។
Coalitional game ជាទ្រឹស្តីល្បែងកម្សាន្តដែលសមាជិក ឬអ្នកលេងជ្រើសរើសសហការគ្នាជាក្រុមដើម្បីប្រកួតប្រជែងយកអត្ថប្រយោជន៍រួម ហើយត្រូវស្វែងរកវិធីបែងចែកតម្លៃនៃអត្ថប្រយោជន៍នោះទៅតាមកម្រិតនៃការចូលរួមរបស់សមាជិកម្នាក់ៗ។ ដូចជាក្រុមសិស្សរួមគ្នាធ្វើកិច្ចការស្រាវជ្រាវ (Group Work) ដើម្បីបានពិន្ទុខ្ពស់ រួចលោកគ្រូវាយតម្លៃថាអ្នកណាធ្វើការងារអ្វីខ្លះដើម្បីបែងចែកពិន្ទុរៀងៗខ្លួន។
Jaccard similarity ជារង្វាស់ស្ថិតិសម្រាប់ប្រៀបធៀបភាពស្រដៀងគ្នានៃសំណុំទិន្នន័យពីរ ដោយគណនាផលធៀបរវាងចំនួនធាតុដែលមានដូចគ្នាបេះបិទ (Intersection) ចែកជាមួយនឹងចំនួនធាតុសរុបបញ្ចូលគ្នា (Union)។ ដូចជាការប្រៀបធៀបគ្រឿងផ្សំនៃមុខម្ហូបពីរមុខ បើមានគ្រឿងផ្សំដូចគ្នាច្រើន នោះលទ្ធផលភាពស្រដៀងគ្នាកាន់តែខិតជិតទៅរកលេខ ១។
LIME LIME (Local Interpretable Model-agnostic Explanations) ជាវិធីសាស្ត្រមួយសម្រាប់ពន្យល់ពីការសម្រេចចិត្តរបស់ម៉ូដែល AI ដ៏ស្មុគស្មាញ ដោយបង្កើតម៉ូដែលសាមញ្ញមួយផ្សេងទៀតដើម្បីរៀនធ្វើត្រាប់តាមការសម្រេចចិត្តនោះក្នុងទំហំទិន្នន័យតូចចង្អៀត (Local scale)។ ដូចជាការព្យាយាមពន្យល់ពីរូបមន្តគណិតវិទ្យាដ៏ស្មុគស្មាញមួយ ដោយប្រើឧទាហរណ៍លេខតូចៗងាយៗឱ្យសិស្សងាយយល់ចំណុចជាក់លាក់ណាមួយសិន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖