Original Title: Shapley Values for Explanation in Two-sided Matching Applications
Source: doi.org/10.48786/edbt.2024.50
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

តម្លៃ Shapley សម្រាប់ការបកស្រាយនៅក្នុងកម្មវិធីផ្គូផ្គងទ្វេភាគី

ចំណងជើងដើម៖ Shapley Values for Explanation in Two-sided Matching Applications

អ្នកនិពន្ធ៖ Suraj Shetiya, Ian P. Swift, Abolfazl Asudeh, Gautam Das

ឆ្នាំបោះពុម្ព៖ 2024 Proceedings of the 27th International Conference on Extending Database Technology (EDBT)

វិស័យសិក្សា៖ Computer Science / Explainable AI

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធផ្គូផ្គងទ្វេភាគីទំនើបៗ (ដូចជាកម្មវិធីស្វែងរកការងារ និងការណាត់ជួប) ផ្តល់ជូនបញ្ជីផ្គូផ្គងតាមចំណាត់ថ្នាក់កំពូល (top-k) ប៉ុន្តែខ្វះតម្លាភាពក្នុងការបកស្រាយប្រាប់អ្នកប្រើប្រាស់ថា ហេតុអ្វីបានជាពួកគេមាន ឬមិនមានឈ្មោះក្នុងបញ្ជីទាំងនោះ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្រផ្អែកលើទ្រឹស្តីល្បែងកម្សាន្ត (Game Theory) ដើម្បីគណនាឥទ្ធិពលនៃលក្ខណៈសម្បត្តិនីមួយៗក្នុងការសម្រេចលទ្ធផលនៃការផ្គូផ្គង។

ការកំណត់ទម្រង់សំណួរពន្យល់ដោយប្រើប្រាស់តម្លៃ Shapley (Shapley Values) ដើម្បីវាស់ស្ទង់ការរួមចំណែកនៃលក្ខណៈសម្បត្តិនីមួយៗ
ការបង្កើតក្បួនដោះស្រាយការគំរូដោយចៃដន្យ (Randomized Sampling Algorithm) ដែលមានដែនកំណត់កំហុសដើម្បីកាត់បន្ថយពេលវេលាគណនា
ការកែសម្រួលនិងអនុវត្តវិធីសាស្ត្រ KernelSHAP សម្រាប់ធ្វើការប៉ាន់ស្មានតម្លៃ Shapley ក្នុងអនុវត្តន៍ជាក់ស្តែង

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រប៉ាន់ស្មានតាមរយៈការយកគំរូចៃដន្យ និង KernelSHAP អាចដោះស្រាយបញ្ហាពេលវេលាគណនាដែលកើនឡើងជាអិចស្ប៉ូណង់ស្យែល O(2^n) នៃក្បួនដោះស្រាយពិតប្រាកដ (Exact Shapley) បានយ៉ាងមានប្រសិទ្ធភាព។
លទ្ធផលពិសោធន៍បង្ហាញថា KernelSHAP មានអត្រានៃការទាញរកលទ្ធផលលឿនជាង និងមានកំហុសតិចជាងបើធៀបនឹងវិធីសាស្ត្រយកគំរូតាមបែបចៃដន្យសុទ្ធសាធ សម្រាប់ចំនួនគំរូដូចគ្នា។
ការសិក្សាលើអ្នកប្រើប្រាស់ជាក់ស្តែងបង្ហាញថា អ្នកចូលរួមភាគច្រើន (១៨ លើ ២៨ នាក់) ពេញចិត្តនឹងការបកស្រាយដោយប្រើតម្លៃ Shapley ថាមានអត្ថប្រយោជន៍ និងងាយយល់ជាងវិធីសាស្ត្រ LIME។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Exact Shapley Value (Brute-force) ការគណនាតម្លៃ Shapley ពិតប្រាកដ (Brute-force)	ផ្តល់តម្លៃពិតប្រាកដ និងមានភាពត្រឹមត្រូវដាច់ខាតដោយមិនមានកំហុស។	ទាមទារពេលវេលាគណនាច្រើនជាអិចស្ប៉ូណង់ស្យែល (O(2^d)) ដែលមិនអាចអនុវត្តបានជាមួយទិន្នន័យដែលមានលក្ខណៈសម្បត្តិច្រើន (High dimensions)។	ត្រូវបានប្រើប្រាស់ជាទិន្នន័យគោល (Ground truth) សម្រាប់ធ្វើតេស្ត និងផ្ទៀងផ្ទាត់ភាពត្រឹមត្រូវនៃវិធីសាស្ត្រប៉ាន់ស្មានផ្សេងទៀត។
Approximate Sampling-based Shapley ការប៉ាន់ស្មានតម្លៃ Shapley តាមរយៈការយកគំរូចៃដន្យ	កាត់បន្ថយពេលវេលាគណនាបានច្រើន និងមានការធានាលើដែនកំណត់កំហុសតាមបែបទ្រឹស្តី (Theoretical error bounds)។	នៅតែត្រូវការចំនួនគំរូច្រើនទើបទទួលបានភាពត្រឹមត្រូវខ្ពស់ បើប្រៀបធៀបជាមួយអត្រានៃការទាញរកលទ្ធផលរបស់ KernelSHAP។	ទទួលបានលទ្ធផលនៃការបកស្រាយដូចគ្នានឹងវិធីសាស្ត្រ Brute-force ក្នុង ១១៩ លើ ១២០ ករណីនៃការធ្វើតេស្ត (១១៩/១២០ trials)។
KernelSHAP វិធីសាស្ត្រប៉ាន់ស្មាន KernelSHAP	ដំណើរការបានលឿន និងមានកម្រិតលម្អៀង (Error) ទាបជាងវិធីសាស្ត្រយកគំរូចៃដន្យសម្រាប់ចំនួនគំរូដូចគ្នា។	មិនមានការធានាលើដែនកំណត់នៃកំហុសតាមបែបទ្រឹស្តី (Lacks theoretical guarantees) ដូចវិធីសាស្ត្រយកគំរូចៃដន្យនោះទេ។	បង្ហាញពីប្រសិទ្ធភាពនិងល្បឿនលឿនក្នុងការបកស្រាយលទ្ធផលផ្គូផ្គង ខណៈដែលកំហុសមានទំហំតូចបំផុតនៅពេលប្តូរចំនួនគំរូ។
LIME (Local Interpretable Model-agnostic Explanations) វិធីសាស្ត្របកស្រាយ LIME (ប្រើជា Baseline ក្នុងការសិក្សាលើអ្នកប្រើប្រាស់)	ងាយស្រួលអនុវត្ត លឿន និងមានប្រជាប្រិយភាពក្នុងការបកស្រាយម៉ូដែល Machine Learning ទូទៅ។	ការបកស្រាយមិនសូវស៊ីជម្រៅនិងមិនសូវត្រូវនឹងធម្មជាតិនៃការប្រកួតប្រជែងក្នុងបញ្ហាផ្គូផ្គង (Top-k ranking) បើធៀបនឹង Shapley។	ទទួលបានការគាំទ្រតិចជាង Shapley (១០ នាក់ ធៀបនឹង ១៨ នាក់) ក្នុងការសិក្សាវាយតម្លៃពីអ្នកប្រើប្រាស់ផ្ទាល់។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់សម្រាប់ការគណនាបែប Exact Shapley ប៉ុន្តែត្រូវការធនធានកម្រិតមធ្យមសម្រាប់វិធីសាស្ត្រប៉ាន់ស្មាន KernelSHAP ដែលអាចដំណើរការបានលើកុំព្យូទ័រទូទៅ។

Hardware: ត្រូវការម៉ាស៊ីនកុំព្យូទ័រដែលមានកម្លាំងខ្លាំង ដូចជា Core i9 Intel X-series 3.5 GHz និង RAM ទំហំ 128 GB DDR4 (ដំណើរការលើ Linux Ubuntu)។
Software: ប្រើប្រាស់ភាសា Python 3 រួមជាមួយបណ្ណាល័យ KernelSHAP (ពី GitHub) និងបណ្ណាល័យ auto-sklearn សម្រាប់ការបណ្តុះបណ្តាលម៉ូដែលកាត់សេចក្តី។
Datasets: ប្រើប្រាស់ទិន្នន័យជាក់ស្តែងចំនួន ២ (បេក្ខជនការងារ ៣៩០នាក់ និងនិស្សិតសុំចូលរៀន ៥០០នាក់) ព្រមទាំងសំណុំទិន្នន័យសិប្បនិម្មិតចំនួន ១២០ ដែលមានការបែងចែកលក្ខណៈចម្រុះ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យបេក្ខជនការងារ និងការចូលរៀនសាកលវិទ្យាល័យ ដែលមានប្រភពពី Kaggle ដែលអាចឆ្លុះបញ្ចាំងតែពីបរិបទប្រទេសលោកខាងលិចប៉ុណ្ណោះ។ លក្ខណៈវិនិច្ឆ័យ ទម្លាប់ និងតម្រូវការទីផ្សារការងារនៅកម្ពុជាមានភាពខុសគ្នា ដូចនេះការអនុវត្តជាក់ស្តែងនៅកម្ពុជាតម្រូវឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកដើម្បីចៀសវាងភាពលម្អៀង (Data Bias)។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្របកស្រាយលទ្ធផលនៃការផ្គូផ្គងនេះមានសក្តានុពលខ្ពស់ក្នុងការបង្កើនតម្លាភាពសម្រាប់ប្រព័ន្ធបច្ចេកវិទ្យានៅកម្ពុជា ជាពិសេសក្នុងការអប់រំ និងការងារ។

ទីភ្នាក់ងារជ្រើសរើសបុគ្គលិក និងវេទិកាការងារអនឡាញ (ឧ. BongThom, CamHR, រីងហ្គូ): អាចប្រើប្រាស់ប្រព័ន្ធនេះដើម្បីបកស្រាយប្រាប់បេក្ខជនថាមូលហេតុអ្វីបានជាពួកគេមិនជាប់ការវាយតម្លៃបឋម (Shortlist) របស់ក្រុមហ៊ុន និងបង្ហាញពីជំនាញជាក់លាក់ដែលពួកគេគួរអភិវឌ្ឍបន្ថែម។
ការប្រឡងអាហារូបករណ៍ និងការចូលរៀននៅគ្រឹះស្ថានឧត្តមសិក្សា: ផ្តល់តម្លាភាពដល់សិស្សានុសិស្សអំពីមូលហេតុនៃការធ្លាក់ ឬជាប់អាហារូបករណ៍ ដោយពន្យល់ពីទម្ងន់ពិន្ទុនៃមុខវិជ្ជានីមួយៗធៀបនឹងបេក្ខជនផ្សេងទៀត។
កម្មវិធីសេវាកម្មហិរញ្ញវត្ថុ និងប្រាក់កម្ចី (FinTech Platforms): ជួយពន្យល់អតិថិជនពីមូលហេតុដែលសំណើកម្ចីរបស់ពួកគេត្រូវបានបដិសេធ ដោយបង្ហាញពីកត្តាឥណទាន (Credit Score) ណាដែលទាញទម្លាក់ពិន្ទុរបស់ពួកគេ។

ជារួម ការដាក់បញ្ចូលបច្ចេកវិទ្យាបកស្រាយ (Explainable AI) តាមរយៈ Shapley Values អាចជួយកាត់បន្ថយភាពមន្ទិលសង្ស័យ និងបង្កើនទំនុកចិត្តពីសាធារណជនមកលើប្រព័ន្ធសម្រេចចិត្តដោយស្វ័យប្រវត្តិនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃទ្រឹស្តីល្បែង និងការផ្គូផ្គង (Game Theory & Top-k Matching): និស្សិតត្រូវចាប់ផ្តើមស្វែងយល់ពីគោលការណ៍ក្បួនគណនានៃ Shapley Values ព្រមទាំងយន្តការនៃការរៀបចំណាត់ថ្នាក់តាមលំដាប់ Top-k ranking mechanisms។
រៀបចំសំណុំទិន្នន័យសាកល្បងក្នុងស្រុក: ប្រមូលទិន្នន័យពីការជ្រើសរើសបុគ្គលិក ឬលទ្ធផលប្រឡងអាហារូបករណ៍ រួចធ្វើការសម្អាតទិន្នន័យ (Data Preprocessing) ដោយប្រើប្រាស់ Python និងបណ្ណាល័យ Pandas។
អនុវត្តក្បួនដោះស្រាយ KernelSHAP: សរសេរកូដដោយប្រើប្រាស់បណ្ណាល័យ KernelSHAP នៅក្នុង Python ដើម្បីវាយតម្លៃសំណុំទិន្នន័យ ជៀសវាងការប្រើ Brute-force (Exact Shapley) ដែលចំណាយពេលយូរ។
បង្កើតចំណុចប្រទាក់សម្រាប់អ្នកប្រើប្រាស់ (User Interface): រៀបចំផ្ទាំងបង្ហាញលទ្ធផល (Dashboard) ឧទាហរណ៍ដោយប្រើ Streamlit ដើម្បីបង្ហាញហេតុផលនៃការផ្គូផ្គងឱ្យងាយយល់ និងយកទៅធ្វើតេស្តសាកល្បងជាមួយអ្នកប្រើប្រាស់ពិតប្រាកដ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Shapley values	ជារង្វាស់ក្នុងទ្រឹស្តីល្បែងកម្សាន្តដែលប្រើសម្រាប់បែងចែកដោយយុត្តិធម៌នូវការរួមចំណែករបស់កត្តា (ឬអ្នកលេង) នីមួយៗទៅលើលទ្ធផលសរុប។ នៅក្នុងការស្រាវជ្រាវនេះ វាត្រូវបានប្រើដើម្បីគណនាថាតើលក្ខណៈសម្បត្តិណាមួយរបស់បេក្ខជនមានឥទ្ធិពលខ្លាំងជាងគេក្នុងការធ្វើឱ្យគេជាប់ ឬធ្លាក់ក្នុងការផ្គូផ្គង។	ដូចជាការបែងចែកប្រាក់រង្វាន់ដល់សមាជិកក្រុមបាល់ទាត់ ដោយវាយតម្លៃដោយយុត្តិធម៌លើការប្រឹងប្រែងជាក់ស្តែងរបស់អ្នកនីមួយៗក្នុងការនាំឱ្យក្រុមទទួលបានជ័យជម្នះ។
Two-sided matching	ជាដំណើរការផ្គូផ្គងរវាងភាគីពីរដែលមានតម្រូវការរៀងៗខ្លួន (ឧទាហរណ៍ ក្រុមហ៊ុនស្វែងរកបុគ្គលិក និងបុគ្គលិកស្វែងរកការងារ) ដែលភាគីនីមួយៗមានចំណូលចិត្ត ឬលក្ខណៈវិនិច្ឆ័យផ្ទាល់ខ្លួន ហើយប្រព័ន្ធត្រូវរកចំណុចកណ្តាលដែលភាគីទាំងសងខាងអាចទទួលយកបាន។	ដូចជាកម្មវិធីណាត់ជួប (Dating App) ដែលភាគីសងខាងត្រូវតែពេញចិត្តនឹងប្រវត្តិរូបគ្នាមុននឹងអាចចាប់គូ (Match) គ្នាបានដោយជោគជ័យ។
Top-k matching model	ជាប្រព័ន្ធក្បួនដោះស្រាយដែលរៀបចំណាត់ថ្នាក់ទិន្នន័យ ហើយជ្រើសរើសយកជម្រើសល្អបំផុតចំនួន k (ឧ. ជម្រើសកំពូលទាំង ៥ ឬ ១០) ពីក្នុងបញ្ជីទិន្នន័យដ៏ធំមួយ ដើម្បីបង្ហាញជូនអ្នកប្រើប្រាស់ ដោយផ្អែកលើពិន្ទុភាពស័ក្តិសមខ្ពស់ជាងគេ។	ដូចជាការប្រកាសលទ្ធផលសិស្សពូកែប្រចាំថ្នាក់ ដោយមិនអានឈ្មោះសិស្សទាំង ៥០ នាក់ទេ គឺយកតែអ្នកមានពិន្ទុខ្ពស់ជាងគេ ៣ នាក់ (Top-3) ប៉ុណ្ណោះមកផ្តល់រង្វាន់។
KernelSHAP	ជាក្បួនដោះស្រាយប៉ាន់ស្មានតម្លៃ Shapley ដ៏មានប្រសិទ្ធភាពមួយនៅក្នុងម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដែលជួយពន្យល់ពីមូលហេតុនៃការសម្រេចចិត្តរបស់ប្រព័ន្ធម៉ាស៊ីន ដោយមិនចាំបាច់ប្រើពេលវេលាគណនាច្រំដែលច្រើនពេកដែលស៊ីពេលយូរ។	ដូចជាការសួរសាក្សីសំខាន់ៗចំនួន ៥ នាក់ដើម្បីសន្និដ្ឋានសាច់រឿងឱ្យបានលឿន ជាជាងការដើរសួរមនុស្សរាប់ពាន់នាក់ដែលអាចចំណាយពេលរាប់ខែ។
Bipartite graph	ជាទម្រង់ក្រាហ្វក្នុងគណិតវិទ្យាដែលបែងចែកចំណុច (Nodes) ជាពីរសំណុំដាច់ដោយឡែកពីគ្នា ហើយខ្សែភ្ជាប់ (Edges) អាចមានបានតែរវាងចំណុចពីសំណុំមួយទៅសំណុំមួយទៀតប៉ុណ្ណោះ មិនអាចភ្ជាប់គ្នាឯងក្នុងសំណុំតែមួយឡើយ។	ដូចជាការគូសបន្ទាត់ភ្ជាប់រវាងបញ្ជីឈ្មោះសិស្ស (ក្រុមទី១) និងបញ្ជីឈ្មោះមុខវិជ្ជា (ក្រុមទី២) ដោយសិស្សមិនអាចគូសបន្ទាត់ភ្ជាប់ទៅសិស្សគ្នាឯងបានទេ។
Coalitional game	ជាទ្រឹស្តីល្បែងកម្សាន្តដែលសមាជិក ឬអ្នកលេងជ្រើសរើសសហការគ្នាជាក្រុមដើម្បីប្រកួតប្រជែងយកអត្ថប្រយោជន៍រួម ហើយត្រូវស្វែងរកវិធីបែងចែកតម្លៃនៃអត្ថប្រយោជន៍នោះទៅតាមកម្រិតនៃការចូលរួមរបស់សមាជិកម្នាក់ៗ។	ដូចជាក្រុមសិស្សរួមគ្នាធ្វើកិច្ចការស្រាវជ្រាវ (Group Work) ដើម្បីបានពិន្ទុខ្ពស់ រួចលោកគ្រូវាយតម្លៃថាអ្នកណាធ្វើការងារអ្វីខ្លះដើម្បីបែងចែកពិន្ទុរៀងៗខ្លួន។
Jaccard similarity	ជារង្វាស់ស្ថិតិសម្រាប់ប្រៀបធៀបភាពស្រដៀងគ្នានៃសំណុំទិន្នន័យពីរ ដោយគណនាផលធៀបរវាងចំនួនធាតុដែលមានដូចគ្នាបេះបិទ (Intersection) ចែកជាមួយនឹងចំនួនធាតុសរុបបញ្ចូលគ្នា (Union)។	ដូចជាការប្រៀបធៀបគ្រឿងផ្សំនៃមុខម្ហូបពីរមុខ បើមានគ្រឿងផ្សំដូចគ្នាច្រើន នោះលទ្ធផលភាពស្រដៀងគ្នាកាន់តែខិតជិតទៅរកលេខ ១។
LIME	LIME (Local Interpretable Model-agnostic Explanations) ជាវិធីសាស្ត្រមួយសម្រាប់ពន្យល់ពីការសម្រេចចិត្តរបស់ម៉ូដែល AI ដ៏ស្មុគស្មាញ ដោយបង្កើតម៉ូដែលសាមញ្ញមួយផ្សេងទៀតដើម្បីរៀនធ្វើត្រាប់តាមការសម្រេចចិត្តនោះក្នុងទំហំទិន្នន័យតូចចង្អៀត (Local scale)។	ដូចជាការព្យាយាមពន្យល់ពីរូបមន្តគណិតវិទ្យាដ៏ស្មុគស្មាញមួយ ដោយប្រើឧទាហរណ៍លេខតូចៗងាយៗឱ្យសិស្សងាយយល់ចំណុចជាក់លាក់ណាមួយសិន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖