Original Title: Fairness in Learning Analytics: Student At-risk Prediction in Virtual Learning Environments
Source: doi.org/10.5220/0009324100150025
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ភាពយុត្តិធម៌ក្នុងការវិភាគការសិក្សា៖ ការព្យាករណ៍សិស្សដែលប្រឈមនឹងហានិភ័យនៅក្នុងបរិយាកាសសិក្សានិម្មិត

ចំណងជើងដើម៖ Fairness in Learning Analytics: Student At-risk Prediction in Virtual Learning Environments

អ្នកនិពន្ធ៖ Shirin Riazy (Hochschule für Technik und Wirtschaft, Berlin, Germany), Katharina Simbeck (Hochschule für Technik und Wirtschaft, Berlin, Germany), Vanessa Schreck (Hochschule für Technik und Wirtschaft, Berlin, Germany)

ឆ្នាំបោះពុម្ព៖ 2020, Proceedings of the 12th International Conference on Computer Supported Education (CSEDU 2020)

វិស័យសិក្សា៖ Learning Analytics / Educational Data Mining

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាកង្វះខាតភាពយុត្តិធម៌នៃក្បួនដោះស្រាយ (Algorithmic Fairness) ក្នុងបរិបទអប់រំ ដែលការព្យាករណ៍សិស្សប្រឈមនឹងហានិភ័យដោយប្រើប្រាស់ម៉ាស៊ីនរៀនអាចបង្កើត ឬពង្រីកភាពលម្អៀងដែលមានស្រាប់ (ដូចជាយេនឌ័រ ឬពិការភាព)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះវាយតម្លៃក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning Algorithms) ជាច្រើនប្រភេទ ដើម្បីព្យាករណ៍ពីលទ្ធផលរបស់សិស្សដោយប្រើប្រាស់សំណុំទិន្នន័យសិក្សាបើកចំហ និងវាស់ស្ទង់ភាពត្រឹមត្រូវជាមួយរង្វាស់ភាពយុត្តិធម៌ផ្សេងៗ។

ការប្រើប្រាស់សំណុំទិន្នន័យវិភាគការសិក្សាបើកចំហ (OULAD Dataset) ដែលមានទិន្នន័យសិស្សប្រមាណ ៣០,០០០ នាក់។
ការអនុវត្តក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) ដូចជា Logistic Regression, Naive Bayes, Decision Tree, និង Multi-Layer Perceptron សម្រាប់ការធ្វើចំណាត់ថ្នាក់សិស្ស។
ការសាកល្បងក្បួនដោះស្រាយកាត់បន្ថយភាពលម្អៀង (Bias-mitigation Algorithms) ដូចជា Kamishima's Prejudice Remover និង Zafar's Margin-Based Classifier។
ការវាស់ស្ទង់ជាមួយរង្វាស់ភាពយុត្តិធម៌ (Fairness Metrics) រួមមាន Disparate Impact (DI), Normalized Mutual Information (NMI), និង Underestimation Index (UEI)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ក្បួនដោះស្រាយភាគច្រើនបានចម្លង និងជួនកាលពង្រីកភាពលម្អៀង (Bias) ដែលមានស្រាប់នៅក្នុងទិន្នន័យ ជាពិសេសចំពោះក្រុមសិស្សដែលមានពិការភាព (Students with declared disabilities) ដែលត្រូវបានទស្សន៍ទាយថានឹងធ្លាក់ច្រើនជាងធម្មតា។
រង្វាស់សន្ទស្សន៍ប៉ាន់ស្មានទាប (UEI) និងព័ត៌មានទៅវិញទៅមកដែលបានធ្វើឱ្យមានលក្ខណៈស្តង់ដារ (NMI) ត្រូវបានរកឃើញថាជាឧបករណ៍ដែលអាចជឿទុកចិត្តបានក្នុងការរកឃើញអតុល្យភាព (Imbalances) នៅក្នុងទិន្នន័យមុនពេលធ្វើការវិភាគ។
ការប្រើប្រាស់ក្បួនដោះស្រាយផ្អែកលើលក្ខខណ្ឌដើម្បីយុត្តិធម៌ (Constraint-based Algorithms) និងការដកចេញនូវព័ត៌មានរសើប (ដូចជាយេនឌ័រ ឬពិការភាព) បានធ្វើឱ្យប្រសើរឡើងបន្តិចបន្តួចនូវតម្លៃនៃភាពយុត្តិធម៌ ប៉ុន្តែមិនមានការថយចុះគួរឱ្យកត់សម្គាល់ចំពោះភាពសុក្រឹតនៃការព្យាករណ៍ (Accuracy) នោះទេ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Kamishima's Prejudice Remover (KPR) ឧបករណ៍លុបបំបាត់ការរើសអើងរបស់ Kamishima	មានលក្ខខណ្ឌកំណត់ (Regularization term) ដើម្បីកាត់បន្ថយភាពលម្អៀងដោយផ្ទាល់នៅពេលកំពុងបង្វឹកម៉ូដែល និងរក្សាបាននូវភាពត្រឹមត្រូវខ្ពស់។	ទទួលបានតម្លៃព័ត៌មានទៅវិញទៅមក (Normalized Mutual Information - NMI) ទាបជាងគេបើប្រៀបធៀបជាមួយក្បួនផ្សេងទៀត។	សម្រេចបានភាពសុក្រឹត (Accuracy) ៩៦.៨% និងកែលម្អតម្លៃយុត្តិធម៌បានប្រសើរជាងម៉ូដែលធម្មតា។
Zafar's Margin-Based Classifier (ZMBC) ចំណាត់ថ្នាក់ផ្អែកលើរឹមរបស់ Zafar	អាចអនុវត្តលក្ខខណ្ឌយុត្តិធម៌បានល្អទៅលើចំណាត់ថ្នាក់ផ្អែកលើរឹម (Margin-based classifiers) ដើម្បីគ្រប់គ្រងផលប៉ះពាល់មិនស្មើគ្នា (Disparate Impact)។	អាចមានភាពស្មុគស្មាញក្នុងការកំណត់ប៉ារ៉ាម៉ែត្រ (Parameter tuning) ដើម្បីធ្វើឱ្យមានតុល្យភាពរវាងភាពត្រឹមត្រូវនិងភាពយុត្តិធម៌។	សម្រេចបានភាពសុក្រឹត (Accuracy) ៩៦.៧% និងមានភាពយុត្តិធម៌ប្រហាក់ប្រហែលគ្នានឹង KPR។
Classical Logistic Regression (LR) តម្រែតម្រង់ឡូជីស្ទិកបុរាណ	ជាម៉ូដែលមូលដ្ឋាន (Baseline) ដ៏សាមញ្ញ ងាយស្រួលបកស្រាយលទ្ធផល និងប្រើប្រាស់ធនធានកុំព្យូទ័រតិច។	ម៉ូដែលនេះចម្លង និងពង្រីកភាពលម្អៀង (Bias) ដែលមានក្នុងទិន្នន័យ ជាពិសេសប្រឆាំងនឹងក្រុមសិស្សមានពិការភាព។	សម្រេចបានភាពសុក្រឹត (Accuracy) ៩៦.៧% ប៉ុន្តែមានអត្រា Disparate Impact ខ្ពស់មិនយុត្តិធម៌សម្រាប់សិស្សពិការ។
Naive Bayes (NB) ណាយអ៊ីវបេយ	ភាពសុក្រឹតនៃម៉ូដែលកើនឡើងយ៉ាងច្បាស់នៅពេលដែលយើងដកចេញនូវទិន្នន័យរសើប (Sensitive attributes ដូចជាយេនឌ័រនិងពិការភាព)។	មានតម្លៃភាពយុត្តិធម៌ ABROCA អាក្រក់ជាងគេ ដែលបង្ហាញពីគម្លាតធំរវាងក្រុមផ្សេងៗ។	ភាពសុក្រឹត (Accuracy) កើនពី ៩០.៩% ទៅដល់ ៩៤.៩% នៅពេលមិនប្រើប្រាស់ទិន្នន័យរសើប (Sensitive information)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តការសិក្សានេះទាមទារធនធានកម្រិតមធ្យម ជាពិសេសទិន្នន័យសិស្សក្នុងបរិមាណច្រើន និងចំណេះដឹងពាក់ព័ន្ធនឹងក្បួនដោះស្រាយភាពយុត្តិធម៌។

Dataset: ទាមទារសំណុំទិន្នន័យវិភាគការសិក្សាធំដុំ ដូចជា OULAD Dataset ដែលមានទិន្នន័យនិស្សិតរាប់ម៉ឺននាក់ និងប្រវត្តិនៃការប្រើប្រាស់ប្រព័ន្ធសិក្សានិម្មិត (VLE)។
Expertise: ចំណេះដឹងស៊ីជម្រៅផ្នែកម៉ាស៊ីនរៀន (Machine Learning), ការវិភាគការសិក្សា (Learning Analytics), និងការវាស់ស្ទង់ភាពយុត្តិធម៌នៃក្បួនដោះស្រាយ (Algorithmic Fairness)។
Software: ភាសាកម្មវិធី Python (ឬ R) ជាមួយនឹងបណ្ណាល័យវិទ្យាសាស្ត្រទិន្នន័យ និងឧបករណ៍កាត់បន្ថយភាពលម្អៀងកូដបើកចំហ (Open-source bias mitigation tools)។
Hardware: កុំព្យូទ័រខ្នាតមធ្យម (Standard CPU/RAM) គឺគ្រប់គ្រាន់សម្រាប់ម៉ូដែលដូចជា Logistic Regression និង Decision Tree ដោយមិនចាំបាច់ប្រើប្រាស់ GPU ធំដុំឡើយ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់សំណុំទិន្នន័យ OULAD របស់សាកលវិទ្យាល័យ Open University (ចក្រភពអង់គ្លេស) ក្នុងឆ្នាំ២០១៣-២០១៤ ដែលក្រុមនិស្សិតមានពិការភាព (Students with declared disability) មានចំនួនតិចតួចបំផុតក្នុងទិន្នន័យ។ សម្រាប់ប្រទេសកម្ពុជា បញ្ហានេះមានសារៈសំខាន់ណាស់ ពីព្រោះប្រព័ន្ធអប់រំនៅកម្ពុជាមានភាពលម្អៀងទិន្នន័យខុសៗគ្នា (ដូចជា គម្លាតរវាងសិស្សទីក្រុងនិងជនបទ ឬលទ្ធភាពទទួលបានអ៊ីនធឺណិត) ដែលតម្រូវឱ្យមានការត្រួតពិនិត្យយ៉ាងប្រុងប្រយ័ត្នមុននឹងយកម៉ូដែលបែបនេះមកអនុវត្ត។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ការវិភាគនេះគឺមានអត្ថប្រយោជន៍ និងអាចយកមកអនុវត្តបាននៅក្នុងគ្រឹះស្ថានឧត្តមសិក្សានៅកម្ពុជា ដើម្បីជួយអន្តរាគមន៍ទាន់ពេលវេលាដល់សិស្សដែលប្រឈមនឹងការធ្លាក់ ឬបោះបង់ការសិក្សា ដោយប្រកាន់ខ្ជាប់នូវភាពយុត្តិធម៌។

គ្រឹះស្ថានឧត្តមសិក្សា (e.g., RUPP, ITC): អាចប្រើប្រាស់វាជាប្រព័ន្ធប្រកាសអាសន្នជាមុន (Early Warning System) ដើម្បីជួយដល់សិស្សទន់ខ្សោយ ឬសិស្សដែលមកពីខេត្តឆ្ងាយៗ ដោយធានាថាមិនមានការរើសអើងដោយប្រព័ន្ធកុំព្យូទ័រ (Algorithmic bias) លើប្រភពដើមរបស់ពួកគេ។
ប្រព័ន្ធសិក្សាអនឡាញ (MoEYS E-learning): អាចតាមដានសកម្មភាពចូលរៀន ឬការចុចមើលមេរៀន (Clickstream) ដើម្បីណែនាំផ្លូវសិក្សា (Learning paths) ដោយមិនដាក់បន្ទុកលម្អៀងលើសិស្សនៅតំបន់ដាច់ស្រយាលដែលមានល្បឿនអ៊ីនធឺណិតយឺត។

ការដាក់បញ្ចូលនូវរង្វាស់ភាពយុត្តិធម៌ (Fairness metrics) ក្នុងការវិភាគទិន្នន័យអប់រំ នឹងជួយស្ថាប័នកម្ពុជាកាត់បន្ថយអត្រាបោះបង់ការសិក្សាប្រកបដោយប្រសិទ្ធភាព និងធានាបាននូវសមធម៌ក្នុងបរិយាកាសសិក្សាឌីជីថល។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ស្វែងយល់ពីមូលដ្ឋានគ្រឹះនៃភាពយុត្តិធម៌: សិក្សាពីអត្ថន័យនៃ Disparate Impact និងការលម្អៀងនៃក្បួនដោះស្រាយ។ អ្នកអាចចាប់ផ្តើមដោយប្រើប្រាស់ឧបករណ៍ AIF360 (AI Fairness 360) របស់ IBM ដើម្បីសាកល្បងវាស់ស្ទង់ទិន្នន័យគំរូ។
ប្រមូល និងរៀបចំទិន្នន័យសិក្សា: ទាញយកទិន្នន័យប្រវត្តិសិស្ស និងសកម្មភាពសិក្សាពីប្រព័ន្ធគ្រប់គ្រងការសិក្សា (LMS) ដូចជា Moodle ឬ Canvas ដោយប្រើប្រាស់ Pandas ក្នុង Python ដើម្បីសម្អាត និងរៀបចំរចនាសម្ព័ន្ធទិន្នន័យ។
អភិវឌ្ឍម៉ូដែលព្យាករណ៍មូលដ្ឋាន (Baseline): ប្រើប្រាស់ Scikit-learn ដើម្បីបង្កើតម៉ូដែលចំណាត់ថ្នាក់សាមញ្ញ (ឧ. Logistic Regression ឬ Decision Tree) ដោយមិនទាន់ប្រើប្រាស់ក្បួនយុត្តិធម៌ ដើម្បីវាស់ស្ទង់ភាពត្រឹមត្រូវដំបូង (Baseline Accuracy)។
វាយតម្លៃគម្លាតនៃភាពយុត្តិធម៌: គណនាតម្លៃរង្វាស់ NMI (Normalized Mutual Information) និង UEI (Underestimation Index) លើលទ្ធផលរបស់ម៉ូដែល ដើម្បីកំណត់ថាតើមានការរើសអើងប្រឆាំងនឹងក្រុមសិស្សងាយរងគ្រោះ (ឧ. សិស្សជនបទ) ដែរឬទេ។
អនុវត្តក្បួនដោះស្រាយកាត់បន្ថយភាពលម្អៀង: ប្រសិនបើរកឃើញភាពលម្អៀង សូមប្រើប្រាស់ក្បួនផ្អែកលើលក្ខខណ្ឌដូចជា Kamishima's Prejudice Remover ឬសាកល្បងដកចេញនូវអថេររសើប (Sensitive attributes) មុនពេលដាក់ពង្រាយប្រព័ន្ធអន្តរាគមន៍ជួយសិស្សពិតប្រាកដ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Learning Analytics	ការប្រមូល វិភាគ និងប្រើប្រាស់ទិន្នន័យសកម្មភាពរបស់សិស្ស (ដូចជាការចុចមើលមេរៀន និងប្រវត្តិនៃការផ្ញើកិច្ចការ) ដើម្បីស្វែងយល់ពីរបៀបដែលពួកគេរៀន និងជួយកែលម្អបរិយាកាសសិក្សាឱ្យកាន់តែប្រសើរ។	ដូចជាគ្រូពេទ្យពិនិត្យមើលរោគសញ្ញានិងប្រវត្តិសុខភាពរបស់អ្នកជំងឺ ដើម្បីផ្សំថ្នាំព្យាបាលឱ្យត្រូវនឹងជំងឺអ៊ីចឹងដែរ គ្រាន់តែនេះជាការប្រើទិន្នន័យដើម្បីជួយសិស្សក្នុងការរៀនសូត្រ។
Algorithmic fairness	ដំណើរការនៃការធានាថាកម្មវិធីកុំព្យូទ័រឆ្លាតវៃ ឬម៉ាស៊ីនរៀន (Machine Learning) មិនធ្វើការសម្រេចចិត្តដែលមានការរើសអើង ឬលម្អៀងទៅលើក្រុមមនុស្សណាមួយដោយផ្អែកលើភេទ ពណ៌សម្បុរ ឬពិការភាពឡើយ។	ដូចជាអាជ្ញាកណ្តាលកាត់ក្តីក្នុងការប្រកួតកីឡាដោយមិនលម្អៀងទៅខាងក្រុមណាមួយ ដោយឈរលើច្បាប់តែមួយសម្រាប់ទាំងអស់គ្នា ទោះបីជាកីឡាករមានសាវតារខុសគ្នាក៏ដោយ។
Disparate Impact	រង្វាស់គណិតវិទ្យាដែលប្រើដើម្បីវាស់ស្ទង់ថាតើលទ្ធផល ឬការសម្រេចចិត្តពីប្រព័ន្ធកុំព្យូទ័រ បានផ្តល់ផលប៉ះពាល់អវិជ្ជមានដល់ក្រុមជនជាតិ យេនឌ័រ ឬសិស្សមានពិការភាពច្រើនជាងក្រុមមួយទៀតឬអត់ ទោះបីជាគ្មានការតាំងចិត្តរើសអើងក៏ដោយ។	ដូចជាការតម្រូវឱ្យអ្នកពាក់ស្បែកជើងធម្មតានិងអ្នកពាក់ស្បែកជើងកីឡារត់លើផ្លូវរអិលតែមួយ ដែលច្បាប់នេះមើលទៅស្មើគ្នា ប៉ុន្តែវាធ្វើឱ្យអ្នកអត់មានស្បែកជើងកីឡាដួលធ្លាក់ច្រើនជាង។
Normalized Mutual Information	រូបមន្តគណិតវិទ្យាដែលប្រើដើម្បីវាស់ស្ទង់ថាតើព័ត៌មានពីរ (ឧទាហរណ៍ ភេទរបស់សិស្ស និងលទ្ធផលប្រឡង) មានទំនាក់ទំនងពឹងផ្អែកគ្នាខ្លាំងកម្រិតណា ដើម្បីកំណត់រកមើលថាតើទិន្នន័យមានលាក់នូវការរើសអើងដោយប្រយោលដែរឬទេ។	ដូចជាការសង្កេតមើលថាតើម៉ាកកាបូបស្ពាយរបស់សិស្សមានទំនាក់ទំនងយ៉ាងជិតស្និទ្ធនឹងពិន្ទុប្រឡងប្រចាំខែរបស់ពួកគេកម្រិតណា ដើម្បីដឹងថាការដាក់ពិន្ទុមានភាពលម្អៀងលើឋានៈសង្គមឬអត់។
Underestimation Index	សូចនាករដែលកុំព្យូទ័រប្រើដើម្បីចាប់កំហុសនៅពេលដែលវាបានទស្សន៍ទាយលទ្ធផលទាបជាងការពិតសម្រាប់ក្រុមសិស្សភាគតិចណាមួយ ដោយសារតែម៉ូដែលមិនមានទិន្នន័យគ្រប់គ្រាន់ក្នុងការស្គាល់ពីក្រុមនោះច្បាស់។	ដូចជាការដែលយើងវាយតម្លៃសមត្ថភាពសិស្សចំណូលថ្មីទាបជាងការពិត ព្រោះយើងមិនទាន់ស្គាល់ពីប្រវត្តិ ឬមិនទាន់បានឃើញសកម្មភាពការងាររបស់ពួកគេគ្រប់គ្រាន់។
At-risk students	ក្រុមនិស្សិតដែលត្រូវបានប្រព័ន្ធកុំព្យូទ័រវាយតម្លៃនិងទស្សន៍ទាយថាមានភាគរយខ្ពស់ក្នុងការប្រឡងធ្លាក់ ឬបោះបង់ការសិក្សា ដែលតម្រូវឱ្យគ្រូបង្រៀននិងសាលាផ្តល់ជំនួយនិងអន្តរាគមន៍បន្ទាន់មុនពេលហួសពេល។	ដូចជាការទស្សន៍ទាយប្រាប់មុននូវដើមឈើណាដែលអាចនឹងងាប់ដោយសារខ្វះជាតិទឹក ដើម្បីឱ្យអ្នកថែសួនប្រញាប់យកទឹកទៅស្រោចសង្គ្រោះវាទាន់ពេលវេលា។
Kamishima’s Prejudice Remover	ក្បួនដោះស្រាយម៉ាស៊ីនរៀនដែលបានបន្ថែមសមីការគណិតវិទ្យាពិសេសមួយ (Regularizer) ដើម្បីទប់ស្កាត់ម៉ូដែលកុំឱ្យរៀន និងយកត្រាប់តាមទម្លាប់នៃការរើសអើងដែលមានបង្កប់ស្រាប់នៅក្នុងសំណុំទិន្នន័យចាស់ៗ។	ដូចជាការដាក់តម្រងចម្រោះទឹកស្អាត ដើម្បីច្រោះយកក្អែល និងមេរោគចេញ មុននឹងយើងយកទឹកនោះមកបរិភោគ ឬប្រើប្រាស់។
Virtual Learning Environments	ប្រព័ន្ធបច្ចេកវិទ្យាអប់រំតាមអ៊ីនធឺណិត ដែលសាលាប្រើសម្រាប់ផ្ទុកឯកសារមេរៀន ដាក់កិច្ចការ និងតាមដានរាល់សកម្មភាពសិក្សារបស់សិស្សម្នាក់ៗ រួមទាំងចំនួនដងនៃការ Log in និងការទាញយកឯកសារ។	គឺជាថ្នាក់រៀនលើអ៊ីនធឺណិត ដែលមានសមត្ថភាពកត់ត្រារាល់ការដើរចេញចូល ទាញសៀវភៅអាន និងការឆ្លើយសំណួររបស់សិស្សដោយស្វ័យប្រវត្តិ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖