Original Title: Should Learning Analytics Models Include Sensitive Attributes? Explaining the Why
Source: doi.org/10.1109/TLT.2022.3226474
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

តើម៉ូដែលវិភាគការសិក្សាគួររួមបញ្ចូលលក្ខណៈរសើបដែរឬទេ? ការពន្យល់ពីមូលហេតុ

ចំណងជើងដើម៖ Should Learning Analytics Models Include Sensitive Attributes? Explaining the Why

អ្នកនិពន្ធ៖ Oscar Blessed Deho (University of South Australia), Srecko Joksimovic (University of South Australia), Jiuyong Li (University of South Australia), Chen Zhan (University of South Australia), Jixue Liu (University of South Australia), Lin Liu (University of South Australia)

ឆ្នាំបោះពុម្ព៖ 2022 IEEE Transactions on Learning Technologies

វិស័យសិក្សា៖ Learning Analytics / Educational Data Mining

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយនូវកង្វល់ក្រមសីលធម៌អំពីថាតើម៉ូដែលទស្សន៍ទាយទិន្នន័យនៃការសិក្សា (Learning Analytics Models) គួររួមបញ្ចូល ឬដកចេញនូវលក្ខណៈរសើប/ត្រូវបានការពារ (ដូចជា យេនឌ័រ អាយុ ពិការភាព និងភាសា) ដើម្បីធានាបាននូវភាពយុត្តិធម៌ និងទប់ស្កាត់ការរើសអើងដែរឬទេ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានបង្កើតម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning Models) ដើម្បីទស្សន៍ទាយការបោះបង់ការសិក្សារបស់និស្សិត និងវាយតម្លៃពីផលប៉ះពាល់នៃការប្រើប្រាស់លក្ខណៈរសើបដោយផ្អែកលើការពិសោធន៍ជាក់ស្តែង និងបញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន (Explainable AI)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Aware Model
ម៉ូដែលយល់ដឹងព័ត៌មានពេញលេញ (រួមបញ្ចូលលក្ខណៈរសើបទាំងអស់)
អាចចាប់យកទំនាក់ទំនងពិតប្រាកដរវាងលក្ខណៈរសើប និងអត្រាបោះបង់ការសិក្សា ដែលជួយឱ្យស្ថាប័នយល់ពីវិសមភាពពិតប្រាកដដែលមានស្រាប់។ អាចបង្កជាការព្រួយបារម្ភផ្នែកក្រមសីលធម៌ និងហានិភ័យនៃការរើសអើងដោយផ្ទាល់ ប្រសិនបើលទ្ធផលត្រូវបានយកទៅប្រើប្រាស់មិនបានត្រឹមត្រូវ។ ផ្តល់ប្រសិទ្ធភាពទស្សន៍ទាយល្អប្រហាក់ប្រហែលនឹងម៉ូដែលដទៃ ប៉ុន្តែជួយរក្សាភាពយុត្តិធម៌បានល្អជាងក្នុងករណីខ្លះ (ឧទាហរណ៍៖ ការទស្សន៍ទាយដោយផ្អែកលើភាសាដើម)។
Partially-blind Model
ម៉ូដែលខ្វះព័ត៌មានខ្លះ (ដកចេញលក្ខណៈរសើបណាមួយ)
កាត់បន្ថយការប្រើប្រាស់ព័ត៌មានរសើបដោយផ្ទាល់ចំពោះលក្ខណៈជាក់លាក់ណាមួយ (ឧទាហរណ៍៖ ព័ត៌មានពីពិការភាព ឬយេនឌ័រ)។ ការដកចេញលក្ខណៈតែមួយមុខជួនកាលធ្វើឱ្យភាពលម្អៀងកាន់តែធ្ងន់ធ្ងរ ព្រោះលក្ខណៈនោះអាចមានទំនាក់ទំនងទៅនឹងលក្ខណៈផ្សេងទៀតដែលនៅសេសសល់។ ភាពខុសគ្នានៃប្រសិទ្ធភាពមានកម្រិតតិចតួចបំផុត (Marginal effect) ប៉ុន្តែអាចបណ្តាលឱ្យមានភាពមិនយុត្តិធម៌កាន់តែខ្លាំងចំពោះក្រុមនិស្សិតប្រើភាសាដើមមិនមែនអង់គ្លេស។
Blind Model
ម៉ូដែលគ្មានព័ត៌មានលក្ខណៈរសើប (ដកចេញលក្ខណៈរសើបទាំងអស់)
មើលទៅហាក់ដូចជាអនុលោមតាមគោលការណ៍យុត្តិធម៌តាមរយៈការមិនដឹង (Fairness through unawareness) ដែលជៀសវាងការរើសអើងដោយចំហរ។ ការលាក់បាំងលក្ខណៈរសើបមិនបានលុបបំបាត់ភាពលម្អៀងទេ (ដោយសារបាតុភូត Redlining) ហើយថែមទាំងអាចបិទបាំងនូវវិសមភាពដែលគួរតែត្រូវបានដោះស្រាយ។ មិនមានការធ្លាក់ចុះប្រសិទ្ធភាពទស្សន៍ទាយគួរឱ្យកត់សម្គាល់ទេ ប៉ុន្តែវាមិនអាចដោះស្រាយបញ្ហាអយុត្តិធម៌បានឡើយ ហើយជារឿយៗវាផ្តល់ផលអវិជ្ជមានត្រឡប់មកវិញ។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់លម្អិតពីតម្លៃធនធាន ប៉ុន្តែការអនុវត្តវិធីសាស្ត្រនេះទាមទារទិន្នន័យប្រវត្តិសិក្សាសម្បូរបែប និងសមត្ថភាពកុំព្យូទ័រមធ្យមសម្រាប់ការហ្វឹកហាត់ម៉ូដែលរៀនដោយម៉ាស៊ីន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានអនុវត្តលើសំណុំទិន្នន័យតូចមួយ (និស្សិត ៦៩៦នាក់) នៅសាកលវិទ្យាល័យរដ្ឋធំមួយក្នុងប្រទេសអូស្ត្រាលី ដែលមានបរិបទសង្គម-សេដ្ឋកិច្ចខុសស្រឡះពីកម្ពុជា។ ប្រសិនបើកម្ពុជាយកវិធីសាស្ត្រនេះមកអនុវត្ត លទ្ធផលទស្សន៍ទាយអាចនឹងមានភាពលម្អៀងខ្ពស់ ដោយសារកត្តាប្រជាសាស្ត្រកម្ពុជាមានភាពខុសប្លែកគ្នា (ឧទាហរណ៍៖ គម្លាតរវាងសិស្សទីក្រុងនិងជនបទ ជីវភាពគ្រួសារ ជាដើម) ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកផ្ទាល់ដើម្បីវាយតម្លៃ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាទិន្នន័យមានភាពខុសគ្នាក៏ពិតមែន ប៉ុន្តែវិធីសាស្ត្រនៃការប្រើប្រាស់ AI ដែលអាចពន្យល់បាន (Explainable AI) និងការវាយតម្លៃភាពយុត្តិធម៌ គឺពិតជាមានសារៈសំខាន់ និងអាចយកមកអនុវត្តបាននៅក្នុងប្រព័ន្ធអប់រំកម្ពុជា។

សរុបមក ការប្រើប្រាស់បច្ចេកវិទ្យាវិភាគការសិក្សាដោយមានការគិតគូរពីតម្លាភាព និងភាពយុត្តិធម៌ នឹងជួយស្ថាប័នអប់រំកម្ពុជាឱ្យធ្វើការសម្រេចចិត្តគាំទ្រសិស្សបានកាន់តែមានប្រសិទ្ធភាព និងប្រកបដោយបរិយាបន្ន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ប្រមូល និងរៀបចំទិន្នន័យប្រកបដោយបរិយាបន្ន: ចាប់ផ្តើមរៀបចំប្រព័ន្ធប្រមូលទិន្នន័យប្រវត្តិសិក្សា ការចូលរួម និងព័ត៌មានប្រជាសាស្ត្រសិស្ស (ឧ. ទីកន្លែងកំណើត ស្ថានភាពហិរញ្ញវត្ថុ) ដោយគោរពតាមគោលការណ៍ឯកជនភាព។
  2. កសាងម៉ូដែលទស្សន៍ទាយហានិភ័យ: សាកល្បងប្រើប្រាស់ឧបករណ៍ដូចជា H2O.ai AutoMLGradient Boosting (XGBoost/LightGBM) ដើម្បីបង្កើតម៉ូដែលទស្សន៍ទាយលទ្ធភាពនៃការបោះបង់ការសិក្សា ដោយបែងចែកសំណុំទិន្នន័យហ្វឹកហាត់ឲ្យបានត្រឹមត្រូវ។
  3. បកស្រាយលទ្ធផលម៉ូដែលដោយតម្លាភាព: ជំនួសឲ្យការជឿជាក់ទាំងស្រុងលើការព្យាករណ៍ បុគ្គលិកបច្ចេកទេសត្រូវប្រើប្រាស់បណ្ណាល័យ SHAP (SHapely Additive exPlanations) ដើម្បីដឹងថាកត្តាអ្វីខ្លះ (ពិន្ទុ ឬអវត្តមាន) ដែលទាញទម្លាក់សិស្សម្នាក់ៗ។
  4. វាយតម្លៃភាពយុត្តិធម៌លើក្រុមផ្សេងៗគ្នា: ធ្វើការបែងចែកក្រុមសិស្ស (Slicing analysis) ដើម្បីពិនិត្យមើលថាតើក្រុមសិស្សងាយរងគ្រោះមានអត្រានៃការត្រូវម៉ូដែលទាយខុស (False Positives/Negatives) ខ្ពស់ជាងក្រុមសិស្សទូទៅដែរឬទេ ដោយប្រើរង្វាស់ភាពយុត្តិធម៌។
  5. អនុវត្តក្បួនកាត់បន្ថយភាពលម្អៀង: ជាជាងការលុបទិន្នន័យរសើបចោលធម្មតា ត្រូវងាកទៅសិក្សា និងប្រើប្រាស់ក្បួន Learning Fair Representation ឬបច្ចេកទេសកាត់បន្ថយភាពលម្អៀងក្នុងទិន្នន័យផ្សេងទៀត ដើម្បីធានាបានទាំងភាពត្រឹមត្រូវ និងសមធម៌ក្នុងប្រព័ន្ធអប់រំ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Learning Analytics (LA) គឺជាការវាស់វែង ប្រមូល វិភាគ និងរាយការណ៍ទិន្នន័យអំពីអ្នកសិក្សា និងបរិបទរបស់ពួកគេ ដើម្បីយល់ដឹង និងធ្វើឱ្យបរិយាកាសនៃការសិក្សាកាន់តែប្រសើរឡើង។ វានាំយកទិន្នន័យដូចជា ការចូលរៀន ពិន្ទុ និងសកម្មភាពអនឡាញ មកទស្សន៍ទាយពីហានិភ័យនៃការបោះបង់ការសិក្សារបស់និស្សិត។ ដូចជាគ្រូពេទ្យពិនិត្យមើលរោគសញ្ញាអ្នកជំងឺដើម្បីរកវិធីព្យាបាលទាន់ពេលវេលា ប៉ុន្តែទីនេះគឺការប្រើប្រាស់ទិន្នន័យសិស្សដើម្បីជួយសិស្សរៀនខ្សោយឱ្យទាន់ពេល។
Sensitive Attributes ជាលក្ខណៈបុគ្គល ឬព័ត៌មានផ្ទាល់ខ្លួនដែលងាយរងគ្រោះ ឬត្រូវបានការពារដោយច្បាប់ ដូចជា យេនឌ័រ អាយុ ពិការភាព ជាតិសាសន៍ និងភាសាដើម ដែលមិនគួរត្រូវបានប្រើប្រាស់ជាមូលដ្ឋានសម្រាប់ការរើសអើងក្នុងការសម្រេចចិត្តរបស់ប្រព័ន្ធកុំព្យូទ័រឡើយ។ ដូចជាពណ៌សម្បុរ ឬស្រុកកំណើតរបស់អ្នក ដែលមិនគួរត្រូវបានគេយកមកធ្វើជាលេសដើម្បីមិនឱ្យអ្នកចូលធ្វើការនោះទេ។
eXplainable AI (XAI) ជាបច្ចេកទេសក្នុងបញ្ញាសិប្បនិម្មិតដែលជួយបកស្រាយ និងប្រាប់ពីមូលហេតុច្បាស់លាស់នៅពីក្រោយការសម្រេចចិត្ត ឬការទស្សន៍ទាយរបស់ម៉ូដែលកុំព្យូទ័រ (Black-box) ឱ្យមនុស្សអាចយល់ និងជឿទុកចិត្តបាន ជាជាងគ្រាន់តែបញ្ចេញលទ្ធផលដោយមិនដឹងប្រភព។ ដូចជាសិស្សម្នាក់ដែលមិនត្រឹមតែប្រាប់ចម្លើយលំហាត់គណិតវិទ្យាត្រឹមត្រូវប៉ុណ្ណោះទេ តែថែមទាំងអាចសរសេរពន្យល់ពីរបៀបគណនាគ្រប់ជំហានផងដែរ។
SHAP (SHapely Additive exPlanations) គឺជាវិធីសាស្ត្រគណិតវិទ្យាក្នុង XAI ដែលវាស់ស្ទង់និងបង្ហាញពីកម្រិតនៃការចូលរួមចំណែក (ឥទ្ធិពល) របស់លក្ខណៈទិន្នន័យនីមួយៗ (Features) ទៅលើលទ្ធផលចុងក្រោយដែលម៉ូដែលបានទាយ។ វាជួយពន្យល់ថាតើកត្តាណាមួយទាញឱ្យសិស្សធ្លាក់ ឬជាប់។ ដូចជាការបែងចែកថាតើកីឡាករម្នាក់ៗក្នុងក្រុមបាល់ទាត់មួយ បញ្ចេញសកម្មភាពបានប៉ុន្មានភាគរយ ទើបធ្វើឱ្យក្រុមទទួលបានជ័យជម្នះ។
Fairness through unawareness ជាវិធីសាស្ត្រមួយក្នុងការប៉ុនប៉ងបង្កើតភាពយុត្តិធម៌សម្រាប់ម៉ូដែលបញ្ញាសិប្បនិម្មិត ដោយគ្រាន់តែលុបចោល ឬព្រងើយកន្តើយមិនបញ្ចូលទិន្នន័យរសើប (ដូចជាយេនឌ័រ ឬសាសនា) ទៅក្នុងក្បួនហ្វឹកហាត់ ដោយសង្ឃឹមថាម៉ូដែលនឹងមិនរើសអើង។ ដូចជាការពាក់ម៉ាស់បិទភ្នែកដើម្បីកុំឱ្យមើលឃើញមុខអ្នកដាក់ពាក្យសុំការងារ ដោយគិតថាវានឹងធ្វើឱ្យការវាយតម្លៃមានភាពយុត្តិធម៌។
redlining ក្នុងបរិបទក្បួនរៀនដោយម៉ាស៊ីន (Machine Learning) គឺសំដៅលើបាតុភូតដែលលក្ខណៈមិនរសើប (Non-sensitive attributes) ក្លាយជាភ្នាក់ងារតំណាង (Proxies) ឱ្យលក្ខណៈរសើប។ ទោះបីជាលុបទិន្នន័យរសើបចោលក៏ដោយ ក៏ម៉ូដែលនៅតែអាចទាញសេចក្តីសន្និដ្ឋានពីភាពលម្អៀងតាមរយៈទិន្នន័យដែលនៅសេសសល់បានដែរ។ ដូចជាការសន្និដ្ឋានថាអ្នកណាម្នាក់មានជីវភាពខ្សត់ខ្សោយដោយគ្រាន់តែមើលទៅលើលេខកូដតំបន់ដែលពួកគេរស់នៅ ទោះបីជាមិនបានសួរពីប្រាក់ខែពួកគេក៏ដោយ។
Gradient Boosted Machines (GBMs) ជាក្បួនរៀនដោយម៉ាស៊ីនដ៏មានអានុភាពដែលកសាងម៉ូដែលទស្សន៍ទាយតូចៗ (ជាធម្មតាគឺដើមឈើសម្រេចចិត្ត) ជាបន្តបន្ទាប់ ដោយម៉ូដែលក្រោយៗព្យាយាមកែតម្រូវកំហុសរបស់ម៉ូដែលមុនៗ ដើម្បីទទួលបានលទ្ធផលរួមដ៏សុក្រឹតបំផុតក្នុងការទាយថាសិស្សនឹងបោះបង់ការសិក្សាឬទេ។ ដូចជាក្រុមសិស្សធ្វើកិច្ចការស្រាវជ្រាវរួមគ្នា ដោយអ្នកទី២ កែកំហុសអ្នកទី១ អ្នកទី៣ កែកំហុសអ្នកទី២ រហូតទទួលបានរបាយការណ៍មួយដ៏ល្អឥតខ្ចោះ។
Pygmalion effect ជាបាតុភូតផ្លូវចិត្តដែលកើតឡើងនៅពេលការរំពឹងទុករបស់អ្នកដទៃ (ឧទាហរណ៍៖ គ្រូបង្រៀន) ទៅលើបុគ្គលម្នាក់ ជះឥទ្ធិពលផ្ទាល់ដល់ការអនុវត្តជាក់ស្តែងរបស់បុគ្គលនោះ។ ប្រសិនបើប្រព័ន្ធ AI ទាយខុសថាសិស្សស្រីនឹងធ្លាក់ គ្រូអាចនឹងទម្លាក់ការរំពឹងទុកលើពួកគេ ដែលធ្វើឱ្យពួកគេប្រឡងធ្លាក់មែន។ ដូចជាពេលដែលឪពុកម្តាយជឿជាក់ថាកូនរបស់ខ្លួនពូកែ ហើយផ្តល់ការគាំទ្រពេញទំហឹង កូននោះនឹងខិតខំប្រឹងប្រែងរៀនសូត្ររហូតក្លាយជាសិស្សពូកែមែន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖