Original Title: Implementation of Automated Feedback System for Japanese Essays in Intermediate Education
Source: hdl.handle.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការអនុវត្តប្រព័ន្ធផ្តល់មតិកែលម្អដោយស្វ័យប្រវត្តិសម្រាប់អត្ថបទសរសេរភាសជប៉ុនក្នុងការអប់រំកម្រិតមធ្យម

ចំណងជើងដើម៖ Implementation of Automated Feedback System for Japanese Essays in Intermediate Education

អ្នកនិពន្ធ៖ PHAN, Thanh Huy (Japan Advanced Institute of Science and Technology), Shinobu Hasegawa (Supervisor)

ឆ្នាំបោះពុម្ព៖ 2023

វិស័យសិក្សា៖ Information Science / Educational Technology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការអប់រំកម្រិតមធ្យមនៅប្រទេសជប៉ុនខ្វះខាតលំហាត់សរសេរនិងការប្រឡង ដោយសារតែគ្រូបង្រៀនមានបន្ទុកការងារខ្ពស់ក្នុងការដាក់ពិន្ទុ និងការផ្តល់មតិកែលម្អ (Feedback) ដល់សិស្ស ហើយប្រព័ន្ធស្វ័យប្រវត្តិដែលមានស្រាប់ច្រើនតែផ្តល់ត្រឹមពិន្ទុដោយគ្មានការណែនាំលម្អិត។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានបង្កើតប្រព័ន្ធផ្តល់មតិកែលម្អអត្ថបទដោយស្វ័យប្រវត្តិ (AEF) ដោយប្រើប្រាស់ទ្រឹស្តីលក្ខណៈនៃការសរសេរ ៦+១ (6+1 writing traits) និងបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតដើម្បីវិភាគ និងផ្តល់អនុសាសន៍ដល់សិស្ស។

ការប្រើប្រាស់សំណុំទិន្នន័យ Riken (Riken Dataset) សម្រាប់ការវាយតម្លៃចម្លើយខ្លីៗ
ការអនុវត្តម៉ូដែល BERT និង LightGBM សម្រាប់ការព្យាករណ៍ពិន្ទុ (Score Prediction)
ការប្រៀបធៀបរវាងមតិកែលម្អពីចម្លើយសិស្សដទៃ (Peer Answer) និងមតិកែលម្អដែលបង្កើតដោយ GPT-3

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល LightGBM ជាមួយ Bag of Words ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត (០.៧៤៦) ក្នុងការទស្សន៍ទាយពិន្ទុ ដោយយកឈ្នះម៉ូដែល Neural Network (០.៦៥) នៅក្នុងការពិសោធន៍នេះ។
សិស្សបង្ហាញការពេញចិត្តចំពោះមតិកែលម្អបែបមនុស្ស (Human-like Feedback) ដែលបង្កើតដោយ GPT-3 ជាងមតិកែលម្អដែលដកស្រង់ពីចម្លើយសិស្សដទៃ (Peer Answer) ដោយសារវាមានលក្ខណៈលម្អិតជាង។
ការស្រាវជ្រាវរកឃើញថា ការបញ្ចូលគ្នានៃទ្រឹស្តី ៦+១ និងបច្ចេកវិទ្យា NLP អាចជួយកាត់បន្ថយបន្ទុកគ្រូបង្រៀន ប៉ុន្តែប្រព័ន្ធត្រូវការទិន្នន័យបន្ថែមដើម្បីកែលម្អភាពត្រឹមត្រូវនិងបរិបទនៃមតិយោបល់។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
LightGBM + Bag of Words ការប្រើប្រាស់ LightGBM ជាមួយបច្ចេកទេស Bag of Words	មានល្បឿនលឿន និងទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុតនៅក្នុងការពិសោធន៍នេះ។	មិនអាចចាប់យកអត្ថន័យស៊ីជម្រៅនៃបរិបទ (Contextual meaning) បានល្អដូចម៉ូដែល Deep Learning ទេ។	ភាពត្រឹមត្រូវ (Accuracy) ០.៧៤៦ (ខ្ពស់ជាងគេ)
Proposed Neural Network (BERT/RoBERTa) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដោយប្រើ BERT និង RoBERTa	មានសមត្ថភាពយល់អត្ថន័យបរិបទនៃពាក្យក្នុងប្រយោគបានល្អតាមទ្រឹស្តី។	ទាមទារធនធានកុំព្យូទ័រខ្ពស់ និងជួបបញ្ហា Underfitting ក្នុងការពិសោធន៍ជាក់ស្តែង។	ភាពត្រឹមត្រូវ ០.៦៥ (ទាបជាង LightGBM)
GPT-3 Human-like Feedback ការផ្តល់មតិកែលម្អបែបមនុស្សដោយប្រើ GPT-3	ផ្តល់ការពន្យល់ដែលមានលក្ខណៈធម្មជាតិ និងងាយយល់សម្រាប់សិស្ស។	មិនមាននៅក្នុង Dataset ដើម ហើយទាមទារការចំណាយលើ API។	សិស្សពេញចិត្តជាងការទទួលបានមតិកែលម្អពីចម្លើយសិស្សដទៃ (Peer Answer)

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះបង្ហាញថាការប្រើប្រាស់ CPU ធម្មតា (Intel Xeon 1 core) គឺយឺតខ្លាំងសម្រាប់ការស្វែងរកតាមរយៈ Semantic Search (២ នាទី/សំណួរ) ដូច្នេះទាមទារធនធានខ្ពស់ជាងនេះ។

Hardware: ត្រូវការ GPU សម្រាប់ដំណើរការម៉ូដែល BERT ឬ CPU ដែលមានល្បឿនលឿនសម្រាប់ការវិភាគទិន្នន័យ។
Software & Libraries: Python, PyTorch, Scikit-learn និង MeCab (សម្រាប់កាត់ពាក្យភាសាជប៉ុន)។
API Services: OpenAI API (សម្រាប់ការប្រើប្រាស់ GPT-3 ក្នុងការបង្កើតមតិកែលម្អ)។
Dataset: ទិន្នន័យសំណេរ (Riken Dataset) ដែលមានការដាក់ពិន្ទុស្រាប់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យ Riken Dataset ដែលជាសំណេរភាសាជប៉ុនរបស់សិស្សវិទ្យាល័យនៅប្រទេសជប៉ុន។ នេះមានន័យថាម៉ូដែលនេះមិនអាចយកមកប្រើផ្ទាល់ជាមួយភាសាខ្មែរបានទេ ប្រសិនបើគ្មានការបង្វឹកសារជាថ្មីជាមួយទិន្នន័យភាសាខ្មែរ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាឧបសគ្គភាសាមានក៏ដោយ វិធីសាស្ត្រនៃការប្រើប្រាស់ 6+1 Writing Traits និង AI គឺមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់ការអប់រំនៅកម្ពុជា។

វិទ្យាស្ថានភាសាបរទេស (IFL): អាចយកទៅអនុវត្តសម្រាប់ការបង្រៀនភាសាជប៉ុន ឬអង់គ្លេស ដោយជួយកាត់បន្ថយបន្ទុកគ្រូក្នុងការកែអត្ថបទសិស្ស។
ការប្រឡងថ្នាក់ជាតិ: ក្រសួងអប់រំអាចពិចារណាប្រើប្រាស់បច្ចេកវិទ្យានេះសម្រាប់ជួយត្រួតពិនិត្យពិន្ទុបន្ថែម (Second opinion) លើវិញ្ញាសាសំណេរ។
ការអភិវឌ្ឍ NLP ភាសាខ្មែរ: សាកលវិទ្យាល័យបច្ចេកវិទ្យាដូចជា CADT ឬ RUPP អាចយកគំរូនេះទៅសិក្សាដើម្បីបង្កើតប្រព័ន្ធកែសំណេរភាសាខ្មែរស្វ័យប្រវត្តិ។

គំរូនេះមានសក្តានុពលខ្ពស់ក្នុងការធ្វើទំនើបកម្មប្រព័ន្ធអប់រំនៅកម្ពុជា ប៉ុន្តែតម្រូវឱ្យមានការបង្កើតសំណុំទិន្នន័យសំណេរភាសាខ្មែរ (Khmer Essay Dataset) ជាមុនសិន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះ NLP: ចាប់ផ្តើមសិក្សាភាសា Python និងបណ្ណាល័យសំខាន់ៗដូចជា Scikit-learn និង PyTorch ដើម្បីយល់ពីរបៀបបង្កើតម៉ូដែល AI។
ប្រមូលទិន្នន័យសំណេរ: សហការជាមួយសាលារៀនដើម្បីប្រមូលអត្ថបទសរសេររបស់សិស្ស និងធ្វើការដាក់ពិន្ទុដោយដៃដើម្បីបង្កើតជា Dataset សម្រាប់បង្វឹក AI។
ពិសោធន៍ជាមួយម៉ូដែលមូលដ្ឋាន: សាកល្បងអនុវត្តម៉ូដែល LightGBM និង Bag of Words លើទិន្នន័យដែលប្រមូលបាន ព្រោះវាជាវិធីសាស្ត្រដែលទទួលបានជោគជ័យបំផុតក្នុងការស្រាវជ្រាវនេះ។
អភិវឌ្ឍប្រព័ន្ធផ្តល់មតិកែលម្អ: ប្រើប្រាស់ OpenAI API ដើម្បីបង្កើតប្រព័ន្ធដែលមិនត្រឹមតែដាក់ពិន្ទុ តែអាចផ្តល់យោបល់កែលម្អដូចគ្រូបង្រៀន (Human-like feedback)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Automated Essay Scoring (AES)	ការប្រើប្រាស់កម្មវិធីកុំព្យូទ័រ និងបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត ដើម្បីដាក់ពិន្ទុលើអត្ថបទសរសេររបស់សិស្សដោយស្វ័យប្រវត្តិ ដោយមិនចាំបាច់មានគ្រូកែផ្ទាល់។	ដូចជាការឱ្យកុំព្យូទ័រធ្វើជាគ្រូកែអត្ថបទប្រឡងជំនួសមនុស្ស ដោយផ្អែកលើចម្លើយគំរូ។
6+1 writing traits	ជាក្របខណ្ឌវាយតម្លៃសំណេរដែលបែងចែកគុណភាពអត្ថបទជា ៦ ចំណុចសំខាន់ៗ (ដូចជា គំនិត, ការរៀបចំ, សំឡេង, ពាក្យពេចន៍, លំហូរប្រយោគ, និងវេយ្យាករណ៍) បូកនឹងការបង្ហាញ ១ ទៀត។	ដូចជាការដាក់ពិន្ទុម្ហូបមួយចាន ដោយបំបែកពិន្ទុជាផ្នែកៗ (រសជាតិ, ពណ៌សម្បុរ, ក្លិន, ការតុបតែង) មិនមែនមើលតែមួយភ្លែតហើយដាក់ពិន្ទុសរុបទេ។
BERT (Bidirectional Encoder Representations from Transformers)	ជាម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដែលមានសមត្ថភាពអាន និងយល់អត្ថន័យនៃពាក្យនៅក្នុងប្រយោគ ដោយវិភាគបរិបទទាំងខាងឆ្វេង និងខាងស្តាំនៃពាក្យនោះ ដើម្បីយល់អត្ថន័យបានស៊ីជម្រៅ។	ដូចអ្នកអានសៀវភៅដែលមិនគ្រាន់តែអានមួយពាក្យៗតាមលំដាប់ តែមើលពាក្យជុំវិញទាំងអស់ដើម្បីយល់ន័យពិតប្រាកដ។
Semantic Textual Similarity (STS)	ជារង្វាស់បច្ចេកទេសដែលកំណត់ថាអត្ថបទពីរមានអត្ថន័យស្រដៀងគ្នាដល់កម្រិតណា ទោះបីជាប្រើពាក្យខុសគ្នាក៏ដោយ។ ក្នុងឯកសារនេះ វាប្រើដើម្បីស្វែងរកចម្លើយរបស់សិស្សដទៃដែលស្រដៀងនឹងចម្លើយសិស្ស។	ដូចជាការដឹងថា "ខ្ញុំឃ្លានបាយ" និង "ខ្ញុំចង់ញ៉ាំអាហារ" មានន័យដូចគ្នា ទោះបីសរសេរខុសគ្នាក៏ដោយ។
Bag of words	ជាវិធីសាស្ត្របំប្លែងអត្ថបទទៅជាទិន្នន័យសម្រាប់កុំព្យូទ័រ ដោយគ្រាន់តែរាប់ចំនួនពាក្យនីមួយៗដែលលេចឡើងក្នុងអត្ថបទនោះ ប៉ុន្តែមិនគិតពីលំដាប់លំដោយ ឬវេយ្យាករណ៍នៃពាក្យទេ។	ដូចជាការយកគ្រឿងផ្សំទាំងអស់ក្នុងម្ហូបមួយមកដាក់លើតុដើម្បីរាប់ចំនួន ប៉ុន្តែមិនខ្វល់ថាគេដាក់អ្វីមុនឬក្រោយពេលចម្អិនទេ។
Morphological Analysis	ជាដំណើរការបំបែកប្រយោគទៅជាពាក្យតូចៗ ឬកម្សេសពាក្យ (Morphemes) ដើម្បីវិភាគតួនាទីរបស់ពាក្យនីមួយៗ។ នេះសំខាន់ណាស់សម្រាប់ភាសាដែលសរសេរជាប់គ្នាដូចជា ភាសាជប៉ុន ឬភាសាខ្មែរ។	ដូចជាការកាត់នំខេកមួយដុំធំ ឱ្យទៅជាចំណិតតូចៗដើម្បីងាយស្រួលពិនិត្យមើលស្នូលខាងក្នុង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖