បញ្ហា (The Problem)៖ គ្រឹះស្ថានឧត្តមសិក្សាចាំបាច់ត្រូវវិភាគមតិកែលម្អរបស់សិស្សពីវគ្គសិក្សាតាមអ៊ីនធឺណិត (MOOCs) ដើម្បីកែលម្អយុទ្ធសាស្ត្របង្រៀន ប៉ុន្តែការវិភាគដោយដៃលើទិន្នន័យដ៏ច្រើនសន្ធឹកសន្ធាប់មានការលំបាក និងត្រូវការបច្ចេកវិទ្យាស្វ័យប្រវត្តិ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រផ្ទេរការរៀន (Transfer Learning) ដោយអនុវត្តគំរូ BERT ដើម្បីធ្វើការបែងចែកអត្ថបទ និងវិភាគមនោសញ្ចេតនារបស់សិស្ស។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| BERT (Bidirectional Encoder Representations from Transformers) គំរូ BERT (វិធីសាស្ត្រផ្ទេរការរៀន) |
មានសមត្ថភាពខ្ពស់ក្នុងការយល់បរិបទនៃប្រយោគទាំងមូល (Contextual Understanding) និងផ្តល់លទ្ធផលល្អបំផុតក្នុងការបែងចែកប្រភេទមតិ។ | ត្រូវការធនធានកុំព្យូទ័រខ្លាំង (Computational Power) និងមានភាពស្មុគស្មាញជាងវិធីសាស្ត្រប្រពៃណី។ | ពិន្ទុ F1 ខ្ពស់បំផុតគឺ ៨៨.៩៤% សម្រាប់ការបែងចែកមនោសញ្ចេតនា និង ៨២.៦៨% សម្រាប់ការបែងចែកប្រភេទ។ |
| Decision Tree (DT) using TF-IDF ដើមឈើសម្រេចចិត្ត (Decision Tree) ប្រើប្រាស់ TF-IDF |
ដំណើរការលឿន និងងាយស្រួលបកស្រាយលទ្ធផល ប៉ុន្តែមិនសូវមានប្រសិទ្ធភាពលើបរិបទស្មុគស្មាញ។ | ពិន្ទុទាបជាង BERT ក្នុងការបែងចែកប្រភេទមតិ (Aspect Categories)។ | ពិន្ទុ F1 ទទួលបាន ៨៨.៦៧% (មនោសញ្ចេតនា) និង ៧៨.៨៣% (ប្រភេទមតិ)។ |
| Support Vector Machine (SVM) using TF-IDF ម៉ាស៊ីនគាំទ្រវ៉ិចទ័រ (SVM) ប្រើប្រាស់ TF-IDF |
ជាវិធីសាស្ត្រមូលដ្ឋានដ៏រឹងមាំសម្រាប់អត្ថបទ ប៉ុន្តែនៅមានកម្រិតបើធៀបនឹង Deep Learning។ | ផ្តល់លទ្ធផលទាបជាងគេបន្តិចនៅក្នុងការពិសោធន៍នេះ។ | ពិន្ទុ F1 ទទួលបាន ៨៨.៣១% (មនោសញ្ចេតនា) និង ៧៦.០១% (ប្រភេទមតិ)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រមធ្យមទៅខ្ពស់ ដោយសារការប្រើប្រាស់គំរូ Deep Learning (BERT) ដែលត្រូវការអង្គចងចាំនិងសមត្ថភាពគណនាខ្លាំងជាងម៉ាស៊ីនរៀនធម្មតា។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យជាភាសាអង់គ្លេសសុទ្ធពី Coursera ដែលអាចមិនឆ្លុះបញ្ចាំងពីបរិបទនៃសិស្សកម្ពុជា ដែលជារឿយៗប្រើប្រាស់ភាសាខ្មែរ ឬភាសាខ្មែរលាយអង់គ្លេស (Code-switching) ក្នុងការបញ្ចេញមតិ។ ភាពខុសគ្នានៃវប្បធម៌ក្នុងការផ្តល់មតិត្រឡប់ (Feedback culture) ក៏អាចប៉ះពាល់ដល់ការបកស្រាយលទ្ធផលផងដែរ។
វិធីសាស្ត្រនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់គ្រឹះស្ថានឧត្តមសិក្សានៅកម្ពុជា ដែលកំពុងពង្រឹងគុណភាពនៃការសិក្សាតាមប្រព័ន្ធអេឡិចត្រូនិក (E-Learning)។
ទោះបីជាលទ្ធផលបង្ហាញថា BERT មានប្រសិទ្ធភាពខ្ពស់ ប៉ុន្តែការអនុវត្តនៅកម្ពុជាទាមទារឱ្យមានការកែសម្រួលគំរូ (Fine-tuning) ជាមួយទិន្នន័យភាសាខ្មែរ ឬភាសាចម្រុះ ដើម្បីទទួលបានលទ្ធផលត្រឹមត្រូវ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Sentiment Analysis | ជាដំណើរការប្រើប្រាស់កុំព្យូទ័រដើម្បីវិភាគអត្ថបទ និងកំណត់ថាតើអ្នកសរសេរមានអារម្មណ៍បែបណា (ដូចជា វិជ្ជមាន អវិជ្ជមាន ឬអព្យាក្រឹត) ចំពោះប្រធានបទណាមួយ។ | ដូចជាការអានចិត្តមនុស្សតាមរយៈពាក្យសម្តីដែលពួកគេសរសេរ ដើម្បីដឹងថាពួកគេពេញចិត្តឬមិនពេញចិត្ត។ |
| Transfer Learning | ជាបច្ចេកទេសក្នុងវិស័យម៉ាស៊ីនរៀន (Machine Learning) ដែលយកចំណេះដឹងពីការដោះស្រាយបញ្ហាមួយ មកអនុវត្តដើម្បីដោះស្រាយបញ្ហាថ្មីមួយទៀតដែលមានលក្ខណៈស្រដៀងគ្នា។ | ដូចជាពេលយើងចេះជិះកង់ ហើយយកជំនាញនោះទៅរៀនជិះម៉ូតូ ដែលធ្វើឱ្យយើងរៀនឆាប់ចេះជាងអ្នកមិនដែលចេះជិះកង់សោះ។ |
| BERT | ជាគំរូបញ្ញាសិប្បនិម្មិត (AI) ដ៏ល្បីល្បាញរបស់ Google ដែលអាចអាននិងយល់អត្ថបទពីឆ្វេងទៅស្តាំ និងពីស្តាំទៅឆ្វេងព្រមគ្នា ដើម្បីយល់អត្ថន័យនៃពាក្យនីមួយៗបានច្បាស់លាស់តាមបរិបទ។ | ដូចជាអ្នកអានសៀវភៅម្នាក់ដែលអានប្រយោគទាំងមូលម្ដងទៀត ដើម្បីយល់ន័យពាក្យពិបាក ជាជាងការបកប្រែពាក្យម្តងមួយៗ។ |
| MOOCs | ពាក្យកាត់នៃ Massive Open Online Courses សំដៅលើវគ្គសិក្សាតាមអ៊ីនធឺណិតខ្នាតធំដែលបើកចំហឱ្យសិស្សរាប់ពាន់នាក់ចូលរៀនបានដោយសេរី ឬបង់ថ្លៃតិចតួច ពីគ្រប់ទីកន្លែង។ | ដូចជាការអង្គុយរៀនក្នុងថ្នាក់ដ៏ធំមួយដែលមានសិស្សរាប់ម៉ឺននាក់រៀនតាមរយៈអេក្រង់កុំព្យូទ័រជំនួសឱ្យការទៅសាលារៀនផ្ទាល់។ |
| TF-IDF | ជាវិធីសាស្ត្រស្ថិតិសម្រាប់វាស់វែងថាតើពាក្យមួយមានសារៈសំខាន់ប៉ុណ្ណានៅក្នុងឯកសារ ដោយផ្តល់ពិន្ទុខ្ពស់ដល់ពាក្យកម្រ និងពិន្ទុទាបដល់ពាក្យដែលប្រើញឹកញាប់ពេក (ដូចជា "និង", "គឺ")។ | ដូចជាការស្វែងរកពាក្យគន្លឹះសំខាន់ៗក្នុងសៀវភៅ ដោយមិនរាប់បញ្ចូលពាក្យធម្មតាដែលជួបប្រទះរាល់ថ្ងៃ។ |
| F1 Score | ជាខ្នាតរង្វាស់ប្រសិទ្ធភាពរបស់គំរូកុំព្យូទ័រ ដោយបូកបញ្ចូលគ្នានូវភាពត្រឹមត្រូវ (Precision) និងសមត្ថភាពរកឃើញទិន្នន័យ (Recall) ដើម្បីធានាថាគំរូដំណើរការល្អពិតប្រាកដ។ | ដូចជាការផ្តល់ពិន្ទុប្រឡងដែលគិតទាំងចម្លើយត្រូវ និងការមិនបានឆ្លើយ ដើម្បីដឹងថាសិស្សពូកែពិតប្រាកដឬអត់។ |
| Tokenization | ដំណើរការបំបែកអត្ថបទ ឬប្រយោគវែងៗ ទៅជាកម្ទេចតូចៗ (ហៅថា Tokens) ដូចជា ពាក្យ ឬ ព្យាង្គ ដើម្បីឱ្យកុំព្យូទ័រអាចយកទៅវិភាគបាន។ | ដូចជាការហែកប្រយោគមួយជាពាក្យៗដាច់ពីគ្នា ដើម្បីងាយស្រួលរាប់និងយល់ន័យ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖