បញ្ហា (The Problem)៖ សាកលវិទ្យាល័យ Universitas Terbuka ជួបប្រទះបញ្ហាខ្វះខាតអ្នកកែវិញ្ញាសា ដែលធ្វើឱ្យការពិនិត្យនិងដាក់ពិន្ទុលើការប្រឡងតែងសេចក្តីរបស់និស្សិតជាង ៥០០,០០០ នាក់ចំណាយពេលយូរ គ្មានប្រសិទ្ធភាព និងមានភាពលម្អៀង។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានស្នើឡើងនូវវិធីសាស្ត្រកូនកាត់នៃម៉ូដែលរៀនស៊ីជម្រៅ (Deep Learning Models) រួមបញ្ចូលជាមួយវេយ្យាករណ៍អត្ថន័យធម្មជាតិ ដើម្បីអភិវឌ្ឍប្រព័ន្ធដាក់ពិន្ទុតែងសេចក្តីស្វ័យប្រវត្តិ (AES)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| BERT-BiLSTM (Proposed Model) ម៉ូដែលកូនកាត់ BERT និង BiLSTM (ម៉ូដែលស្នើឡើង) |
អាចទាញយកអត្ថន័យ និងវេយ្យាករណ៍បានស៊ីជម្រៅពីចម្លើយសិស្ស ព្រមទាំងផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុតសម្រាប់អត្ថបទតែងសេចក្តីដែលមានប្រវែងវែង។ | ទាមទារការបង្កើត និងហ្វឹកហាត់ម៉ូដែលដាច់ដោយឡែកពីគ្នាសម្រាប់សំណួរនីមួយៗ (៥០ ម៉ូដែល) ដែលប្រើប្រាស់ថាមពលកុំព្យូទ័រច្រើន។ | សម្រេចបានពិន្ទុ QWK មធ្យម ០.៨២០ និងពិន្ទុ Cohen's Kappa ខ្ពស់បំផុត ០.៩១០។ |
| CNN-BiLSTM ម៉ូដែលបណ្តាញសរសៃប្រសាទ CNN រួមបញ្ចូលជាមួយ BiLSTM |
មានសមត្ថភាពខ្ពស់ក្នុងការទាញយកព័ត៌មានពីកម្រិតវាក្យសព្ទ ប្រយោគ និងជំពូក ដែលដំណើរការបានល្អបំផុតលើប្រភេទអត្ថបទជាក់លាក់។ | ខ្វះសមត្ថភាពស្វែងយល់អត្ថន័យរួមស៊ីជម្រៅបើប្រៀបធៀបនឹងម៉ូដែលដែលមានបំពាក់ BERT ធ្វើឱ្យពិន្ទុធ្លាក់ចុះចំពោះអត្ថបទវែងៗ។ | សម្រេចបានពិន្ទុ QWK មធ្យម ០.៨១៦។ |
| R2BERT ម៉ូដែល R2BERT |
ប្រើប្រាស់មុខងារបាត់បង់ច្រើន (multiple loss objectives) ជួយឱ្យយល់ច្បាស់ពីពាក្យគន្លឹះ និងតំណភ្ជាប់ក្នុងតែងសេចក្តីខ្លីៗបានល្អ។ | មិនសូវមានប្រសិទ្ធភាពខ្ពស់លើការវាយតម្លៃអត្ថបទតែងសេចក្តី ឬចម្លើយដែលមានប្រវែងវែងខ្លាំង។ | សម្រេចបានពិន្ទុ QWK មធ្យម ០.៧៩៤។ |
| BERT-XLNET ម៉ូដែលរួមបញ្ចូល BERT និង XLNET |
ជួយកាត់បន្ថយភាពស្មុគស្មាញនៃទិន្នន័យដោយលុបចោល stop-words និងកាត់បន្ថយបញ្ហា Overfitting ដែលសន្សំសំចៃពេលវេលាហ្វឹកហាត់។ | ភាពត្រឹមត្រូវនៃការដាក់ពិន្ទុនៅមានកម្រិតទាបជាងគេ បើប្រៀបធៀបជាមួយនឹងម៉ូដែលទំនើបដទៃទៀត។ | សម្រេចបានពិន្ទុ QWK មធ្យម ០.៧៥៨។ |
| ATT CNN-LSTM ម៉ូដែល ATT CNN-LSTM ដែលផ្អែកលើ Attention Mechanism |
អាចកំណត់ទម្ងន់នៃពាក្យ និងប្រយោគដោយស្វ័យប្រវត្តិ ជួយឱ្យងាយស្រួលយល់ពីរចនាសម្ព័ន្ធអត្ថបទនៃចម្លើយ។ | មិនអាចចាប់យកបរិបទអត្ថន័យទ្វេទិស (Bidirectional context) បានល្អដូចម៉ូដែលដែលប្រើ BiLSTM នោះទេ។ | សម្រេចបានពិន្ទុ QWK មធ្យម ០.៧៦៤។ |
| Semi-manual Evaluation ការកែវិញ្ញាសាដោយដៃពាក់កណ្តាលដោយសាស្ត្រាចារ្យ (វិធីសាស្ត្រដើម) |
អាចវាយតម្លៃភាពច្នៃប្រឌិត អារម្មណ៍ និងគំនិតក្រៅប្រអប់របស់សិស្សបានល្អជាងប្រព័ន្ធកុំព្យូទ័រក្នុងករណីខ្លះ។ | ចំណាយពេលយូរខ្លាំង មានភាពលម្អៀង គ្មានស្តង់ដាររួមច្បាស់លាស់ និងងាយធ្វើឱ្យគ្រូហត់នឿយ។ | ចំណាយពេលមធ្យម ១២ នាទី និង ៣៤ វិនាទី ដើម្បីកែចម្លើយរបស់សិស្សម្នាក់។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់លម្អិតពីតម្លៃជាទឹកប្រាក់ ប៉ុន្តែការអនុវត្តប្រព័ន្ធនេះទាមទារឱ្យមានធនធានកុំព្យូទ័រ (Compute Power) ខ្លាំង និងហេដ្ឋារចនាសម្ព័ន្ធបច្ចេកវិទ្យាដ៏រឹងមាំដើម្បីគាំទ្រការហ្វឹកហាត់ និងដំណើរការដាក់ពិន្ទុជាក់ស្តែង។
ការសិក្សានេះត្រូវបានអនុវត្តនៅសាកលវិទ្យាល័យ Universitas Terbuka ប្រទេសឥណ្ឌូនេស៊ី ដោយប្រើប្រាស់ទិន្នន័យចម្លើយតែងសេចក្តីជាភាសាឥណ្ឌូនេស៊ី និងអង់គ្លេស។ នេះជាចំណុចប្រឈមសម្រាប់កម្ពុជា ដោយសារការបណ្តុះបណ្តាលម៉ូដែលភាសាខ្មែរ (Khmer NLP) នៅមានកម្រិត ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យជាភាសាជាតិក្នុងទំហំធំ និងមានរចនាសម្ព័ន្ធវេយ្យាករណ៍ច្បាស់លាស់។
ប្រព័ន្ធ AES នេះមានសក្តានុពលខ្ពស់ណាស់ក្នុងការដោះស្រាយបញ្ហាខ្វះខាតគ្រូបង្រៀន និងជួយពន្លឿនការកែវិញ្ញាសានៅតាមគ្រឹះស្ថានអប់រំនៅកម្ពុជាឱ្យកាន់តែមានយុត្តិធម៌។
សរុបមក ការអនុវត្តប្រព័ន្ធនេះទាមទារការវិនិយោគបន្ថែមលើការស្រាវជ្រាវម៉ូដែលភាសាខ្មែរ ប៉ុន្តែវាជាគន្លឹះដ៏សំខាន់ក្នុងការផ្លាស់ប្តូរប្រព័ន្ធវាយតម្លៃការអប់រំនៅកម្ពុជាទៅរកប្រព័ន្ធឌីជីថលពេញលេញ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| BERT | ម៉ូដែលភាសាបញ្ញាសិប្បនិម្មិតដែលអានអត្ថបទពីឆ្វេងទៅស្តាំនិងពីស្តាំទៅឆ្វេងក្នុងពេលតែមួយ ដើម្បីយល់ពីអត្ថន័យនិងបរិបទពិតប្រាកដនៃពាក្យនីមួយៗក្នុងប្រយោគ។ | ដូចជាមនុស្សអានសៀវភៅដែលមើលសាច់រឿងទាំងមូលមុននិងក្រោយ ទើបយល់ន័យពាក្យមួយច្បាស់ មិនមែនចេះតែប្រែត្រង់ៗនោះទេ។ |
| BiLSTM | ប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) ដែលចងចាំព័ត៌មានពីអតីតកាលនិងអនាគតកាលនៃទិន្នន័យបន្តបន្ទាប់គ្នា ដើម្បីស្វែងយល់ពីទំនាក់ទំនងនៃពាក្យក្នុងអត្ថបទវែងៗ។ | ដូចជាមនុស្សដែលចងចាំហេតុការណ៍ពីដើមដល់ចប់ ដើម្បីទស្សន៍ទាយថាមានអ្វីកើតឡើងបន្ទាប់ទៀតដោយមិនភ្លេចសាច់រឿងចាស់។ |
| Automatic essay scoring (AES) | ប្រព័ន្ធកុំព្យូទ័រដែលប្រើប្រាស់បញ្ញាសិប្បនិម្មិត និងដំណើរការភាសាធម្មជាតិ (NLP) ដើម្បីអាន វិភាគ និងផ្តល់ពិន្ទុលើអត្ថបទតែងសេចក្តីរបស់សិស្សដោយស្វ័យប្រវត្តិ។ | ដូចជាម៉ាស៊ីនមនុស្សយន្តដែលដើរតួជាគ្រូបង្រៀន អានសំណេររបស់សិស្សហើយដាក់ពិន្ទុឱ្យដោយស្វ័យប្រវត្តិនិងឆាប់រហ័ស។ |
| Cohen’s kappa score | រង្វាស់ស្ថិតិដែលប្រើដើម្បីវាយតម្លៃកម្រិតនៃការយល់ស្របគ្នារវាងអ្នកដាក់ពិន្ទុពីរនាក់ (ឧទាហរណ៍ គ្រូ និងកុំព្យូទ័រ) ដោយដកចេញនូវភាពចៃដន្យនៃការទាយត្រូវ។ | ដូចជាការវាស់ស្ទង់ថា តើចៅក្រមពីរនាក់កាត់ក្តីត្រូវគ្នាប៉ុនណា ដោយបញ្ជាក់ថាពួកគេពិតជាឯកភាពគ្នាដោយសមត្ថភាព មិនមែនដោយសារការទាយចៃដន្យឡើយ។ |
| Data Augmentation | បច្ចេកទេសបង្កើតទិន្នន័យហ្វឹកហាត់បន្ថែមដោយស្វ័យប្រវត្តិ តាមរយៈការលុបពាក្យខ្លះ ប្តូរទីតាំងពាក្យ ជំនួសពាក្យមានន័យដូច ឬបកប្រែត្រឡប់ ដើម្បីឱ្យម៉ូដែលរៀនកាន់តែឆ្លាត។ | ដូចជាគ្រូដែលយកលំហាត់ដដែលមកផ្លាស់ប្តូរលេខ ឬប្តូរពាក្យពេចន៍បន្តិចបន្តួច ដើម្បីឱ្យសិស្សអនុវត្តបានច្រើននិងចេះរលូនជាងមុន។ |
| Masked Language Modelling (MLM) | ដំណើរការហ្វឹកហាត់ដែលលាក់ពាក្យមួយចំនួនក្នុងប្រយោគ រួចឱ្យម៉ូដែល AI ទាយពាក្យដែលបាត់នោះដោយផ្អែកលើបរិបទពាក្យនៅជុំវិញវា។ | ដូចជាការលេងល្បែងបំពេញចន្លោះពាក្យក្នុងប្រយោគ ដែលសិស្សត្រូវទាយពាក្យដែលត្រឹមត្រូវទៅតាមសាច់រឿង។ |
| SoftMax function | អនុគមន៍គណិតវិទ្យានៅស្រទាប់ចុងក្រោយនៃម៉ូដែល Deep Learning ដែលបំប្លែងលទ្ធផលជាលេខធម្មតាទៅជាតម្លៃប្រូបាប៊ីលីតេ (ភាគរយ) ដើម្បីជ្រើសរើសចម្លើយ ឬពិន្ទុដែលត្រឹមត្រូវបំផុត។ | ដូចជាការបម្លែងពិន្ទុបេក្ខជនប្រកួតប្រជែងជាភាគរយ រួចប្រកាសអ្នកដែលមានភាគរយខ្ពស់ជាងគេជាអ្នកឈ្នះ ដោយរើសយកលទ្ធផលដែលទំនងជាងគេបំផុត។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖