បញ្ហា (The Problem)៖ ឯកសារនេះផ្តោតលើបញ្ហាប្រឈមក្នុងការបង្កើតសំណួរដោយស្វ័យប្រវត្តិ (Automatic Question Generation) ពីអត្ថបទធម្មតា ឬទិន្នន័យ ដើម្បីគាំទ្រដល់បច្ចេកវិទ្យាសិក្សាឈានមុខដូចជា ប្រព័ន្ធបង្រៀនឆ្លាតវៃ (Intelligent Tutoring Systems) និងបរិស្ថានសិក្សាផ្អែកលើការសាកសួរ (Inquiry-based environments)។
វិធីសាស្ត្រ (The Methodology)៖ កម្រងឯកសារនេះប្រមូលផ្តុំនូវការស្រាវជ្រាវ និងវិធីសាស្រ្តចម្រុះក្នុងការបង្កើតសំណួរ រួមទាំងរបាយការណ៍អំពីការប្រកួតប្រជែងវាយតម្លៃប្រព័ន្ធ (Shared Task Evaluation Challenge) លើកទី១។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Full Extraction System (Heilman & Smith) ប្រព័ន្ធទាញយកប្រយោគពេញលេញ (Full Extraction System) |
បង្កើតសំណួរបានច្រើនប្រភេទ និងមានវេយ្យាករណ៍ត្រឹមត្រូវល្អ ដោយការកាត់ពុះបំបែកប្រយោគស្មុគស្មាញ និងទាញយកតែចំណុចសំខាន់ៗ។ | ពឹងផ្អែកខ្លាំងលើភាពត្រឹមត្រូវនៃ Parser ប្រសិនបើប្រយោគដើមខុសវេយ្យាករណ៍ ប្រព័ន្ធអាចនឹងបរាជ័យក្នុងការវិភាគ។ | ទទួលបានពិន្ទុភាពរលូន (Fluency) ៤.៧៥ ធៀបនឹង ៣.៥៣ របស់ប្រព័ន្ធមូលដ្ឋាន (Baseline)។ |
| Hedge Trimmer Compression (Baseline) ប្រព័ន្ធកាត់បន្ថយប្រយោគ Hedge Trimmer (Baseline) |
ដំណើរការលឿនដោយប្រើវិធានកាត់បន្ថយអត្ថបទ (Text compression) ដែលមានស្រាប់យ៉ាងសាមញ្ញ។ | ច្រើនតែកាត់ចោលព័ត៌មានសំខាន់ៗដែលចាំបាច់សម្រាប់បង្កើតសំណួរ និងតែងតែបង្កើតប្រយោគដែលខុសវេយ្យាករណ៍។ | មានភាពត្រឹមត្រូវ (Correctness) ត្រឹមតែ ៣.៧៥ ប៉ុណ្ណោះ ធ្លាក់ចុះទាបជាងប្រព័ន្ធ Full Extraction។ |
| Semantics-based QG with MRS (Yao & Zhang) ការបង្កើតសំណួរផ្អែកលើអត្ថន័យកម្រិតជ្រៅ (Minimal Recursion Semantics) |
ធានាបាននូវភាពត្រឹមត្រូវនៃវេយ្យាករណ៍ និងការយល់អត្ថន័យស៊ីជម្រៅ ដោយប្រើប្រាស់ក្បួនវេយ្យាករណ៍ HPSG ដែលមានភាពជាក់លាក់ខ្ពស់។ | ប្រព័ន្ធមានភាពស្មុគស្មាញខ្លាំង និងងាយរអាក់រអួល (Fragile) ប្រសិនបើការវិភាគអត្ថន័យ (MRS) ខ្វះភាពសុក្រឹតសូម្បីតែបន្តិច។ | ទទួលបានជោគជ័យក្នុងការអនុវត្តជាប្រព័ន្ធគំរូដំបូងគេ ដែលបំប្លែងអត្ថន័យប្រយោគស្រប (Declarative) ទៅជាប្រយោគសំណួរដោយប្រើក្បួន MRS ផ្ទាល់។ |
| Semantic Role Labeling QG (UPenn) ការបង្កើតសំណួរដោយប្រើប្រាស់តួនាទីអត្ថន័យ (SRL) |
ងាយស្រួលក្នុងការកំណត់រកប្រធានបទសំណួរ (Target) និងប្រភេទសំណួរ (Wh-words) បានយ៉ាងច្បាស់លាស់ផ្អែកលើតួនាទីពាក្យក្នុងប្រយោគ។ | គុណភាពនៃសំណួរអាស្រ័យទាំងស្រុងទៅលើភាពត្រឹមត្រូវនៃឧបករណ៍ SRL ដែលជារឿយៗមិនអាចចាប់បានត្រឹមត្រូវ ១០០% ឡើយ (មាន F-score ត្រឹម <85%)។ | អាចបង្កើតសំណួរមានជម្រៅច្បាស់លាស់ តែទាមទារការតម្រៀបចំណាត់ថ្នាក់សំណួរ (Ranking) បន្ថែមដើម្បីរើសយកសំណួរល្អបំផុត។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធបង្កើតសំណួរ (QG) ដូចក្នុងឯកសារនេះ ទាមទារការប្រើប្រាស់ឧបករណ៍វិភាគភាសាកម្រិតខ្ពស់ និងធនធានបច្ចេកទេសជាច្រើន។
ការសិក្សា និងប្រព័ន្ធស្ទើរតែទាំងអស់ត្រូវបានបង្វឹកនិងធ្វើតេស្តលើទិន្នន័យភាសាអង់គ្លេសសុទ្ធសឹង (Penn Treebank, Wikipedia, Yahoo Answers)។ នេះបង្ហាញពីភាពលំអៀងយ៉ាងខ្លាំងទៅលើទម្រង់វេយ្យាករណ៍អង់គ្លេសស្តង់ដារ និងបរិបទលោកខាងលិច ដែលជាឧបសគ្គដ៏ធំមួយសម្រាប់ការអនុវត្តលើភាសាខ្មែរ ព្រោះភាសាខ្មែរមានរចនាសម្ព័ន្ធខុសគ្នាស្រឡះ និងខ្វះខាតធនធានទិន្នន័យ (Low-resource language)។
ទោះបីជាប្រព័ន្ធទាំងនេះផ្តោតលើភាសាអង់គ្លេសក្តី ក៏គោលគំនិតនៃការបង្កើតសំណួរស្វ័យប្រវត្តិមានសក្តានុពលខ្ពស់សម្រាប់ជួយអភិវឌ្ឍវិស័យអប់រំនៅកម្ពុជា។
ជារួម បច្ចេកវិទ្យា Question Generation (QG) នឹងក្លាយជាឧបករណ៍ដ៏មានអានុភាពក្នុងការលើកកម្ពស់ប្រព័ន្ធអប់រំអេឡិចត្រូនិច (EdTech) នៅកម្ពុជា ប្រសិនបើមានការវិនិយោគលើការបង្កើតធនធាន NLP សម្រាប់ភាសាខ្មែរ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Semantic Role Labeling (SRL) | ជាដំណើរការក្នុងកុំព្យូទ័រដែលវិភាគប្រយោគដើម្បីស្វែងយល់ពីតួនាទីអត្ថន័យនៃពាក្យនីមួយៗ ដូចជាការកំណត់ថា "នរណា" ធ្វើសកម្មភាព "អ្វី" ទៅលើ "នរណា" "នៅឯណា" និង "ពេលណា" ជាដើម។ វាជួយប្រព័ន្ធឲ្យដឹងថាត្រូវបង្កើតសំណួរផ្តោតលើទីតាំងណា (ឧ. សួររកអ្នកធ្វើអំពើ ឬទីកន្លែង)។ | ប្រៀបដូចជាអ្នកស៊ើបអង្កេតដែលសួររកចម្លើយសម្រាប់សំណួរ "នរណា? ធ្វើអ្វី? នៅឯណា?" ពីសាក្សីក្នុងហេតុការណ៍ណាមួយ។ |
| Minimal Recursion Semantics (MRS) | ជាទម្រង់នៃការតំណាងអត្ថន័យកម្រិតជ្រៅរបស់ភាសា ដោយបំបែកប្រយោគស្មុគស្មាញទៅជាឯកតាតូចៗ (ព្រឹត្តិការណ៍ និងទំនាក់ទំនងរវាងពាក្យ) ដើម្បីឲ្យកុំព្យូទ័រយល់ពីអត្ថន័យពិតប្រាកដដោយមិនខ្វល់ពីរចនាសម្ព័ន្ធវេយ្យាករណ៍ខាងក្រៅ។ | ដូចជាការបកប្រែពាក្យស្លោក ឬសុភាសិត ទៅជាអត្ថន័យចំៗដែលមនុស្សទូទៅអាចយល់បានដោយងាយ មិនបាច់ខ្វល់ពីរចនាបថនៃការតែងនិពន្ធ។ |
| Named Entity Recognition (NER) | ជាបច្ចេកវិទ្យាដែលស្កេនអត្ថបទដើម្បីស្វែងរក និងចាត់ថ្នាក់ពាក្យ ឬឃ្លាណាដែលជាឈ្មោះផ្ទាល់ ដូចជាឈ្មោះមនុស្ស ទីកន្លែង អង្គការ ឬកាលបរិច្ឆេទ ដើម្បីងាយស្រួលឲ្យម៉ាស៊ីនដឹងថាត្រូវបង្កើតសំណួរប្រភេទ Who (នរណា), Where (នៅឯណា), ឬ When (ពេលណា)។ | ដូចជាការប្រើប្រាស់ហ្វ្លឺត (Highlighter) ចម្រុះពណ៌ ដើម្បីគូសចំណាំឈ្មោះមនុស្សពណ៌ក្រហម ឈ្មោះទីកន្លែងពណ៌ខៀវ និងកាលបរិច្ឆេទពណ៌លឿងក្នុងសៀវភៅ។ |
| Dependency Parsing | ជាការវិភាគរចនាសម្ព័ន្ធវេយ្យាករណ៍នៃប្រយោគ ដើម្បីរកមើលទំនាក់ទំនងរវាងពាក្យនីមួយៗ ដូចជាការភ្ជាប់រវាងកិរិយាសព្ទគោល ជាមួយប្រធាន និងកម្មបទ ដែលជួយឲ្យកុំព្យូទ័រដឹងពីរបៀបផ្តុំពាក្យបង្កើតជាសំណួរបានត្រឹមត្រូវ។ | ដូចជាការគូរផែនទីមែកធាងគ្រួសារ ដែលបង្ហាញថាអ្នកណាជាឪពុក អ្នកណាជាកូន ដើម្បីងាយស្រួលដឹងពីទំនាក់ទំនងសាច់ញាតិអញ្ចឹងដែរ។ |
| Cognitive Disequilibrium | ជាស្ថានភាពនៃភាពភ័ន្តច្រឡំ ឬអតុល្យភាពក្នុងការគិតរបស់មនុស្ស នៅពេលជួបប្រទះព័ត៌មានដែលផ្ទុយពីអ្វីដែលខ្លួនធ្លាប់ដឹង ដែលស្ថានភាពនេះជាកត្តាជំរុញឲ្យសិស្សចាប់ផ្តើមសួរសំណួរដើម្បីស្វែងយល់ការពិត។ | ដូចជាអារម្មណ៍ឆ្ងល់ និងចង់ដឹងខ្លាំងរបស់អ្នក នៅពេលដែលឃើញអ្នកលេងសៀកធ្វើឲ្យវត្ថុមួយបាត់ស្រមោលពីមុខទស្សនិកជន។ |
| Textual Entailment | ជាទំនាក់ទំនងរវាងអត្ថបទពីរ ដែលអត្ថបទមួយផ្ដល់ព័ត៌មានបញ្ជាក់ថាអត្ថបទទីពីរពិតជាត្រឹមត្រូវ (ទាញយកសេចក្តីពិត)។ គេប្រើវាដើម្បីកាត់រំលែកប្រយោគវែងៗឲ្យទៅជាប្រយោគខ្លីៗ ដែលនៅតែរក្សាភាពត្រឹមត្រូវនៃអត្ថន័យដើមជានិច្ច សម្រាប់យកទៅបង្កើតសំណួរ។ | ប្រៀបដូចជាការច្របាច់យកតែទឹកបរិសុទ្ធចេញពីផ្លែឈើ ដែលទោះជាផ្លាស់ប្តូរទម្រង់រូបរាង តែក្លិននិងរសជាតិនៅតែជារបស់ផ្លែឈើដដែល។ |
| Part of Speech (POS) tagger | ជាឧបករណ៍កម្មវិធីកុំព្យូទ័រដែលអានអត្ថបទហើយបិទស្លាកសម្គាល់ប្រភេទពាក្យនីមួយៗ (នាម, កិរិយាសព្ទ, គុណនាម ។ល។) ដើម្បីជួយប្រព័ន្ធកុំព្យូទ័រយល់ពីរបៀបដែលពាក្យទាំងនោះរួមបញ្ចូលគ្នាជាប្រយោគ។ | ដូចជាការបិទស្លាកតម្លៃនិងប្រភេទលើទំនិញក្នុងផ្សារទំនើប ដើម្បីឲ្យអ្នកគិតលុយដឹងថាវត្ថុនោះជាអ្វី និងស្ថិតក្នុងជួរទំនិញប្រភេទណា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖