បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាកង្វះខាតធនធានភាសា និងសំណុំទិន្នន័យសម្រាប់ភាសាកានូរី (Kanuri) ដែលជាឧបសគ្គដល់ការអភិវឌ្ឍប្រព័ន្ធដំណើរការភាសាធម្មជាតិ (NLP) ដូចជាកម្មវិធីបិទស្លាកផ្នែកនៃពាក្យ (POS tagger) ជាដើម។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រមូលចងក្រងសំណុំទិន្នន័យអត្ថបទ និងប្រើប្រាស់វិធីសាស្ត្រស្ថិតិម៉ូដែល Hidden Markov សម្រាប់ការបង្ហាត់ និងធ្វើតេស្ត។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Hidden Markov Model (Kanuri Dataset - Proposed) ម៉ូដែលម៉ាកូវលាក់ (HMM) សម្រាប់ទិន្នន័យភាសាកានូរី (សំណើស្រាវជ្រាវ) |
ដំណើរការបានល្អសម្រាប់ប្រភេទពាក្យទូទៅ (នាម សព្វនាម កិរិយាសព្ទ) និងត្រូវការទិន្នន័យតិចក្នុងការបង្ហាត់។ | បរាជ័យក្នុងការទស្សន៍ទាយពាក្យកម្រ (លេខ និមិត្តសញ្ញា ឧទានសព្ទ) ដោយទទួលបានពិន្ទុសូន្យ ដោយសារទិន្នន័យបង្ហាត់មិនគ្រប់គ្រាន់។ | ទទួលបានភាពត្រឹមត្រូវរួម (Overall Accuracy) ៨២,៧៤% លើសំណុំទិន្នន័យធ្វើតេស្ត។ |
| Hidden Markov Model (Yoruba Dataset - Reference) ម៉ូដែលម៉ាកូវលាក់ (HMM) សម្រាប់ទិន្នន័យភាសាយ៉ូរូបា (ការប្រៀបធៀបឯកសារយោង) |
បង្ហាញពីស្ថិរភាពនៃវិធីសាស្ត្រ HMM លើភាសាដែលខ្វះខាតធនធានផ្សេងទៀត។ | ទំហំទិន្នន័យនៅមានកម្រិតតូច (៨.០៧៥ ពាក្យ) ដែលអាចប្រឈមនឹងបញ្ហាក្នុងការប្រើប្រាស់ជាមួយប្រព័ន្ធធំៗ។ | ទទួលបានភាពត្រឹមត្រូវរួម ៨៣,៦២% លើសំណុំទិន្នន័យ ៨.០៧៥ ពាក្យ។ |
| Hidden Markov Model (Hausa Dataset - Reference) ម៉ូដែលម៉ាកូវលាក់ (HMM) សម្រាប់ទិន្នន័យភាសាហូសា (ការប្រៀបធៀបឯកសារយោង) |
មានសមត្ថភាពខ្ពស់ក្នុងការកំណត់ប្រភេទពាក្យជាក់លាក់ណាមួយ ដូចជាគុណនាមដែលអាចសម្រេចបានភាពត្រឹមត្រូវរហូតដល់ ១០០%។ | មានភាពទន់ខ្សោយលើការបែងចែកឈ្នាប់ (Conjunction) ដែលមានភាពត្រឹមត្រូវត្រឹមតែ ៥០% ប៉ុណ្ណោះ។ | ទទួលបានភាពត្រឹមត្រូវរួមជាមធ្យម ៧៦,៧៩%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនតម្រូវឱ្យមានធនធានកុំព្យូទ័រលំដាប់ខ្ពស់នោះទេ ប៉ុន្តែទាមទារការប្រឹងប្រែងពេលវេលាជាច្រើនលើការប្រមូល និងបិទស្លាកទិន្នន័យដោយដៃពីសំណាក់អ្នកជំនាញភាសា។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យត្រឹមតែ ១០.០០០ ពាក្យ មកពីវចនានុក្រមគ្រាមភាសា Manga និងអក្សរសិល្ប៍នៃភាសាកានូរីភាគឦសានប្រទេសនីហ្សេរីយ៉ា ដែលមិនអាចតំណាងឱ្យគ្រាមភាសាទាំងអស់នៃភាសានេះបានទេ។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាមេរៀនដ៏សំខាន់មួយ ព្រោះនៅពេលអភិវឌ្ឍ NLP សម្រាប់ភាសាជនជាតិដើមភាគតិច ការខ្វះខាតទិន្នន័យចម្រុះអាចធ្វើឱ្យប្រព័ន្ធមិនស្គាល់ពាក្យកម្រ ឬគ្រាមភាសាតំបន់ផ្សេងទៀត។
វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ និងស័ក្តិសមបំផុតក្នុងការយកមកអនុវត្តនៅក្នុងប្រទេសកម្ពុជា ពិសេសសម្រាប់ការផ្តួចផ្តើមអភិវឌ្ឍបច្ចេកវិទ្យាសម្រាប់ភាសាដែលខ្វះខាតធនធាន (Low-resource languages)។
សរុបមក ការប្រើប្រាស់ HMM គឺជាចំណុចចាប់ផ្តើមដ៏មានប្រសិទ្ធភាពចំណាយ និងធនធានខ្ពស់ សម្រាប់ការស្រាវជ្រាវ NLP លើភាសាដែលពុំទាន់មានទិន្នន័យឌីជីថលទូលំទូលាយនៅក្នុងបរិបទប្រទេសកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Natural Language Processing (NLP) | ជាសាខាមួយនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលផ្តោតលើការបង្រៀនកុំព្យូទ័រឱ្យអាចអាន យល់ សរសេរ និងបកប្រែភាសារបស់មនុស្សតាមបែបធម្មជាតិ។ | ដូចជាការបង្រៀនកុមារតូចម្នាក់ឱ្យចេះស្តាប់ និងនិយាយភាសាខ្មែរអញ្ចឹងដែរ តែនេះគឺយើងបង្រៀនកុំព្យូទ័រ។ |
| Part-of-Speech (POS) Tagging | ដំណើរការក្នុងការកំណត់ប្រភេទនិងចាត់ថ្នាក់ពាក្យនីមួយៗក្នុងប្រយោគទៅតាមតួនាទីវេយ្យាករណ៍របស់វា (ដូចជានាម កិរិយាសព្ទ គុណនាម) ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ពីបរិបទនៃប្រយោគ។ | ដូចជាការបិទស្លាកឈ្មោះលើគ្រឿងទេសក្នុងផ្ទះបាយ ដើម្បីឱ្យចុងភៅ (កុំព្យូទ័រ) ដឹងថាណាមួយជាអំបិល ណាមួយជាស្ករសមុននឹងយកទៅធ្វើម្ហូប។ |
| Hidden Markov Model (HMM) | ជាម៉ូដែលស្ថិតិដែលអាចទស្សន៍ទាយព្រឹត្តិការណ៍បន្ទាប់ (ឧទាហរណ៍៖ ទាយប្រភេទពាក្យបន្ទាប់) ដោយគណនាប្រូបាប៊ីលីតេផ្អែកតែលើស្ថានភាពបច្ចុប្បន្ន ដោយមិនពឹងផ្អែកលើប្រវត្តិអតីតកាលឆ្ងាយនោះទេ។ | ដូចជាការទស្សន៍ទាយអាកាសធាតុថ្ងៃស្អែក ដោយមើលតែស្ថានភាពមេឃថ្ងៃនេះ មិនបាច់ខ្វល់ពីអាកាសធាតុខែមុននោះទេ។ |
| Corpus | បណ្តុំអត្ថបទ ឬទិន្នន័យភាសាដ៏ធំដែលត្រូវបានប្រមូលចងក្រងយ៉ាងមានប្រព័ន្ធ សម្រាប់ប្រើប្រាស់ជាធនធានក្នុងការស្រាវជ្រាវភាសាវិទ្យា និងសម្រាប់បង្ហាត់ម៉ូដែលកុំព្យូទ័រ។ | ដូចជាបណ្ណាល័យដ៏ធំមួយដែលផ្ទុកសៀវភៅរាប់ពាន់ក្បាល ដើម្បីឱ្យកុំព្យូទ័រចូលទៅអាន និងរៀនពីរបៀបដែលមនុស្សប្រើប្រាស់ពាក្យ។ |
| Generative sequence model | ប្រភេទម៉ូដែលសិក្សារបស់ម៉ាស៊ីន (Machine Learning) ដែលអាចបង្កើត ឬទស្សន៍ទាយទិន្នន័យបន្តបន្ទាប់គ្នា (ដូចជាលំដាប់ពាក្យ) ដោយរៀនពីទម្រង់ច្បាប់ទម្លាប់នៃទិន្នន័យដែលវាធ្លាប់បានឃើញកន្លងមក។ | ដូចជាមុខងារទាយពាក្យបន្ទាប់ (Auto-predict) នៅលើក្តារចុចទូរសព្ទដៃរបស់យើងនៅពេលកំពុងវាយអក្សរ។ |
| F1-score | រង្វាស់វាយតម្លៃសមត្ថភាពរបស់ម៉ូដែល ដែលយកតម្លៃមធ្យមរវាង Precision (ភាពសុក្រឹតនៃការទាយត្រូវ) និង Recall (សមត្ថភាពរកឃើញទិន្នន័យដែលត្រូវរក) ដើម្បីផ្តល់នូវពិន្ទុរួមមួយដែលឆ្លុះបញ្ចាំងពីគុណភាពពិតប្រាកដ។ | ដូចជាការវាស់ស្ទង់សមត្ថភាពសិស្ស ដែលមិនត្រឹមតែគិតលើការឆ្លើយសំណួរបានត្រឹមត្រូវប៉ុណ្ណោះទេ តែត្រូវធានាថាសិស្សមិនរំលងសំណួរចោលច្រើនផងដែរ។ |
| under-resourced languages | ភាសាដែលមានទិន្នន័យឌីជីថល (ដូចជា អត្ថបទតាមអ៊ីនធឺណិត សំឡេង វចនានុក្រមអេឡិចត្រូនិក) តិចតួចបំផុត ដែលធ្វើឱ្យមានការលំបាកយ៉ាងខ្លាំងក្នុងការអភិវឌ្ឍបច្ចេកវិទ្យា និងប្រព័ន្ធ AI សម្រាប់ភាសាទាំងនោះ។ | ដូចជាសិស្សដែលចង់ស្រាវជ្រាវធ្វើលំហាត់អំពីប្រធានបទមួយ តែរកសៀវភៅយោងក្នុងបណ្ណាល័យសឹងតែមិនបាន។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖