បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការពឹងផ្អែកខ្លាំងលើការបិទស្លាកទិន្នន័យដោយដៃ និងការប្រើប្រាស់វចនានុក្រមនៅក្នុងដំណើរការភាសាធម្មជាតិ (NLP) ដោយធ្វើការពិនិត្យឡើងវិញនូវការប្រើប្រាស់ម៉ូដែលស្តិតិដើម្បីកែលម្អប្រសិទ្ធភាព។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការស្រាវជ្រាវឯកសារ (Literature Review) ដោយជ្រើសរើសឯកសារស្រាវជ្រាវចំនួន ១៨ ពីឆ្នាំ ២០១៦ ដល់ ២០២០ ដែលផ្តោតលើកម្មវិធីសំខាន់ៗចំនួនបីនៃ NLP ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Supervised Hidden Markov Model (HMM) for NER ម៉ូដែលម៉ាកូវលាក់កំបាំងដែលមានការត្រួតពិនិត្យ (Supervised HMM) សម្រាប់ការសម្គាល់ឈ្មោះអង្គភាព |
ផ្តល់ភាពជាក់លាក់ខ្ពស់ក្នុងការទស្សន៍ទាយឈ្មោះអង្គភាព និងមានប្រសិទ្ធភាពខ្លាំងនៅពេលប្រើលើដែនកំណត់ជាក់លាក់។ | ទាមទារទិន្នន័យដែលបានបិទស្លាករួច (Annotated data) ច្រើន ដែលត្រូវចំណាយពេលយូរក្នុងការរៀបចំដោយកម្លាំងមនុស្ស។ | ទទួលបានភាពត្រឹមត្រូវ ៩៥% និង F-score ៩៧% (យោងតាមការសិក្សារបស់ Lay et al. លើភាសាមីយ៉ាន់ម៉ា)។ |
| Unsupervised HMM for POS Tagging ម៉ូដែលម៉ាកូវលាក់កំបាំងដោយគ្មានការត្រួតពិនិត្យ (Unsupervised HMM) សម្រាប់ការបិទស្លាកប្រភេទពាក្យ |
កាត់បន្ថយការចំណាយ និងពេលវេលាយ៉ាងច្រើនលើការរៀបចំវចនានុក្រម ឬការបិទស្លាកទិន្នន័យដោយដៃ។ | ដំណើរការមានភាពស្មុគស្មាញខ្ពស់ ហើយលទ្ធផលគឺពិបាកក្នុងការវាយតម្លៃភាពត្រឹមត្រូវណាស់។ | អាចស្វែងរកលំដាប់នៃស្លាក POS លាក់កំបាំងបានដោយរៀនពីទិន្នន័យមិនបានបិទស្លាក (Unlabeled data) (យោងតាមការសិក្សារបស់ Stratos et al.)។ |
| Markov Chains for Natural Language Generation ខ្សែច្រវាក់ម៉ាកូវ (Markov Chains) សម្រាប់ការបង្កើតភាសាធម្មជាតិ |
មានសមត្ថភាពអាចបង្កើតប្រយោគថ្មីៗដែលស្រដៀងនឹងទិន្នន័យដើមក្នុងកម្រិតដែលអាចទទួលយកបាន។ | ជារឿយៗវាបង្កើតប្រយោគមិនពេញលេញ ដែលទាមទារការបន្ថែមវិធាន (Rule-based) ដើម្បីកំណត់ទីបញ្ចប់នៃប្រយោគ (EOS)។ | ទទួលបានភាពត្រឹមត្រូវ ៧៣% ក្នុងការបង្កើតសំណាកទិន្នន័យដោយប្រើ MHA (យោងតាមការសិក្សារបស់ Zhang et al.)។ |
| Parallel HMM for POS Tagging ដំណើរការស្របគ្នានៃ HMM (Parallel HMM) សម្រាប់ការបិទស្លាកប្រភេទពាក្យ |
ពន្លឿនដំណើរការបិទស្លាក និងជួយដោះស្រាយបញ្ហានៃការទាញយកក្បួនវេយ្យាករណ៍ពីភាសាផ្សេង។ | ជួបការលំបាកក្នុងការសរសេរកូដប្រព័ន្ធឱ្យដើរស្របគ្នា និងទាមទារទំហំ Corpus ធំជាងមុន។ | ទទួលបានភាពត្រឹមត្រូវ ៩៨.២២% សម្រាប់ Tagger ទីមួយ និង ៧៥.១២% សម្រាប់ Tagger ទីពីរ (យោងតាមការសិក្សារបស់ Kadim et al. លើភាសាអារ៉ាប់)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីទំហំផ្នែករឹង (Hardware) នោះទេ ប៉ុន្តែវាបានសង្កត់ធ្ងន់យ៉ាងខ្លាំងទៅលើតម្រូវការទិន្នន័យដែលបានរៀបចំរួច និងធនធានមនុស្ស។
ការសិក្សាទាំង ១៨ ដែលបានលើកឡើង គឺធ្វើឡើងលើភាសាផ្សេងៗគ្នាដូចជា អង់គ្លេស អេស្ប៉ាញ ចិន អារ៉ាប់ បង់ក្លាដែស អ៊ូឌូ ឥណ្ឌូនេស៊ី និងមីយ៉ាន់ម៉ា ដោយមិនមានភាសាខ្មែរឡើយ។ នេះជាបញ្ហាចម្បងសម្រាប់កម្ពុជា ពីព្រោះវិធីសាស្ត្រភាគច្រើនពឹងផ្អែកលើសំណុំទិន្នន័យខ្នាតធំ (Supervised) ខណៈដែលភាសាខ្មែរនៅមានខ្វះខាតទិន្នន័យដែលបានបិទស្លាក (Low-resource language) នៅឡើយ។
ទោះជាយ៉ាងណាក៏ដោយ វិធីសាស្ត្រ Markov Models ទាំងនេះមានសារៈសំខាន់ខ្លាំង និងអាចយកមកកែច្នៃប្រើប្រាស់សម្រាប់ដំណើរការភាសាខ្មែរបានយ៉ាងល្អ។
សរុបមក ការចាប់ផ្តើមអភិវឌ្ឍប្រព័ន្ធ NLP ដោយប្រើប្រាស់ HMM ជាពិសេសវិធីសាស្ត្រ Unsupervised និង Hybrid គឺជាជំហានដ៏ឆ្លាតវៃសម្រាប់ជម្នះបញ្ហាខ្វះខាតទិន្នន័យនៅក្នុងប្រទេសកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Hidden Markov Model | ម៉ូដែលគណិតវិទ្យាដែលប្រើសម្រាប់ទស្សន៍ទាយស្ថានភាពលាក់កំបាំងដោយផ្អែកលើព្រឹត្តិការណ៍ដែលអាចមើលឃើញ ដោយសន្មតថាស្ថានភាពបន្ទាប់អាស្រ័យតែលើស្ថានភាពបច្ចុប្បន្នប៉ុណ្ណោះ។ វាត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយក្នុងការសម្គាល់សំឡេង និងភាសា។ | ដូចជាការព្យាយាមទាយថាតើមិត្តភក្តិរបស់អ្នកកំពុងឈឺឬអត់ (ស្ថានភាពលាក់កំបាំង) ដោយគ្រាន់តែសង្កេតមើលថាគាត់ក្អកឬអត់ (រោគសញ្ញាដែលមើលឃើញ)។ |
| Markov Chains | ដំណើរការស្តិតិដែលព្រឹត្តិការណ៍បន្ទាប់នីមួយៗត្រូវបានកំណត់ដោយព្រឹត្តិការណ៍មុនវាភ្លាមៗប៉ុណ្ណោះ ដោយមិនខ្វល់ពីប្រវត្តិព្រឹត្តិការណ៍ទាំងអស់ពីអតីតកាលនោះទេ។ នៅក្នុង NLP វាត្រូវបានប្រើដើម្បីទាយពាក្យបន្ទាប់ក្នុងប្រយោគ។ | ដូចជាការលេងហ្គេមប៊្លុក (Board Game) ដែលទីតាំងបន្ទាប់របស់អ្នកអាស្រ័យតែលើទីតាំងបច្ចុប្បន្ន និងគ្រាប់ឡុកឡាក់ដែលអ្នកទើបបោះបានប៉ុណ្ណោះ ដោយមិនខ្វល់ថាពីមុនអ្នកដើរមកពីណាឡើយ។ |
| Stochastic processes | ដំណើរការគណិតវិទ្យាដែលមានលក្ខណៈចៃដន្យ ដែលលទ្ធផលរបស់វាមិនអាចទាយទុកជាមុនបានច្បាស់លាស់ ១០០% ទេ ប៉ុន្តែគេអាចប៉ាន់ស្មានលទ្ធផលនោះបានតាមរយៈការគណនាប្រូបាប៊ីលីតេ (ឱកាស)។ | ដូចជាការទស្សន៍ទាយអាកាសធាតុប្រចាំថ្ងៃ ដែលទោះបីយើងមានទិន្នន័យពីថ្ងៃមុនៗច្រើនយ៉ាងណាក៏ដោយ ក៏អាកាសធាតុនៅតែមានឱកាសប្រែប្រួលជានិច្ច មិនអាចប្រាកដ ១០០% ឡើយ។ |
| Named Entity Recognition | បច្ចេកទេសក្នុងដំណើរការភាសាធម្មជាតិ (NLP) ដែលកុំព្យូទ័រធ្វើការស្វែងរក និងចាត់ថ្នាក់ពាក្យក្នុងអត្ថបទទៅជាប្រភេទផ្សេងៗដោយស្វ័យប្រវត្តិ ដូចជា ឈ្មោះមនុស្ស ទីកន្លែង អង្គការ ឬកាលបរិច្ឆេទ។ | ដូចជាសិស្សម្នាក់អានសៀវភៅរឿង រួចយកហ្វឺតពណ៌មកគូសចំណាំតែលើពាក្យណាដែលជាឈ្មោះតួអង្គ និងឈ្មោះទីក្រុង។ |
| Parts of Speech Tagging | ដំណើរការនៃការបិទស្លាកប្រភេទពាក្យ (ដូចជា នាម កិរិយាសព្ទ គុណនាម) ទៅលើពាក្យនីមួយៗក្នុងប្រយោគ ដើម្បីឱ្យម៉ាស៊ីនអាចយល់ពីវេយ្យាករណ៍ និងរចនាសម្ព័ន្ធអត្ថន័យរបស់ប្រយោគនោះ។ | ដូចជាការបំពាក់ផ្លាកឈ្មោះតួនាទី (ឧទាហរណ៍៖ ប្រធាន អនុប្រធាន សមាជិក) ដល់សិស្សម្នាក់ៗនៅក្នុងក្រុម ដើម្បីដឹងថាអ្នកណាមានភារកិច្ចធ្វើអ្វីខ្លះ។ |
| Natural Language Generation | ប្រព័ន្ធដែលកុំព្យូទ័របំប្លែងទិន្នន័យរចនាសម្ព័ន្ធ ឬលទ្ធផលនៃការគណនា ទៅជាអត្ថបទភាសាធម្មជាតិដែលអាចអានយល់បានដោយមនុស្ស (ឧទាហរណ៍៖ ការបង្កើតរបាយការណ៍អាកាសធាតុស្វ័យប្រវត្តិ)។ | ដូចជាអ្នករាយការណ៍ព័ត៌មានដែលយកតារាងពិន្ទុបាល់ទាត់ (ទិន្នន័យស្ងួត) មកសរសេរចងក្រងជារឿងរ៉ាវអត្ថបទព័ត៌មានកីឡាដ៏គួរឱ្យចាប់អារម្មណ៍។ |
| Viterbi algorithm | ក្បួនដោះស្រាយ (Algorithm) ដែលត្រូវបានប្រើប្រាស់ជាមួយ Hidden Markov Models ដើម្បីស្វែងរកលំដាប់លំដោយនៃស្ថានភាពលាក់កំបាំង ដែលមានឱកាសកើតឡើងខ្ពស់បំផុត ផ្អែកលើលំដាប់នៃទិន្នន័យដែលយើងមើលឃើញ។ | ដូចជាការប្រើប្រាស់ Google Maps ដើម្បីស្វែងរកផ្លូវដែលលឿនបំផុតពីផ្ទះទៅសាលារៀន ដោយវាធ្វើការប្រៀបធៀបគ្រប់ជម្រើសផ្លូវទាំងអស់ដើម្បីរើសយកផ្លូវដែលចំណាយពេលតិចបំផុត។ |
| N-grams | វិធីសាស្ត្រកាត់អត្ថបទជាបំណែកៗដែលមានចំនួន N ពាក្យជាប់គ្នា (ឧទាហរណ៍៖ unigram=១ពាក្យ, bigram=២ពាក្យជាប់គ្នា) ដើម្បីវិភាគទម្រង់ និងប្រូបាប៊ីលីតេនៃការប្រើប្រាស់ពាក្យនៅក្នុងភាសា។ | ដូចជាការរៀនចងចាំទំនុកច្រៀង ដោយអ្នកកាត់ចម្រៀងជាឃ្លាខ្លីៗមាន ២ ឬ ៣ ពាក្យជាប់គ្នា ដើម្បីងាយស្រួលទាយថាតើពាក្យបន្ទាប់ក្នុងបទចម្រៀងគួរជាអ្វី។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖