Original Title: Markov Models Applications in Natural Language Processing: A Survey
Source: doi.org/10.5815/ijitcs.2022.02.01
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការអនុវត្តម៉ូដែល Markov នៅក្នុងដំណើរការភាសាធម្មជាតិ៖ ការសិក្សាស្រាវជ្រាវ

ចំណងជើងដើម៖ Markov Models Applications in Natural Language Processing: A Survey

អ្នកនិពន្ធ៖ Talal Almutiri (King Abdulaziz University), Farrukh Nadeem (King Abdulaziz University)

ឆ្នាំបោះពុម្ព៖ 2022 I.J. Information Technology and Computer Science

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការពឹងផ្អែកខ្លាំងលើការបិទស្លាកទិន្នន័យដោយដៃ និងការប្រើប្រាស់វចនានុក្រមនៅក្នុងដំណើរការភាសាធម្មជាតិ (NLP) ដោយធ្វើការពិនិត្យឡើងវិញនូវការប្រើប្រាស់ម៉ូដែលស្តិតិដើម្បីកែលម្អប្រសិទ្ធភាព។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការស្រាវជ្រាវឯកសារ (Literature Review) ដោយជ្រើសរើសឯកសារស្រាវជ្រាវចំនួន ១៨ ពីឆ្នាំ ២០១៦ ដល់ ២០២០ ដែលផ្តោតលើកម្មវិធីសំខាន់ៗចំនួនបីនៃ NLP ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Supervised Hidden Markov Model (HMM) for NER
ម៉ូដែលម៉ាកូវលាក់កំបាំងដែលមានការត្រួតពិនិត្យ (Supervised HMM) សម្រាប់ការសម្គាល់ឈ្មោះអង្គភាព
ផ្តល់ភាពជាក់លាក់ខ្ពស់ក្នុងការទស្សន៍ទាយឈ្មោះអង្គភាព និងមានប្រសិទ្ធភាពខ្លាំងនៅពេលប្រើលើដែនកំណត់ជាក់លាក់។ ទាមទារទិន្នន័យដែលបានបិទស្លាករួច (Annotated data) ច្រើន ដែលត្រូវចំណាយពេលយូរក្នុងការរៀបចំដោយកម្លាំងមនុស្ស។ ទទួលបានភាពត្រឹមត្រូវ ៩៥% និង F-score ៩៧% (យោងតាមការសិក្សារបស់ Lay et al. លើភាសាមីយ៉ាន់ម៉ា)។
Unsupervised HMM for POS Tagging
ម៉ូដែលម៉ាកូវលាក់កំបាំងដោយគ្មានការត្រួតពិនិត្យ (Unsupervised HMM) សម្រាប់ការបិទស្លាកប្រភេទពាក្យ
កាត់បន្ថយការចំណាយ និងពេលវេលាយ៉ាងច្រើនលើការរៀបចំវចនានុក្រម ឬការបិទស្លាកទិន្នន័យដោយដៃ។ ដំណើរការមានភាពស្មុគស្មាញខ្ពស់ ហើយលទ្ធផលគឺពិបាកក្នុងការវាយតម្លៃភាពត្រឹមត្រូវណាស់។ អាចស្វែងរកលំដាប់នៃស្លាក POS លាក់កំបាំងបានដោយរៀនពីទិន្នន័យមិនបានបិទស្លាក (Unlabeled data) (យោងតាមការសិក្សារបស់ Stratos et al.)។
Markov Chains for Natural Language Generation
ខ្សែច្រវាក់ម៉ាកូវ (Markov Chains) សម្រាប់ការបង្កើតភាសាធម្មជាតិ
មានសមត្ថភាពអាចបង្កើតប្រយោគថ្មីៗដែលស្រដៀងនឹងទិន្នន័យដើមក្នុងកម្រិតដែលអាចទទួលយកបាន។ ជារឿយៗវាបង្កើតប្រយោគមិនពេញលេញ ដែលទាមទារការបន្ថែមវិធាន (Rule-based) ដើម្បីកំណត់ទីបញ្ចប់នៃប្រយោគ (EOS)។ ទទួលបានភាពត្រឹមត្រូវ ៧៣% ក្នុងការបង្កើតសំណាកទិន្នន័យដោយប្រើ MHA (យោងតាមការសិក្សារបស់ Zhang et al.)។
Parallel HMM for POS Tagging
ដំណើរការស្របគ្នានៃ HMM (Parallel HMM) សម្រាប់ការបិទស្លាកប្រភេទពាក្យ
ពន្លឿនដំណើរការបិទស្លាក និងជួយដោះស្រាយបញ្ហានៃការទាញយកក្បួនវេយ្យាករណ៍ពីភាសាផ្សេង។ ជួបការលំបាកក្នុងការសរសេរកូដប្រព័ន្ធឱ្យដើរស្របគ្នា និងទាមទារទំហំ Corpus ធំជាងមុន។ ទទួលបានភាពត្រឹមត្រូវ ៩៨.២២% សម្រាប់ Tagger ទីមួយ និង ៧៥.១២% សម្រាប់ Tagger ទីពីរ (យោងតាមការសិក្សារបស់ Kadim et al. លើភាសាអារ៉ាប់)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីទំហំផ្នែករឹង (Hardware) នោះទេ ប៉ុន្តែវាបានសង្កត់ធ្ងន់យ៉ាងខ្លាំងទៅលើតម្រូវការទិន្នន័យដែលបានរៀបចំរួច និងធនធានមនុស្ស។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សាទាំង ១៨ ដែលបានលើកឡើង គឺធ្វើឡើងលើភាសាផ្សេងៗគ្នាដូចជា អង់គ្លេស អេស្ប៉ាញ ចិន អារ៉ាប់ បង់ក្លាដែស អ៊ូឌូ ឥណ្ឌូនេស៊ី និងមីយ៉ាន់ម៉ា ដោយមិនមានភាសាខ្មែរឡើយ។ នេះជាបញ្ហាចម្បងសម្រាប់កម្ពុជា ពីព្រោះវិធីសាស្ត្រភាគច្រើនពឹងផ្អែកលើសំណុំទិន្នន័យខ្នាតធំ (Supervised) ខណៈដែលភាសាខ្មែរនៅមានខ្វះខាតទិន្នន័យដែលបានបិទស្លាក (Low-resource language) នៅឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះជាយ៉ាងណាក៏ដោយ វិធីសាស្ត្រ Markov Models ទាំងនេះមានសារៈសំខាន់ខ្លាំង និងអាចយកមកកែច្នៃប្រើប្រាស់សម្រាប់ដំណើរការភាសាខ្មែរបានយ៉ាងល្អ។

សរុបមក ការចាប់ផ្តើមអភិវឌ្ឍប្រព័ន្ធ NLP ដោយប្រើប្រាស់ HMM ជាពិសេសវិធីសាស្ត្រ Unsupervised និង Hybrid គឺជាជំហានដ៏ឆ្លាតវៃសម្រាប់ជម្នះបញ្ហាខ្វះខាតទិន្នន័យនៅក្នុងប្រទេសកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃទិន្នន័យ និងម៉ូដែលស្តិតិ: ចាប់ផ្តើមសិក្សាពីទ្រឹស្តីប្រូបាប៊ីលីតេ និងម៉ូដែល HMM តាមរយៈសៀវភៅ 'Speech and Language Processing' របស់ Jurafsky & Martin និងរៀនសរសេរកូដមូលដ្ឋានដោយប្រើបណ្ណាល័យ Python NLTK
  2. ប្រមូល និងរៀបចំទិន្នន័យអត្ថបទភាសាខ្មែរ: ប្រមូលអត្ថបទពីគេហទំព័រព័ត៌មានក្នុងស្រុក រួចធ្វើការសម្អាត និងបំបែកពាក្យខ្មែរ (Word Segmentation) ដោយប្រើប្រាស់ឧបករណ៍ Open-source ដូចជា Khmer NLTKSeamkhao
  3. អភិវឌ្ឍប្រព័ន្ធបិទស្លាកប្រភេទពាក្យកម្រិតមូលដ្ឋាន: សាកល្បងបង្កើតប្រព័ន្ធ POS Tagging សម្រាប់ភាសាខ្មែរដោយប្រើប្រាស់ hmmlearn នៅក្នុង Python ដោយចាប់ផ្តើមបង្វឹកពីទិន្នន័យទំហំតូចដែលបានបិទស្លាកដោយដៃ។
  4. បង្កើតប្រព័ន្ធសម្គាល់ឈ្មោះអង្គភាពបែបចម្រុះ (Hybrid NER): រៀបចំប្រព័ន្ធ NER ដើម្បីទាញយកឈ្មោះមនុស្ស និងទីតាំងនៅកម្ពុជា ដោយផ្សំការប្រើប្រាស់ Regular Expressions (Regex) ជាមួយនឹង Hidden Markov Models ដូចការសិក្សាលើភាសាបង់ក្លាដែសដែរ។
  5. ស្រាវជ្រាវលើវិធីសាស្ត្រ Unsupervised Learning: ដោយសារកម្ពុជាខ្វះខាតទិន្នន័យ និស្សិតគួរតែបន្តស្រាវជ្រាវសាកល្បងនូវវិធីសាស្ត្រ Unsupervised HMM ដើម្បីឱ្យម៉ាស៊ីនរៀនសម្គាល់ទម្រង់ភាសាខ្មែរដោយខ្លួនឯង ដោយមិនចាំបាច់ចំណាយកម្លាំងមនុស្សច្រើនក្នុងការ Labeled ទិន្នន័យ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Hidden Markov Model ម៉ូដែលគណិតវិទ្យាដែលប្រើសម្រាប់ទស្សន៍ទាយស្ថានភាពលាក់កំបាំងដោយផ្អែកលើព្រឹត្តិការណ៍ដែលអាចមើលឃើញ ដោយសន្មតថាស្ថានភាពបន្ទាប់អាស្រ័យតែលើស្ថានភាពបច្ចុប្បន្នប៉ុណ្ណោះ។ វាត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយក្នុងការសម្គាល់សំឡេង និងភាសា។ ដូចជាការព្យាយាមទាយថាតើមិត្តភក្តិរបស់អ្នកកំពុងឈឺឬអត់ (ស្ថានភាពលាក់កំបាំង) ដោយគ្រាន់តែសង្កេតមើលថាគាត់ក្អកឬអត់ (រោគសញ្ញាដែលមើលឃើញ)។
Markov Chains ដំណើរការស្តិតិដែលព្រឹត្តិការណ៍បន្ទាប់នីមួយៗត្រូវបានកំណត់ដោយព្រឹត្តិការណ៍មុនវាភ្លាមៗប៉ុណ្ណោះ ដោយមិនខ្វល់ពីប្រវត្តិព្រឹត្តិការណ៍ទាំងអស់ពីអតីតកាលនោះទេ។ នៅក្នុង NLP វាត្រូវបានប្រើដើម្បីទាយពាក្យបន្ទាប់ក្នុងប្រយោគ។ ដូចជាការលេងហ្គេមប៊្លុក (Board Game) ដែលទីតាំងបន្ទាប់របស់អ្នកអាស្រ័យតែលើទីតាំងបច្ចុប្បន្ន និងគ្រាប់ឡុកឡាក់ដែលអ្នកទើបបោះបានប៉ុណ្ណោះ ដោយមិនខ្វល់ថាពីមុនអ្នកដើរមកពីណាឡើយ។
Stochastic processes ដំណើរការគណិតវិទ្យាដែលមានលក្ខណៈចៃដន្យ ដែលលទ្ធផលរបស់វាមិនអាចទាយទុកជាមុនបានច្បាស់លាស់ ១០០% ទេ ប៉ុន្តែគេអាចប៉ាន់ស្មានលទ្ធផលនោះបានតាមរយៈការគណនាប្រូបាប៊ីលីតេ (ឱកាស)។ ដូចជាការទស្សន៍ទាយអាកាសធាតុប្រចាំថ្ងៃ ដែលទោះបីយើងមានទិន្នន័យពីថ្ងៃមុនៗច្រើនយ៉ាងណាក៏ដោយ ក៏អាកាសធាតុនៅតែមានឱកាសប្រែប្រួលជានិច្ច មិនអាចប្រាកដ ១០០% ឡើយ។
Named Entity Recognition បច្ចេកទេសក្នុងដំណើរការភាសាធម្មជាតិ (NLP) ដែលកុំព្យូទ័រធ្វើការស្វែងរក និងចាត់ថ្នាក់ពាក្យក្នុងអត្ថបទទៅជាប្រភេទផ្សេងៗដោយស្វ័យប្រវត្តិ ដូចជា ឈ្មោះមនុស្ស ទីកន្លែង អង្គការ ឬកាលបរិច្ឆេទ។ ដូចជាសិស្សម្នាក់អានសៀវភៅរឿង រួចយកហ្វឺតពណ៌មកគូសចំណាំតែលើពាក្យណាដែលជាឈ្មោះតួអង្គ និងឈ្មោះទីក្រុង។
Parts of Speech Tagging ដំណើរការនៃការបិទស្លាកប្រភេទពាក្យ (ដូចជា នាម កិរិយាសព្ទ គុណនាម) ទៅលើពាក្យនីមួយៗក្នុងប្រយោគ ដើម្បីឱ្យម៉ាស៊ីនអាចយល់ពីវេយ្យាករណ៍ និងរចនាសម្ព័ន្ធអត្ថន័យរបស់ប្រយោគនោះ។ ដូចជាការបំពាក់ផ្លាកឈ្មោះតួនាទី (ឧទាហរណ៍៖ ប្រធាន អនុប្រធាន សមាជិក) ដល់សិស្សម្នាក់ៗនៅក្នុងក្រុម ដើម្បីដឹងថាអ្នកណាមានភារកិច្ចធ្វើអ្វីខ្លះ។
Natural Language Generation ប្រព័ន្ធដែលកុំព្យូទ័របំប្លែងទិន្នន័យរចនាសម្ព័ន្ធ ឬលទ្ធផលនៃការគណនា ទៅជាអត្ថបទភាសាធម្មជាតិដែលអាចអានយល់បានដោយមនុស្ស (ឧទាហរណ៍៖ ការបង្កើតរបាយការណ៍អាកាសធាតុស្វ័យប្រវត្តិ)។ ដូចជាអ្នករាយការណ៍ព័ត៌មានដែលយកតារាងពិន្ទុបាល់ទាត់ (ទិន្នន័យស្ងួត) មកសរសេរចងក្រងជារឿងរ៉ាវអត្ថបទព័ត៌មានកីឡាដ៏គួរឱ្យចាប់អារម្មណ៍។
Viterbi algorithm ក្បួនដោះស្រាយ (Algorithm) ដែលត្រូវបានប្រើប្រាស់ជាមួយ Hidden Markov Models ដើម្បីស្វែងរកលំដាប់លំដោយនៃស្ថានភាពលាក់កំបាំង ដែលមានឱកាសកើតឡើងខ្ពស់បំផុត ផ្អែកលើលំដាប់នៃទិន្នន័យដែលយើងមើលឃើញ។ ដូចជាការប្រើប្រាស់ Google Maps ដើម្បីស្វែងរកផ្លូវដែលលឿនបំផុតពីផ្ទះទៅសាលារៀន ដោយវាធ្វើការប្រៀបធៀបគ្រប់ជម្រើសផ្លូវទាំងអស់ដើម្បីរើសយកផ្លូវដែលចំណាយពេលតិចបំផុត។
N-grams វិធីសាស្ត្រកាត់អត្ថបទជាបំណែកៗដែលមានចំនួន N ពាក្យជាប់គ្នា (ឧទាហរណ៍៖ unigram=១ពាក្យ, bigram=២ពាក្យជាប់គ្នា) ដើម្បីវិភាគទម្រង់ និងប្រូបាប៊ីលីតេនៃការប្រើប្រាស់ពាក្យនៅក្នុងភាសា។ ដូចជាការរៀនចងចាំទំនុកច្រៀង ដោយអ្នកកាត់ចម្រៀងជាឃ្លាខ្លីៗមាន ២ ឬ ៣ ពាក្យជាប់គ្នា ដើម្បីងាយស្រួលទាយថាតើពាក្យបន្ទាប់ក្នុងបទចម្រៀងគួរជាអ្វី។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖