Original Title: Markov Models Applications in Natural Language Processing: A Survey
Source: doi.org/10.5815/ijitcs.2022.02.01
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការអនុវត្តម៉ូដែល Markov នៅក្នុងដំណើរការភាសាធម្មជាតិ៖ ការសិក្សាស្រាវជ្រាវ

ចំណងជើងដើម៖ Markov Models Applications in Natural Language Processing: A Survey

អ្នកនិពន្ធ៖ Talal Almutiri (King Abdulaziz University), Farrukh Nadeem (King Abdulaziz University)

ឆ្នាំបោះពុម្ព៖ 2022 I.J. Information Technology and Computer Science

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការពឹងផ្អែកខ្លាំងលើការបិទស្លាកទិន្នន័យដោយដៃ និងការប្រើប្រាស់វចនានុក្រមនៅក្នុងដំណើរការភាសាធម្មជាតិ (NLP) ដោយធ្វើការពិនិត្យឡើងវិញនូវការប្រើប្រាស់ម៉ូដែលស្តិតិដើម្បីកែលម្អប្រសិទ្ធភាព។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការស្រាវជ្រាវឯកសារ (Literature Review) ដោយជ្រើសរើសឯកសារស្រាវជ្រាវចំនួន ១៨ ពីឆ្នាំ ២០១៦ ដល់ ២០២០ ដែលផ្តោតលើកម្មវិធីសំខាន់ៗចំនួនបីនៃ NLP ។

ការបង្កើតភាសាធម្មជាតិ (Natural Language Generation - NLG)
ការសម្គាល់ឈ្មោះអង្គភាព (Named-Entity Recognition - NER)
ការបិទស្លាកប្រភេទពាក្យ (Parts of Speech Tagging - POS)
ការវិភាគលើម៉ូដែលម៉ាកូវលាក់កំបាំង និងខ្សែច្រវាក់ម៉ាកូវ (Hidden Markov Models & Markov Chains)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

នៅក្នុងការបង្កើតភាសាធម្មជាតិ (NLG) វិធីសាស្ត្រផ្អែកលើសំណុំទិន្នន័យ (Corpus-based) ប្រើប្រាស់ Markov Chains ច្រើនជាងគេដើម្បីកាត់បន្ថយការពឹងផ្អែកលើច្បាប់កំណត់ដោយដៃ។
សម្រាប់ការសម្គាល់ឈ្មោះអង្គភាព (NER) វិធីសាស្ត្ររៀនដោយម៉ាស៊ីន (Machine Learning) ដែលប្រើប្រាស់ Hidden Markov Models ត្រូវបានអនុវត្តយ៉ាងទូលំទូលាយ ប៉ុន្តែនៅតែត្រូវការសំណុំទិន្នន័យដែលបានបិទស្លាក (Labeled data) ដដែល។
ទោះបីជាមានការប៉ុនប៉ងប្រើប្រាស់វិធីសាស្ត្ររៀនដោយគ្មានអ្នកត្រួតពិនិត្យ (Unsupervised learning) មួយចំនួនក៏ដោយ ក៏ប្រព័ន្ធ NLP ភាគច្រើននៅតែទាមទារការខិតខំប្រឹងប្រែងខ្ពស់ក្នុងការរៀបចំទិន្នន័យបណ្តុះបណ្តាល (Supervised)។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Supervised Hidden Markov Model (HMM) for NER ម៉ូដែលម៉ាកូវលាក់កំបាំងដែលមានការត្រួតពិនិត្យ (Supervised HMM) សម្រាប់ការសម្គាល់ឈ្មោះអង្គភាព	ផ្តល់ភាពជាក់លាក់ខ្ពស់ក្នុងការទស្សន៍ទាយឈ្មោះអង្គភាព និងមានប្រសិទ្ធភាពខ្លាំងនៅពេលប្រើលើដែនកំណត់ជាក់លាក់។	ទាមទារទិន្នន័យដែលបានបិទស្លាករួច (Annotated data) ច្រើន ដែលត្រូវចំណាយពេលយូរក្នុងការរៀបចំដោយកម្លាំងមនុស្ស។	ទទួលបានភាពត្រឹមត្រូវ ៩៥% និង F-score ៩៧% (យោងតាមការសិក្សារបស់ Lay et al. លើភាសាមីយ៉ាន់ម៉ា)។
Unsupervised HMM for POS Tagging ម៉ូដែលម៉ាកូវលាក់កំបាំងដោយគ្មានការត្រួតពិនិត្យ (Unsupervised HMM) សម្រាប់ការបិទស្លាកប្រភេទពាក្យ	កាត់បន្ថយការចំណាយ និងពេលវេលាយ៉ាងច្រើនលើការរៀបចំវចនានុក្រម ឬការបិទស្លាកទិន្នន័យដោយដៃ។	ដំណើរការមានភាពស្មុគស្មាញខ្ពស់ ហើយលទ្ធផលគឺពិបាកក្នុងការវាយតម្លៃភាពត្រឹមត្រូវណាស់។	អាចស្វែងរកលំដាប់នៃស្លាក POS លាក់កំបាំងបានដោយរៀនពីទិន្នន័យមិនបានបិទស្លាក (Unlabeled data) (យោងតាមការសិក្សារបស់ Stratos et al.)។
Markov Chains for Natural Language Generation ខ្សែច្រវាក់ម៉ាកូវ (Markov Chains) សម្រាប់ការបង្កើតភាសាធម្មជាតិ	មានសមត្ថភាពអាចបង្កើតប្រយោគថ្មីៗដែលស្រដៀងនឹងទិន្នន័យដើមក្នុងកម្រិតដែលអាចទទួលយកបាន។	ជារឿយៗវាបង្កើតប្រយោគមិនពេញលេញ ដែលទាមទារការបន្ថែមវិធាន (Rule-based) ដើម្បីកំណត់ទីបញ្ចប់នៃប្រយោគ (EOS)។	ទទួលបានភាពត្រឹមត្រូវ ៧៣% ក្នុងការបង្កើតសំណាកទិន្នន័យដោយប្រើ MHA (យោងតាមការសិក្សារបស់ Zhang et al.)។
Parallel HMM for POS Tagging ដំណើរការស្របគ្នានៃ HMM (Parallel HMM) សម្រាប់ការបិទស្លាកប្រភេទពាក្យ	ពន្លឿនដំណើរការបិទស្លាក និងជួយដោះស្រាយបញ្ហានៃការទាញយកក្បួនវេយ្យាករណ៍ពីភាសាផ្សេង។	ជួបការលំបាកក្នុងការសរសេរកូដប្រព័ន្ធឱ្យដើរស្របគ្នា និងទាមទារទំហំ Corpus ធំជាងមុន។	ទទួលបានភាពត្រឹមត្រូវ ៩៨.២២% សម្រាប់ Tagger ទីមួយ និង ៧៥.១២% សម្រាប់ Tagger ទីពីរ (យោងតាមការសិក្សារបស់ Kadim et al. លើភាសាអារ៉ាប់)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីទំហំផ្នែករឹង (Hardware) នោះទេ ប៉ុន្តែវាបានសង្កត់ធ្ងន់យ៉ាងខ្លាំងទៅលើតម្រូវការទិន្នន័យដែលបានរៀបចំរួច និងធនធានមនុស្ស។

Dataset: ទាមទារសំណុំទិន្នន័យអត្ថបទធំៗ (Corpora) ដែលត្រូវបានបិទស្លាកដោយដៃ (Manually annotated) សម្រាប់បង្វឹកម៉ូដែល Supervised។
Expertise: ត្រូវការអ្នកជំនាញភាសាវិទ្យាដើម្បីបង្កើតវិធានវេយ្យាករណ៍ និងអ្នកបិទស្លាកទិន្នន័យ (Annotators) ដើម្បីរៀបចំសំណុំទិន្នន័យបណ្តុះបណ្តាល។
Hardware: ទោះបីមិនបញ្ជាក់ច្បាស់ ប៉ុន្តែការព្យាយាមរួមបញ្ចូល Markov Models ជាមួយ Deep Learning (ដូចជា BiLSTM-CNN) ទាមទារឱ្យមានសមត្ថភាពគណនាខ្ពស់ (ជាទូទៅត្រូវការ GPU)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សាទាំង ១៨ ដែលបានលើកឡើង គឺធ្វើឡើងលើភាសាផ្សេងៗគ្នាដូចជា អង់គ្លេស អេស្ប៉ាញ ចិន អារ៉ាប់ បង់ក្លាដែស អ៊ូឌូ ឥណ្ឌូនេស៊ី និងមីយ៉ាន់ម៉ា ដោយមិនមានភាសាខ្មែរឡើយ។ នេះជាបញ្ហាចម្បងសម្រាប់កម្ពុជា ពីព្រោះវិធីសាស្ត្រភាគច្រើនពឹងផ្អែកលើសំណុំទិន្នន័យខ្នាតធំ (Supervised) ខណៈដែលភាសាខ្មែរនៅមានខ្វះខាតទិន្នន័យដែលបានបិទស្លាក (Low-resource language) នៅឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះជាយ៉ាងណាក៏ដោយ វិធីសាស្ត្រ Markov Models ទាំងនេះមានសារៈសំខាន់ខ្លាំង និងអាចយកមកកែច្នៃប្រើប្រាស់សម្រាប់ដំណើរការភាសាខ្មែរបានយ៉ាងល្អ។

វិស័យព័ត៌មានវិទ្យា និងទូរគមនាគមន៍ (Chatbots & Customer Service): អាចប្រើប្រាស់ Markov Chains ដើម្បីបង្កើតប្រព័ន្ធឆ្លើយតបអត្ថបទស្វ័យប្រវត្តិ (NLG) ដែលជួយសម្រួលដល់ការឆ្លើយសំណួរអតិថិជនតាមក្រុមហ៊ុនទូរស័ព្ទ ឬធនាគារនានានៅកម្ពុជា។
ការស្រាវជ្រាវ និងការរៀបចំឯកសារច្បាប់រដ្ឋាភិបាល (Legal Document Processing): អាចប្រើប្រាស់ HMM សម្រាប់ការសម្គាល់ឈ្មោះអង្គភាព (NER) ដើម្បីទាញយកឈ្មោះបុគ្គល ទីតាំង និងស្ថាប័នរដ្ឋ ចេញពីឯកសារច្បាប់ ឬព័ត៌មានជាតិដោយស្វ័យប្រវត្តិ។
ការអភិវឌ្ឍប្រព័ន្ធបកប្រែភាសា (Machine Translation): អាចអនុវត្តការបិទស្លាកប្រភេទពាក្យ (POS Tagging) ដោយប្រើការរួមបញ្ចូលគ្នារវាង HMM និងវិធានវេយ្យាករណ៍ខ្មែរ ដើម្បីពង្រឹងគុណភាពកម្មវិធីបកប្រែភាសា។

សរុបមក ការចាប់ផ្តើមអភិវឌ្ឍប្រព័ន្ធ NLP ដោយប្រើប្រាស់ HMM ជាពិសេសវិធីសាស្ត្រ Unsupervised និង Hybrid គឺជាជំហានដ៏ឆ្លាតវៃសម្រាប់ជម្នះបញ្ហាខ្វះខាតទិន្នន័យនៅក្នុងប្រទេសកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃទិន្នន័យ និងម៉ូដែលស្តិតិ: ចាប់ផ្តើមសិក្សាពីទ្រឹស្តីប្រូបាប៊ីលីតេ និងម៉ូដែល HMM តាមរយៈសៀវភៅ 'Speech and Language Processing' របស់ Jurafsky & Martin និងរៀនសរសេរកូដមូលដ្ឋានដោយប្រើបណ្ណាល័យ Python NLTK។
ប្រមូល និងរៀបចំទិន្នន័យអត្ថបទភាសាខ្មែរ: ប្រមូលអត្ថបទពីគេហទំព័រព័ត៌មានក្នុងស្រុក រួចធ្វើការសម្អាត និងបំបែកពាក្យខ្មែរ (Word Segmentation) ដោយប្រើប្រាស់ឧបករណ៍ Open-source ដូចជា Khmer NLTK ឬ Seamkhao។
អភិវឌ្ឍប្រព័ន្ធបិទស្លាកប្រភេទពាក្យកម្រិតមូលដ្ឋាន: សាកល្បងបង្កើតប្រព័ន្ធ POS Tagging សម្រាប់ភាសាខ្មែរដោយប្រើប្រាស់ hmmlearn នៅក្នុង Python ដោយចាប់ផ្តើមបង្វឹកពីទិន្នន័យទំហំតូចដែលបានបិទស្លាកដោយដៃ។
បង្កើតប្រព័ន្ធសម្គាល់ឈ្មោះអង្គភាពបែបចម្រុះ (Hybrid NER): រៀបចំប្រព័ន្ធ NER ដើម្បីទាញយកឈ្មោះមនុស្ស និងទីតាំងនៅកម្ពុជា ដោយផ្សំការប្រើប្រាស់ Regular Expressions (Regex) ជាមួយនឹង Hidden Markov Models ដូចការសិក្សាលើភាសាបង់ក្លាដែសដែរ។
ស្រាវជ្រាវលើវិធីសាស្ត្រ Unsupervised Learning: ដោយសារកម្ពុជាខ្វះខាតទិន្នន័យ និស្សិតគួរតែបន្តស្រាវជ្រាវសាកល្បងនូវវិធីសាស្ត្រ Unsupervised HMM ដើម្បីឱ្យម៉ាស៊ីនរៀនសម្គាល់ទម្រង់ភាសាខ្មែរដោយខ្លួនឯង ដោយមិនចាំបាច់ចំណាយកម្លាំងមនុស្សច្រើនក្នុងការ Labeled ទិន្នន័យ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Hidden Markov Model	ម៉ូដែលគណិតវិទ្យាដែលប្រើសម្រាប់ទស្សន៍ទាយស្ថានភាពលាក់កំបាំងដោយផ្អែកលើព្រឹត្តិការណ៍ដែលអាចមើលឃើញ ដោយសន្មតថាស្ថានភាពបន្ទាប់អាស្រ័យតែលើស្ថានភាពបច្ចុប្បន្នប៉ុណ្ណោះ។ វាត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយក្នុងការសម្គាល់សំឡេង និងភាសា។	ដូចជាការព្យាយាមទាយថាតើមិត្តភក្តិរបស់អ្នកកំពុងឈឺឬអត់ (ស្ថានភាពលាក់កំបាំង) ដោយគ្រាន់តែសង្កេតមើលថាគាត់ក្អកឬអត់ (រោគសញ្ញាដែលមើលឃើញ)។
Markov Chains	ដំណើរការស្តិតិដែលព្រឹត្តិការណ៍បន្ទាប់នីមួយៗត្រូវបានកំណត់ដោយព្រឹត្តិការណ៍មុនវាភ្លាមៗប៉ុណ្ណោះ ដោយមិនខ្វល់ពីប្រវត្តិព្រឹត្តិការណ៍ទាំងអស់ពីអតីតកាលនោះទេ។ នៅក្នុង NLP វាត្រូវបានប្រើដើម្បីទាយពាក្យបន្ទាប់ក្នុងប្រយោគ។	ដូចជាការលេងហ្គេមប៊្លុក (Board Game) ដែលទីតាំងបន្ទាប់របស់អ្នកអាស្រ័យតែលើទីតាំងបច្ចុប្បន្ន និងគ្រាប់ឡុកឡាក់ដែលអ្នកទើបបោះបានប៉ុណ្ណោះ ដោយមិនខ្វល់ថាពីមុនអ្នកដើរមកពីណាឡើយ។
Stochastic processes	ដំណើរការគណិតវិទ្យាដែលមានលក្ខណៈចៃដន្យ ដែលលទ្ធផលរបស់វាមិនអាចទាយទុកជាមុនបានច្បាស់លាស់ ១០០% ទេ ប៉ុន្តែគេអាចប៉ាន់ស្មានលទ្ធផលនោះបានតាមរយៈការគណនាប្រូបាប៊ីលីតេ (ឱកាស)។	ដូចជាការទស្សន៍ទាយអាកាសធាតុប្រចាំថ្ងៃ ដែលទោះបីយើងមានទិន្នន័យពីថ្ងៃមុនៗច្រើនយ៉ាងណាក៏ដោយ ក៏អាកាសធាតុនៅតែមានឱកាសប្រែប្រួលជានិច្ច មិនអាចប្រាកដ ១០០% ឡើយ។
Named Entity Recognition	បច្ចេកទេសក្នុងដំណើរការភាសាធម្មជាតិ (NLP) ដែលកុំព្យូទ័រធ្វើការស្វែងរក និងចាត់ថ្នាក់ពាក្យក្នុងអត្ថបទទៅជាប្រភេទផ្សេងៗដោយស្វ័យប្រវត្តិ ដូចជា ឈ្មោះមនុស្ស ទីកន្លែង អង្គការ ឬកាលបរិច្ឆេទ។	ដូចជាសិស្សម្នាក់អានសៀវភៅរឿង រួចយកហ្វឺតពណ៌មកគូសចំណាំតែលើពាក្យណាដែលជាឈ្មោះតួអង្គ និងឈ្មោះទីក្រុង។
Parts of Speech Tagging	ដំណើរការនៃការបិទស្លាកប្រភេទពាក្យ (ដូចជា នាម កិរិយាសព្ទ គុណនាម) ទៅលើពាក្យនីមួយៗក្នុងប្រយោគ ដើម្បីឱ្យម៉ាស៊ីនអាចយល់ពីវេយ្យាករណ៍ និងរចនាសម្ព័ន្ធអត្ថន័យរបស់ប្រយោគនោះ។	ដូចជាការបំពាក់ផ្លាកឈ្មោះតួនាទី (ឧទាហរណ៍៖ ប្រធាន អនុប្រធាន សមាជិក) ដល់សិស្សម្នាក់ៗនៅក្នុងក្រុម ដើម្បីដឹងថាអ្នកណាមានភារកិច្ចធ្វើអ្វីខ្លះ។
Natural Language Generation	ប្រព័ន្ធដែលកុំព្យូទ័របំប្លែងទិន្នន័យរចនាសម្ព័ន្ធ ឬលទ្ធផលនៃការគណនា ទៅជាអត្ថបទភាសាធម្មជាតិដែលអាចអានយល់បានដោយមនុស្ស (ឧទាហរណ៍៖ ការបង្កើតរបាយការណ៍អាកាសធាតុស្វ័យប្រវត្តិ)។	ដូចជាអ្នករាយការណ៍ព័ត៌មានដែលយកតារាងពិន្ទុបាល់ទាត់ (ទិន្នន័យស្ងួត) មកសរសេរចងក្រងជារឿងរ៉ាវអត្ថបទព័ត៌មានកីឡាដ៏គួរឱ្យចាប់អារម្មណ៍។
Viterbi algorithm	ក្បួនដោះស្រាយ (Algorithm) ដែលត្រូវបានប្រើប្រាស់ជាមួយ Hidden Markov Models ដើម្បីស្វែងរកលំដាប់លំដោយនៃស្ថានភាពលាក់កំបាំង ដែលមានឱកាសកើតឡើងខ្ពស់បំផុត ផ្អែកលើលំដាប់នៃទិន្នន័យដែលយើងមើលឃើញ។	ដូចជាការប្រើប្រាស់ Google Maps ដើម្បីស្វែងរកផ្លូវដែលលឿនបំផុតពីផ្ទះទៅសាលារៀន ដោយវាធ្វើការប្រៀបធៀបគ្រប់ជម្រើសផ្លូវទាំងអស់ដើម្បីរើសយកផ្លូវដែលចំណាយពេលតិចបំផុត។
N-grams	វិធីសាស្ត្រកាត់អត្ថបទជាបំណែកៗដែលមានចំនួន N ពាក្យជាប់គ្នា (ឧទាហរណ៍៖ unigram=១ពាក្យ, bigram=២ពាក្យជាប់គ្នា) ដើម្បីវិភាគទម្រង់ និងប្រូបាប៊ីលីតេនៃការប្រើប្រាស់ពាក្យនៅក្នុងភាសា។	ដូចជាការរៀនចងចាំទំនុកច្រៀង ដោយអ្នកកាត់ចម្រៀងជាឃ្លាខ្លីៗមាន ២ ឬ ៣ ពាក្យជាប់គ្នា ដើម្បីងាយស្រួលទាយថាតើពាក្យបន្ទាប់ក្នុងបទចម្រៀងគួរជាអ្វី។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖