Original Title: Parts-of-Speech Tagging of Hausa-Based Texts Using Hidden Markov Model
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបិទស្លាកផ្នែកនៃសន្ទរកថា (POS) សម្រាប់អត្ថបទភាសាហូសា (Hausa) ដោយប្រើប្រាស់ម៉ូដែល Hidden Markov

ចំណងជើងដើម៖ Parts-of-Speech Tagging of Hausa-Based Texts Using Hidden Markov Model

អ្នកនិពន្ធ៖ Aminu Tukur (Bayero University, Kano), Kabir Umar (Bayero University, Kano), Anas Sa’idu Muhammad (Bayero University, Kano)

ឆ្នាំបោះពុម្ព៖ 2020 Dutse Journal of Pure and Applied Sciences (DUJOPAS)

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាកង្វះខាតធនធានផ្នែកដំណើរការភាសាធម្មជាតិ (NLP) សម្រាប់ភាសាហូសា (Hausa) ជាពិសេសគឺការបិទស្លាកផ្នែកនៃសន្ទរកថា (POS Tagging) ដែលនៅមានកម្រិត។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រមូលសំណុំទិន្នន័យអត្ថបទ និងបង្ហាត់ម៉ូដែលស្ថិតិដើម្បីធ្វើការបិទស្លាកនិងចំណាត់ថ្នាក់ប្រភេទពាក្យដោយស្វ័យប្រវត្តិ។

ការប្រមូលសំណុំទិន្នន័យអត្ថបទ (Text Corpus Collection) ចំនួនជាង ៣០០០ពាក្យ ពីប្រភពវិទ្យុ Freedomradio និង AfriHausa
ការបិទស្លាកដោយដៃ (Manual Annotation) ជាមួយផ្នែកនៃសន្ទរកថាចំនួន ៨ ប្រភេទ បូករួមទាំងសញ្ញាសម្គាល់កាល (Tense Maker) និងចំនួន (Number)
ការបង្ហាត់ម៉ូដែល Hidden Markov (Hidden Markov Model Training) ដោយប្រើប្រាស់បច្ចេកទេសចែករំលែកទិន្នន័យ ២៥/៧៥ សម្រាប់ការធ្វើតេស្តនិងការហ្វឹកហាត់
ការផ្ទៀងផ្ទាត់ដោយអ្នកជំនាញ (Expert Verification) លើសំណាកទិន្នន័យចំនួន ១៨៧ពាក្យ ដើម្បីវាយតម្លៃភាពត្រឹមត្រូវ

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលប្រព័ន្ធទទួលបានភាពត្រឹមត្រូវជាមធ្យម ៧៩,១៤% ក្នុងការបិទស្លាក POS (ឬ ៧៦,៧៩% ជាក់ស្តែងលើការផ្ទៀងផ្ទាត់សំណាក ១៨៧ពាក្យ ដោយអ្នកជំនាញ)។
ការបិទស្លាកសម្រាប់គុណនាម (Adjectives) សម្រេចបានភាពត្រឹមត្រូវខ្ពស់បំផុតរហូតដល់ ១០០% ស្របតាមរចនាសម្ព័ន្ធវេយ្យាករណ៍ហូសា។
ការបិទស្លាកសម្រាប់ឈ្នាប់ (Conjunctions) ទទួលបានភាពត្រឹមត្រូវទាបជាងគេត្រឹមតែ ៥០% ដែលបង្ហាញពីតម្រូវការក្នុងការបង្កើនទំហំទិន្នន័យហ្វឹកហាត់បន្ថែមទៀតនាពេលអនាគត។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Hidden Markov Model (HMM) ម៉ូដែល Hidden Markov (ការបិទស្លាកផ្អែកលើស្ថិតិ)	ងាយស្រួលប្រើប្រាស់សម្រាប់សំណុំទិន្នន័យតូច (Friendly for small datasets) និងអាចវិភាគបរិបទនៃពាក្យនៅក្នុងប្រយោគបានល្អដើម្បីកំណត់ប្រភេទពាក្យ។	អាចមានភាពត្រឹមត្រូវទាបលើប្រភេទពាក្យមួយចំនួន (ឧទាហរណ៍៖ ឈ្នាប់/Conjunctions) ប្រសិនបើមិនមានទិន្នន័យហ្វឹកហាត់គ្រប់គ្រាន់។	ទទួលបានភាពត្រឹមត្រូវជាមធ្យម ៧៩,១៤% និងសម្រេចបាន ៧៦,៧៥% លើការផ្ទៀងផ្ទាត់សំណាកដោយអ្នកជំនាញ (គុណនាមទទួលបាន ១០០%)។
Rule-Based POS Tagger ការបិទស្លាកផ្អែកលើវិធាន (Rule-Based)	អាចផ្តល់ភាពត្រឹមត្រូវខ្ពស់ប្រសិនបើច្បាប់និងវិធានវេយ្យាករណ៍ត្រូវបានសរសេរយ៉ាងច្បាស់លាស់និងហ្មត់ចត់ដោយអ្នកជំនាញភាសា។	ទាមទារការសរសេរវិធានដោយដៃស្មុគស្មាញ ចំណាយពេលយូរ និងពិបាកអនុវត្តសម្រាប់ភាសាដែលមានទម្រង់រូបសាស្ត្រ (Morphology) ស្មុគស្មាញច្រើន។	មិនមានលទ្ធផលជាក់លាក់ពីការធ្វើតេស្តក្នុងឯកសារនេះទេ ប៉ុន្តែត្រូវបានលើកឡើងថាជាវិធីសាស្ត្រប្រពៃណីដែលទាមទារកម្លាំងពលកម្មខ្ពស់ពីអ្នកជំនាញ។
Maximum Entropy (MaxEnt) អង់ត្រូវពីអតិបរមា (Maximum Entropy)	រួមបញ្ចូលគុណសម្បត្តិនៃវិធីសាស្ត្រផ្សេងៗ (TBL, SDT) និងអាចបង្កើតរបាយប្រូបាប៊ីលីតេស្លាកសម្រាប់ពាក្យនីមួយៗបានយ៉ាងល្អ។	មិនស័ក្តិសមសម្រាប់ការបណ្តុះបណ្តាលដែលប្រើប្រាស់សំណុំទិន្នន័យតូចនោះទេ (Not suitable for small dataset)។	ត្រូវបានពិភាក្សាក្នុងរំលឹកទ្រឹស្តី (Literature Review) ថាមិនស័ក្តិសមនឹងបរិបទភាសាដែលមានទិន្នន័យតិចតួចដូចជា Hausa ឡើយ។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់ពីការចំណាយលើផ្នែករឹង (Hardware) នោះទេ ប៉ុន្តែបានសង្កត់ធ្ងន់លើតម្រូវការទិន្នន័យអត្ថបទនិងកម្លាំងពលកម្មពីអ្នកជំនាញភាសា។

Dataset: ទាមទារការប្រមូលសំណុំទិន្នន័យអត្ថបទ (Corpus) យ៉ាងហោចណាស់ ៣០០០ពាក្យ ពីប្រភពផ្សេងៗ (ដូចជាអត្ថបទវិទ្យុ) និងវចនានុក្រម។
Expertise: ត្រូវការអ្នកជំនាញភាសាវិទ្យា (Linguistics Expert) ដើម្បីធ្វើការបិទស្លាកដោយដៃ (Manual Annotation) ជាមូលដ្ឋាន និងដើម្បីផ្ទៀងផ្ទាត់លទ្ធផល។
Hardware: កុំព្យូទ័រធម្មតាដែលមានសមត្ថភាពដំណើរការម៉ូដែលស្ថិតិ (Statistical Models) ដោយមិនទាមទារកម្លាំងម៉ាស៊ីន (GPU) ធំដុំដូចម៉ូដែល Deep Learning ឡើយ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងលើភាសាហូសា (Hausa) ដែលជាភាសាមានធនធានតិចតួច (Low-resource language) នៅទ្វីបអាហ្រ្វិក ដោយប្រើប្រាស់ទិន្នន័យពីអត្ថបទវិទ្យុផ្សាយសំឡេង។ នេះមានសារៈសំខាន់សម្រាប់កម្ពុជា ព្រោះភាសាខ្មែរក៏ប្រឈមនឹងបញ្ហាកង្វះទិន្នន័យស្រដៀងគ្នា ដែលទាមទារវិធីសាស្ត្រងាយស្រួលនិងប្រើប្រាស់ទិន្នន័យតិចដើម្បីបង្ហាត់ម៉ូដែលអក្សរសាស្ត្រ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ Hidden Markov Model នេះមានអត្ថប្រយោជន៍ និងភាពជាក់ស្តែងខ្ពស់ណាស់សម្រាប់ការចាប់ផ្តើមអភិវឌ្ឍឧបករណ៍ NLP សម្រាប់ភាសាខ្មែរនៅកម្ពុជា។

វិទ្យាស្ថានជាតិភាសាជាតិ (National Language Institute): អាចប្រើប្រាស់គំរូ HMM ដើម្បីកសាងប្រព័ន្ធបិទស្លាកប្រភេទពាក្យ (POS Tagging) ស្តង់ដារសម្រាប់ភាសាខ្មែរ ដោយចាប់ផ្តើមពីសំណុំទិន្នន័យតូចៗដែលរៀបចំដោយអ្នកជំនាញភាសា។
វិស័យសារព័ត៌មាន និងប្រព័ន្ធផ្សព្វផ្សាយ (Media & Journalism): ស្ថាប័នព័ត៌មានក្នុងស្រុកអាចប្រើប្រាស់បច្ចេកវិទ្យានេះជាជំហានដំបូងដើម្បីទាញយកព័ត៌មាន (Information Extraction) និងវិភាគអត្ថបទព័ត៌មានប្រចាំថ្ងៃដោយស្វ័យប្រវត្តិ។
ការអភិវឌ្ឍបច្ចេកវិទ្យាអប់រំ (EdTech Development): សហគ្រិនឬអ្នកស្រាវជ្រាវកម្ពុជាអាចបង្កើតកម្មវិធីត្រួតពិនិត្យវេយ្យាករណ៍ (Grammar checker) ឬកម្មវិធីបកប្រែដែលត្រូវការការស្គាល់ប្រភេទពាក្យជាមុន។

ការប្រើប្រាស់ម៉ូដែលស្ថិតិដូចជា HMM ផ្តល់នូវផ្លូវដ៏មានប្រសិទ្ធភាពមួយក្នុងការធ្វើឌីជីថលនីយកម្ម និងដំណើរការអត្ថបទភាសាខ្មែរ ទោះបីជាមានទិន្នន័យដំបូងតិចតួចក៏ដោយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

រៀបចំប្រភេទពាក្យស្តង់ដារ (Define POS Tags): កំណត់ប្រភេទពាក្យ (POS tags) ភាសាខ្មែរឱ្យបានច្បាស់លាស់ (ឧទាហរណ៍៖ នាម កិរិយាសព្ទ គុណនាម ឈ្នាប់) ដោយសហការជាមួយសាស្ត្រាចារ្យភាសាវិទ្យានៅសាកលវិទ្យាល័យភូមិន្ទភ្នំពេញ (RUPP)។
ប្រមូលនិងបិទស្លាកទិន្នន័យ (Corpus Annotation): ប្រមូលអត្ថបទភាសាខ្មែរពីគេហទំព័រព័ត៌មាន ឬឯកសារផ្លូវការប្រមាណ ៣០០០ ទៅ ៥០០០ពាក្យ រួចធ្វើការបិទស្លាកប្រភេទពាក្យដោយដៃ (Manual Annotation) ដើម្បីធ្វើជាទិន្នន័យហ្វឹកហាត់។
អភិវឌ្ឍម៉ូដែលមូលដ្ឋាន (Develop Baseline Model): សិក្សាពីការសរសេរកូដដោយប្រើប្រាស់ Python និងបណ្ណាល័យ NLTK (Natural Language Toolkit) ដើម្បីបង្កើតម៉ូដែល Hidden Markov Model សម្រាប់ដំណើរការទិន្នន័យដែលបានបិទស្លាក។
ហ្វឹកហាត់និងវាស់ស្ទង់ (Train and Evaluate): បែងចែកទិន្នន័យជាពីរផ្នែក (៧៥% សម្រាប់ហ្វឹកហាត់ និង ២៥% សម្រាប់ធ្វើតេស្ត) រួចដំណើរការម៉ូដែលដើម្បីគណនាភាពត្រឹមត្រូវ (Accuracy) ដូចដែលបានអនុវត្តក្នុងឯកសារស្រាវជ្រាវនេះ។
វិភាគកំហុសនិងកែលម្អ (Error Analysis & Refinement): ពិនិត្យមើលលទ្ធផលដែលម៉ូដែលទាយខុស (ឧទាហរណ៍៖ ពាក្យដែលមានថ្នាក់ពាក្យច្រើនអាស្រ័យលើបរិបទ) ហើយបន្ថែមទិន្នន័យហ្វឹកហាត់ថ្មីៗទៅលើចំណុចខ្សោយទាំងនោះដើម្បីបង្កើនភាពត្រឹមត្រូវ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Part-of-Speech (POS) Tagging	ដំណើរការក្នុងកុំព្យូទ័រដើម្បីកំណត់ប្រភេទពាក្យនីមួយៗក្នុងប្រយោគ (ដូចជានាម កិរិយាសព្ទ គុណនាម) ដោយផ្អែកលើអត្ថន័យ និងបរិបទរបស់វានៅក្នុងអត្ថបទ ដើម្បីឲ្យម៉ាស៊ីនអាចយល់ពីវេយ្យាករណ៍។	ដូចជាការបិទស្លាកឈ្មោះតួនាទីឲ្យកីឡាករម្នាក់ៗក្នុងក្រុមបាល់ទាត់ (អ្នកចាំទី ខ្សែប្រយុទ្ធ) ដើម្បីរៀបចំយុទ្ធសាស្ត្រលេងឲ្យត្រូវ។
Hidden Markov Model	ម៉ូដែលស្ថិតិមួយដែលត្រូវបានប្រើដើម្បីទស្សន៍ទាយស្ថានភាពដែលយើងមើលមិនឃើញ (ឧទាហរណ៍៖ ប្រភេទពាក្យ) ដោយផ្អែកលើទិន្នន័យដែលយើងអាចសង្កេតឃើញជាបន្តបន្ទាប់ (ឧទាហរណ៍៖ ស៊េរីនៃពាក្យក្នុងប្រយោគ) តាមរយៈការគណនាប្រូបាប៊ីលីតេ។	ដូចជាការទស្សន៍ទាយថាអាកាសធាតុថ្ងៃស្អែកភ្លៀងឬអត់ ដោយគ្រាន់តែសង្កេតមើលថាតើមនុស្សពាក់អាវភ្លៀងដើរតាមផ្លូវឬអត់ ដោយមិនបាច់មើលមេឃដោយផ្ទាល់។
Corpus	បណ្តុំអត្ថបទ ឬទិន្នន័យភាសាដ៏ធំមួយដែលត្រូវបានប្រមូលផ្តុំនិងរៀបចំយ៉ាងមានប្រព័ន្ធ ដើម្បីប្រើប្រាស់សម្រាប់ការស្រាវជ្រាវភាសាវិទ្យា ឬបណ្តុះបណ្តាលម៉ូដែលបញ្ញាសិប្បនិម្មិត។	ដូចជាបណ្ណាល័យឌីជីថលដ៏ធំមួយដែលផ្ទុកសៀវភៅ និងឯកសាររាប់ពាន់ក្បាលសម្រាប់ឲ្យកុំព្យូទ័រអាននិងរៀនសូត្រពីរបៀបដែលមនុស្សប្រើប្រាស់ភាសា។
Stemming	ដំណើរការកាត់ចោលនូវផ្នត់ដើម ផ្នត់កណ្តាល ឬផ្នត់ចុងនៃពាក្យមួយ ដើម្បីស្វែងរកឫសគល់ដើមរបស់ពាក្យនោះ (ឧទាហរណ៍ កាត់ពាក្យ "connecting" ឬ "connected" ទៅជាទម្រង់ដើម "connect")។	ដូចជាការបកសំបកនិងកាត់មែកឈើចេញ ដើម្បីយកតែដើមទំហំស្នូលរបស់វាសម្រាប់យកទៅប្រើប្រាស់បន្ត។
Lemmatization	ដំណើរការស្រដៀងនឹង Stemming ដែរ ប៉ុន្តែវាមានភាពឆ្លាតវៃជាងដោយវាបំប្លែងពាក្យទៅជាទម្រង់ដើមពិតប្រាកដរបស់វាក្នុងវចនានុក្រម ដោយផ្អែកលើវិធានវេយ្យាករណ៍ (ឧទាហរណ៍ បំប្លែង "better" ទៅជា "good")។	ដូចជាការមើលរូបថតមនុស្សចាស់ ហើយអាចស្រមៃដឹងច្បាស់ថាមនុស្សនោះមានមុខមាត់យ៉ាងណានៅពេលគេនៅក្មេង។
Morphology	ការសិក្សាអំពីរចនាសម្ព័ន្ធ និងការកកើតនៃពាក្យនៅក្នុងភាសាមួយ ដែលរួមមានការបំបែក ឬផ្សំពាក្យដោយប្រើផ្នត់ផ្សេងៗដើម្បីបង្កើតអត្ថន័យថ្មី។	ដូចជាការសិក្សាពីរបៀបយករូបតុក្កតាឡេហ្គោ (Lego) តូចៗមកតម្រៀបចូលគ្នាដើម្បីបង្កើតជារូបរាងយានយន្តឬផ្ទះថ្មីមួយ។
Bigram	ការចាប់គូពាក្យពីរដែលនៅជាប់គ្នាជាបន្តបន្ទាប់នៅក្នុងអត្ថបទមួយ ដើម្បីសិក្សាពីទំនាក់ទំនងនិងប្រូបាប៊ីលីតេដែលពាក្យទាំងពីរនេះលេចឡើងជាមួយគ្នា ដែលជាជំនួយក្នុងការទស្សន៍ទាយប្រភេទពាក្យបន្ទាប់។	ដូចជាការតាមដានមិត្តភក្តិពីរនាក់ដែលតែងតែដើរលេងជាមួយគ្នាជានិច្ច ធ្វើឲ្យយើងអាចទាយដឹងថាបើឃើញម្នាក់ នោះប្រាកដជាឃើញម្នាក់ទៀតដើរតាមក្រោយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖