Original Title: Modeling Lexical Knowledge for Natural Language Processing
Source: www.iict.bas.bg
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបង្កើតគំរូចំណេះដឹងផ្នែកវាក្យសព្ទសម្រាប់ដំណើរការភាសាធម្មជាតិ

ចំណងជើងដើម៖ Modeling Lexical Knowledge for Natural Language Processing

អ្នកនិពន្ធ៖ Alexander Nikolaev Popov, Kiril Simov

ឆ្នាំបោះពុម្ព៖ 2018 (Doctoral Thesis, Bulgarian Academy of Sciences)

វិស័យសិក្សា៖ Informatics and Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ និក្ខេបបទនេះដោះស្រាយបញ្ហានៃការបង្កើតគំរូចំណេះដឹងវាក្យសព្ទ (ដូចជាការបែងចែកអត្ថន័យពាក្យ និងការកំណត់ប្រភេទពាក្យ) ដោយសារតែភាពស្មុគស្មាញនៃពាក្យសព្ទ និងកង្វះទិន្នន័យបណ្តុះបណ្តាល ដើម្បីកែលម្អភាពត្រឹមត្រូវនៃដំណើរការភាសាធម្មជាតិ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានអភិវឌ្ឍស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) និងពង្រឹងក្រាហ្វចំណេះដឹង (WordNet) ដើម្បីបង្កើតជាទម្រង់តំណាងពាក្យ (Embeddings) សម្រាប់វាយតម្លៃកិច្ចការ។

ស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Recurrent Neural Networks និង Bidirectional LSTM)
ការបង្កើតគំរូលំហវ៉ិចទ័រនៃពាក្យ និងបច្ច័យ (Word and Suffix Embeddings)
ការទាញយកទំនាក់ទំនងក្រាហ្វចំណេះដឹងពី WordNet (Knowledge Graph Enrichment)
ការរៀនពហុកិច្ចការសម្រាប់ទម្រង់ភាសា (Multi-task Learning for POS Tagging and WSD)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការបង្កើនទំនាក់ទំនងវាក្យសម្ព័ន្ធនៅក្នុង WordNet បានធ្វើឱ្យប្រសើរឡើងនូវភាពត្រឹមត្រូវនៃការបែងចែកអត្ថន័យពាក្យផ្អែកលើចំណេះដឹង (KBWSD) រហូតដល់ 10% លើទិន្នន័យភាសាប៊ុលហ្គារី។
ការរួមបញ្ចូលគ្នានៃទម្រង់ពាក្យ និងបច្ច័យនៅក្នុងប្រព័ន្ធ Bi-LSTM សម្រេចបានភាពត្រឹមត្រូវ 94.47% សម្រាប់ការកំណត់ប្រភេទពាក្យ (POS tagging) ភាសាប៊ុលហ្គារី។
ស្ថាបត្យកម្មវិធីសាស្ត្ររៀនពហុកិច្ចការ (Multi-task learning) ដែលដោះស្រាយចំណាត់ថ្នាក់អត្ថន័យពាក្យ និងបរិបទព្រមគ្នា ទទួលបានប្រសិទ្ធភាពខ្ពស់ជាងប្រព័ន្ធគោលដែលដំណើរការតែកិច្ចការតែមួយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Knowledge-Based WSD with Original WordNet ការបែងចែកអត្ថន័យពាក្យផ្អែកលើចំណេះដឹង ដោយប្រើប្រាស់ WordNet ដើម	មិនទាមទារទិន្នន័យហ្វឹកហាត់ (training data) ច្រើនដែលត្រូវចំណាយពេលកត់ចំណាំអត្ថន័យដោយមនុស្សផ្ទាល់នោះទេ ដោយវាពឹងផ្អែកទាំងស្រុងលើវចនានុក្រមនិងបណ្តាញចំណេះដឹង។	មានភាពត្រឹមត្រូវទាប ដោយសារតែវាខ្វះខាតបរិបទវាក្យសម្ព័ន្ធ និងពាក្យសព្ទដែលមានទំនាក់ទំនងក្នុងជីវិតជាក់ស្តែង។	ទទួលបានភាពត្រឹមត្រូវចន្លោះពី 51% ទៅ 52% ប៉ុណ្ណោះនៅលើទិន្នន័យវាយតម្លៃ SemCor និង BulTreeBank។
Knowledge-Based WSD with Enriched Knowledge Graph ការបែងចែកអត្ថន័យពាក្យ ដោយប្រើក្រាហ្វចំណេះដឹងដែលបានពង្រឹង (Enriched Knowledge Graph)	មានដង់ស៊ីតេទំនាក់ទំនងខ្ពស់ដោយចាប់យកបរិបទវាក្យសម្ព័ន្ធ និងទំនាក់ទំនងក្នុងប្រយោគបានល្អ ដែលជួយឱ្យប្រព័ន្ធដោះស្រាយភាពស្មុគស្មាញនៃអត្ថន័យបានកាន់តែប្រសើរ។	ការទាញយកទំនាក់ទំនងថ្មីៗដោយស្វ័យប្រវត្តិអាចបង្កើតជាកំហុស (noise) ប្រសិនបើមិនមានតម្រងពិនិត្យមើលភាពត្រឹមត្រូវគ្រប់គ្រាន់។	បង្កើនភាពត្រឹមត្រូវបន្ថែមរហូតដល់ប្រមាណ 10% លើទិន្នន័យភាសាប៊ុលហ្គារី និងប្រមាណ 6% លើទិន្នន័យភាសាអង់គ្លេស បើធៀបនឹងម៉ូដែលគោល។
Supervised WSD using Bi-LSTM (Architecture A) ម៉ូដែលចំណាត់ថ្នាក់អត្ថន័យពាក្យដោយប្រើប្រាស់បណ្តាញសរសៃប្រសាទ Bi-LSTM (Architecture A)	សម្រេចបានភាពត្រឹមត្រូវខ្ពស់ ដោយរៀនដោយផ្ទាល់ពីបរិបទក្នុងប្រយោគ និងមិនទាមទារការកំណត់លក្ខណៈលម្អិត (feature engineering) ស្មុគស្មាញ។	ត្រូវការទិន្នន័យដែលបានកត់ចំណាំអត្ថន័យធំមហិមា និងមានភាពលំបាកក្នុងការទាយអត្ថន័យពាក្យណាដែលវាមិនធ្លាប់ជួបក្នុងពេលហ្វឹកហាត់។	ទទួលបានភាពត្រឹមត្រូវរហូតដល់ 70.4% លើសំណុំទិន្នន័យ Senseval-2 ដែលអាចប្រកួតប្រជែងជាមួយប្រព័ន្ធល្អៗបច្ចុប្បន្ន។
Multi-task Learning (WSD + POS/Context Embedding) ការរៀនពហុកិច្ចការ (ការបែងចែកអត្ថន័យពាក្យ គួបផ្សំនឹង ការកំណត់ប្រភេទពាក្យ ឬទម្រង់បរិបទ)	ជួយឱ្យម៉ូដែលរៀនទាញយកចំណេះដឹងអរូបីរួមគ្នា ដែលធ្វើឱ្យប្រសើរឡើងនូវភាពត្រឹមត្រូវសម្រាប់កិច្ចការទាំងសងខាងព្រមៗគ្នា។	មានស្ថាបត្យកម្មស្មុគស្មាញក្នុងការរចនា និងទាមទារការសម្រួលអនុគមន៍វាយតម្លៃ (objective function) យ៉ាងប្រុងប្រយ័ត្ន។	បង្កើនភាពត្រឹមត្រូវនៃការបែងចែកអត្ថន័យពាក្យ (WSD) ប្រមាណ 2% បន្ថែម លើម៉ូដែលដែលហ្វឹកហាត់តែកិច្ចការតែមួយ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការបណ្តុះបណ្តាលគំរូភាសាប្រភេទបណ្តាញសរសៃប្រសាទជ្រៅ (Deep Learning) ទាំងនេះទាមទារធនធានកុំព្យូទ័រខ្លាំង និងទិន្នន័យភាសាក្នុងទំហំមហិមា។

Hardware: ទាមទារម៉ាស៊ីនដែលមានអង្គគណនាក្រាហ្វិក (GPU) កម្រិតខ្ពស់ដើម្បីបណ្តុះបណ្តាល (Train) ម៉ូដែល Bi-LSTM ដល់រាប់សែនជុំ (iterations) លើទិន្នន័យរាប់លានពាក្យ។
Software: ប្រើប្រាស់ឧបករណ៍និងបណ្ណាល័យជំនាញដូចជាឧបករណ៍ UKB សម្រាប់ធ្វើការងារលើក្រាហ្វចំណេះដឹង, Word2Vec/GloVe សម្រាប់ទម្រង់តំណាងពាក្យ និងបណ្ណាល័យ Deep Learning (ដូចជា PyTorch ឬ TensorFlow ជាដើម)។
Dataset: តម្រូវឱ្យមានអត្ថបទដែលបានកត់ចំណាំរួច (Sense-annotated corpora) ដូចជា SemCor សម្រាប់ភាសាអង់គ្លេស និង BulTreeBank សម្រាប់ភាសាប៊ុលហ្គារី រួមជាមួយនិងប្រព័ន្ធវចនានុក្រម WordNet។
Expertise: អ្នកស្រាវជ្រាវត្រូវមានចំណេះដឹងស៊ីជម្រៅខាងផ្នែកដំណើរការភាសាធម្មជាតិ (NLP) ទ្រឹស្តីភាសាវិទ្យា និងការសរសេរកូដសម្រាប់បញ្ញាសិប្បនិម្មិត។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យភាសាអង់គ្លេសនិងប៊ុលហ្គារី ដែលមានធនធានរៀបចំរួចជាស្រេចដូចជា WordNet និង SemCor។ សម្រាប់ប្រទេសកម្ពុជា ដែលជាប្រទេសមានធនធានភាសាឌីជីថលតិចតួច (Low-resource language) ការអនុវត្តវិធីសាស្ត្រនេះមានការលំបាកខ្លាំង ដោយសារយើងមិនទាន់មានវចនានុក្រមទំនាក់ទំនងអត្ថន័យដូចជា WordNet ដែលមានទំហំធំ និងមានគុណភាពពេញលេញនៅឡើយទេ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាខ្វះខាតទិន្នន័យជាក់ស្តែង វិធីសាស្ត្រខាងស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតនៅក្នុងឯកសារនេះ ផ្តល់ជាគំរូដ៏មានតម្លៃសម្រាប់ការអភិវឌ្ឍបច្ចេកវិទ្យាភាសាខ្មែរនាពេលអនាគត។

Machine Translation (ការបកប្រែភាសាដោយម៉ាស៊ីន): ស្ថាប័នបច្ចេកវិទ្យា ឬក្រសួងប្រៃសណីយ៍និងទូរគមនាគមន៍ អាចប្រើប្រាស់គំនិតនៃការបែងចែកអត្ថន័យពាក្យ (WSD) នេះ ដើម្បីកែលម្អប្រព័ន្ធបកប្រែភាសាខ្មែរ ឱ្យចេះបែងចែកអត្ថន័យពាក្យដែលសរសេរដូចគ្នា (ឧទាហរណ៍ ពាក្យ 'ចង' ដែលមានន័យថា ចងខ្សែ ឬ ដើមចង)។
Information Extraction (ការទាញយកព័ត៌មានពីអត្ថបទពិត): ក្រុមហ៊ុនសារព័ត៌មាន ឬអ្នកស្រាវជ្រាវទិន្នន័យអាចប្រើប្រាស់ម៉ូដែល Bi-LSTM រួមផ្សំជាមួយ Word Embeddings ដើម្បីទាញយកឈ្មោះស្ថាប័ន ទីតាំង ឬបុគ្គល (NER) ចេញពីអត្ថបទកាសែតខ្មែរដោយស្វ័យប្រវត្តិ។
Linguistics & Lexicography (ការចងក្រងទិន្នន័យភាសា): រាជបណ្ឌិត្យសភាកម្ពុជាអាចប្រើវិធីសាស្ត្រនេះជាមូលដ្ឋានរចនាសម្ព័ន្ធ ក្នុងការចងក្រងនិងបង្កើតបណ្តាញចំណេះដឹងភាសាខ្មែរ (Khmer WordNet) និងការធ្វើសំណុំទិន្នន័យដើមសម្រាប់ការស្រាវជ្រាវជំនាន់ក្រោយ។

ការចាប់ផ្តើមវិនិយោគលើការបង្កើតសំណុំទិន្នន័យស្តង់ដារ និង Khmer WordNet គឺជាជំហានចាំបាច់ដំបូងដើម្បីយកវិធីសាស្ត្រ Multi-task Learning និងបណ្តាញ RNN ទាំងនេះមកប្រើប្រាស់ឱ្យមានប្រសិទ្ធភាពក្នុងបរិបទកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ NLP និង ការបង្កើតទម្រង់តំណាងពាក្យ: និស្សិតគួរសិក្សាស្វែងយល់ពីរបៀបប្រើប្រាស់កូដដើម្បីបង្កើត Word Embeddings សម្រាប់ភាសាខ្មែរ ដោយប្រើឧបករណ៍ដូចជា Word2Vec ទៅលើអត្ថបទ Wikipedia ភាសាខ្មែរ ដើម្បីយល់ពីរបៀបដែលកុំព្យូទ័រតំណាងអត្ថន័យពាក្យជាតួលេខវ៉ិចទ័រ។
ការអភិវឌ្ឍម៉ូដែលបណ្តាញសរសៃប្រសាទ: ចាប់ផ្តើមអនុវត្តការសរសេរកូដកសាងម៉ូដែល Bi-LSTM តាមរយៈបណ្ណាល័យ PyTorch ឬ TensorFlow សម្រាប់កិច្ចការមូលដ្ឋានជាមុនសិន ដូចជាការកាត់ពាក្យ (Word Segmentation) ឬ ការកំណត់ប្រភេទពាក្យ (POS Tagging)។
ការផ្តួចផ្តើមកសាងទិន្នន័យវាក្យសព្ទ (Corpus Building): និស្សិត ឬក្រុមស្រាវជ្រាវគួរផ្តួចផ្តើមគម្រោងតូចមួយក្នុងការកត់ចំណាំ (Annotate) អត្ថន័យពាក្យលើអត្ថបទខ្មែរខ្លីៗ ដោយបែងចែករវាងនាម កិរិយា ឬគុណនាម និងបង្កើតបណ្តាញសទិសន័យតូចមួយស្រដៀងនឹងស្តង់ដារ WordNet។
អនុវត្តស្ថាបត្យកម្មរៀនពហុកិច្ចការ (Multi-task Learning): នៅពេលមានសមត្ថភាពសរសេរកូដម៉ូដែល និងទិន្នន័យខ្លះៗហើយ គួរសាកល្បងហ្វឹកហាត់ម៉ូដែលតែមួយឱ្យដោះស្រាយកិច្ចការពីរព្រមគ្នា ឧទាហរណ៍ធ្វើ POS Tagging ផង និងបញ្ជាក់អត្ថន័យពាក្យរួមគ្នាផង ដើម្បីវាយតម្លៃប្រសិទ្ធភាពដែលទទួលបាន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Word Sense Disambiguation	ជាដំណើរការបង្រៀនកុំព្យូទ័រឱ្យចេះកំណត់ថាតើពាក្យមួយដែលមានអត្ថន័យច្រើន គួរតែមានន័យបែបណានៅក្នុងបរិបទនៃប្រយោគជាក់លាក់ណាមួយ ដោយផ្អែកលើពាក្យជុំវិញវា។	ដូចជាការស្តាប់មិត្តភក្តិនិយាយពាក្យថា «លុយ» ហើយយើងទាយដឹងថាគេចង់មានន័យថា «ប្រាក់» ឬ «លិចលង់» ដោយផ្អែកលើរឿងដែលគេកំពុងនិយាយ។
Word Embeddings	ជាការបំប្លែងពាក្យសព្ទពីអក្សរទៅជាទម្រង់វ៉ិចទ័រ ឬតួលេខគណិតវិទ្យា ដើម្បីឱ្យកុំព្យូទ័រអាចគណនា និងយល់ពីទំនាក់ទំនងអត្ថន័យរវាងពាក្យទាំងនោះ។	ដូចជាការផ្តល់លេខកូដទីតាំងលើផែនទីឱ្យពាក្យនីមួយៗ ដែលពាក្យមានន័យស្រដៀងគ្នា (ឧទាហរណ៍៖ ស្តេច និង ព្រះរាជិនី) នឹងមានទីតាំងនៅក្បែរគ្នា។
Recurrent Neural Network	ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលត្រូវបានរចនាឡើងសម្រាប់ដំណើរការទិន្នន័យជាលំដាប់លំដោយ ដូចជាអត្ថបទ ឬសំឡេង ដោយវាមានសមត្ថភាពចងចាំទិន្នន័យចាស់ៗដែលវាបានអានរួច។	ដូចជាមនុស្សអានសៀវភៅ ដែលយើងអាចយល់ន័យប្រយោគចុងក្រោយ ដោយសារយើងចងចាំសាច់រឿងពីទំព័រមុនៗបន្តបន្ទាប់គ្នា។
Knowledge Graph	ជាបណ្តាញទិន្នន័យដែលរក្សាទុកចំណេះដឹងតាមរយៈការតភ្ជាប់រវាងគំនិត ឬវត្ថុផ្សេងៗ ដើម្បីឱ្យប្រព័ន្ធកុំព្យូទ័រអាចទាញយកហេតុផល និងយល់ពីទំនាក់ទំនងនៃពាក្យសព្ទ។	ដូចជាផែនទីបណ្តាញទំនាក់ទំនងសង្គម ដែលបង្ហាញយ៉ាងច្បាស់ថាអ្នកណាស្គាល់អ្នកណា ហើយមានជាប់សាច់ញាតិជាអ្វីនឹងគ្នា។
Multi-task Learning	ជាវិធីសាស្ត្រក្នុងការហ្វឹកហាត់ម៉ូដែលបញ្ញាសិប្បនិម្មិតតែមួយ ឱ្យចេះដោះស្រាយកិច្ចការពីរ ឬច្រើនក្នុងពេលតែមួយ ដើម្បីឱ្យវារៀនទាញយកចំណេះដឹងរួមគ្នានិងជួយគាំទ្រភាពត្រឹមត្រូវរវាងគ្នា។	ដូចជាការរៀនលេងហ្គីតាផង និងច្រៀងផងក្នុងពេលតែមួយ ដែលជួយឱ្យអ្នកកាន់តែពូកែខាងចាប់ចង្វាក់ភ្លេងជាងការរៀនតែមួយមុខ។
Bi-LSTM	ជាទម្រង់ប្រសើរឡើងនៃ RNN ដែលដំណើរការទិន្នន័យជាពីរទិសដៅ (ពីមុខទៅក្រោយ និងពីក្រោយមកមុខ) ដើម្បីប្រមូលព័ត៌មានបរិបទឱ្យបានពេញលេញទាំងសងខាងនៃពាក្យគោលដៅមួយ។	ដូចជាការអានប្រយោគមួយដែលរលុបពាក្យកណ្តាល ដោយអ្នកត្រូវអានពាក្យខាងមុខនិងខាងក្រោយ ដើម្បីទាយដឹងថាពាក្យដែលបាត់នោះជាអ្វី។
Part-of-Speech Tagging	ជាដំណើរការចាត់ថ្នាក់ពាក្យនីមួយៗនៅក្នុងប្រយោគ ទៅតាមតួនាទីវេយ្យាករណ៍របស់វាដោយស្វ័យប្រវត្តិ (ដូចជានាម កិរិយាសព្ទ ឬគុណនាម) ដើម្បីងាយស្រួលដល់ការវិភាគរចនាសម្ព័ន្ធកម្រិតខ្ពស់។	ដូចជាការបិទស្លាកឈ្មោះបញ្ជាក់តួនាទីលើសិស្សក្នុងថ្នាក់ ដើម្បីងាយស្រួលដឹងថាអ្នកណាជាប្រធានថ្នាក់ អ្នកណាជាអនុប្រធាន។
WordNet	ជាមូលដ្ឋានទិន្នន័យវចនានុក្រមឌីជីថល ដែលចងក្រងពាក្យសព្ទជាក្រុមទៅតាមអត្ថន័យ និងភ្ជាប់ពួកវាដោយទំនាក់ទំនងន័យវិទ្យា (ដូចជា ពាក្យផ្ទុយ ពាក្យសទិសន័យ ជាដើម) សម្រាប់ឱ្យកុំព្យូទ័រប្រើប្រាស់។	ដូចជាដើមឈើគ្រួសារនៃពាក្យសព្ទ ដែលបង្ហាញប្រាប់កុំព្យូទ័រថាពាក្យ «រថយន្ត» ជាកូនរបស់ពាក្យ «យានយន្ត»។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖