Original Title: Modeling Lexical Knowledge for Natural Language Processing
Source: www.iict.bas.bg
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបង្កើតគំរូចំណេះដឹងផ្នែកវាក្យសព្ទសម្រាប់ដំណើរការភាសាធម្មជាតិ

ចំណងជើងដើម៖ Modeling Lexical Knowledge for Natural Language Processing

អ្នកនិពន្ធ៖ Alexander Nikolaev Popov, Kiril Simov

ឆ្នាំបោះពុម្ព៖ 2018 (Doctoral Thesis, Bulgarian Academy of Sciences)

វិស័យសិក្សា៖ Informatics and Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ និក្ខេបបទនេះដោះស្រាយបញ្ហានៃការបង្កើតគំរូចំណេះដឹងវាក្យសព្ទ (ដូចជាការបែងចែកអត្ថន័យពាក្យ និងការកំណត់ប្រភេទពាក្យ) ដោយសារតែភាពស្មុគស្មាញនៃពាក្យសព្ទ និងកង្វះទិន្នន័យបណ្តុះបណ្តាល ដើម្បីកែលម្អភាពត្រឹមត្រូវនៃដំណើរការភាសាធម្មជាតិ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានអភិវឌ្ឍស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) និងពង្រឹងក្រាហ្វចំណេះដឹង (WordNet) ដើម្បីបង្កើតជាទម្រង់តំណាងពាក្យ (Embeddings) សម្រាប់វាយតម្លៃកិច្ចការ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Knowledge-Based WSD with Original WordNet
ការបែងចែកអត្ថន័យពាក្យផ្អែកលើចំណេះដឹង ដោយប្រើប្រាស់ WordNet ដើម
មិនទាមទារទិន្នន័យហ្វឹកហាត់ (training data) ច្រើនដែលត្រូវចំណាយពេលកត់ចំណាំអត្ថន័យដោយមនុស្សផ្ទាល់នោះទេ ដោយវាពឹងផ្អែកទាំងស្រុងលើវចនានុក្រមនិងបណ្តាញចំណេះដឹង។ មានភាពត្រឹមត្រូវទាប ដោយសារតែវាខ្វះខាតបរិបទវាក្យសម្ព័ន្ធ និងពាក្យសព្ទដែលមានទំនាក់ទំនងក្នុងជីវិតជាក់ស្តែង។ ទទួលបានភាពត្រឹមត្រូវចន្លោះពី 51% ទៅ 52% ប៉ុណ្ណោះនៅលើទិន្នន័យវាយតម្លៃ SemCor និង BulTreeBank។
Knowledge-Based WSD with Enriched Knowledge Graph
ការបែងចែកអត្ថន័យពាក្យ ដោយប្រើក្រាហ្វចំណេះដឹងដែលបានពង្រឹង (Enriched Knowledge Graph)
មានដង់ស៊ីតេទំនាក់ទំនងខ្ពស់ដោយចាប់យកបរិបទវាក្យសម្ព័ន្ធ និងទំនាក់ទំនងក្នុងប្រយោគបានល្អ ដែលជួយឱ្យប្រព័ន្ធដោះស្រាយភាពស្មុគស្មាញនៃអត្ថន័យបានកាន់តែប្រសើរ។ ការទាញយកទំនាក់ទំនងថ្មីៗដោយស្វ័យប្រវត្តិអាចបង្កើតជាកំហុស (noise) ប្រសិនបើមិនមានតម្រងពិនិត្យមើលភាពត្រឹមត្រូវគ្រប់គ្រាន់។ បង្កើនភាពត្រឹមត្រូវបន្ថែមរហូតដល់ប្រមាណ 10% លើទិន្នន័យភាសាប៊ុលហ្គារី និងប្រមាណ 6% លើទិន្នន័យភាសាអង់គ្លេស បើធៀបនឹងម៉ូដែលគោល។
Supervised WSD using Bi-LSTM (Architecture A)
ម៉ូដែលចំណាត់ថ្នាក់អត្ថន័យពាក្យដោយប្រើប្រាស់បណ្តាញសរសៃប្រសាទ Bi-LSTM (Architecture A)
សម្រេចបានភាពត្រឹមត្រូវខ្ពស់ ដោយរៀនដោយផ្ទាល់ពីបរិបទក្នុងប្រយោគ និងមិនទាមទារការកំណត់លក្ខណៈលម្អិត (feature engineering) ស្មុគស្មាញ។ ត្រូវការទិន្នន័យដែលបានកត់ចំណាំអត្ថន័យធំមហិមា និងមានភាពលំបាកក្នុងការទាយអត្ថន័យពាក្យណាដែលវាមិនធ្លាប់ជួបក្នុងពេលហ្វឹកហាត់។ ទទួលបានភាពត្រឹមត្រូវរហូតដល់ 70.4% លើសំណុំទិន្នន័យ Senseval-2 ដែលអាចប្រកួតប្រជែងជាមួយប្រព័ន្ធល្អៗបច្ចុប្បន្ន។
Multi-task Learning (WSD + POS/Context Embedding)
ការរៀនពហុកិច្ចការ (ការបែងចែកអត្ថន័យពាក្យ គួបផ្សំនឹង ការកំណត់ប្រភេទពាក្យ ឬទម្រង់បរិបទ)
ជួយឱ្យម៉ូដែលរៀនទាញយកចំណេះដឹងអរូបីរួមគ្នា ដែលធ្វើឱ្យប្រសើរឡើងនូវភាពត្រឹមត្រូវសម្រាប់កិច្ចការទាំងសងខាងព្រមៗគ្នា។ មានស្ថាបត្យកម្មស្មុគស្មាញក្នុងការរចនា និងទាមទារការសម្រួលអនុគមន៍វាយតម្លៃ (objective function) យ៉ាងប្រុងប្រយ័ត្ន។ បង្កើនភាពត្រឹមត្រូវនៃការបែងចែកអត្ថន័យពាក្យ (WSD) ប្រមាណ 2% បន្ថែម លើម៉ូដែលដែលហ្វឹកហាត់តែកិច្ចការតែមួយ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការបណ្តុះបណ្តាលគំរូភាសាប្រភេទបណ្តាញសរសៃប្រសាទជ្រៅ (Deep Learning) ទាំងនេះទាមទារធនធានកុំព្យូទ័រខ្លាំង និងទិន្នន័យភាសាក្នុងទំហំមហិមា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យភាសាអង់គ្លេសនិងប៊ុលហ្គារី ដែលមានធនធានរៀបចំរួចជាស្រេចដូចជា WordNet និង SemCor។ សម្រាប់ប្រទេសកម្ពុជា ដែលជាប្រទេសមានធនធានភាសាឌីជីថលតិចតួច (Low-resource language) ការអនុវត្តវិធីសាស្ត្រនេះមានការលំបាកខ្លាំង ដោយសារយើងមិនទាន់មានវចនានុក្រមទំនាក់ទំនងអត្ថន័យដូចជា WordNet ដែលមានទំហំធំ និងមានគុណភាពពេញលេញនៅឡើយទេ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាខ្វះខាតទិន្នន័យជាក់ស្តែង វិធីសាស្ត្រខាងស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតនៅក្នុងឯកសារនេះ ផ្តល់ជាគំរូដ៏មានតម្លៃសម្រាប់ការអភិវឌ្ឍបច្ចេកវិទ្យាភាសាខ្មែរនាពេលអនាគត។

ការចាប់ផ្តើមវិនិយោគលើការបង្កើតសំណុំទិន្នន័យស្តង់ដារ និង Khmer WordNet គឺជាជំហានចាំបាច់ដំបូងដើម្បីយកវិធីសាស្ត្រ Multi-task Learning និងបណ្តាញ RNN ទាំងនេះមកប្រើប្រាស់ឱ្យមានប្រសិទ្ធភាពក្នុងបរិបទកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ NLP និង ការបង្កើតទម្រង់តំណាងពាក្យ: និស្សិតគួរសិក្សាស្វែងយល់ពីរបៀបប្រើប្រាស់កូដដើម្បីបង្កើត Word Embeddings សម្រាប់ភាសាខ្មែរ ដោយប្រើឧបករណ៍ដូចជា Word2Vec ទៅលើអត្ថបទ Wikipedia ភាសាខ្មែរ ដើម្បីយល់ពីរបៀបដែលកុំព្យូទ័រតំណាងអត្ថន័យពាក្យជាតួលេខវ៉ិចទ័រ។
  2. ការអភិវឌ្ឍម៉ូដែលបណ្តាញសរសៃប្រសាទ: ចាប់ផ្តើមអនុវត្តការសរសេរកូដកសាងម៉ូដែល Bi-LSTM តាមរយៈបណ្ណាល័យ PyTorchTensorFlow សម្រាប់កិច្ចការមូលដ្ឋានជាមុនសិន ដូចជាការកាត់ពាក្យ (Word Segmentation) ឬ ការកំណត់ប្រភេទពាក្យ (POS Tagging)។
  3. ការផ្តួចផ្តើមកសាងទិន្នន័យវាក្យសព្ទ (Corpus Building): និស្សិត ឬក្រុមស្រាវជ្រាវគួរផ្តួចផ្តើមគម្រោងតូចមួយក្នុងការកត់ចំណាំ (Annotate) អត្ថន័យពាក្យលើអត្ថបទខ្មែរខ្លីៗ ដោយបែងចែករវាងនាម កិរិយា ឬគុណនាម និងបង្កើតបណ្តាញសទិសន័យតូចមួយស្រដៀងនឹងស្តង់ដារ WordNet
  4. អនុវត្តស្ថាបត្យកម្មរៀនពហុកិច្ចការ (Multi-task Learning): នៅពេលមានសមត្ថភាពសរសេរកូដម៉ូដែល និងទិន្នន័យខ្លះៗហើយ គួរសាកល្បងហ្វឹកហាត់ម៉ូដែលតែមួយឱ្យដោះស្រាយកិច្ចការពីរព្រមគ្នា ឧទាហរណ៍ធ្វើ POS Tagging ផង និងបញ្ជាក់អត្ថន័យពាក្យរួមគ្នាផង ដើម្បីវាយតម្លៃប្រសិទ្ធភាពដែលទទួលបាន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Word Sense Disambiguation ជាដំណើរការបង្រៀនកុំព្យូទ័រឱ្យចេះកំណត់ថាតើពាក្យមួយដែលមានអត្ថន័យច្រើន គួរតែមានន័យបែបណានៅក្នុងបរិបទនៃប្រយោគជាក់លាក់ណាមួយ ដោយផ្អែកលើពាក្យជុំវិញវា។ ដូចជាការស្តាប់មិត្តភក្តិនិយាយពាក្យថា «លុយ» ហើយយើងទាយដឹងថាគេចង់មានន័យថា «ប្រាក់» ឬ «លិចលង់» ដោយផ្អែកលើរឿងដែលគេកំពុងនិយាយ។
Word Embeddings ជាការបំប្លែងពាក្យសព្ទពីអក្សរទៅជាទម្រង់វ៉ិចទ័រ ឬតួលេខគណិតវិទ្យា ដើម្បីឱ្យកុំព្យូទ័រអាចគណនា និងយល់ពីទំនាក់ទំនងអត្ថន័យរវាងពាក្យទាំងនោះ។ ដូចជាការផ្តល់លេខកូដទីតាំងលើផែនទីឱ្យពាក្យនីមួយៗ ដែលពាក្យមានន័យស្រដៀងគ្នា (ឧទាហរណ៍៖ ស្តេច និង ព្រះរាជិនី) នឹងមានទីតាំងនៅក្បែរគ្នា។
Recurrent Neural Network ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលត្រូវបានរចនាឡើងសម្រាប់ដំណើរការទិន្នន័យជាលំដាប់លំដោយ ដូចជាអត្ថបទ ឬសំឡេង ដោយវាមានសមត្ថភាពចងចាំទិន្នន័យចាស់ៗដែលវាបានអានរួច។ ដូចជាមនុស្សអានសៀវភៅ ដែលយើងអាចយល់ន័យប្រយោគចុងក្រោយ ដោយសារយើងចងចាំសាច់រឿងពីទំព័រមុនៗបន្តបន្ទាប់គ្នា។
Knowledge Graph ជាបណ្តាញទិន្នន័យដែលរក្សាទុកចំណេះដឹងតាមរយៈការតភ្ជាប់រវាងគំនិត ឬវត្ថុផ្សេងៗ ដើម្បីឱ្យប្រព័ន្ធកុំព្យូទ័រអាចទាញយកហេតុផល និងយល់ពីទំនាក់ទំនងនៃពាក្យសព្ទ។ ដូចជាផែនទីបណ្តាញទំនាក់ទំនងសង្គម ដែលបង្ហាញយ៉ាងច្បាស់ថាអ្នកណាស្គាល់អ្នកណា ហើយមានជាប់សាច់ញាតិជាអ្វីនឹងគ្នា។
Multi-task Learning ជាវិធីសាស្ត្រក្នុងការហ្វឹកហាត់ម៉ូដែលបញ្ញាសិប្បនិម្មិតតែមួយ ឱ្យចេះដោះស្រាយកិច្ចការពីរ ឬច្រើនក្នុងពេលតែមួយ ដើម្បីឱ្យវារៀនទាញយកចំណេះដឹងរួមគ្នានិងជួយគាំទ្រភាពត្រឹមត្រូវរវាងគ្នា។ ដូចជាការរៀនលេងហ្គីតាផង និងច្រៀងផងក្នុងពេលតែមួយ ដែលជួយឱ្យអ្នកកាន់តែពូកែខាងចាប់ចង្វាក់ភ្លេងជាងការរៀនតែមួយមុខ។
Bi-LSTM ជាទម្រង់ប្រសើរឡើងនៃ RNN ដែលដំណើរការទិន្នន័យជាពីរទិសដៅ (ពីមុខទៅក្រោយ និងពីក្រោយមកមុខ) ដើម្បីប្រមូលព័ត៌មានបរិបទឱ្យបានពេញលេញទាំងសងខាងនៃពាក្យគោលដៅមួយ។ ដូចជាការអានប្រយោគមួយដែលរលុបពាក្យកណ្តាល ដោយអ្នកត្រូវអានពាក្យខាងមុខនិងខាងក្រោយ ដើម្បីទាយដឹងថាពាក្យដែលបាត់នោះជាអ្វី។
Part-of-Speech Tagging ជាដំណើរការចាត់ថ្នាក់ពាក្យនីមួយៗនៅក្នុងប្រយោគ ទៅតាមតួនាទីវេយ្យាករណ៍របស់វាដោយស្វ័យប្រវត្តិ (ដូចជានាម កិរិយាសព្ទ ឬគុណនាម) ដើម្បីងាយស្រួលដល់ការវិភាគរចនាសម្ព័ន្ធកម្រិតខ្ពស់។ ដូចជាការបិទស្លាកឈ្មោះបញ្ជាក់តួនាទីលើសិស្សក្នុងថ្នាក់ ដើម្បីងាយស្រួលដឹងថាអ្នកណាជាប្រធានថ្នាក់ អ្នកណាជាអនុប្រធាន។
WordNet ជាមូលដ្ឋានទិន្នន័យវចនានុក្រមឌីជីថល ដែលចងក្រងពាក្យសព្ទជាក្រុមទៅតាមអត្ថន័យ និងភ្ជាប់ពួកវាដោយទំនាក់ទំនងន័យវិទ្យា (ដូចជា ពាក្យផ្ទុយ ពាក្យសទិសន័យ ជាដើម) សម្រាប់ឱ្យកុំព្យូទ័រប្រើប្រាស់។ ដូចជាដើមឈើគ្រួសារនៃពាក្យសព្ទ ដែលបង្ហាញប្រាប់កុំព្យូទ័រថាពាក្យ «រថយន្ត» ជាកូនរបស់ពាក្យ «យានយន្ត»។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖