Original Title: The Survey: Advances in Natural Language Processing using Deep Learning
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការស្ទង់មតិ៖ វឌ្ឍនភាពក្នុងដំណើរការភាសាធម្មជាតិដោយប្រើប្រាស់ការរៀនស៊ីជម្រៅ

ចំណងជើងដើម៖ The Survey: Advances in Natural Language Processing using Deep Learning

អ្នកនិពន្ធ៖ Vamsi Krishna Vedantam, Advanced Analytics, Tech Mahindra, Copenhagen, Denmark

ឆ្នាំបោះពុម្ព៖ 2020

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះធ្វើការដោះស្រាយនិងចងក្រងនូវវឌ្ឍនភាពចុងក្រោយបង្អស់នៃបច្ចេកវិទ្យាដំណើរការភាសាធម្មជាតិ (Natural Language Processing - NLP) ដែលជំរុញដោយយន្តការរៀនស៊ីជម្រៅ (Deep Learning) ដើម្បីដោះស្រាយបញ្ហាស្មុគស្មាញដែលវិធីសាស្ត្រប្រពៃណីមិនអាចធ្វើបាន។

វិធីសាស្ត្រ (The Methodology)៖ ឯកសារនេះធ្វើការត្រួតពិនិត្យអក្សរសិល្ប៍ និងសង្ខេបអំពីស្ថាបត្យកម្មសំខាន់ៗនៃការរៀនស៊ីជម្រៅ ព្រមទាំងកម្មវិធីប្រើប្រាស់ជាក់ស្តែង និងនិន្នាការអនាគតក្នុងវិស័យ NLP ។

ការវិភាគលើស្ថាបត្យកម្មមូលដ្ឋានរួមមាន បណ្តាញសរសៃប្រសាទកាឡៃ (Convolutional Neural Network - CNN) និងបណ្តាញសរសៃប្រសាទវិលជុំ (Recurrent Neural Network - RNN/LSTM)
ការសិក្សាពីយន្តការយកចិត្តទុកដាក់ (Attention Mechanism) និងស្ថាបត្យកម្ម Transformer ដែលជាបច្ចេកវិទ្យាឈានមុខគេ
ការវាយតម្លៃលើការរៀនផ្ទេរចំណេះដឹង (Transfer Learning) និងម៉ូដែលបង្កើតអត្ថបទ (Deep Generative Models) ដូចជា VAEs និង GANs
ការស្វែងយល់អំពីបញ្ហាប្រឈមនៃភាសាដែលមានធនធានតិច (Low-resource NLP tasks) និងចំណេះដឹងទូទៅ (Commonsense knowledge)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ស្ថាបត្យកម្ម Transformer និងយន្តការ Attention បានដោះស្រាយបញ្ហាប្រឈមធំៗរបស់ RNN និង LSTM តាមរយៈការកាត់បន្ថយពេលវេលាបង្វឹកម៉ូដែល និងការចាប់យកទំនាក់ទំនងនៃពាក្យបានប្រសើរជាងមុន ដោយមានប្រសិទ្ធភាពខ្ពស់លើការបកប្រែភាសា និងសង្ខេបអត្ថបទ។
ការប្រើប្រាស់គំរូដែលបានបង្វឹករួចជាស្រេច (Pre-trained models) តាមរយៈការរៀនផ្ទេរ (Transfer Learning) ដូចជា BERT កំពុងផ្តល់លទ្ធផលកម្រិតខ្ពស់បំផុត (State-of-the-art) សម្រាប់កិច្ចការ NLP ជាច្រើន បើទោះបីជាមានបញ្ហាប្រឈមខ្លះនៅពេលអនុវត្តលើទិន្នន័យតូចក៏ដោយ។
ទិសដៅស្រាវជ្រាវនាពេលអនាគតដែលសំខាន់បំផុតរួមមាន ការអភិវឌ្ឍម៉ូដែលសម្រាប់ភាសាដែលមានធនធានតិច (Low-resource languages) និងការបញ្ជ្រាបចំណេះដឹងទូទៅរបស់មនុស្ស (Commonsense reasoning) ទៅក្នុងប្រព័ន្ធ AI ដើម្បីឱ្យវាមានអន្តរកម្មនិងការយល់ដឹងកាន់តែស៊ីជម្រៅ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Recurrent Neural Networks (RNN) បណ្តាញសរសៃប្រសាទវិលជុំ	អាចចងចាំពាក្យដែលទាក់ទងគ្នាក្នុងប្រយោគ និងរៀនពីទំនាក់ទំនងរវាងពាក្យមុនៗតាមរយៈ backpropagation។	មានបញ្ហាភ្លេចព័ត៌មាន (vanishing gradient) នៅពេលប្រយោគមានប្រវែងវែងពេក និងមានដំណើរការយឺតដោយសារគណនាតាមលំដាប់លំដោយ។	នៅតែត្រូវបានប្រើប្រាស់ទូលំទូលាយ តែជួបការលំបាកក្នុងការចងចាំប្រយោគ ឬអត្ថបទវែងៗ។
Long Short-Term Memory (LSTM) អង្គចងចាំរយៈពេលខ្លី-វែង	ដោះស្រាយបញ្ហាភ្លេចព័ត៌មានចាស់ៗរបស់ RNN និងផ្តល់លទ្ធផលល្អបំផុតក្នុងការបង្កើតគំរូភាសា និងការបកប្រែ។	ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ខ្លាំងដោយសារមិនអាចដំណើរការទិន្នន័យស្របគ្នា (Non-parallel process) ក្នុងប្រយោគតែមួយ។	ជាជម្រើសដ៏រឹងមាំមួយក្នុងការបកប្រែ (NMT) ទោះបីជានៅមានភាពខ្សោយក្នុងការអ៊ិនកូដប្រយោគវែងៗបំផុតក៏ដោយ។
Transformer & Attention Mechanism ស្ថាបត្យកម្ម Transformer និងយន្តការយកចិត្តទុកដាក់	កាត់បន្ថយពេលវេលាបង្វឹកម៉ូដែលយ៉ាងច្រើនតាមរយៈការដំណើរការទិន្នន័យស្របគ្នា (Parallelization) និងអាចចាប់យកទំនាក់ទំនងពាក្យបានយ៉ាងច្បាស់លាស់។	ទាមទារសំណុំទិន្នន័យធំមហិមា និងកម្លាំងម៉ាស៊ីនខ្លាំងសម្រាប់ការបង្វឹកម៉ូដែលពីចំណុចសូន្យ។	ទទួលបានប្រជាប្រិយភាពខ្ពស់ និងផ្តល់លទ្ធផលកម្រិតកំពូល (State-of-the-art) សម្រាប់កិច្ចការ NLP ភាគច្រើន។
Transfer Learning (Adapters) ការផ្ទេរចំណេះដឹងដោយប្រើប្រាស់ Adapters	ជៀសវាងការបង្វឹកឡើងវិញនូវទម្ងន់ទាំងអស់ (weights) របស់ម៉ូដែល ដែលជួយឱ្យទទួលបានលទ្ធផលល្អទោះប្រើទិន្នន័យតូច។	ត្រូវពឹងផ្អែកលើគុណភាពនៃម៉ូដែលដើម (Pre-trained model) ដែលមានស្រាប់។	ដោះស្រាយបញ្ហា Catastrophic forgetting និងការ Fine-tuning ដែលមានប្រសិទ្ធភាពខ្ពស់លើទិន្នន័យថ្មី។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់ថាការអភិវឌ្ឍម៉ូដែល Deep Learning សម្រាប់ NLP ទាមទារថាមពលកុំព្យូទ័រយ៉ាងខ្លាំង និងសំណុំទិន្នន័យទំហំធំ។

Hardware: ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ (Massive computational power) ដូចជា GPU/TPU សម្រាប់ដំណើរការស្ថាបត្យកម្មស្មុគស្មាញដូចជា LSTM និង Transformer ជាពិសេសការបង្វឹកលើទិន្នន័យធំៗ។
Dataset: ត្រូវការសំណុំទិន្នន័យអត្ថបទដែលមានទំហំធំ និងមានគុណភាពខ្ពស់ (ឧទាហរណ៍ SQuAD) សម្រាប់បង្វឹកម៉ូដែល Machine Reading និងការយល់ដឹងភាសា។
Software: ការប្រើប្រាស់ឧបករណ៍អភិវឌ្ឍន៍កូដបើកចំហ (Open-source NLU toolkits) ដូចជា MT-DNN ឬម៉ូដែល BERT ។
Expertise: ទាមទារអ្នកជំនាញដែលមានបទពិសោធន៍ក្នុងការយល់ដឹងពីលក្ខណៈនៃភាសា (Linguistic features) និងការកែតម្រូវប៉ារ៉ាម៉ែត្រម៉ូដែល។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ឯកសារនេះភាគច្រើនផ្តោតលើការស្រាវជ្រាវ និងទិន្នន័យអង់គ្លេសខ្នាតធំ (Massive corpora) ដែលត្រូវបានចេញផ្សាយដោយក្រុមហ៊ុនធំៗដូចជា Google, Microsoft និង Amazon។ នេះជាបញ្ហាប្រឈមធំមួយសម្រាប់ប្រទេសកម្ពុជា ដោយសារភាសាខ្មែរត្រូវបានចាត់ទុកជា 'ភាសាមានធនធានតិច' (Low-resource language) ដែលធ្វើឱ្យការអនុវត្តផ្ទាល់ជួបការលំបាកបើគ្មានការកសាងសំណុំទិន្នន័យភាសាខ្មែរឱ្យបានត្រឹមត្រូវជាមុនសិន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះជាមានបញ្ហាកង្វះទិន្នន័យក្តី បច្ចេកទេស Deep Learning និង ការផ្ទេរចំណេះដឹង (Transfer Learning) ទាំងនេះមានសារៈសំខាន់យ៉ាងខ្លាំងសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធភាសាខ្មែរឱ្យកាន់តែទំនើប។

វិស័យធនាគារ និងហិរញ្ញវត្ថុ (BFSI): ធនាគារក្នុងស្រុក (ដូចជា ABA, អេស៊ីលីដា) អាចប្រើប្រាស់ NLU (ដូចជា BERT) ដើម្បីអភិវឌ្ឍ Chatbot សេវាកម្មអតិថិជនដែលអាចយល់បរិបទ និងឆ្លើយតបសំណួរអតិថិជនជាភាសាខ្មែរបានដោយស្វ័យប្រវត្តិ។
វិស័យអប់រំ និងការស្រាវជ្រាវ (Education & Research): ក្រសួងអប់រំ ឬសាកលវិទ្យាល័យនានាអាចអភិវឌ្ឍប្រព័ន្ធបកប្រែភាសាដោយផ្អែកលើ Neural Machine Translation (NMT) ពីភាសាអង់គ្លេសមកខ្មែរ ដើម្បីជួយសម្រួលដល់សិស្សនិស្សិតក្នុងការស្រាវជ្រាវឯកសារបរទេស។
ស្ថាប័នព័ត៌មាន និងប្រព័ន្ធផ្សព្វផ្សាយ (Media & Journalism): ស្ថាប័នព័ត៌មានអាចប្រើប្រាស់យន្តការ Transformer ដើម្បីធ្វើការសង្ខេបអត្ថបទព័ត៌មានវែងៗដោយស្វ័យប្រវត្តិ (Text summarization) និងទាញយកតែចំណុចសំខាន់ៗ។

ជារួម បើទោះបីជាភាសាខ្មែរខ្វះខាតទិន្នន័យធំៗក្ដី ការប្រើប្រាស់បច្ចេកទេសផ្ទេរចំណេះដឹងពីម៉ូដែលដែលមានស្រាប់ គួបផ្សំនឹងយន្តការដោះស្រាយភាសាធនធានតិច នឹងក្លាយជាគន្លឹះឆ្ពោះទៅរកភាពជោគជ័យនៃការបង្កើត AI នៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះស្ថាបត្យកម្ម Deep Learning: ចាប់ផ្តើមរៀនពីមូលដ្ឋាននៃការបង្កើតប្រព័ន្ធភាសាដោយប្រើប្រាស់បណ្តាញ RNN និ LSTM រួចសរសេរកូដសាកល្បងដោយផ្ទាល់នៅលើ TensorFlow ឬ PyTorch លើកិច្ចការងាយៗដូចជាការកាត់ពាក្យ (Word segmentation) ។
ស្វែងយល់ និងអនុវត្តស្ថាបត្យកម្ម Transformer: អាននិងសិក្សាអំពីឯកសារស្រាវជ្រាវ 'Attention Is All You Need' រួចសាកល្បងសរសេរកូដដោយប្រើប្រាស់បណ្ណាល័យ Hugging Face Transformers ដើម្បីយល់ពីរបៀបដែល Attention Mechanism អាចគណនាទំនាក់ទំនងពាក្យនៅក្នុងប្រយោគ។
អនុវត្តការរៀនផ្ទេរចំណេះដឹង (Transfer Learning): យកម៉ូដែលភាសាធំៗពហុភាសាដែលមានស្រាប់ដូចជា mBERT ឬ XLM-RoBERTa មកធ្វើការ Fine-tune សម្រាប់ភាសាខ្មែរ លើមុខងារដូចជា ការកំណត់អត្តសញ្ញាណឈ្មោះ (NER) ឬ ការវិភាគអារម្មណ៍ (Sentiment Analysis)។
កសាងសំណុំទិន្នន័យភាសាខ្មែរ (Corpus Building): ចូលរួមការស្រាវជ្រាវជាមួយសាកលវិទ្យាល័យ ឬសហគមន៍ AI ដើម្បីប្រមូល និងសម្អាតទិន្នន័យអត្ថបទភាសាខ្មែរឱ្យមានទម្រង់ស្តង់ដារ ស្រដៀងទៅនឹងគំរូនៃ SQuAD Dataset សម្រាប់កិច្ចការឆ្លើយសំណួរ (Q&A) ។
ដោះស្រាយបញ្ហាភាសាមានធនធានតិច (Low-resource NLP): សាកល្បងប្រើប្រាស់បច្ចេកទេស Adapters លើកិច្ចការបកប្រែភាសាអង់គ្លេស-ខ្មែរ ដើម្បីជៀសវាងការបង្វឹកប៉ារ៉ាម៉ែត្ររាប់ពាន់លានរបស់ម៉ូដែលឡើងវិញ ដែលអាចសន្សំសំចៃធនធានកុំព្យូទ័របានយ៉ាងច្រើន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Attention mechanism	យន្តការនេះគណនាពិន្ទុនៃសារៈសំខាន់ (importance score) សម្រាប់ពាក្យនីមួយៗក្នុងប្រយោគ ដើម្បីឱ្យម៉ូដែលកុំព្យូទ័រដឹងថាត្រូវផ្តោតលើពាក្យណាខ្លះនៅពេលកំពុងបកប្រែ ឬសង្ខេបអត្ថបទ ជំនួសឱ្យការឱ្យតម្លៃស្មើៗគ្នាទៅលើប្រយោគទាំងមូល។	ដូចជាពេលយើងអានសៀវភៅ ហើយប្រើហ្វឺតពណ៌ (Highlighter) គូសបញ្ជាក់តែពាក្យសំខាន់ៗ ដើម្បីងាយស្រួលទាញយកអត្ថន័យរួមរបស់ប្រយោគ។
Transformer	ជាស្ថាបត្យកម្មរៀនស៊ីជម្រៅដែលពឹងផ្អែកទាំងស្រុងលើយន្តការយកចិត្តទុកដាក់ (Attention mechanism) ដោយវាអាចដំណើរការទិន្នន័យ ឬអានពាក្យទាំងអស់ក្នុងប្រយោគក្នុងពេលតែមួយ (Parallelize) ដែលធ្វើឱ្យការបង្វឹកម៉ូដែលលឿនជាងមុន និងចាប់ទំនាក់ទំនងពាក្យបានល្អ។	ដូចជាក្រុមការងារមួយដែលសមាជិកម្នាក់ៗអានសៀវភៅម្នាក់មួយទំព័រក្នុងពេលតែមួយ រួចយកមកប្រាប់គ្នា ផ្ទុយពីការឱ្យមនុស្សម្នាក់អានម្នាក់ឯងពីទំព័រទីមួយដល់ទំព័រចុងក្រោយ។
Transfer Learning	ជាបច្ចេកទេសដែលយកម៉ូដែល AI ដែលត្រូវបានបង្វឹករួចជាស្រេចលើសំណុំទិន្នន័យដ៏ធំ (Pre-trained model) មកប្រើប្រាស់ និងកែតម្រូវបន្ថែមបន្តិចបន្តួច (Fine-tuning) សម្រាប់កិច្ចការថ្មីមួយទៀត ដើម្បីកុំឱ្យខ្ជះខ្ជាយពេលបង្វឹកពីចំណុចសូន្យឡើងវិញ។	ដូចជាមនុស្សម្នាក់ដែលចេះជិះកង់ស្ទាត់ជំនាញស្រាប់ ពេលគាត់ប្តូរមកហាត់ជិះម៉ូតូ គាត់ប្រើពេលរៀនតិចជាងអ្នកដែលមិនធ្លាប់ចេះជិះកង់សោះ។
Long Short-Term Memory(LSTM)	ជាប្រភេទនៃបណ្តាញសរសៃប្រសាទវិលជុំ (RNN) ដែលមានសមត្ថភាពពិសេសក្នុងការចងចាំព័ត៌មានពីពាក្យដែលនៅឆ្ងាយគ្នាក្នុងប្រយោគវែងៗ ដោយវាអាចសម្រេចចិត្តដោយស្វ័យប្រវត្តិថាព័ត៌មានណាគួររក្សាទុក និងព័ត៌មានណាគួរលុបចោល។	ដូចជាមនុស្សម្នាក់ដែលកំពុងស្តាប់រឿងដ៏វែងមួយ ហើយគាត់ចេះកត់ចំណាំក្នុងខួរក្បាលទុកតែតួអង្គ និងព្រឹត្តិការណ៍សំខាន់ៗ ដើម្បីកុំឱ្យភ្លេចពេលរឿងនោះដល់ទីបញ្ចប់។
Deep generative models	គំរូ AI (ដូចជា VAEs និង GANs) ដែលរៀនពីលំនាំនៃទិន្នន័យដែលគ្មានស្លាកចំណាំ (Unlabelled data) រួចប្រើប្រាស់ចំណេះដឹងនោះដើម្បីបង្កើតអត្ថបទ ទិន្នន័យ ឬការឆ្លើយតបថ្មីៗដោយស្វ័យប្រវត្តិ ដែលមានលក្ខណៈស្រដៀងនឹងទិន្នន័យដើម។	ដូចជាវិចិត្រករដែលបានមើលគំនូររាប់ពាន់ផ្ទាំង រួចប្រើប្រាស់ការចងចាំនោះដើម្បីគូរផ្ទាំងគំនូរថ្មីមួយដែលមិនធ្លាប់មានពីមុនមក តែនៅរក្សាទម្រង់សិល្បៈដដែល។
Knowledge Graphs(KG)	ជាប្រព័ន្ធរចនាសម្ព័ន្ធផ្ទុកចំណេះដឹងដែលតំណាងឱ្យព័ត៌មានជាទម្រង់នៃអង្គភាព (Entities) និងទំនាក់ទំនងរវាងពួកវា (Relationships) ដែលជួយឱ្យម៉ូដែល AI យល់ពីបរិបទ និងការពិតលើលោកដូចមនុស្សដែរ។	ដូចជាការគូរផែនទីបណ្ដាញគ្រួសារ (Family Tree) ដែលមានអូសខ្សែភ្ជាប់គ្នាបង្ហាញច្បាស់ថានរណាជាឪពុក នរណាជាកូន ដើម្បីឱ្យយើងស្គាល់ពីទំនាក់ទំនងយ៉ាងងាយស្រួល។
Low-resource NLP tasks	សំដៅលើកិច្ចការបង្រៀនកុំព្យូទ័រឱ្យយល់ ឬដំណើរការភាសាដែលខ្វះខាតទិន្នន័យសម្រាប់បង្វឹកលើអ៊ីនធឺណិត (ឧទាហរណ៍ដូចជាភាសាខ្មែរ) ដែលទាមទារនូវបច្ចេកទេសពិសេសដើម្បីកាត់បន្ថយការ Overfitting។	ដូចជាការបង្រៀនក្មេងម្នាក់ឱ្យស្គាល់សត្វដំរី ដោយអ្នកមានរូបថតដំរីតែមួយសន្លឹកគត់សម្រាប់បង្ហាញ ជាជាងមានរូបថតរាប់ពាន់សន្លឹក។
Convolutional neural network(CNN)	ទោះជាល្បីល្បាញខាងរូបភាព តែក្នុងកិច្ចការភាសា ស្ថាបត្យកម្ម Deep Learning នេះប្រើប្រាស់តម្រង (Filters) ដើម្បីទាញយកលក្ខណៈពិសេសរបស់ពាក្យ ដោយផ្តោតលើថាតើពាក្យ ឬកន្សោមពាក្យនោះលេចឡើងនៅទីតាំងណាមួយក្នុងអត្ថបទ ជាជាងខ្វល់ពីលំដាប់លំដោយជាក់លាក់។	ដូចជាការយកកែវពង្រីក (Magnifying glass) ស៊កមើលតាមទំព័រសៀវភៅ ដើម្បីស្វែងរកពាក្យគន្លឹះ ដោយមិនខ្វល់ថាវានៅក្បាល កណ្តាល ឬចុងទំព័រនោះទេ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖