Original Title: The Survey: Advances in Natural Language Processing using Deep Learning
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការស្ទង់មតិ៖ វឌ្ឍនភាពក្នុងដំណើរការភាសាធម្មជាតិដោយប្រើប្រាស់ការរៀនស៊ីជម្រៅ

ចំណងជើងដើម៖ The Survey: Advances in Natural Language Processing using Deep Learning

អ្នកនិពន្ធ៖ Vamsi Krishna Vedantam, Advanced Analytics, Tech Mahindra, Copenhagen, Denmark

ឆ្នាំបោះពុម្ព៖ 2020

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះធ្វើការដោះស្រាយនិងចងក្រងនូវវឌ្ឍនភាពចុងក្រោយបង្អស់នៃបច្ចេកវិទ្យាដំណើរការភាសាធម្មជាតិ (Natural Language Processing - NLP) ដែលជំរុញដោយយន្តការរៀនស៊ីជម្រៅ (Deep Learning) ដើម្បីដោះស្រាយបញ្ហាស្មុគស្មាញដែលវិធីសាស្ត្រប្រពៃណីមិនអាចធ្វើបាន។

វិធីសាស្ត្រ (The Methodology)៖ ឯកសារនេះធ្វើការត្រួតពិនិត្យអក្សរសិល្ប៍ និងសង្ខេបអំពីស្ថាបត្យកម្មសំខាន់ៗនៃការរៀនស៊ីជម្រៅ ព្រមទាំងកម្មវិធីប្រើប្រាស់ជាក់ស្តែង និងនិន្នាការអនាគតក្នុងវិស័យ NLP ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Recurrent Neural Networks (RNN)
បណ្តាញសរសៃប្រសាទវិលជុំ
អាចចងចាំពាក្យដែលទាក់ទងគ្នាក្នុងប្រយោគ និងរៀនពីទំនាក់ទំនងរវាងពាក្យមុនៗតាមរយៈ backpropagation។ មានបញ្ហាភ្លេចព័ត៌មាន (vanishing gradient) នៅពេលប្រយោគមានប្រវែងវែងពេក និងមានដំណើរការយឺតដោយសារគណនាតាមលំដាប់លំដោយ។ នៅតែត្រូវបានប្រើប្រាស់ទូលំទូលាយ តែជួបការលំបាកក្នុងការចងចាំប្រយោគ ឬអត្ថបទវែងៗ។
Long Short-Term Memory (LSTM)
អង្គចងចាំរយៈពេលខ្លី-វែង
ដោះស្រាយបញ្ហាភ្លេចព័ត៌មានចាស់ៗរបស់ RNN និងផ្តល់លទ្ធផលល្អបំផុតក្នុងការបង្កើតគំរូភាសា និងការបកប្រែ។ ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ខ្លាំងដោយសារមិនអាចដំណើរការទិន្នន័យស្របគ្នា (Non-parallel process) ក្នុងប្រយោគតែមួយ។ ជាជម្រើសដ៏រឹងមាំមួយក្នុងការបកប្រែ (NMT) ទោះបីជានៅមានភាពខ្សោយក្នុងការអ៊ិនកូដប្រយោគវែងៗបំផុតក៏ដោយ។
Transformer & Attention Mechanism
ស្ថាបត្យកម្ម Transformer និងយន្តការយកចិត្តទុកដាក់
កាត់បន្ថយពេលវេលាបង្វឹកម៉ូដែលយ៉ាងច្រើនតាមរយៈការដំណើរការទិន្នន័យស្របគ្នា (Parallelization) និងអាចចាប់យកទំនាក់ទំនងពាក្យបានយ៉ាងច្បាស់លាស់។ ទាមទារសំណុំទិន្នន័យធំមហិមា និងកម្លាំងម៉ាស៊ីនខ្លាំងសម្រាប់ការបង្វឹកម៉ូដែលពីចំណុចសូន្យ។ ទទួលបានប្រជាប្រិយភាពខ្ពស់ និងផ្តល់លទ្ធផលកម្រិតកំពូល (State-of-the-art) សម្រាប់កិច្ចការ NLP ភាគច្រើន។
Transfer Learning (Adapters)
ការផ្ទេរចំណេះដឹងដោយប្រើប្រាស់ Adapters
ជៀសវាងការបង្វឹកឡើងវិញនូវទម្ងន់ទាំងអស់ (weights) របស់ម៉ូដែល ដែលជួយឱ្យទទួលបានលទ្ធផលល្អទោះប្រើទិន្នន័យតូច។ ត្រូវពឹងផ្អែកលើគុណភាពនៃម៉ូដែលដើម (Pre-trained model) ដែលមានស្រាប់។ ដោះស្រាយបញ្ហា Catastrophic forgetting និងការ Fine-tuning ដែលមានប្រសិទ្ធភាពខ្ពស់លើទិន្នន័យថ្មី។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់ថាការអភិវឌ្ឍម៉ូដែល Deep Learning សម្រាប់ NLP ទាមទារថាមពលកុំព្យូទ័រយ៉ាងខ្លាំង និងសំណុំទិន្នន័យទំហំធំ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ឯកសារនេះភាគច្រើនផ្តោតលើការស្រាវជ្រាវ និងទិន្នន័យអង់គ្លេសខ្នាតធំ (Massive corpora) ដែលត្រូវបានចេញផ្សាយដោយក្រុមហ៊ុនធំៗដូចជា Google, Microsoft និង Amazon។ នេះជាបញ្ហាប្រឈមធំមួយសម្រាប់ប្រទេសកម្ពុជា ដោយសារភាសាខ្មែរត្រូវបានចាត់ទុកជា 'ភាសាមានធនធានតិច' (Low-resource language) ដែលធ្វើឱ្យការអនុវត្តផ្ទាល់ជួបការលំបាកបើគ្មានការកសាងសំណុំទិន្នន័យភាសាខ្មែរឱ្យបានត្រឹមត្រូវជាមុនសិន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះជាមានបញ្ហាកង្វះទិន្នន័យក្តី បច្ចេកទេស Deep Learning និង ការផ្ទេរចំណេះដឹង (Transfer Learning) ទាំងនេះមានសារៈសំខាន់យ៉ាងខ្លាំងសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធភាសាខ្មែរឱ្យកាន់តែទំនើប។

ជារួម បើទោះបីជាភាសាខ្មែរខ្វះខាតទិន្នន័យធំៗក្ដី ការប្រើប្រាស់បច្ចេកទេសផ្ទេរចំណេះដឹងពីម៉ូដែលដែលមានស្រាប់ គួបផ្សំនឹងយន្តការដោះស្រាយភាសាធនធានតិច នឹងក្លាយជាគន្លឹះឆ្ពោះទៅរកភាពជោគជ័យនៃការបង្កើត AI នៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះស្ថាបត្យកម្ម Deep Learning: ចាប់ផ្តើមរៀនពីមូលដ្ឋាននៃការបង្កើតប្រព័ន្ធភាសាដោយប្រើប្រាស់បណ្តាញ RNN និ LSTM រួចសរសេរកូដសាកល្បងដោយផ្ទាល់នៅលើ TensorFlowPyTorch លើកិច្ចការងាយៗដូចជាការកាត់ពាក្យ (Word segmentation) ។
  2. ស្វែងយល់ និងអនុវត្តស្ថាបត្យកម្ម Transformer: អាននិងសិក្សាអំពីឯកសារស្រាវជ្រាវ 'Attention Is All You Need' រួចសាកល្បងសរសេរកូដដោយប្រើប្រាស់បណ្ណាល័យ Hugging Face Transformers ដើម្បីយល់ពីរបៀបដែល Attention Mechanism អាចគណនាទំនាក់ទំនងពាក្យនៅក្នុងប្រយោគ។
  3. អនុវត្តការរៀនផ្ទេរចំណេះដឹង (Transfer Learning): យកម៉ូដែលភាសាធំៗពហុភាសាដែលមានស្រាប់ដូចជា mBERTXLM-RoBERTa មកធ្វើការ Fine-tune សម្រាប់ភាសាខ្មែរ លើមុខងារដូចជា ការកំណត់អត្តសញ្ញាណឈ្មោះ (NER) ឬ ការវិភាគអារម្មណ៍ (Sentiment Analysis)។
  4. កសាងសំណុំទិន្នន័យភាសាខ្មែរ (Corpus Building): ចូលរួមការស្រាវជ្រាវជាមួយសាកលវិទ្យាល័យ ឬសហគមន៍ AI ដើម្បីប្រមូល និងសម្អាតទិន្នន័យអត្ថបទភាសាខ្មែរឱ្យមានទម្រង់ស្តង់ដារ ស្រដៀងទៅនឹងគំរូនៃ SQuAD Dataset សម្រាប់កិច្ចការឆ្លើយសំណួរ (Q&A) ។
  5. ដោះស្រាយបញ្ហាភាសាមានធនធានតិច (Low-resource NLP): សាកល្បងប្រើប្រាស់បច្ចេកទេស Adapters លើកិច្ចការបកប្រែភាសាអង់គ្លេស-ខ្មែរ ដើម្បីជៀសវាងការបង្វឹកប៉ារ៉ាម៉ែត្ររាប់ពាន់លានរបស់ម៉ូដែលឡើងវិញ ដែលអាចសន្សំសំចៃធនធានកុំព្យូទ័របានយ៉ាងច្រើន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Attention mechanism យន្តការនេះគណនាពិន្ទុនៃសារៈសំខាន់ (importance score) សម្រាប់ពាក្យនីមួយៗក្នុងប្រយោគ ដើម្បីឱ្យម៉ូដែលកុំព្យូទ័រដឹងថាត្រូវផ្តោតលើពាក្យណាខ្លះនៅពេលកំពុងបកប្រែ ឬសង្ខេបអត្ថបទ ជំនួសឱ្យការឱ្យតម្លៃស្មើៗគ្នាទៅលើប្រយោគទាំងមូល។ ដូចជាពេលយើងអានសៀវភៅ ហើយប្រើហ្វឺតពណ៌ (Highlighter) គូសបញ្ជាក់តែពាក្យសំខាន់ៗ ដើម្បីងាយស្រួលទាញយកអត្ថន័យរួមរបស់ប្រយោគ។
Transformer ជាស្ថាបត្យកម្មរៀនស៊ីជម្រៅដែលពឹងផ្អែកទាំងស្រុងលើយន្តការយកចិត្តទុកដាក់ (Attention mechanism) ដោយវាអាចដំណើរការទិន្នន័យ ឬអានពាក្យទាំងអស់ក្នុងប្រយោគក្នុងពេលតែមួយ (Parallelize) ដែលធ្វើឱ្យការបង្វឹកម៉ូដែលលឿនជាងមុន និងចាប់ទំនាក់ទំនងពាក្យបានល្អ។ ដូចជាក្រុមការងារមួយដែលសមាជិកម្នាក់ៗអានសៀវភៅម្នាក់មួយទំព័រក្នុងពេលតែមួយ រួចយកមកប្រាប់គ្នា ផ្ទុយពីការឱ្យមនុស្សម្នាក់អានម្នាក់ឯងពីទំព័រទីមួយដល់ទំព័រចុងក្រោយ។
Transfer Learning ជាបច្ចេកទេសដែលយកម៉ូដែល AI ដែលត្រូវបានបង្វឹករួចជាស្រេចលើសំណុំទិន្នន័យដ៏ធំ (Pre-trained model) មកប្រើប្រាស់ និងកែតម្រូវបន្ថែមបន្តិចបន្តួច (Fine-tuning) សម្រាប់កិច្ចការថ្មីមួយទៀត ដើម្បីកុំឱ្យខ្ជះខ្ជាយពេលបង្វឹកពីចំណុចសូន្យឡើងវិញ។ ដូចជាមនុស្សម្នាក់ដែលចេះជិះកង់ស្ទាត់ជំនាញស្រាប់ ពេលគាត់ប្តូរមកហាត់ជិះម៉ូតូ គាត់ប្រើពេលរៀនតិចជាងអ្នកដែលមិនធ្លាប់ចេះជិះកង់សោះ។
Long Short-Term Memory(LSTM) ជាប្រភេទនៃបណ្តាញសរសៃប្រសាទវិលជុំ (RNN) ដែលមានសមត្ថភាពពិសេសក្នុងការចងចាំព័ត៌មានពីពាក្យដែលនៅឆ្ងាយគ្នាក្នុងប្រយោគវែងៗ ដោយវាអាចសម្រេចចិត្តដោយស្វ័យប្រវត្តិថាព័ត៌មានណាគួររក្សាទុក និងព័ត៌មានណាគួរលុបចោល។ ដូចជាមនុស្សម្នាក់ដែលកំពុងស្តាប់រឿងដ៏វែងមួយ ហើយគាត់ចេះកត់ចំណាំក្នុងខួរក្បាលទុកតែតួអង្គ និងព្រឹត្តិការណ៍សំខាន់ៗ ដើម្បីកុំឱ្យភ្លេចពេលរឿងនោះដល់ទីបញ្ចប់។
Deep generative models គំរូ AI (ដូចជា VAEs និង GANs) ដែលរៀនពីលំនាំនៃទិន្នន័យដែលគ្មានស្លាកចំណាំ (Unlabelled data) រួចប្រើប្រាស់ចំណេះដឹងនោះដើម្បីបង្កើតអត្ថបទ ទិន្នន័យ ឬការឆ្លើយតបថ្មីៗដោយស្វ័យប្រវត្តិ ដែលមានលក្ខណៈស្រដៀងនឹងទិន្នន័យដើម។ ដូចជាវិចិត្រករដែលបានមើលគំនូររាប់ពាន់ផ្ទាំង រួចប្រើប្រាស់ការចងចាំនោះដើម្បីគូរផ្ទាំងគំនូរថ្មីមួយដែលមិនធ្លាប់មានពីមុនមក តែនៅរក្សាទម្រង់សិល្បៈដដែល។
Knowledge Graphs(KG) ជាប្រព័ន្ធរចនាសម្ព័ន្ធផ្ទុកចំណេះដឹងដែលតំណាងឱ្យព័ត៌មានជាទម្រង់នៃអង្គភាព (Entities) និងទំនាក់ទំនងរវាងពួកវា (Relationships) ដែលជួយឱ្យម៉ូដែល AI យល់ពីបរិបទ និងការពិតលើលោកដូចមនុស្សដែរ។ ដូចជាការគូរផែនទីបណ្ដាញគ្រួសារ (Family Tree) ដែលមានអូសខ្សែភ្ជាប់គ្នាបង្ហាញច្បាស់ថានរណាជាឪពុក នរណាជាកូន ដើម្បីឱ្យយើងស្គាល់ពីទំនាក់ទំនងយ៉ាងងាយស្រួល។
Low-resource NLP tasks សំដៅលើកិច្ចការបង្រៀនកុំព្យូទ័រឱ្យយល់ ឬដំណើរការភាសាដែលខ្វះខាតទិន្នន័យសម្រាប់បង្វឹកលើអ៊ីនធឺណិត (ឧទាហរណ៍ដូចជាភាសាខ្មែរ) ដែលទាមទារនូវបច្ចេកទេសពិសេសដើម្បីកាត់បន្ថយការ Overfitting។ ដូចជាការបង្រៀនក្មេងម្នាក់ឱ្យស្គាល់សត្វដំរី ដោយអ្នកមានរូបថតដំរីតែមួយសន្លឹកគត់សម្រាប់បង្ហាញ ជាជាងមានរូបថតរាប់ពាន់សន្លឹក។
Convolutional neural network(CNN) ទោះជាល្បីល្បាញខាងរូបភាព តែក្នុងកិច្ចការភាសា ស្ថាបត្យកម្ម Deep Learning នេះប្រើប្រាស់តម្រង (Filters) ដើម្បីទាញយកលក្ខណៈពិសេសរបស់ពាក្យ ដោយផ្តោតលើថាតើពាក្យ ឬកន្សោមពាក្យនោះលេចឡើងនៅទីតាំងណាមួយក្នុងអត្ថបទ ជាជាងខ្វល់ពីលំដាប់លំដោយជាក់លាក់។ ដូចជាការយកកែវពង្រីក (Magnifying glass) ស៊កមើលតាមទំព័រសៀវភៅ ដើម្បីស្វែងរកពាក្យគន្លឹះ ដោយមិនខ្វល់ថាវានៅក្បាល កណ្តាល ឬចុងទំព័រនោះទេ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖