Original Title: Neural Sequential Modeling and Applications
Source: github.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើម៉ូដែលតាមលំដាប់លំដោយដោយប្រើបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត និងកម្មវិធីប្រើប្រាស់

ចំណងជើងដើម៖ Neural Sequential Modeling and Applications

អ្នកនិពន្ធ៖ Guokun Lai (Carnegie Mellon University)

ឆ្នាំបោះពុម្ព៖ 2021 (Carnegie Mellon University)

វិស័យសិក្សា៖ Computer Science / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ បញ្ហាចម្បងគឺការខ្វះខាតនូវស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទ (Neural Network Architectures) ដែលមានប្រសិទ្ធភាពខ្ពស់ក្នុងការចាប់យកទំនាក់ទំនងទិន្នន័យ ការព្យាករណ៍តាមពេលវេលា និងការកាត់បន្ថយពេលវេលាគណនាក្នុងទិន្នន័យតាមលំដាប់លំដោយ (Sequential Data) ដូចជាអត្ថបទ និងទិន្នន័យសេនស័រ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានបង្កើត និងសាកល្បងម៉ូដែលស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទថ្មីចំនួនបួនផ្សេងគ្នា ដែលផ្ដោតលើប្រភេទលក្ខណៈទិន្នន័យខុសៗគ្នាក្នុងការដោះស្រាយបញ្ហាផ្សេងៗ។

ការបង្កើតបណ្តាញសរសៃប្រសាទវិភាគក្រាហ្វ (Depthwise Separable Graph Convolution - DSGC) សម្រាប់ចាប់យកទំនាក់ទំនងក្នុងលំហនៃទិន្នន័យ។
ការរចនាបណ្តាញចងចាំទិន្នន័យអតីតកាល (Long- and Short-term Time-series Network - LSTNet) សម្រាប់ការព្យាករណ៍លំនាំទិន្នន័យវិលជុំ ឬតាមរដូវកាល។
ការប្រើប្រាស់បណ្តាញបំប្លែងរាងចីឡាវ (Funnel-Transformer) ដើម្បីកាត់បន្ថយទំហំទិន្នន័យបន្តបន្ទាប់ក្នុងការចាត់ថ្នាក់អត្ថបទឲ្យកាន់តែមានប្រសិទ្ធភាព។
ការធ្វើចំណាត់ថ្នាក់ព្រឹត្តិការណ៍តាមពេលវេលា (Event Temporal Modeling) ដោយប្រើប្រាស់ចំណេះដឹងពីមុន (Human Prior Knowledge) និងការពង្រីកទិន្នន័យ (Data Augmentation) សម្រាប់ទិន្នន័យមានស្លាកតិចតួច។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល LSTNet បង្កើនភាពត្រឹមត្រូវនៃការព្យាករណ៍ទិន្នន័យពេលវេលាបានរហូតដល់ 22.2% បើធៀបនឹងម៉ូដែល RNN-GRU ជាមូលដ្ឋាន។
ម៉ូដែល Funnel-Transformer អាចកាត់បន្ថយពេលវេលាបណ្តុះបណ្តាល (Pretraining Time) បានចំនួន 30% ដោយមិនបាត់បង់ភាពត្រឹមត្រូវនៃដំណើរការចាត់ថ្នាក់ទិន្នន័យអត្ថបទ។
វិធីសាស្ត្ររួមបញ្ចូលចំណេះដឹងពីមុន និងការពង្រីកទិន្នន័យ ជួយបង្កើនប្រសិទ្ធភាពដល់កម្រិតកំពូល (State-of-the-art) ជាមួយនឹងភាពត្រឹមត្រូវ 77.66% និងពិន្ទុ F1 82.47 ក្នុងការចាត់ថ្នាក់ទំនាក់ទំនងព្រឹត្តិការណ៍។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
LSTNet (Long- and Short-term Time-series Network) បណ្តាញសរសៃប្រសាទ LSTNet (ម៉ូដែលស្នើឡើង)	មានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកទំនាក់ទំនងពេលវេលាទាំងទម្រង់ខ្លី និងវែង (Periodic patterns) ហើយមានភាពធន់នឹងបម្រែបម្រួលទំហំទិន្នន័យ (Scale changing)។	ទាមទារការកំណត់ប៉ារ៉ាម៉ែត្ររំលង (Skip-length p) ជាមុន ដែលអាចមានភាពលំបាកសម្រាប់ទិន្នន័យដែលគ្មានវដ្តកាលច្បាស់លាស់។	បង្កើនភាពត្រឹមត្រូវនៃការព្យាករណ៍ចន្លោះពី 9.2% ទៅ 22.2% ធៀបនឹងម៉ូដែល RNN-GRU ជាមូលដ្ឋាន លើទិន្នន័យដែលមានលំនាំវិលជុំ។
Funnel-Transformer (F-TFM) ម៉ូដែល Funnel-Transformer (ម៉ូដែលស្នើឡើង)	កាត់បន្ថយចំនួននៃការគណនា (FLOPs) និងសន្សំសំចៃការប្រើប្រាស់អង្គចងចាំ ដោយធ្វើការបង្រួមប្រវែងលំដាប់ទិន្នន័យ (Sequence compression) បន្តិចម្តងៗ។	ដោយសារតែមានការបង្រួមទិន្នន័យ វាអាចបាត់បង់ព័ត៌មានលម្អិតកម្រិតពាក្យ (Token-level) ដែលធ្វើឲ្យប្រសិទ្ធភាពធ្លាក់ចុះបន្តិចសម្រាប់កិច្ចការដែលទាមទារការវិភាគស៊ីជម្រៅកម្រិតពាក្យ (ឧ. SQuAD ធំៗ)។	អាចកាត់បន្ថយពេលវេលាបណ្តុះបណ្តាលបាន 30% ទៅ 50% ជាមួយនឹងលទ្ធផលល្អជាង ឬប្រហាក់ប្រហែល Standard Transformer លើ GLUE Benchmark។
Standard Transformer / BERT ម៉ូដែល Standard Transformer / BERT (ជាមូលដ្ឋាន)	មានភាពសុក្រឹតខ្ពស់ និងរក្សាព័ត៌មានលម្អិតនៃគ្រប់ពាក្យទាំងអស់តាំងពីដើមដល់ចប់ (Full-length sequence)។	ត្រូវការធនធានកុំព្យូទ័រ និងពេលវេលាយូរណាស់ក្នុងការបណ្តុះបណ្តាល ព្រោះទំហំគណនាកើនឡើងជាលំដាប់ការេ (Quadratically) នៃប្រវែងអត្ថបទ។	ប្រើប្រាស់ធនធាន FLOPs ច្រើនជាង F-TFM តែទទួលបានលទ្ធផលនៃការចាត់ថ្នាក់អត្ថបទ (Text Classification) ទាបជាង F-TFM បន្តិច លើទំហំម៉ូដែលប៉ុនគ្នា។
DSGC (Depthwise Separable Graph Convolution) បណ្តាញ DSGC វិភាគក្រាហ្វ (ម៉ូដែលស្នើឡើង)	អាចរៀនពីទំនាក់ទំនងលំហ (Spatial correlation) ដោយស្វ័យប្រវត្តិពីទិន្នន័យដែលគ្មានទម្រង់ច្បាស់លាស់ (Non-grid data) ដោយប្រើប្រាស់ប៉ារ៉ាម៉ែត្រតិច។	ត្រូវចំណាយពេលគណនាទម្ងន់ (Weight) សម្រាប់គែម (Edge) នីមួយៗនៃក្រាហ្វ ដែលធ្វើឲ្យការបណ្តុះបណ្តាលយឺតជាង GCN បន្តិច។	កាត់បន្ថយអត្រាកំហុសរហូតដល់ 18.72% លើទិន្នន័យ CIFAR10 បើធៀបនឹង 26.78% របស់ម៉ូដែល GCN ជាមូលដ្ឋាន។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ និងផ្នែករឹង (Hardware) កម្រិតខ្ពស់សម្រាប់ការបណ្តុះបណ្តាលម៉ូដែលធំៗ ពិសេសកិច្ចការទាក់ទងនឹង Natural Language Processing ដូចជាម៉ូដែល Transformer ជាដើម។

Hardware: ទាមទារ GPU កម្រិតកំពូល (ឧទាហរណ៍ Nvidia-V100 16GB ជាលក្ខណៈ 8-GPU node នៅលើ Google Cloud Platform) និងបន្ទះឈីប TPU (TPU v2-8, TPU v3-16) ដើម្បីទាញយកល្បឿនអតិបរមា។
Software: ប្រើប្រាស់ Framework បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត ដូចជា PyTorch 1.5.0 និង TensorFlow 2.2.0 រួមជាមួយនឹងបណ្ណាល័យ apex សម្រាប់ប្រើប្រាស់បច្ចេកទេស FP16 optimization។
Dataset: ទាមទារទិន្នន័យអត្ថបទដ៏ធំសម្បើម (Wikipedia, Book Corpus, ClueWeb) និងទិន្នន័យស៊េរីពេលវេលាដែលមានចំនួនរាប់ម៉ឺនកំណត់ត្រា ដូចជាចរាចរណ៍រដ្ឋកាលីហ្វ័រញ៉ា និងការប្រើប្រាស់អគ្គិសនី។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទាំងស្រុងនូវទិន្នន័យពីសហរដ្ឋអាមេរិក និងបរិបទលោកខាងលិច ដូចជាចរាចរណ៍រដ្ឋកាលីហ្វ័រញ៉ា ថាមពលអគ្គិសនី តម្លៃភាគហ៊ុន និងអត្ថបទភាសាអង់គ្លេស។ វាមិនមានការសាកល្បងលើទិន្នន័យពីប្រទេសកំពុងអភិវឌ្ឍឡើយ។ សម្រាប់កម្ពុជា នេះជាបញ្ហាប្រឈមមួយ ព្រោះលំហូរចរាចរណ៍ ការប្រើប្រាស់អគ្គិសនី និងរចនាសម្ព័ន្ធភាសាខ្មែរ មានលក្ខណៈខុសប្លែកពីបរទេសយ៉ាងខ្លាំង ដែលទាមទារការប្រមូលទិន្នន័យក្នុងស្រុកដើម្បីធ្វើតេស្ត។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ថ្វីបើបរិបទទីតាំងមានការខុសប្លែកគ្នា ប៉ុន្តែគោលគំនិតនិងស្ថាបត្យកម្មនៃម៉ូដែលទិន្នន័យតាមពេលវេលាទាំងនេះ អាចយកមកអនុវត្តដើម្បីដោះស្រាយបញ្ហាជាក់ស្តែងនៅកម្ពុជាបានយ៉ាងល្អ។

អគ្គិសនីកម្ពុជា (EDC): អាចប្រើប្រាស់ម៉ូដែល LSTNet ដែលរចនាឡើងសម្រាប់ចាប់យកចង្វាក់នៃការប្រើប្រាស់ថាមពល ដើម្បីព្យាករណ៍តម្រូវការអគ្គិសនីប្រចាំម៉ោង ឬប្រចាំសប្តាហ៍នៅរាជធានីភ្នំពេញ ជួយបង្ការការលើសឬខ្វះចរន្ត និងរៀបចំផែនការផ្គត់ផ្គង់បានល្អប្រសើរ។
ការព្យាករណ៍អាកាសធាតុសម្រាប់កសិកម្ម (MOWRAM): អាចប្រើប្រាស់បច្ចេកទេស DSGC ដើម្បីវិភាគទំនាក់ទំនងទិន្នន័យពីស្ថានីយ៍ឧតុនិយមនៅតាមខេត្តជុំវិញបឹងទន្លេសាប សំដៅព្យាករណ៍កម្រិតទឹកភ្លៀង ការប្រែប្រួលសីតុណ្ហភាព និងជួយកសិករត្រៀមខ្លួនជាមុន។
ដំណើរការភាសាខ្មែរ (Khmer NLP): អាចប្រើប្រាស់ស្ថាបត្យកម្ម Funnel-Transformer ដើម្បីបណ្តុះបណ្តាលម៉ូដែលភាសាខ្មែរ (Khmer Language Models) ដែលអាចជួយសន្សំសំចៃធនធានកុំព្យូទ័រ (GPU/TPU) និងពេលវេលា ដែលជាដំណោះស្រាយដ៏ល្អសម្រាប់ប្រទេសដែលមានធនធានការស្រាវជ្រាវកម្រិតមធ្យម។

ការចាប់យកនិងកែច្នៃបច្ចេកវិទ្យា Neural Sequential Modeling ទាំងនេះ នឹងជួយស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជា អាចធ្វើស្វ័យប្រវត្តិកម្ម និងទាញយកប្រយោជន៍ពីទិន្នន័យរបស់ខ្លួនបានយ៉ាងមានប្រសិទ្ធភាព ដោយទាមទារត្រឹមតែការវិនិយោគលើទិន្នន័យក្នុងស្រុកប៉ុណ្ណោះ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះ Time-Series និង Python: និស្សិតត្រូវចាប់ផ្តើមសិក្សាពីការរៀបចំទិន្នន័យពេលវេលា (Time-series) ដោយប្រើប្រាស់ភាសា Python និងបណ្ណាល័យសំខាន់ៗដូចជា Pandas និង NumPy ដើម្បីយល់ពីការសម្អាត និងវិភាគទិន្នន័យបឋម។
រៀនប្រើប្រាស់ Deep Learning Frameworks: ត្រូវអនុវត្តការសរសេរកូដសម្រាប់កសាងម៉ូដែលសរសៃប្រសាទ (Neural Networks) ដោយប្រើប្រាស់ PyTorch ឬ TensorFlow តាមរយៈវគ្គសិក្សាអនឡាញ ដោយចាប់ផ្តើមពីម៉ូដែល RNN ឬ LSTM សាមញ្ញ។
សាកល្បងជាមួយកូដស្រាវជ្រាវពិតប្រាកដ: ចូលទៅកាន់ GitHub Repository របស់អ្នកនិពន្ធ (ឧទាហរណ៍ laiguokun/LSTNet) ទាញយកកូដ មកដំណើរការសាកល្បងលើកុំព្យូទ័រផ្ទាល់ខ្លួន ឬប្រើប្រាស់ Google Colab ដើម្បីស្វែងយល់ពីរបៀបដែលម៉ូដែលកម្រិតខ្ពស់ដំណើរការ។
ប្រមូល និង Fine-tune ជាមួយទិន្នន័យកម្ពុជា: អនុវត្តការទាញយកទិន្នន័យពិតនៅកម្ពុជា (ឧទាហរណ៍ ទិន្នន័យអាកាសធាតុពី MOWRAM ឬអត្ថបទព័ត៌មានខ្មែរ) រួចប្រើប្រាស់បណ្ណាល័យ Hugging Face Transformers ដើម្បីសាកល្បង Fine-tune ជាមួយស្ថាបត្យកម្ម Funnel-Transformer សម្រាប់ភាសាខ្មែរ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Depthwise Separable Graph Convolution (DSGC)	វាជាបច្ចេកទេសបណ្តាញសរសៃប្រសាទដែលបំបែកការគណនាទំនាក់ទំនងលំហ (Spatial) និងទំនាក់ទំនងលក្ខណៈ (Channel) ដាច់ពីគ្នា ដើម្បីចាប់យកលំនាំទិន្នន័យលើរចនាសម្ព័ន្ធក្រាហ្វដែលមិនមានទម្រង់ច្បាស់លាស់ ដោយចំណាយកម្លាំងគណនាតិច។	ដូចជាការបែងចែកការងារចម្អិនម្ហូប ដោយម្នាក់រៀបចំបន្លែ (លំហ) និងម្នាក់ទៀតរៀបចំសាច់ (លក្ខណៈ) ដើម្បីឱ្យការធ្វើម្ហូបកាន់តែលឿននិងមានប្រសិទ្ធភាព។
Autoregressive Model	ជាម៉ូដែលគណិតវិទ្យាដែលប្រើប្រាស់ទិន្នន័យអតីតកាលយកមកធ្វើការទស្សន៍ទាយឬប៉ាន់ស្មានតម្លៃទិន្នន័យនៅពេលអនាគត ដោយផ្អែកលើសម្មតិកម្មថាទិន្នន័យបច្ចុប្បន្នមានទំនាក់ទំនងជិតស្និទ្ធជាមួយទិន្នន័យមុនៗ។	ដូចជាការព្យាករណ៍ថាម៉ោងក្រោយនឹងមានភ្លៀង ដោយមើលទៅលើកម្រិតពពកនិងខ្យល់កាលពីប៉ុន្មានម៉ោងមុនបន្តបន្ទាប់គ្នា។
Spatiotemporal Data	ជាប្រភេទព័ត៌មានដែលប្រមូលផ្តុំទិន្នន័យទាំងទីតាំងភូមិសាស្ត្រ (លំហ) និងពេលវេលា ឧទាហរណ៍ដូចជាទិន្នន័យចរាចរណ៍ដែលបញ្ជាក់ពីទីតាំងផ្លូវផង និងពេលវេលាជាក់លាក់នៃទំហំចរាចរណ៍នោះផង។	ដូចជាប្រវត្តិទីតាំង GPS របស់ស្មាតហ្វូនរបស់អ្នក ដែលប្រាប់ថានៅម៉ោងប៉ុន្មាន អ្នកកំពុងស្ថិតនៅកន្លែងណាខ្លះ។
Recurrent-skip Component	ជាយន្តការមួយនៅក្នុងម៉ូដែល LSTNet ដែលជួយម៉ូដែលចងចាំលំនាំទិន្នន័យវិលជុំ (Periodic) ដោយភ្ជាប់ទំនាក់ទំនងដោយផ្ទាល់ពីទិន្នន័យបច្ចុប្បន្នទៅកាន់ទិន្នន័យក្នុងអតីតកាលនៅវដ្តកាលស្រដៀងគ្នា (ឧ. ម៉ោង៩ព្រឹកនេះ ធៀបនឹង ម៉ោង៩ព្រឹកម្សិលមិញ)។	ដូចជាការមើលម៉ឺនុយអាហារប្រចាំថ្ងៃពុធសប្តាហ៍មុន ដើម្បីទាយថាថ្ងៃពុធសប្តាហ៍នេះអាហារដ្ឋាននឹងមានលក់ម្ហូបអ្វី។
Masked Language Modeling (MLM)	គឺជាវិធីសាស្ត្របណ្តុះបណ្តាលម៉ូដែលភាសា (NLP) ដោយលាក់ (Mask) ពាក្យមួយចំនួននៅក្នុងប្រយោគ ហើយតម្រូវឱ្យម៉ូដែលប្រើប្រាស់បរិបទជុំវិញដើម្បីទាយពាក្យដែលលាក់នោះ សំដៅឱ្យវាស្វែងយល់ពីរចនាសម្ព័ន្ធភាសា។	ដូចជាការធ្វើលំហាត់បំពេញចន្លោះក្នុងប្រយោគ ដែលសិស្សត្រូវទាយពាក្យដែលបាត់ដោយអានអត្ថន័យនៃពាក្យមុននិងក្រោយ។
Evidence Lower Bound (ELBO)	ជាអនុគមន៍គណិតវិទ្យាមួយសម្រាប់ប្រើក្នុងបណ្តាញសរសៃប្រសាទប្រភេទបង្កើតទិន្នន័យ (Generative Models) ដើម្បីប៉ាន់ស្មាននិងកាត់បន្ថយកំហុស ក្នុងការរៀនពីបម្រែបម្រួលនៃទិន្នន័យដែលលាក់កំបាំង (Latent Variables) ។	ដូចជាការព្យាយាមគូសវាសរូបថតព្រិលៗមួយឱ្យបានជិតនឹងរូបច្បាប់ដើមបំផុត ដោយផ្តោតលើការកាត់បន្ថយកំហុសនៃទម្រង់រូបរាងរួមជាជាងព័ត៌មានលម្អិតតូចៗ។
Multi-head Self-attention	គឺជាសមាសភាគស្នូលនៃម៉ូដែល Transformer ដែលអនុញ្ញាតឱ្យប្រព័ន្ធអាចវាយតម្លៃនិងផ្តល់ទម្ងន់ទៅលើពាក្យនីមួយៗក្នុងប្រយោគធៀបនឹងពាក្យផ្សេងទៀត ក្នុងពេលតែមួយតាមច្រើនទម្រង់ ដើម្បីយល់ពីអត្ថន័យនិងបរិបទស៊ីជម្រៅ។	ដូចជាការសួរសាក្សីច្រើននាក់អំពីព្រឹត្តិការណ៍តែមួយ ដោយម្នាក់ៗសង្កេតទៅលើចំណុចខុសៗគ្នា (ម្នាក់មើលសម្លៀកបំពាក់ ម្នាក់មើលយានយន្ត) ដើម្បីយកមកផ្គុំជារូបភាពរួមមួយដែលពេញលេញ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖