Original Title: Deep Learning: Effective Tool for Big Data Analytics
Source: www.ijcse.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនស៊ីជម្រៅ៖ ឧបករណ៍ដ៏មានប្រសិទ្ធភាពសម្រាប់ការវិភាគទិន្នន័យធំ (Big Data Analytics)

ចំណងជើងដើម៖ Deep Learning: Effective Tool for Big Data Analytics

អ្នកនិពន្ធ៖ Nagwa M. Elaraby (Mansoura University, Egypt), Mohammed Elmogy (Mansoura University, Egypt), Shereif Barakat (Mansoura University, Egypt)

ឆ្នាំបោះពុម្ព៖ 2016 International Journal of Computer Science Engineering (IJCSE)

វិស័យសិក្សា៖ Computer Science / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះពិភាក្សាអំពីបញ្ហាប្រឈមនៃការវិភាគទិន្នន័យធំ (Big Data) ពាក់ព័ន្ធនឹងទំហំ (Volume) ភាពចម្រុះ (Variety) និងល្បឿន (Velocity) ដែលប្រព័ន្ធប្រពៃណីមិនអាចដោះស្រាយបាន និងតម្រូវការឧបករណ៍វិភាគថ្មីៗ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះធ្វើការពិនិត្យឡើងវិញ (Survey) ទៅលើស្ថាបត្យកម្មនៃការរៀនស៊ីជម្រៅ (Deep Learning) និងវាយតម្លៃការអនុវត្តរបស់វាក្នុងការដោះស្រាយបញ្ហាទិន្នន័យធំ។

ស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទកម្រិតជ្រៅ (Deep Neural Networks architectures ដូចជា DBN, DBM, និង DSN)
យន្តការរៀនសូត្រដោយគ្មានការត្រួតពិនិត្យ និងមានការត្រួតពិនិត្យ (Unsupervised pre-training and supervised fine-tuning)
ការអនុវត្តលើការសម្គាល់រូបភាព ការវែកញែកសំឡេង និងការទាញយកព័ត៌មាន (Image/Speech recognition and Information Retrieval)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការរៀនស៊ីជម្រៅ (Deep Learning) អាចទាញយកលំនាំស្មុគស្មាញ និងតំណាងទិន្នន័យកម្រិតខ្ពស់ (High-level representations) ពីទិន្នន័យធំដែលគ្មានស្លាកសញ្ញា (Unlabeled data) យ៉ាងមានប្រសិទ្ធភាព។
ម៉ូដែល Deep Belief Networks (DBN) បង្ហាញពីសមត្ថភាពល្អប្រសើរក្នុងការកាត់បន្ថយអត្រាកំហុស (Error rates) ឧទាហរណ៍ ធ្លាក់ចុះដល់ ៦.៥% ក្នុងការសម្គាល់វត្ថុ 3D បើធៀបនឹងម៉ូដែលប្រពៃណីដូចជា SVM។
ទោះបីជាទទួលបានជោគជ័យ បច្ចេកវិទ្យានេះនៅតែជួបប្រទះបញ្ហាប្រឈមធំៗចំនួនបី គឺការដោះស្រាយជាមួយទិន្នន័យហូរចូលភ្លាមៗ (Real-time streaming data) ដំណើរការកុំព្យូទ័រស្របគ្នា (Data parallelism) និងការរួមបញ្ចូលទិន្នន័យពហុទម្រង់ (Multimodal data)។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Deep Belief Networks (DBN) បណ្តាញជំនឿស៊ីជម្រៅ ដើម្បីទាញយកទម្រង់ទិន្នន័យ (Feature Extraction)	អាចគ្រប់គ្រងភាពស្មុគស្មាញ និងផ្តល់ចំណុចចាប់ផ្តើមនៃការបង្វឹក (initialization) ល្អដោយមិនតម្រូវឱ្យប្រើទិន្នន័យដែលមានស្លាក (unlabeled data)។ វាមានសមត្ថភាពរៀនលក្ខណៈពិសេសកម្រិតខ្ពស់ដោយស្វ័យប្រវត្តិ។	ត្រូវការពេលវេលាបង្វឹកយូរ ស្មុគស្មាញក្នុងការគណនា និងមានការពិបាកក្នុងការធ្វើឱ្យដំណើរការបង្វឹកស្របគ្នា (parallel processing) លើកុំព្យូទ័រច្រើន។	ទទួលបានអត្រាកំហុសត្រឹមតែ ៦.៥% លើទិន្នន័យស្វែងយល់រូបភាព 3D (NORB dataset) ដែលល្អជាងម៉ូដែលរាក់ៗដូចជា SVM ដាច់។
Deep Stacking Networks (DSN) បណ្តាញតម្រួតស៊ីជម្រៅសម្រាប់ការគណនាស្របគ្នា និងទិន្នន័យធំ	អាចដំណើរការបង្វឹកទិន្នន័យស្របគ្នា (parallel training) លើម៉ាស៊ីនច្រើន និងមិនទាមទារឱ្យប្រើប្រាស់អង្គគណនា GPU ដើម្បីដំណើរការនោះទេ។	ទោះបីជាលឿន និងងាយស្រួលពង្រីកទំហំ តែស្ថាបត្យកម្មនេះនៅមានកម្រិត និងចាំបាច់ត្រូវមានភាពបត់បែនបន្ថែមទៀតដើម្បីដោះស្រាយបញ្ហាទិន្នន័យដែលស្មុគស្មាញខ្លាំង។	មានដំណើរការល្អជាងម៉ូដែល DBN លើទិន្នន័យ MNIST និង TIMIT ព្រមទាំងមានភាពងាយស្រួលក្នុងការពង្រីកទំហំ (Scalability)។
Deep Convolutional Neural Networks (DCNN) បណ្តាញសរសៃប្រសាទកាឡៃស៊ីជម្រៅ សម្រាប់ការសម្គាល់រូបភាព	មានភាពសុក្រឹតខ្ពស់បំផុតក្នុងការសម្គាល់វត្ថុពីរូបភាព និងអាចទាញយកលក្ខណៈពិសេសដោយស្វ័យប្រវត្តិតាមរយៈស្រទាប់ខូលវ៉ុលយូសិន (Convolutional layers)។	ត្រូវការកម្លាំងម៉ាស៊ីនខ្លាំង (GPU) ដើម្បីពន្លឿនការបង្វឹក និងងាយរងការហ្វឹកហាត់លើស (Over-fitting) ប្រសិនបើមិនប្រើវិធីសាស្ត្រ dropout។	បានឈ្នះការប្រកួត ImageNet LSVRC-2010 (ចំណាត់ថ្នាក់រូបភាព ១.២ លាន) ជាមួយនឹងអត្រាកំហុសទាបជាងម៉ូដែលល្អបំផុតកាលពីជំនាន់មុនៗយ៉ាងច្រើន។

ការចំណាយលើធនធាន (Resource Cost)៖ ការបង្វឹកម៉ូដែលរៀនស៊ីជម្រៅ (Deep Learning) ទាមទារធនធានកុំព្យូទ័រខ្នាតធំ និងទិន្នន័យច្រើនសន្ធឹកសន្ធាប់ លើកលែងតែម៉ូដែល DSN មួយចំនួនតូចដែលមិនសូវទាមទារកាតក្រាហ្វិក (GPU) កម្រិតខ្ពស់។

Hardware: ត្រូវការអង្គគណនាកម្រិតខ្ពស់ដូចជា GPU ឬបណ្តុំ CPU ធំៗ (Clusters) ដើម្បីដំណើរការទិន្នន័យទំហំធំ និងពន្លឿនល្បឿននៃការបង្វឹកម៉ូដែល។
Dataset: ទាមទារសំណុំទិន្នន័យខ្នាតធំ (Big Data) ដូចជា ImageNet (១.២ លានរូបភាព) ឬទិន្នន័យគ្មានស្លាកចំណាំ (Unlabeled data) ជាច្រើនដើម្បីទាញយកលក្ខណៈពិសេសកម្រិតខ្ពស់។
Software: ប្រព័ន្ធដែលអាចដំណើរការក្បួនដោះស្រាយតាមចង្កោមស្របគ្នា (Distributed frameworks with parallelized machines) និងបច្ចេកទេស mini-batch stochastic gradient។
Expertise: ជំនាញកម្រិតខ្ពស់លើស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទ (Neural Networks) ការចាត់ចែងទិន្នន័យពហុទម្រង់ (Multimodal Data) និងការដោះស្រាយបញ្ហា Over-fitting។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សា និងការវាស់ស្ទង់ម៉ូដែលភាគច្រើនត្រូវបានធ្វើឡើងលើសំណុំទិន្នន័យបរទេសស្តង់ដារ (ដូចជា ImageNet, WSJ, TIMIT) ដែលមានលក្ខណៈបរិបទលោកខាងលិច និងជាភាសាអង់គ្លេស។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យក្នុងស្រុក (Local Datasets) ដែលមានទំហំធំ ទម្រង់ចម្រុះ និងមានគុណភាពខ្ពស់ គឺជាឧបសគ្គចម្បងក្នុងការយកម៉ូដែលទាំងនេះមកប្រើប្រាស់ឱ្យមានប្រសិទ្ធភាព។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យារៀនស៊ីជម្រៅសម្រាប់ការវិភាគទិន្នន័យធំ (Big Data) គឺមានសក្តានុពលខ្លាំងក្នុងការជួយដោះស្រាយបញ្ហា និងអភិវឌ្ឍវិស័យសំខាន់ៗនៅកម្ពុជា។

Agriculture Sector (វិស័យកសិកម្មតាមបណ្តាខេត្ត): ការប្រើប្រាស់ម៉ូដែល CNN អាចជួយកសិករនៅខេត្តបាត់ដំបង ឬពោធិ៍សាត់ ក្នុងការវិភាគ និងសម្គាល់ជំងឺដំណាំដោយស្វ័យប្រវត្តិតាមរយៈរូបភាពដែលថតដោយទូរសព្ទដៃ។
Telecommunications & Smart Cities (ទូរគមនាគមន៍ និងទីក្រុងឆ្លាតវៃ): ក្រុមហ៊ុនទូរគមនាគមន៍ និងគម្រោងទីក្រុងឆ្លាតវៃនៅរាជធានីភ្នំពេញ អាចប្រើ Deep Learning ដើម្បីវិភាគទិន្នន័យហូរចូល (Streaming Data) ដើម្បីតាមដានចរាចរណ៍ ការគ្រប់គ្រងគ្រោះមហន្តរាយ ឬវិភាគអាកប្បកិរិយាអតិថិជន។
Khmer NLP for E-Government (ភាសាធម្មជាតិខ្មែរសម្រាប់រដ្ឋាភិបាលអេឡិចត្រូនិក): ស្ថាប័នរដ្ឋ និងអ្នកស្រាវជ្រាវអាចប្រើប្រាស់ស្ថាបត្យកម្ម DBN ដើម្បីអភិវឌ្ឍប្រព័ន្ធបកប្រែ វែកញែកសំឡេង (Speech Recognition) និងវិភាគមតិយោបល់ពលរដ្ឋ ជាភាសាខ្មែរបានកាន់តែសុក្រឹតជាងម៉ូដែលចាស់ៗ (N-gram)។

ការទាញយកអត្ថប្រយោជន៍ពេញលេញពីបច្ចេកវិទ្យានេះតម្រូវឱ្យកម្ពុជាផ្តោតលើការប្រមូលទិន្នន័យក្នុងស្រុកជាមុន និងការបណ្តុះបណ្តាលអ្នកជំនាញផ្នែកវិទ្យាសាស្ត្រទិន្នន័យ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

កសាងមូលដ្ឋានគ្រឹះផ្នែករៀនស៊ីជម្រៅ (Mastering Deep Learning Foundations): និស្សិតគួរចាប់ផ្តើមសិក្សាពីទ្រឹស្តីបណ្តាញសរសៃប្រសាទ (Neural Networks) និងស្ថាបត្យកម្មគ្មានការត្រួតពិនិត្យ (Auto-Encoders, RBMs) ដោយប្រើប្រាស់បណ្ណាល័យកូដ PyTorch ឬ TensorFlow ដើម្បីយល់ពីការទាញយកលក្ខណៈពិសេសទិន្នន័យ។
ការអនុវត្តលើបញ្ហាវិភាគរូបភាព (Computer Vision Practice): សាកល្បងបង្កើតម៉ូដែល CNN ខ្នាតតូចដើម្បីសម្គាល់រូបភាពសាមញ្ញៗ (ឧទាហរណ៍ ការចំណាំផ្លាកលេខយានយន្តកម្ពុជា) ដោយប្រើប្រាស់ឧបករណ៍ OpenCV និង Keras។
ការប្រមូល និងគ្រប់គ្រងទិន្នន័យធំ (Big Data Engineering): រៀនពីរបៀបប្រមូលទិន្នន័យពីប្រភពផ្សេងៗ និងការសម្អាតទិន្នន័យដែលគ្មានរចនាសម្ព័ន្ធ ដោយប្រើប្រាស់បច្ចេកវិទ្យាដូចជា Apache Spark ឬ Pandas ដើម្បីត្រៀមបញ្ចូលទៅក្នុងម៉ូដែលរៀនស៊ីជម្រៅ។
សិក្សាពីប្រព័ន្ធគណនាស្របគ្នា (Distributed Cloud Computing): ដើម្បីដោះស្រាយបញ្ហាល្បឿន ក៏ដូចជាទំហំទិន្នន័យ និស្សិតត្រូវសិក្សាពីរបៀបដំណើរការម៉ូដែលលើម៉ាស៊ីនច្រើន (Parallel processing) តាមរយៈការប្រើប្រាស់ Hadoop ឬសេវាកម្ម Cloud ដូចជា AWS EC2 GPU Instances។
ការចូលរួមអភិវឌ្ឍម៉ូដែលភាសាខ្មែរ (Khmer NLP Projects): ផ្តើមចូលរួមគម្រោងប្រភពបើកចំហ (Open-source) ទាក់ទងនឹងការវែកញែកភាសាខ្មែរ ដោយសាកល្បងប្រើស្ថាបត្យកម្មទំនើបជំនួសឱ្យម៉ូដែលចាស់ (HMMs ឬ N-gram) ដោយរួមបញ្ចូលបណ្ណាល័យ Hugging Face Transformers។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Restricted Boltzmann Machines (RBMs)	ជាក្បួនដោះស្រាយការរៀនដោយគ្មានការត្រួតពិនិត្យ (Unsupervised learning) ដែលមានស្រទាប់តែមួយ។ វាត្រូវបានប្រើជាមូលដ្ឋានគ្រឹះសម្រាប់បង្កើតម៉ូដែលរៀនស៊ីជម្រៅ ដោយវាមិនមានការតភ្ជាប់រវាងណឺរ៉ូននៅក្នុងស្រទាប់តែមួយនោះទេ។	ដូចជាក្រុមអ្នកសង្កេតការណ៍ដែលធ្វើការដោយឯករាជ្យពីគ្នា (មិនប្រាស្រ័យទាក់ទងគ្នា) ដើម្បីចាប់យកលក្ខណៈពិសេសនៃអ្វីមួយ រួចបញ្ជូនលទ្ធផលទៅអ្នកគ្រប់គ្រងបន្ត។
Auto-Encoders (AEs)	ជាបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលព្យាយាមរៀនពីទម្រង់ទិន្នន័យដើម ហើយបង្រួមវាឱ្យតូច រួចព្យាយាមបង្កើតទិន្នន័យនោះឡើងវិញនៅផ្នែកបញ្ចេញ (Output) ដើម្បីធានាថាវាពិតជាបានរៀនពីលក្ខណៈសំខាន់ៗបំផុតរបស់ទិន្នន័យ។	ដូចជាការស្តាប់បទចម្រៀងមួយបទ រួចព្យាយាមកត់ត្រាចំណុចសង្ខេបសំខាន់ៗ ហើយយកចំណុចសង្ខេបនោះមកច្រៀងសារឡើងវិញឱ្យដូចដើម។
Deep Belief Network (DBN)	ជាម៉ូដែលរៀនស៊ីជម្រៅដែលផ្សំឡើងពីបណ្តាញ RBMs ជាច្រើនជាន់ត្រួតលើគ្នា។ វាមានសមត្ថភាពអាចទាញយកលំនាំទិន្នន័យស្មុគស្មាញដោយមិនចាំបាច់ត្រូវការទិន្នន័យដែលមានស្លាកចំណាំ (Unlabeled data)។	ដូចជាសាលារៀនដែលមានថ្នាក់ជាច្រើនកម្រិត ដែលសិស្សឆ្លងកាត់ការរៀនចំណេះដឹងពីស្រាលទៅជ្រៅ ដោយថ្នាក់នីមួយៗពឹងផ្អែកលើចំណេះដឹងពីថ្នាក់មុន។
Greedy layer-wise unsupervised pre-training	ជាដំណើរការបង្វឹកបណ្តាញសរសៃប្រសាទកម្រិតជ្រៅ ដោយបង្វឹកស្រទាប់នីមួយៗម្តងមួយៗដោយឯករាជ្យ តាមរយៈការប្រើប្រាស់លទ្ធផលពីស្រទាប់មុនជាធាតុបញ្ចូលសម្រាប់ស្រទាប់បន្ទាប់ ដោយមិនប្រើទិន្នន័យមានស្លាក (Unsupervised)។	ដូចជាការរៀនសង់ផ្ទះដោយរៀនធ្វើគ្រឹះឱ្យស្ទាត់សិន បន្ទាប់មករៀនធ្វើជញ្ជាំង រួចទើបរៀនធ្វើដំបូលម្តងមួយៗ មុននឹងផ្គុំវាបញ្ចូលគ្នា។
Data parallelism	ជាបច្ចេកទេសក្នុងការបំបែកទិន្នន័យធំៗជាចំណែកតូចៗ រួចបញ្ជូនទៅកាន់ម៉ាស៊ីនកុំព្យូទ័រជាច្រើន (CPUs ឬ GPUs) ដើម្បីដំណើរការវិភាគនិងគណនាក្នុងពេលតែមួយ ដែលជួយសន្សំសំចៃពេលវេលាយ៉ាងច្រើន។	ដូចជាការបែងចែកសៀវភៅក្រាស់មួយក្បាលទៅឱ្យសិស្ស១០នាក់អានម្នាក់មួយជំពូកក្នុងពេលតែមួយ ជាជាងឱ្យសិស្សតែម្នាក់អានតាំងពីដើមដល់ចប់។
Non-stationary Data	ជាប្រភេទនៃទិន្នន័យដែលលក្ខណៈ ឬលំនាំនៃរបាយរបស់វាមានការផ្លាស់ប្តូរជានិច្ចទៅតាមពេលវេលា ធ្វើឱ្យម៉ូដែលពិបាកទស្សន៍ទាយ ដោយសារអ្វីដែលវាធ្លាប់រៀនពីមុនអាចនឹងលែងត្រឹមត្រូវនាពេលអនាគត។	ដូចជាចំណង់ចំណូលចិត្តទិញសម្លៀកបំពាក់របស់មនុស្ស ដែលតែងតែផ្លាស់ប្តូរទៅតាមរដូវកាល និងការពេញនិយមនាពេលនោះ។
Multimodal Data	ជាការប្រមូលផ្តុំទិន្នន័យដែលបានមកពីប្រភព ឬមានទម្រង់ខុសៗគ្នាជាច្រើន ដូចជាការបញ្ចូលគ្នានៃអត្ថបទ រូបភាព និងសំឡេង ដើម្បីយកមកធ្វើការវិភាគរួមគ្នា។	ដូចជាការពិនិត្យមើលអ្នកជំងឺដោយគ្រូពេទ្យ ដែលត្រូវមើលទាំងលទ្ធផលឈាម រូបភាពអ៊ិចកាំរស្មី និងការសាកសួររោគសញ្ញាផ្ទាល់មាត់ ដើម្បីធ្វើរោគវិនិច្ឆ័យ។
Semantic gap	ក្នុងវិស័យវិភាគរូបភាព វាគឺជាគម្លាតរវាងការយល់ដឹងកម្រិតខ្ពស់របស់មនុស្ស (ឧទាហរណ៍ យល់ថានេះជារូបសត្វឆ្មា) និងការមើលឃើញកម្រិតទាបរបស់កុំព្យូទ័រ ដែលមើលឃើញត្រឹមតែជាតម្លៃលេខនៃពណ៌ (Pixels)។	ដូចជាការព្យាយាមពន្យល់ពីរសជាតិដ៏ឆ្ងាញ់នៃម្ហូបមួយមុខ ទៅកាន់មនុស្សដែលគ្រាន់តែឃើញពីបញ្ជីគ្រឿងផ្សំ ប៉ុន្តែមិនដែលញ៉ាំវាផ្ទាល់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖