Original Title: Machine Learning and Statistical Approaches for Big Data: Issues, Challenges and Research Directions
Source: www.ripublication.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្ររៀនដោយម៉ាស៊ីន និងស្ថិតិសម្រាប់ទិន្នន័យធំ៖ បញ្ហា បញ្ហាប្រឈម និងទិសដៅស្រាវជ្រាវ

ចំណងជើងដើម៖ Machine Learning and Statistical Approaches for Big Data: Issues, Challenges and Research Directions

អ្នកនិពន្ធ៖ D. Saidulu (Guru Nanak Institutions Technical Campus), Dr. R. Sasikala (Vellore Institute of Technology)

ឆ្នាំបោះពុម្ព៖ 2017, International Journal of Applied Engineering Research

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ កំណើនយ៉ាងឆាប់រហ័សនៃទិន្នន័យស្មុគស្មាញ និងគ្មានរចនាសម្ព័ន្ធ (Big Data) ធ្វើឱ្យប្រព័ន្ធរៀនដោយម៉ាស៊ីនបែបប្រពៃណីជួបការលំបាក ដែលទាមទារឱ្យមានវិធីសាស្ត្រគណនាដែលមានប្រសិទ្ធភាព និងអាចពង្រីកបាន។

វិធីសាស្ត្រ (The Methodology)៖ ឯកសារនេះធ្វើការពិនិត្យឡើងវិញនូវអក្សរសិល្ប៍យ៉ាងទូលំទូលាយ ដើម្បីវាយតម្លៃបច្ចេកទេសរៀនដោយម៉ាស៊ីន ឧបករណ៍គ្រប់គ្រងទិន្នន័យ និងម៉ូដែលស្ថិតិដែលតម្រូវសម្រាប់វិភាគទិន្នន័យធំ។

ការវាយតម្លៃវិធីសាស្ត្ររៀន (Learning Methods Assessment) ដូចជា Deep Learning, Transfer Learning និិង Distributed Learning
ការពិនិត្យឧបករណ៍គ្រប់គ្រងទិន្នន័យ (Data Management Tools Review) ដូចជា Hadoop HDFS, Splunk និង Skytree
ការវិភាគម៉ូដែលស្ថិតិ និងគណិតវិទ្យា (Statistical and Mathematical Models) រួមមាន Support Vector Regression និង Bayesian Classifiers

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្ររៀនដោយម៉ាស៊ីនបែបប្រពៃណីមិនមានភាពជាក់ស្តែង ឬមិនអាចពង្រីកបានគ្រប់គ្រាន់ដើម្បីគ្រប់គ្រងទិន្នន័យដែលមានទំហំធំ កម្រិតល្បឿនលឿន និងភាពមិនច្បាស់លាស់នោះទេ។
ប្រព័ន្ធកុំព្យូទ័រចែកចាយ (Distributed computing) ដូចជា Hadoop HDFS ផ្តល់នូវដំណោះស្រាយដ៏រឹងមាំ និងធន់នឹងកំហុសសម្រាប់ការរក្សាទុក និងដំណើរការទិន្នន័យក្នុងទំហំរាប់ប៉េតាបៃ (PB) ។
ទ្រឹស្តី Rough Set និិងតក្កវិជ្ជា Fuzzy (Fuzzy Logic) ត្រូវបានរកឃើញថាជាបច្ចេកទេសដ៏មានសក្តានុពល និងមានប្រសិទ្ធភាពក្នុងការវិភាគទិន្នន័យធំដែលមានភាពមិនពេញលេញ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Artificial Neural Network (ANN) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (ANN)	មានរចនាសម្ព័ន្ធស្រដៀងនឹងខួរក្បាលមនុស្ស និងអាចរៀនពីគំរូទិន្នន័យដែលស្មុគស្មាញសម្រាប់ការចាត់ថ្នាក់ទិន្នន័យ។	ទាមទារពេលវេលាយូរក្នុងការបណ្តុះបណ្តាលម៉ូដែល ហើយជារឿយៗផ្តល់លទ្ធផលដែលមិនសូវមានភាពជាក់លាក់ និងប្រសិទ្ធភាពបើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រផ្សេងទៀត។	ត្រូវការកំណត់ចំនួនថ្នាំង (nodes) និងស្រទាប់កំបាំង (hidden layers) ជាមុន ប៉ុន្តែមានកម្រិតក្នុងការអនុវត្តលើទិន្នន័យធំដោយសារពេលវេលាគណនាខ្ពស់។
Fuzzy Support Vector Machine (FSVM) ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រប្រភេទ Fuzzy (FSVM)	មានសមត្ថភាពខ្ពស់ក្នុងការដោះស្រាយចំណុចទិន្នន័យដែលមានរំខាន (noise) ដែល SVM ធម្មតាមិនអាចចាត់ថ្នាក់បានយ៉ាងត្រឹមត្រូវ។	តម្រូវឱ្យមានព័ត៌មានចំណេះដឹងជាមុន (Pre-knowledge) អំពីសំណុំទិន្នន័យ ដូចជាព័ត៌មានស្តីពីប្រូបាប៊ីលីតេជាដើម។	ផ្តល់អត្រាភាពត្រឹមត្រូវខ្ពស់ក្នុងការចាត់ថ្នាក់ទិន្នន័យ តាមរយៈការដោះស្រាយភាពមិនច្បាស់លាស់នៃទិន្នន័យ។
Rough Set Theory and Fuzzy Logic ទ្រឹស្តី Rough Set និងតក្កវិជ្ជា Fuzzy	ជាវិធីសាស្ត្រប្រកបដោយប្រសិទ្ធភាពសម្រាប់ការទាញយកចំណេះដឹងពីទិន្នន័យធំដែលមានភាពមិនច្បាស់លាស់ មិនពេញលេញ និងគ្មានរចនាសម្ព័ន្ធ។	ទាមទារការយល់ដឹងស៊ីជម្រៅផ្នែកគណិតវិទ្យា ហើយការគណនាអាចមានភាពស្មុគស្មាញ និងទាមទារកម្លាំងម៉ាស៊ីនខ្លាំងនៅពេលទិន្នន័យមានទំហំធំខ្លាំង (high dimensions)។	ត្រូវបានអ្នកនិពន្ធស្នើជាទិសដៅស្រាវជ្រាវនាពេលអនាគតដ៏មានសក្តានុពលខ្ពស់សម្រាប់ Big Data Analytics។
Hadoop HDFS (Distributed File System) ប្រព័ន្ធឯកសារចែកចាយ Hadoop (HDFS)	ផ្តល់នូវភាពធន់នឹងកំហុសខ្ពស់ (fault-tolerant) និងយន្តការអាន ឬសរសេរឯកសារបានយ៉ាងលឿនដោយសារទិន្នន័យត្រូវបានរក្សាទុកក្នុង nodes ច្រើន។	វាមិនមែនជាក្បួនដោះស្រាយសម្រាប់រៀនដោយម៉ាស៊ីនទេ ប៉ុន្តែជាប្រព័ន្ធផ្ទុកទិន្នន័យដែលទាមទារហេដ្ឋារចនាសម្ព័ន្ធបណ្តាញកុំព្យូទ័រធំៗដើម្បីដំណើរការ។	អនុញ្ញាតឱ្យមានការបំបែកឯកសារទំហំរាប់ប៉េតាបៃ (PB) និងតេរ៉ាបៃ (TB) ទៅជាប្លុកតូចៗដើម្បីចែកចាយទូទាំងបណ្តាញកុំព្យូទ័រដោយសុវត្ថិភាព។

ការចំណាយលើធនធាន (Resource Cost)៖ ការវិភាគទិន្នន័យធំ (Big Data Analytics) ទាមទារនូវធនធានកុំព្យូទ័រខ្ពស់ និងហេដ្ឋារចនាសម្ព័ន្ធចែកចាយ (Distributed Infrastructure) ដើម្បីដោះស្រាយបរិមាណ ល្បឿន និងភាពចម្រុះនៃទិន្នន័យ ដែលម៉ាស៊ីនកុំព្យូទ័រធម្មតាមិនអាចធ្វើបាន។

Hardware: ត្រូវការម៉ាស៊ីនមេដែលមានសមត្ថភាពខ្ពស់ (High-performance servers) ឬប្រព័ន្ធ Cloud computing ដើម្បីដំណើរការទិន្នន័យទំហំ PB និង TB និងសម្រាប់គាំទ្រការគណនាពហុខ្សែ (multi-threading)។
Software: ត្រូវការប្រព័ន្ធគ្រប់គ្រងទិន្នន័យធំ និងឧបករណ៍វិភាគដូចជា Hadoop, Splunk, Skytree, ឬ Pentaho Business Analytics ដើម្បីសម្របសម្រួលទិន្នន័យ។
Expertise: ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងផ្នែកកុំព្យូទ័រចែកចាយ (Distributed computing), ស្ថិតិអនុវត្ត, និងទ្រឹស្តីគណិតវិទ្យា (ឧ. Rough Set Theory) ដើម្បីបង្កើតម៉ូដែលដែលមានប្រសិទ្ធភាព។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ឯកសារនេះគឺជាការសិក្សាស្រាវជ្រាវបែបអក្សរសិល្ប៍ (Literature Review) ដែលមិនបានផ្តោតលើសំណុំទិន្នន័យប្រជាសាស្ត្រ ឬតំបន់ជាក់លាក់ណាមួយនោះទេ ប៉ុន្តែបានទាញយកទិន្នន័យគោលពីប្រភពសកលដូចជា Google, Twitter និងស្ថាប័នធំៗ។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតសំណុំទិន្នន័យក្នុងស្រុកដែលមានទំហំធំ ភាពច្បាស់លាស់ និងមានរចនាសម្ព័ន្ធល្អ អាចជាឧបសគ្គចម្បងក្នុងការបង្វឹកម៉ូដែលទាំងនេះឱ្យបានត្រឹមត្រូវ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាយ៉ាងណាក៏ដោយ បច្ចេកទេសបំប្លែង និងវិភាគទិន្នន័យដែលបានលើកឡើងក្នុងឯកសារនេះមានសារៈសំខាន់ខ្លាំងសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធអេកូឡូស៊ីឌីជីថលនៅក្នុងប្រទេសកម្ពុជា។

វិស័យសុខាភិបាល (Healthcare Sector): អាចប្រើប្រាស់ក្បួនដោះស្រាយ Big Data ដើម្បីវិភាគទិន្នន័យអ្នកជំងឺពីមន្ទីរពេទ្យថ្នាក់ជាតិ (ឧ. មន្ទីរពេទ្យកាល់ម៉ែត) ដើម្បីទស្សន៍ទាយនិន្នាការនៃជំងឺឆ្លង ឬរៀបចំផែនការធនធានសុខាភិបាលឱ្យកាន់តែប្រសើរ។
វិស័យហិរញ្ញវត្ថុ និងធនាគារ (Banking and Finance): ធនាគារក្នុងស្រុក (ឧ. ACLEDA, ABA) អាចប្រើប្រាស់ម៉ាស៊ីនរៀនដើម្បីត្រួតពិនិត្យប្រតិបត្តិការហិរញ្ញវត្ថុក្នុងទំហំធំ និងស្វែងរកការក្លែងបន្លំ (Fraud Detection) ក្នុងល្បឿនលឿន និងទាន់ពេលវេលា (Real-time)។
អភិបាលកិច្ច និងទីក្រុងឆ្លាតវៃ (Smart Cities in Phnom Penh): រដ្ឋាភិបាលអាចប្រើប្រាស់ឧបករណ៍វិភាគទិន្នន័យធំដើម្បីគ្រប់គ្រងចរាចរណ៍នៅក្នុងរាជធានីភ្នំពេញ ឬតាមដានទិន្នន័យបរិស្ថានពីរ៉ាដាអាកាសធាតុដើម្បីព្យាករណ៍ពីគ្រោះធម្មជាតិ។

ការរួមបញ្ចូលប្រព័ន្ធកុំព្យូទ័រចែកចាយ និងការប្រើប្រាស់ Machine Learning លើ Big Data នឹងជួយជំរុញនវានុវត្តន៍ និងប្រសិទ្ធភាពក្នុងការធ្វើសេចក្តីសម្រេចចិត្តក្នុងស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាឱ្យកាន់តែមានភាពឆ្លាតវៃ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

កសាងចំណេះដឹងមូលដ្ឋានផ្នែកទិន្នន័យធំ (Big Data Foundations): និស្សិតគួរចាប់ផ្តើមសិក្សាពីស្ថាបត្យកម្មកុំព្យូទ័រចែកចាយ (Distributed computing) ដោយអនុវត្តការដំឡើង និងប្រើប្រាស់ Apache Hadoop និង HDFS សម្រាប់ការផ្ទុកទិន្នន័យក្នុងកម្រិតមូលដ្ឋាន។
សិក្សាពីក្បួនដោះស្រាយម៉ាស៊ីនរៀនកម្រិតខ្ពស់ (Advanced ML Models): ស្វែងយល់ និងសាកល្បងសរសេរកូដសម្រាប់ម៉ូដែល Support Vector Regression (SVR) និង Artificial Neural Networks ដោយប្រើប្រាស់សំណុំទិន្នន័យសាកល្បងពី UCI ML-Repository ដើម្បីយល់ពីឥទ្ធិពលនៃប៉ារ៉ាម៉ែត្រផ្សេងៗ។
ការប្រើប្រាស់ឧបករណ៍វិភាគពាណិជ្ជកម្ម (Mastering BI Tools): សាកល្បងប្រើប្រាស់កម្មវិធីវិភាគ និងរៀបចំទិន្នន័យដូចជា Pentaho Business Analytics, Splunk, ឬ Tableau ដើម្បីបង្កើតរបាយការណ៍ និងការមើលឃើញទិន្នន័យ (Data Visualization) ពីប្រភពទិន្នន័យចម្រុះ។
ស្រាវជ្រាវលើទ្រឹស្តីកម្រិតខ្ពស់សម្រាប់ទិន្នន័យកម្ពុជា: ផ្តោតការស្រាវជ្រាវលើការប្រើប្រាស់ Rough Set Theory និង Fuzzy Logic ដើម្បីដោះស្រាយបញ្ហាទិន្នន័យដែលបាត់បង់ ឬមិនច្បាស់លាស់ ដែលជាបញ្ហាញឹកញាប់កើតមាននៅក្នុងសំណុំទិន្នន័យពិតក្នុងប្រទេសកម្ពុជា។
អនុវត្តក្នុងគម្រោងស្រាវជ្រាវពិតប្រាកដ (Real-world Implementation): សហការជាមួយសាកលវិទ្យាល័យ ឬក្រុមហ៊ុនបច្ចេកវិទ្យាក្នុងស្រុកដើម្បីប្រមូលទិន្នន័យធំ (ឧ. ទិន្នន័យបណ្តាញសង្គម) រួចដំណើរការការវិភាគដោយប្រើ Skytree Server ឬ Cloud-based Machine Learning។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Hadoop HDFS	ជាប្រព័ន្ធឯកសារចែកចាយ (Distributed File System) ដែលបំបែកឯកសារទិន្នន័យធំៗជាចំណែកតូចៗ (Blocks) ហើយថតចម្លង (Replicate) ពួកវារក្សាទុកនៅលើកុំព្យូទ័រជាច្រើនផ្សេងៗគ្នាក្នុងបណ្តាញ ដើម្បីធានាបាននូវល្បឿនលឿន និងការពារការបាត់បង់ទិន្នន័យពេលមានម៉ាស៊ីនណាមួយខូចខាត។	ដូចជាការយកសៀវភៅធំមួយក្បាលមកហែកជាទំព័រៗ រួចថតចម្លងចែកឱ្យមិត្តភក្តិច្រើននាក់រក្សាទុក ដើម្បីកុំឱ្យបាត់បង់ទិន្នន័យពេលមានអ្នកណាម្នាក់បាត់ចំណែករបស់គេ។
Rough Set Theory	ជាទ្រឹស្តីគណិតវិទ្យាដែលត្រូវបានប្រើប្រាស់ក្នុងការវិភាគទិន្នន័យ ដើម្បីទាញយកព័ត៌មាននិងលំនាំ (Patterns) ពីសំណុំទិន្នន័យដែលមានភាពមិនច្បាស់លាស់ មិនពេញលេញ ឬមានភាពស្រពិចស្រពិល។ វាបង្កើតរង្វង់កំណត់ព្រំដែនប្រហាក់ប្រហែល (Approximations) ដើម្បីវិនិច្ឆ័យទិន្នន័យ។	ដូចជាការប៉ាន់ស្មានរូបរាងរបស់វត្ថុមួយក្នុងទីងងឹត ដោយប្រើត្រឹមតែពន្លឺព្រាលៗ និងការព្យាករណ៍ប្រហាក់ប្រហែលផ្អែកលើព័ត៌មានដែលមានតិចតួច។
Fuzzy SVM	គឺជាទម្រង់កែច្នៃនៃក្បួនដោះស្រាយ Support Vector Machine (SVM) ដែលត្រូវបានប្រើសម្រាប់ចាត់ថ្នាក់ទិន្នន័យ។ វាមានសមត្ថភាពខ្ពស់ក្នុងការដោះស្រាយជាមួយចំណុចទិន្នន័យដែលមានរំខាន (Noise) ឬមិនច្បាស់លាស់ ដោយការផ្តល់តម្លៃប្រូបាប៊ីលីតេ (កម្រិតនៃភាពប្រាកដ) ទៅឱ្យចំណុចទិន្នន័យនីមួយៗ ជាជាងការកាត់ក្តីដាច់អហង្ការ។	ដូចជាគ្រូបង្រៀនដែលមិនត្រឹមតែដាក់ពិន្ទុ "ធ្លាក់" ឬ "ជាប់" ប៉ុណ្ណោះទេ តែបានវាយតម្លៃបន្ថែមលើ "ភាគរយនៃភាពត្រឹមត្រូវ" របស់សិស្សម្នាក់ៗ។
Transfer learning	ជាបច្ចេកទេសរៀនដោយម៉ាស៊ីន ដែលយកចំណេះដឹង ឬលំនាំដែលម៉ូដែលបានរៀន និងបង្វឹកជោគជ័យពីកិច្ចការមួយ យកទៅអនុវត្តផ្ទាល់ដើម្បីដោះស្រាយបញ្ហាថ្មីមួយទៀតដែលស្រដៀងគ្នា ដើម្បីសន្សំសំចៃពេលវេលាបង្វឹកម៉ូដែល និងធនធានគណនា។	ដូចជាអ្នកដែលចេះជិះកង់រួចហើយ យកជំនាញរក្សាលំនឹងនោះទៅប្រើដើម្បីរៀនជិះម៉ូតូឱ្យបានលឿនជាងអ្នកដែលមិនធ្លាប់ជិះសោះ។
Kernel-based learning	ជាវិធីសាស្ត្រគណនាដែលប្រើប្រាស់អនុគមន៍ Kernel ដើម្បីបំប្លែងទិន្នន័យដែលស្មុគស្មាញ និងមិនអាចបំបែកជាលីនេអ៊ែរ (Non-linear) នៅក្នុងវិមាត្រទាប ឱ្យទៅជាលំហវិមាត្រខ្ពស់ជាងមុន (High-dimensional space) ដើម្បីងាយស្រួលក្នុងការគូសបន្ទាត់ចាត់ថ្នាក់ទិន្នន័យទាំងនោះ។	ដូចជាការបោះគ្រាប់ឃ្លីពីរពណ៌ដែលលាយឡំគ្នានៅលើតុរាបស្មើ ទៅលើអាកាស ដើម្បីងាយស្រួលយកបន្ទះក្តារទៅខណ្ឌចែកពណ៌របស់វាពេលវាកំពុងអណ្តែត។
Dimensionality reduction	ដំណើរការកាត់បន្ថយចំនួនអថេរ ឬលក្ខណៈ (Features) ជាច្រើនសន្ធឹកសន្ធាប់នៅក្នុងទិន្នន័យធំ (Big Data) ឱ្យនៅសល់តែលក្ខណៈទិន្នន័យស្នូលដែលសំខាន់ៗបំផុត ដើម្បីកាត់បន្ថយភាពស្មុគស្មាញ និងបង្កើនល្បឿនក្នុងការវិភាគ ឬរៀនដោយម៉ាស៊ីន។	ដូចជាការសង្ខេបសៀវភៅ ៥០០ ទំព័រ ឱ្យនៅសល់ត្រឹម ៥ ទំព័រ ដោយរក្សាទុកតែអត្ថន័យស្នូលសំខាន់ៗបំផុតសម្រាប់ការយល់ដឹង។
Parallel & Distributed learning	ជាការបំបែកកិច្ចការគណនាដ៏ធំមួយទៅជាកិច្ចការតូចៗ (Clusters) ហើយដំណើរការវាព្រមៗគ្នា (Parallel) នៅលើកុំព្យូទ័រច្រើន (Distributed) ដើម្បីរៀនពីទិន្នន័យធំៗក្នុងពេលតែមួយ ដែលជួយកាត់បន្ថយពេលវេលាដំណើរការទិន្នន័យបានយ៉ាងច្រើន។	ដូចជាការបែងចែកឯកសារមួយពាន់ទំព័រទៅឱ្យមនុស្សដប់នាក់អានក្នុងពេលតែមួយ (ម្នាក់អាន ១០០ទំព័រ) នោះការអាននឹងចប់លឿនជាងការឱ្យមនុស្សម្នាក់អានទាំងស្រុង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖