បញ្ហា (The Problem)៖ កំណើនយ៉ាងឆាប់រហ័សនៃទិន្នន័យស្មុគស្មាញ និងគ្មានរចនាសម្ព័ន្ធ (Big Data) ធ្វើឱ្យប្រព័ន្ធរៀនដោយម៉ាស៊ីនបែបប្រពៃណីជួបការលំបាក ដែលទាមទារឱ្យមានវិធីសាស្ត្រគណនាដែលមានប្រសិទ្ធភាព និងអាចពង្រីកបាន។
វិធីសាស្ត្រ (The Methodology)៖ ឯកសារនេះធ្វើការពិនិត្យឡើងវិញនូវអក្សរសិល្ប៍យ៉ាងទូលំទូលាយ ដើម្បីវាយតម្លៃបច្ចេកទេសរៀនដោយម៉ាស៊ីន ឧបករណ៍គ្រប់គ្រងទិន្នន័យ និងម៉ូដែលស្ថិតិដែលតម្រូវសម្រាប់វិភាគទិន្នន័យធំ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Artificial Neural Network (ANN) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (ANN) |
មានរចនាសម្ព័ន្ធស្រដៀងនឹងខួរក្បាលមនុស្ស និងអាចរៀនពីគំរូទិន្នន័យដែលស្មុគស្មាញសម្រាប់ការចាត់ថ្នាក់ទិន្នន័យ។ | ទាមទារពេលវេលាយូរក្នុងការបណ្តុះបណ្តាលម៉ូដែល ហើយជារឿយៗផ្តល់លទ្ធផលដែលមិនសូវមានភាពជាក់លាក់ និងប្រសិទ្ធភាពបើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រផ្សេងទៀត។ | ត្រូវការកំណត់ចំនួនថ្នាំង (nodes) និងស្រទាប់កំបាំង (hidden layers) ជាមុន ប៉ុន្តែមានកម្រិតក្នុងការអនុវត្តលើទិន្នន័យធំដោយសារពេលវេលាគណនាខ្ពស់។ |
| Fuzzy Support Vector Machine (FSVM) ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រប្រភេទ Fuzzy (FSVM) |
មានសមត្ថភាពខ្ពស់ក្នុងការដោះស្រាយចំណុចទិន្នន័យដែលមានរំខាន (noise) ដែល SVM ធម្មតាមិនអាចចាត់ថ្នាក់បានយ៉ាងត្រឹមត្រូវ។ | តម្រូវឱ្យមានព័ត៌មានចំណេះដឹងជាមុន (Pre-knowledge) អំពីសំណុំទិន្នន័យ ដូចជាព័ត៌មានស្តីពីប្រូបាប៊ីលីតេជាដើម។ | ផ្តល់អត្រាភាពត្រឹមត្រូវខ្ពស់ក្នុងការចាត់ថ្នាក់ទិន្នន័យ តាមរយៈការដោះស្រាយភាពមិនច្បាស់លាស់នៃទិន្នន័យ។ |
| Rough Set Theory and Fuzzy Logic ទ្រឹស្តី Rough Set និងតក្កវិជ្ជា Fuzzy |
ជាវិធីសាស្ត្រប្រកបដោយប្រសិទ្ធភាពសម្រាប់ការទាញយកចំណេះដឹងពីទិន្នន័យធំដែលមានភាពមិនច្បាស់លាស់ មិនពេញលេញ និងគ្មានរចនាសម្ព័ន្ធ។ | ទាមទារការយល់ដឹងស៊ីជម្រៅផ្នែកគណិតវិទ្យា ហើយការគណនាអាចមានភាពស្មុគស្មាញ និងទាមទារកម្លាំងម៉ាស៊ីនខ្លាំងនៅពេលទិន្នន័យមានទំហំធំខ្លាំង (high dimensions)។ | ត្រូវបានអ្នកនិពន្ធស្នើជាទិសដៅស្រាវជ្រាវនាពេលអនាគតដ៏មានសក្តានុពលខ្ពស់សម្រាប់ Big Data Analytics។ |
| Hadoop HDFS (Distributed File System) ប្រព័ន្ធឯកសារចែកចាយ Hadoop (HDFS) |
ផ្តល់នូវភាពធន់នឹងកំហុសខ្ពស់ (fault-tolerant) និងយន្តការអាន ឬសរសេរឯកសារបានយ៉ាងលឿនដោយសារទិន្នន័យត្រូវបានរក្សាទុកក្នុង nodes ច្រើន។ | វាមិនមែនជាក្បួនដោះស្រាយសម្រាប់រៀនដោយម៉ាស៊ីនទេ ប៉ុន្តែជាប្រព័ន្ធផ្ទុកទិន្នន័យដែលទាមទារហេដ្ឋារចនាសម្ព័ន្ធបណ្តាញកុំព្យូទ័រធំៗដើម្បីដំណើរការ។ | អនុញ្ញាតឱ្យមានការបំបែកឯកសារទំហំរាប់ប៉េតាបៃ (PB) និងតេរ៉ាបៃ (TB) ទៅជាប្លុកតូចៗដើម្បីចែកចាយទូទាំងបណ្តាញកុំព្យូទ័រដោយសុវត្ថិភាព។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការវិភាគទិន្នន័យធំ (Big Data Analytics) ទាមទារនូវធនធានកុំព្យូទ័រខ្ពស់ និងហេដ្ឋារចនាសម្ព័ន្ធចែកចាយ (Distributed Infrastructure) ដើម្បីដោះស្រាយបរិមាណ ល្បឿន និងភាពចម្រុះនៃទិន្នន័យ ដែលម៉ាស៊ីនកុំព្យូទ័រធម្មតាមិនអាចធ្វើបាន។
ឯកសារនេះគឺជាការសិក្សាស្រាវជ្រាវបែបអក្សរសិល្ប៍ (Literature Review) ដែលមិនបានផ្តោតលើសំណុំទិន្នន័យប្រជាសាស្ត្រ ឬតំបន់ជាក់លាក់ណាមួយនោះទេ ប៉ុន្តែបានទាញយកទិន្នន័យគោលពីប្រភពសកលដូចជា Google, Twitter និងស្ថាប័នធំៗ។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតសំណុំទិន្នន័យក្នុងស្រុកដែលមានទំហំធំ ភាពច្បាស់លាស់ និងមានរចនាសម្ព័ន្ធល្អ អាចជាឧបសគ្គចម្បងក្នុងការបង្វឹកម៉ូដែលទាំងនេះឱ្យបានត្រឹមត្រូវ។
ទោះបីជាយ៉ាងណាក៏ដោយ បច្ចេកទេសបំប្លែង និងវិភាគទិន្នន័យដែលបានលើកឡើងក្នុងឯកសារនេះមានសារៈសំខាន់ខ្លាំងសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធអេកូឡូស៊ីឌីជីថលនៅក្នុងប្រទេសកម្ពុជា។
ការរួមបញ្ចូលប្រព័ន្ធកុំព្យូទ័រចែកចាយ និងការប្រើប្រាស់ Machine Learning លើ Big Data នឹងជួយជំរុញនវានុវត្តន៍ និងប្រសិទ្ធភាពក្នុងការធ្វើសេចក្តីសម្រេចចិត្តក្នុងស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាឱ្យកាន់តែមានភាពឆ្លាតវៃ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Hadoop HDFS | ជាប្រព័ន្ធឯកសារចែកចាយ (Distributed File System) ដែលបំបែកឯកសារទិន្នន័យធំៗជាចំណែកតូចៗ (Blocks) ហើយថតចម្លង (Replicate) ពួកវារក្សាទុកនៅលើកុំព្យូទ័រជាច្រើនផ្សេងៗគ្នាក្នុងបណ្តាញ ដើម្បីធានាបាននូវល្បឿនលឿន និងការពារការបាត់បង់ទិន្នន័យពេលមានម៉ាស៊ីនណាមួយខូចខាត។ | ដូចជាការយកសៀវភៅធំមួយក្បាលមកហែកជាទំព័រៗ រួចថតចម្លងចែកឱ្យមិត្តភក្តិច្រើននាក់រក្សាទុក ដើម្បីកុំឱ្យបាត់បង់ទិន្នន័យពេលមានអ្នកណាម្នាក់បាត់ចំណែករបស់គេ។ |
| Rough Set Theory | ជាទ្រឹស្តីគណិតវិទ្យាដែលត្រូវបានប្រើប្រាស់ក្នុងការវិភាគទិន្នន័យ ដើម្បីទាញយកព័ត៌មាននិងលំនាំ (Patterns) ពីសំណុំទិន្នន័យដែលមានភាពមិនច្បាស់លាស់ មិនពេញលេញ ឬមានភាពស្រពិចស្រពិល។ វាបង្កើតរង្វង់កំណត់ព្រំដែនប្រហាក់ប្រហែល (Approximations) ដើម្បីវិនិច្ឆ័យទិន្នន័យ។ | ដូចជាការប៉ាន់ស្មានរូបរាងរបស់វត្ថុមួយក្នុងទីងងឹត ដោយប្រើត្រឹមតែពន្លឺព្រាលៗ និងការព្យាករណ៍ប្រហាក់ប្រហែលផ្អែកលើព័ត៌មានដែលមានតិចតួច។ |
| Fuzzy SVM | គឺជាទម្រង់កែច្នៃនៃក្បួនដោះស្រាយ Support Vector Machine (SVM) ដែលត្រូវបានប្រើសម្រាប់ចាត់ថ្នាក់ទិន្នន័យ។ វាមានសមត្ថភាពខ្ពស់ក្នុងការដោះស្រាយជាមួយចំណុចទិន្នន័យដែលមានរំខាន (Noise) ឬមិនច្បាស់លាស់ ដោយការផ្តល់តម្លៃប្រូបាប៊ីលីតេ (កម្រិតនៃភាពប្រាកដ) ទៅឱ្យចំណុចទិន្នន័យនីមួយៗ ជាជាងការកាត់ក្តីដាច់អហង្ការ។ | ដូចជាគ្រូបង្រៀនដែលមិនត្រឹមតែដាក់ពិន្ទុ "ធ្លាក់" ឬ "ជាប់" ប៉ុណ្ណោះទេ តែបានវាយតម្លៃបន្ថែមលើ "ភាគរយនៃភាពត្រឹមត្រូវ" របស់សិស្សម្នាក់ៗ។ |
| Transfer learning | ជាបច្ចេកទេសរៀនដោយម៉ាស៊ីន ដែលយកចំណេះដឹង ឬលំនាំដែលម៉ូដែលបានរៀន និងបង្វឹកជោគជ័យពីកិច្ចការមួយ យកទៅអនុវត្តផ្ទាល់ដើម្បីដោះស្រាយបញ្ហាថ្មីមួយទៀតដែលស្រដៀងគ្នា ដើម្បីសន្សំសំចៃពេលវេលាបង្វឹកម៉ូដែល និងធនធានគណនា។ | ដូចជាអ្នកដែលចេះជិះកង់រួចហើយ យកជំនាញរក្សាលំនឹងនោះទៅប្រើដើម្បីរៀនជិះម៉ូតូឱ្យបានលឿនជាងអ្នកដែលមិនធ្លាប់ជិះសោះ។ |
| Kernel-based learning | ជាវិធីសាស្ត្រគណនាដែលប្រើប្រាស់អនុគមន៍ Kernel ដើម្បីបំប្លែងទិន្នន័យដែលស្មុគស្មាញ និងមិនអាចបំបែកជាលីនេអ៊ែរ (Non-linear) នៅក្នុងវិមាត្រទាប ឱ្យទៅជាលំហវិមាត្រខ្ពស់ជាងមុន (High-dimensional space) ដើម្បីងាយស្រួលក្នុងការគូសបន្ទាត់ចាត់ថ្នាក់ទិន្នន័យទាំងនោះ។ | ដូចជាការបោះគ្រាប់ឃ្លីពីរពណ៌ដែលលាយឡំគ្នានៅលើតុរាបស្មើ ទៅលើអាកាស ដើម្បីងាយស្រួលយកបន្ទះក្តារទៅខណ្ឌចែកពណ៌របស់វាពេលវាកំពុងអណ្តែត។ |
| Dimensionality reduction | ដំណើរការកាត់បន្ថយចំនួនអថេរ ឬលក្ខណៈ (Features) ជាច្រើនសន្ធឹកសន្ធាប់នៅក្នុងទិន្នន័យធំ (Big Data) ឱ្យនៅសល់តែលក្ខណៈទិន្នន័យស្នូលដែលសំខាន់ៗបំផុត ដើម្បីកាត់បន្ថយភាពស្មុគស្មាញ និងបង្កើនល្បឿនក្នុងការវិភាគ ឬរៀនដោយម៉ាស៊ីន។ | ដូចជាការសង្ខេបសៀវភៅ ៥០០ ទំព័រ ឱ្យនៅសល់ត្រឹម ៥ ទំព័រ ដោយរក្សាទុកតែអត្ថន័យស្នូលសំខាន់ៗបំផុតសម្រាប់ការយល់ដឹង។ |
| Parallel & Distributed learning | ជាការបំបែកកិច្ចការគណនាដ៏ធំមួយទៅជាកិច្ចការតូចៗ (Clusters) ហើយដំណើរការវាព្រមៗគ្នា (Parallel) នៅលើកុំព្យូទ័រច្រើន (Distributed) ដើម្បីរៀនពីទិន្នន័យធំៗក្នុងពេលតែមួយ ដែលជួយកាត់បន្ថយពេលវេលាដំណើរការទិន្នន័យបានយ៉ាងច្រើន។ | ដូចជាការបែងចែកឯកសារមួយពាន់ទំព័រទៅឱ្យមនុស្សដប់នាក់អានក្នុងពេលតែមួយ (ម្នាក់អាន ១០០ទំព័រ) នោះការអាននឹងចប់លឿនជាងការឱ្យមនុស្សម្នាក់អានទាំងស្រុង។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖