បញ្ហា (The Problem)៖ ឯកសារនេះពិភាក្សាអំពីបញ្ហាប្រឈមនៃការវិភាគទិន្នន័យធំ (Big Data) ពាក់ព័ន្ធនឹងទំហំ (Volume) ភាពចម្រុះ (Variety) និងល្បឿន (Velocity) ដែលប្រព័ន្ធប្រពៃណីមិនអាចដោះស្រាយបាន និងតម្រូវការឧបករណ៍វិភាគថ្មីៗ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះធ្វើការពិនិត្យឡើងវិញ (Survey) ទៅលើស្ថាបត្យកម្មនៃការរៀនស៊ីជម្រៅ (Deep Learning) និងវាយតម្លៃការអនុវត្តរបស់វាក្នុងការដោះស្រាយបញ្ហាទិន្នន័យធំ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Deep Belief Networks (DBN) បណ្តាញជំនឿស៊ីជម្រៅ ដើម្បីទាញយកទម្រង់ទិន្នន័យ (Feature Extraction) |
អាចគ្រប់គ្រងភាពស្មុគស្មាញ និងផ្តល់ចំណុចចាប់ផ្តើមនៃការបង្វឹក (initialization) ល្អដោយមិនតម្រូវឱ្យប្រើទិន្នន័យដែលមានស្លាក (unlabeled data)។ វាមានសមត្ថភាពរៀនលក្ខណៈពិសេសកម្រិតខ្ពស់ដោយស្វ័យប្រវត្តិ។ | ត្រូវការពេលវេលាបង្វឹកយូរ ស្មុគស្មាញក្នុងការគណនា និងមានការពិបាកក្នុងការធ្វើឱ្យដំណើរការបង្វឹកស្របគ្នា (parallel processing) លើកុំព្យូទ័រច្រើន។ | ទទួលបានអត្រាកំហុសត្រឹមតែ ៦.៥% លើទិន្នន័យស្វែងយល់រូបភាព 3D (NORB dataset) ដែលល្អជាងម៉ូដែលរាក់ៗដូចជា SVM ដាច់។ |
| Deep Stacking Networks (DSN) បណ្តាញតម្រួតស៊ីជម្រៅសម្រាប់ការគណនាស្របគ្នា និងទិន្នន័យធំ |
អាចដំណើរការបង្វឹកទិន្នន័យស្របគ្នា (parallel training) លើម៉ាស៊ីនច្រើន និងមិនទាមទារឱ្យប្រើប្រាស់អង្គគណនា GPU ដើម្បីដំណើរការនោះទេ។ | ទោះបីជាលឿន និងងាយស្រួលពង្រីកទំហំ តែស្ថាបត្យកម្មនេះនៅមានកម្រិត និងចាំបាច់ត្រូវមានភាពបត់បែនបន្ថែមទៀតដើម្បីដោះស្រាយបញ្ហាទិន្នន័យដែលស្មុគស្មាញខ្លាំង។ | មានដំណើរការល្អជាងម៉ូដែល DBN លើទិន្នន័យ MNIST និង TIMIT ព្រមទាំងមានភាពងាយស្រួលក្នុងការពង្រីកទំហំ (Scalability)។ |
| Deep Convolutional Neural Networks (DCNN) បណ្តាញសរសៃប្រសាទកាឡៃស៊ីជម្រៅ សម្រាប់ការសម្គាល់រូបភាព |
មានភាពសុក្រឹតខ្ពស់បំផុតក្នុងការសម្គាល់វត្ថុពីរូបភាព និងអាចទាញយកលក្ខណៈពិសេសដោយស្វ័យប្រវត្តិតាមរយៈស្រទាប់ខូលវ៉ុលយូសិន (Convolutional layers)។ | ត្រូវការកម្លាំងម៉ាស៊ីនខ្លាំង (GPU) ដើម្បីពន្លឿនការបង្វឹក និងងាយរងការហ្វឹកហាត់លើស (Over-fitting) ប្រសិនបើមិនប្រើវិធីសាស្ត្រ dropout។ | បានឈ្នះការប្រកួត ImageNet LSVRC-2010 (ចំណាត់ថ្នាក់រូបភាព ១.២ លាន) ជាមួយនឹងអត្រាកំហុសទាបជាងម៉ូដែលល្អបំផុតកាលពីជំនាន់មុនៗយ៉ាងច្រើន។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការបង្វឹកម៉ូដែលរៀនស៊ីជម្រៅ (Deep Learning) ទាមទារធនធានកុំព្យូទ័រខ្នាតធំ និងទិន្នន័យច្រើនសន្ធឹកសន្ធាប់ លើកលែងតែម៉ូដែល DSN មួយចំនួនតូចដែលមិនសូវទាមទារកាតក្រាហ្វិក (GPU) កម្រិតខ្ពស់។
ការសិក្សា និងការវាស់ស្ទង់ម៉ូដែលភាគច្រើនត្រូវបានធ្វើឡើងលើសំណុំទិន្នន័យបរទេសស្តង់ដារ (ដូចជា ImageNet, WSJ, TIMIT) ដែលមានលក្ខណៈបរិបទលោកខាងលិច និងជាភាសាអង់គ្លេស។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យក្នុងស្រុក (Local Datasets) ដែលមានទំហំធំ ទម្រង់ចម្រុះ និងមានគុណភាពខ្ពស់ គឺជាឧបសគ្គចម្បងក្នុងការយកម៉ូដែលទាំងនេះមកប្រើប្រាស់ឱ្យមានប្រសិទ្ធភាព។
បច្ចេកវិទ្យារៀនស៊ីជម្រៅសម្រាប់ការវិភាគទិន្នន័យធំ (Big Data) គឺមានសក្តានុពលខ្លាំងក្នុងការជួយដោះស្រាយបញ្ហា និងអភិវឌ្ឍវិស័យសំខាន់ៗនៅកម្ពុជា។
ការទាញយកអត្ថប្រយោជន៍ពេញលេញពីបច្ចេកវិទ្យានេះតម្រូវឱ្យកម្ពុជាផ្តោតលើការប្រមូលទិន្នន័យក្នុងស្រុកជាមុន និងការបណ្តុះបណ្តាលអ្នកជំនាញផ្នែកវិទ្យាសាស្ត្រទិន្នន័យ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Restricted Boltzmann Machines (RBMs) | ជាក្បួនដោះស្រាយការរៀនដោយគ្មានការត្រួតពិនិត្យ (Unsupervised learning) ដែលមានស្រទាប់តែមួយ។ វាត្រូវបានប្រើជាមូលដ្ឋានគ្រឹះសម្រាប់បង្កើតម៉ូដែលរៀនស៊ីជម្រៅ ដោយវាមិនមានការតភ្ជាប់រវាងណឺរ៉ូននៅក្នុងស្រទាប់តែមួយនោះទេ។ | ដូចជាក្រុមអ្នកសង្កេតការណ៍ដែលធ្វើការដោយឯករាជ្យពីគ្នា (មិនប្រាស្រ័យទាក់ទងគ្នា) ដើម្បីចាប់យកលក្ខណៈពិសេសនៃអ្វីមួយ រួចបញ្ជូនលទ្ធផលទៅអ្នកគ្រប់គ្រងបន្ត។ |
| Auto-Encoders (AEs) | ជាបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលព្យាយាមរៀនពីទម្រង់ទិន្នន័យដើម ហើយបង្រួមវាឱ្យតូច រួចព្យាយាមបង្កើតទិន្នន័យនោះឡើងវិញនៅផ្នែកបញ្ចេញ (Output) ដើម្បីធានាថាវាពិតជាបានរៀនពីលក្ខណៈសំខាន់ៗបំផុតរបស់ទិន្នន័យ។ | ដូចជាការស្តាប់បទចម្រៀងមួយបទ រួចព្យាយាមកត់ត្រាចំណុចសង្ខេបសំខាន់ៗ ហើយយកចំណុចសង្ខេបនោះមកច្រៀងសារឡើងវិញឱ្យដូចដើម។ |
| Deep Belief Network (DBN) | ជាម៉ូដែលរៀនស៊ីជម្រៅដែលផ្សំឡើងពីបណ្តាញ RBMs ជាច្រើនជាន់ត្រួតលើគ្នា។ វាមានសមត្ថភាពអាចទាញយកលំនាំទិន្នន័យស្មុគស្មាញដោយមិនចាំបាច់ត្រូវការទិន្នន័យដែលមានស្លាកចំណាំ (Unlabeled data)។ | ដូចជាសាលារៀនដែលមានថ្នាក់ជាច្រើនកម្រិត ដែលសិស្សឆ្លងកាត់ការរៀនចំណេះដឹងពីស្រាលទៅជ្រៅ ដោយថ្នាក់នីមួយៗពឹងផ្អែកលើចំណេះដឹងពីថ្នាក់មុន។ |
| Greedy layer-wise unsupervised pre-training | ជាដំណើរការបង្វឹកបណ្តាញសរសៃប្រសាទកម្រិតជ្រៅ ដោយបង្វឹកស្រទាប់នីមួយៗម្តងមួយៗដោយឯករាជ្យ តាមរយៈការប្រើប្រាស់លទ្ធផលពីស្រទាប់មុនជាធាតុបញ្ចូលសម្រាប់ស្រទាប់បន្ទាប់ ដោយមិនប្រើទិន្នន័យមានស្លាក (Unsupervised)។ | ដូចជាការរៀនសង់ផ្ទះដោយរៀនធ្វើគ្រឹះឱ្យស្ទាត់សិន បន្ទាប់មករៀនធ្វើជញ្ជាំង រួចទើបរៀនធ្វើដំបូលម្តងមួយៗ មុននឹងផ្គុំវាបញ្ចូលគ្នា។ |
| Data parallelism | ជាបច្ចេកទេសក្នុងការបំបែកទិន្នន័យធំៗជាចំណែកតូចៗ រួចបញ្ជូនទៅកាន់ម៉ាស៊ីនកុំព្យូទ័រជាច្រើន (CPUs ឬ GPUs) ដើម្បីដំណើរការវិភាគនិងគណនាក្នុងពេលតែមួយ ដែលជួយសន្សំសំចៃពេលវេលាយ៉ាងច្រើន។ | ដូចជាការបែងចែកសៀវភៅក្រាស់មួយក្បាលទៅឱ្យសិស្ស១០នាក់អានម្នាក់មួយជំពូកក្នុងពេលតែមួយ ជាជាងឱ្យសិស្សតែម្នាក់អានតាំងពីដើមដល់ចប់។ |
| Non-stationary Data | ជាប្រភេទនៃទិន្នន័យដែលលក្ខណៈ ឬលំនាំនៃរបាយរបស់វាមានការផ្លាស់ប្តូរជានិច្ចទៅតាមពេលវេលា ធ្វើឱ្យម៉ូដែលពិបាកទស្សន៍ទាយ ដោយសារអ្វីដែលវាធ្លាប់រៀនពីមុនអាចនឹងលែងត្រឹមត្រូវនាពេលអនាគត។ | ដូចជាចំណង់ចំណូលចិត្តទិញសម្លៀកបំពាក់របស់មនុស្ស ដែលតែងតែផ្លាស់ប្តូរទៅតាមរដូវកាល និងការពេញនិយមនាពេលនោះ។ |
| Multimodal Data | ជាការប្រមូលផ្តុំទិន្នន័យដែលបានមកពីប្រភព ឬមានទម្រង់ខុសៗគ្នាជាច្រើន ដូចជាការបញ្ចូលគ្នានៃអត្ថបទ រូបភាព និងសំឡេង ដើម្បីយកមកធ្វើការវិភាគរួមគ្នា។ | ដូចជាការពិនិត្យមើលអ្នកជំងឺដោយគ្រូពេទ្យ ដែលត្រូវមើលទាំងលទ្ធផលឈាម រូបភាពអ៊ិចកាំរស្មី និងការសាកសួររោគសញ្ញាផ្ទាល់មាត់ ដើម្បីធ្វើរោគវិនិច្ឆ័យ។ |
| Semantic gap | ក្នុងវិស័យវិភាគរូបភាព វាគឺជាគម្លាតរវាងការយល់ដឹងកម្រិតខ្ពស់របស់មនុស្ស (ឧទាហរណ៍ យល់ថានេះជារូបសត្វឆ្មា) និងការមើលឃើញកម្រិតទាបរបស់កុំព្យូទ័រ ដែលមើលឃើញត្រឹមតែជាតម្លៃលេខនៃពណ៌ (Pixels)។ | ដូចជាការព្យាយាមពន្យល់ពីរសជាតិដ៏ឆ្ងាញ់នៃម្ហូបមួយមុខ ទៅកាន់មនុស្សដែលគ្រាន់តែឃើញពីបញ្ជីគ្រឿងផ្សំ ប៉ុន្តែមិនដែលញ៉ាំវាផ្ទាល់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖