បញ្ហា (The Problem)៖ ឯកសារនេះធ្វើការស្ទង់មតិ និងប្រៀបធៀបបណ្តាក្បួនដោះស្រាយការរៀនម៉ាស៊ីនដោយគ្មានការត្រួតពិនិត្យ (Unsupervised Machine Learning) ដើម្បីកំណត់ពីប្រសិទ្ធភាពរបស់វាក្នុងការដោះស្រាយទិន្នន័យធំៗដែលគ្មានស្លាកចំណាំ (Unlabeled data) សម្រាប់ការធ្វើស្វ័យប្រវត្តិកម្ម និងការចាត់ថ្នាក់។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានធ្វើការត្រួតពិនិត្យលើអត្ថបទស្រាវជ្រាវនានា និងធ្វើការវិភាគប្រៀបធៀបបច្ចេកទេសចំនួន ១២ ដោយផ្អែកលើប៉ារ៉ាម៉ែត្រវាយតម្លៃចំនួន ១៦ ផ្សេងៗគ្នា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Deep Belief Networks (DBNs) & Sparse Coding បណ្តាញជឿជាក់ជ្រៅ និងការសរសេរកូដស្តើងដោយប្រើ GPU |
ផ្តល់ល្បឿនលឿនជាង CPU ដល់ទៅ ៧០ដង សម្រាប់ម៉ូដែលធំៗ។ មានប្រសិទ្ធភាពខ្ពស់ក្នុងការទាញយកលក្ខណៈពិសេសពីទិន្នន័យគ្មានស្លាកដ៏ច្រើនសន្ធឹកសន្ធាប់។ | ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ខ្លាំង (GPU) និងមានរចនាសម្ព័ន្ធស្មុគស្មាញក្នុងការរៀបចំ។ | ក្បួនដោះស្រាយស្របគ្នា (Parallel algorithm) ផ្តល់ល្បឿនលឿនជាងវិធីសាស្ត្រមុនៗពី ៥ ទៅ ១៥ដង ក្នុងការសរសេរកូដស្តើង (Sparse coding)។ |
| K-Means Clustering ការប្រមូលផ្តុំទិន្នន័យ K-Means |
ជាក្បួនដោះស្រាយសាមញ្ញ និងពេញនិយមបំផុតសម្រាប់ការចង្កោមទិន្នន័យ។ ងាយស្រួលក្នុងការអនុវត្តសម្រាប់បញ្ហាទូទៅ។ | អាចខ្វះភាពបត់បែននៅពេលជួបប្រទះទិន្នន័យដែលមានអថេរបន្តបន្ទាប់ (Continuous variables) បើប្រៀបធៀបទៅនឹងម៉ូដែល Latent Class។ | ត្រូវបានប្រើជាស្តង់ដារគោល (Gold standard) សម្រាប់ការវាយតម្លៃ និងប្រៀបធៀបបច្ចេកទេសចង្កោមទំនើបៗផ្សេងទៀត។ |
| Probabilistic Latent Semantic Analysis (PLSA) ការវិភាគអត្ថន័យកំបាំងតាមបែបប្រូបាប៊ីលីតេ (PLSA) |
ជាវិធីសាស្ត្រដ៏រឹងមាំផ្អែកលើស្ថិតិ ដែលស័ក្តិសមបំផុតសម្រាប់ដំណើរការភាសាធម្មជាតិ (NLP) និងការទាញយកព័ត៌មានពីអត្ថបទ។ | អាចមានបញ្ហាប្រឈមទាក់ទងនឹងភាពស្មុគស្មាញ និងទាមទារការបង្កើនប្រសិទ្ធភាពសីតុណ្ហភាព (Controlled version regarding temperature) ដើម្បីតម្រូវម៉ូដែល។ | ផ្តល់លទ្ធផលល្អប្រសើរ និងជាក់ស្តែងសម្រាប់ការទាញយកព័ត៌មាន និងការរៀនម៉ាស៊ីនពីសំណុំអត្ថបទដោយគ្មានស្លាក។ |
| Locally Linear Embedding (LLE) ក្បួនដោះស្រាយ LLE សម្រាប់ការកាត់បន្ថយវិមាត្រ |
ដោះស្រាយបញ្ហាស្មុគស្មាញ និងមានអាកប្បកិរិយាមិនលីនេអ៊ែរ (Non-linear) ខ្ពស់ ដោយមិនតម្រូវឱ្យមានទិន្នន័យមានស្លាក ឬការសន្មត់តឹងរ៉ឹង។ | អាចមិនមានភាពស័ក្តិសម ឬមានភាពសាំញ៉ាំលើសលប់ សម្រាប់សំណុំទិន្នន័យតូចៗដែលមានរចនាសម្ព័ន្ធសាមញ្ញ។ | ជួយសម្រួល និងបង្កើនល្បឿនបច្ចេកទេសរៀនម៉ាស៊ីនផ្សេងទៀត ដែលដំណើរការក្នុងលំហវិមាត្រខ្ពស់ (High-dimensional spaces)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីភាពចាំបាច់នៃធនធានកុំព្យូទ័រ និងទិន្នន័យក្នុងទ្រង់ទ្រាយធំ ដើម្បីដំណើរការក្បួនដោះស្រាយទាំងនេះ ជាពិសេសក្នុងការប្រើប្រាស់បច្ចេកទេសរៀនជ្រៅ។
ការសិក្សានេះគឺជាការស្ទង់មតិទូទៅ ដែលផ្អែកលើទ្រឹស្តី និងសំណុំទិន្នន័យស្តង់ដារអន្តរជាតិ (ដូចជារូបភាពមុខមនុស្ស ឬអត្ថបទភាសាអង់គ្លេសទូទៅ)។ វាមិនបានបញ្ចូលទិន្នន័យប្រជាសាស្ត្រ សង្គមវិទ្យា ឬភាសាដែលមានលក្ខណៈពិសេសរបស់ប្រទេសកម្ពុជានោះទេ ដែលនេះទាមទារឱ្យអ្នកស្រាវជ្រាវខ្មែរត្រូវមានការប្រមូលទិន្នន័យក្នុងស្រុកដោយខ្លួនឯងដើម្បីធានាភាពត្រឹមត្រូវនៅពេលអនុវត្តជាក់ស្តែង។
ទោះបីជាខ្វះទិន្នន័យក្នុងស្រុកក៏ដោយ ក៏បច្ចេកទេសរៀនដោយគ្មានការត្រួតពិនិត្យ (Unsupervised Learning) ទាំងនេះមានសក្តានុពលខ្ពស់ខ្លាំងសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធបច្ចេកវិទ្យានៅកម្ពុជា ជាពិសេសដោយសារយើងជាប្រទេសដែលកំពុងខ្វះខាតទិន្នន័យមានស្លាក (Labeled Data) សម្រាប់ហ្វឹកហាត់ម៉ាស៊ីន។
ជារួម ការយល់ដឹង និងការកែច្នៃក្បួនដោះស្រាយទាំងនេះ នឹងជួយស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាក្នុងការទាញយកតម្លៃពីទិន្នន័យឆៅដ៏ច្រើនសន្ធឹកសន្ធាប់ ដើម្បីផ្លាស់ប្តូរទៅកាន់ប្រព័ន្ធស្វ័យប្រវត្តិកម្មឆ្លាតវៃ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Unsupervised Learning | ជាទម្រង់មួយនៃការរៀនម៉ាស៊ីនដែលកុំព្យូទ័រព្យាយាមស្វែងរកលំនាំ ឬរចនាសម្ព័ន្ធនៅក្នុងទិន្នន័យដោយខ្លួនឯង ដោយមិនមានការប្រាប់ជាមុនថាទិន្នន័យនោះជាអ្វី (គ្មានស្លាកចំណាំ ឬ Unlabeled Data)។ | ដូចជាការឱ្យក្មេងម្នាក់ចាត់ថ្នាក់ប្រដាប់ក្មេងលេងទៅតាមពណ៌ ឬរូបរាងដោយខ្លួនឯង ដោយគ្មាននរណាម្នាក់ប្រាប់ថាមួយណាជាឡាន មួយណាជាតុក្កតា។ |
| Deep Belief Networks (DBNs) | ជាបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលមានស្រទាប់ច្រើន (Deep Learning) ដែលប្រើសម្រាប់រៀនទាញយកលក្ខណៈពិសេសពីទិន្នន័យស្មុគស្មាញដោយគ្មានការត្រួតពិនិត្យ វាជួយកសាងម៉ូដែលដែលមានប៉ារ៉ាម៉ែត្ររាប់លាន។ | ដូចជាក្រុមអ្នកស៊ើបអង្កេតដែលធ្វើការតៗគ្នាពីថ្នាក់ក្រោមដល់ថ្នាក់លើ ដើម្បីផ្គុំភស្តុតាងតូចៗឱ្យក្លាយជារូបភាពធំមួយ។ |
| K-means | ជាក្បួនដោះស្រាយដ៏សាមញ្ញ និងពេញនិយមបំផុតសម្រាប់ការប្រមូលផ្តុំទិន្នន័យ (Clustering) ដោយបែងចែកទិន្នន័យទៅជាក្រុមចំនួន K ផ្សេងៗគ្នា ផ្អែកលើភាពស្រដៀងគ្នារបស់វា។ | ដូចជាការបែងចែកសិស្សក្នុងថ្នាក់ទៅជា ៥ ក្រុមដោយស្វ័យប្រវត្តិ ផ្អែកលើពិន្ទុដែលពួកគេទទួលបានប្រហាក់ប្រហែលគ្នា។ |
| Sparse coding | ជាបច្ចេកទេសរៀនដោយគ្មានការត្រួតពិនិត្យដែលព្យាយាមស្វែងរកតំណាងទិន្នន័យដោយប្រើប្រាស់ធាតុផ្សំតិចតួចបំផុត (sparse) ដើម្បីពិពណ៌នាទិន្នន័យនោះ ដែលជួយក្នុងការកាត់បន្ថយទំហំទិន្នន័យ តែនៅរក្សាលក្ខណៈសំខាន់ៗបាន។ | ដូចជាការសរសេរសេចក្តីសង្ខេបនៃសៀវភៅមួយក្បាលធំ ដោយប្រើតែពាក្យគន្លឹះសំខាន់ៗមួយចំនួនប៉ុណ្ណោះ ប៉ុន្តែនៅតែអាចឱ្យគេយល់អត្ថន័យទាំងមូល។ |
| Probabilistic Latent Semantic Analysis | ជាបច្ចេកទេសស្ថិតិដែលប្រើដើម្បីវិភាគអត្ថបទ ឬទិន្នន័យ ដោយស្វែងរកប្រធានបទកំបាំង (hidden topics) ដែលមាននៅក្នុងឯកសារទាំងនោះ ផ្អែកលើប្រូបាប៊ីលីតេនៃពាក្យដែលតែងតែលេចឡើងជាមួយគ្នា។ | ដូចជាការអានអត្ថបទកាសែតមួយរយច្បាប់ ហើយទាយដឹងថាអត្ថបទទាំងនោះកំពុងនិយាយពី 'កីឡា' ឬ 'នយោបាយ' ដោយគ្រាន់តែសង្កេតមើលពាក្យដែលគេប្រើញឹកញាប់រួមគ្នា។ |
| Locally Linear Embedding | ជាក្បួនដោះស្រាយសម្រាប់កាត់បន្ថយវិមាត្រទិន្នន័យ (Dimensionality reduction) ដោយរក្សារចនាសម្ព័ន្ធធរណីមាត្រនៃទិន្នន័យដែលនៅក្បែរៗគ្នា ជួយឱ្យកុំព្យូទ័រអាចមើលឃើញទិន្នន័យស្មុគស្មាញក្នុងទម្រង់សាមញ្ញជាងមុន (nonlinear manifold learning)។ | ដូចជាការលាតផែនទីពិភពលោកដែលមូល (3D) ឱ្យទៅជាផ្ទាំងក្រដាសរាបស្មើ (2D) ដោយព្យាយាមរក្សាទម្រង់ទ្វីបនីមួយៗកុំឱ្យខូចទ្រង់ទ្រាយ។ |
| Expectation-Maximization | ជាវិធីសាស្ត្រស្ថិតិដែលប្រើសម្រាប់ប៉ាន់ស្មានប៉ារ៉ាម៉ែត្រនៃម៉ូដែលទិន្នន័យដែលមានតម្លៃបាត់បង់ ឬកំបាំង ដោយវាធ្វើការផ្លាស់ប្តូរចុះឡើងរវាងការទាយតម្លៃ និងការកែលម្អម៉ូដែលរហូតដល់ទទួលបានលទ្ធផលល្អបំផុត។ | ដូចជាការទាយទម្ងន់របស់ផ្លែឪឡឹកក្នុងកន្ត្រកដែលបិទជិត ដោយទាយសាកល្បងមុន រួចថ្លឹងកន្ត្រក ហើយកែតម្រូវការទាយម្តងបន្តិចៗរហូតដល់ត្រូវច្បាស់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖