Original Title: A Survey on Unsupervised Machine Learning Algorithms for Automation, Classification and Maintenance
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការស្ទង់មតិស្តីពីក្បួនដោះស្រាយការរៀនម៉ាស៊ីនដោយគ្មានការត្រួតពិនិត្យសម្រាប់ការធ្វើស្វ័យប្រវត្តិកម្ម ការចាត់ថ្នាក់ និងការថែទាំ

ចំណងជើងដើម៖ A Survey on Unsupervised Machine Learning Algorithms for Automation, Classification and Maintenance

អ្នកនិពន្ធ៖ Memoona Khanum (Fatima Jinnah Women University), Tahira Mahboob (Fatima Jinnah Women University), Warda Imtiaz (Fatima Jinnah Women University), Humaraia Abdul Ghafoor (Fatima Jinnah Women University), Rabeea Sehar (Fatima Jinnah Women University)

ឆ្នាំបោះពុម្ព៖ 2015, International Journal of Computer Applications

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះធ្វើការស្ទង់មតិ និងប្រៀបធៀបបណ្តាក្បួនដោះស្រាយការរៀនម៉ាស៊ីនដោយគ្មានការត្រួតពិនិត្យ (Unsupervised Machine Learning) ដើម្បីកំណត់ពីប្រសិទ្ធភាពរបស់វាក្នុងការដោះស្រាយទិន្នន័យធំៗដែលគ្មានស្លាកចំណាំ (Unlabeled data) សម្រាប់ការធ្វើស្វ័យប្រវត្តិកម្ម និងការចាត់ថ្នាក់។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានធ្វើការត្រួតពិនិត្យលើអត្ថបទស្រាវជ្រាវនានា និងធ្វើការវិភាគប្រៀបធៀបបច្ចេកទេសចំនួន ១២ ដោយផ្អែកលើប៉ារ៉ាម៉ែត្រវាយតម្លៃចំនួន ១៦ ផ្សេងៗគ្នា។

ការប្រមូលផ្តុំទិន្នន័យ (Data Clustering) ដូចជា K-means និង Hierarchical clustering
ការរៀនដោយបណ្តាញជឿជាក់ជ្រៅ (Deep Belief Networks - DBNs) និង Sparse coding
ការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection) និងម៉ូដែលវិភាគអត្ថន័យ (Probabilistic Latent Semantic Analysis)
ការវិភាគប៉ារ៉ាម៉ែត្រ (Parameter Analysis) ដោយវាស់ស្ទង់លើ ភាពត្រឹមត្រូវ (Accuracy) អត្រាកំហុស (Error rate) ភាពជឿជាក់ (Reliability) និងភាពស្មុគស្មាញ (Complexity)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្ររៀនដោយគ្មានការត្រួតពិនិត្យ (Unsupervised learning) អាចទាញយកលក្ខណៈពិសេសកម្រិតខ្ពស់ពីទិន្នន័យដែលគ្មានស្លាកចំណាំ និងជួយកាត់បន្ថយការពឹងផ្អែកលើទិន្នន័យដែលមានស្លាក (Labeled data) យ៉ាងមានប្រសិទ្ធភាព។
ការវិភាគប៉ារ៉ាម៉ែត្របានបង្ហាញថា ភាពស្មុគស្មាញ (Complexity) គឺជាកត្តាចម្បងមួយនៅក្នុងក្បួនដោះស្រាយទាំងនេះ ដែលទាមទារឱ្យមានការរចនាប្រព័ន្ធដោយប្រុងប្រយ័ត្នដើម្បីចៀសវាងការថយចុះដំណើរការ។
គ្មានលក្ខណៈវិនិច្ឆ័យ ឬក្បួនដោះស្រាយតែមួយណាដែលល្អបំផុតសម្រាប់ដោះស្រាយគ្រប់បញ្ហាទាំងអស់នោះទេ ដែលតម្រូវឱ្យអ្នកស្រាវជ្រាវត្រូវជ្រើសរើសម៉ូដែលដោយផ្អែកលើលក្ខណៈជាក់លាក់នៃទិន្នន័យ និងគោលដៅនៃគម្រោង។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Deep Belief Networks (DBNs) & Sparse Coding បណ្តាញជឿជាក់ជ្រៅ និងការសរសេរកូដស្តើងដោយប្រើ GPU	ផ្តល់ល្បឿនលឿនជាង CPU ដល់ទៅ ៧០ដង សម្រាប់ម៉ូដែលធំៗ។ មានប្រសិទ្ធភាពខ្ពស់ក្នុងការទាញយកលក្ខណៈពិសេសពីទិន្នន័យគ្មានស្លាកដ៏ច្រើនសន្ធឹកសន្ធាប់។	ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ខ្លាំង (GPU) និងមានរចនាសម្ព័ន្ធស្មុគស្មាញក្នុងការរៀបចំ។	ក្បួនដោះស្រាយស្របគ្នា (Parallel algorithm) ផ្តល់ល្បឿនលឿនជាងវិធីសាស្ត្រមុនៗពី ៥ ទៅ ១៥ដង ក្នុងការសរសេរកូដស្តើង (Sparse coding)។
K-Means Clustering ការប្រមូលផ្តុំទិន្នន័យ K-Means	ជាក្បួនដោះស្រាយសាមញ្ញ និងពេញនិយមបំផុតសម្រាប់ការចង្កោមទិន្នន័យ។ ងាយស្រួលក្នុងការអនុវត្តសម្រាប់បញ្ហាទូទៅ។	អាចខ្វះភាពបត់បែននៅពេលជួបប្រទះទិន្នន័យដែលមានអថេរបន្តបន្ទាប់ (Continuous variables) បើប្រៀបធៀបទៅនឹងម៉ូដែល Latent Class។	ត្រូវបានប្រើជាស្តង់ដារគោល (Gold standard) សម្រាប់ការវាយតម្លៃ និងប្រៀបធៀបបច្ចេកទេសចង្កោមទំនើបៗផ្សេងទៀត។
Probabilistic Latent Semantic Analysis (PLSA) ការវិភាគអត្ថន័យកំបាំងតាមបែបប្រូបាប៊ីលីតេ (PLSA)	ជាវិធីសាស្ត្រដ៏រឹងមាំផ្អែកលើស្ថិតិ ដែលស័ក្តិសមបំផុតសម្រាប់ដំណើរការភាសាធម្មជាតិ (NLP) និងការទាញយកព័ត៌មានពីអត្ថបទ។	អាចមានបញ្ហាប្រឈមទាក់ទងនឹងភាពស្មុគស្មាញ និងទាមទារការបង្កើនប្រសិទ្ធភាពសីតុណ្ហភាព (Controlled version regarding temperature) ដើម្បីតម្រូវម៉ូដែល។	ផ្តល់លទ្ធផលល្អប្រសើរ និងជាក់ស្តែងសម្រាប់ការទាញយកព័ត៌មាន និងការរៀនម៉ាស៊ីនពីសំណុំអត្ថបទដោយគ្មានស្លាក។
Locally Linear Embedding (LLE) ក្បួនដោះស្រាយ LLE សម្រាប់ការកាត់បន្ថយវិមាត្រ	ដោះស្រាយបញ្ហាស្មុគស្មាញ និងមានអាកប្បកិរិយាមិនលីនេអ៊ែរ (Non-linear) ខ្ពស់ ដោយមិនតម្រូវឱ្យមានទិន្នន័យមានស្លាក ឬការសន្មត់តឹងរ៉ឹង។	អាចមិនមានភាពស័ក្តិសម ឬមានភាពសាំញ៉ាំលើសលប់ សម្រាប់សំណុំទិន្នន័យតូចៗដែលមានរចនាសម្ព័ន្ធសាមញ្ញ។	ជួយសម្រួល និងបង្កើនល្បឿនបច្ចេកទេសរៀនម៉ាស៊ីនផ្សេងទៀត ដែលដំណើរការក្នុងលំហវិមាត្រខ្ពស់ (High-dimensional spaces)។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីភាពចាំបាច់នៃធនធានកុំព្យូទ័រ និងទិន្នន័យក្នុងទ្រង់ទ្រាយធំ ដើម្បីដំណើរការក្បួនដោះស្រាយទាំងនេះ ជាពិសេសក្នុងការប្រើប្រាស់បច្ចេកទេសរៀនជ្រៅ។

Hardware: ទាមទារអង្គគណនាក្រាហ្វិក (GPUs) ទំនើបដើម្បីដំណើរការបណ្តាញ DBNs ទ្រង់ទ្រាយធំ ដែលមានល្បឿនលឿនជាង CPU ធម្មតា។
Dataset: ត្រូវការសំណុំទិន្នន័យគ្មានស្លាក (Unlabeled data) ឬរូបភាព និងវីដេអូកម្រិតខ្ពស់ (RGB-D) ក្នុងបរិមាណដ៏ច្រើនសន្ធឹកសន្ធាប់សម្រាប់ការបណ្តុះបណ្តាល។
Software: ការប្រើប្រាស់កម្មវិធី និងឧបករណ៍វាយតម្លៃដូចជា KEEL ដើម្បីធ្វើតេស្ត វិភាគ និងប្រៀបធៀបដំណើរការនៃក្បួនដោះស្រាយរៀនម៉ាស៊ីន។
Expertise: ត្រូវការអ្នកជំនាញដែលមានចំណេះដឹងផ្នែកស្ថិតិ (Statistics) ពិជគណិតលីនេអ៊ែរ (Linear algebra) និងទ្រឹស្តី Bayesian ដើម្បីរៀបចំរចនាសម្ព័ន្ធក្បួនដោះស្រាយឱ្យបានត្រឹមត្រូវ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះគឺជាការស្ទង់មតិទូទៅ ដែលផ្អែកលើទ្រឹស្តី និងសំណុំទិន្នន័យស្តង់ដារអន្តរជាតិ (ដូចជារូបភាពមុខមនុស្ស ឬអត្ថបទភាសាអង់គ្លេសទូទៅ)។ វាមិនបានបញ្ចូលទិន្នន័យប្រជាសាស្ត្រ សង្គមវិទ្យា ឬភាសាដែលមានលក្ខណៈពិសេសរបស់ប្រទេសកម្ពុជានោះទេ ដែលនេះទាមទារឱ្យអ្នកស្រាវជ្រាវខ្មែរត្រូវមានការប្រមូលទិន្នន័យក្នុងស្រុកដោយខ្លួនឯងដើម្បីធានាភាពត្រឹមត្រូវនៅពេលអនុវត្តជាក់ស្តែង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាខ្វះទិន្នន័យក្នុងស្រុកក៏ដោយ ក៏បច្ចេកទេសរៀនដោយគ្មានការត្រួតពិនិត្យ (Unsupervised Learning) ទាំងនេះមានសក្តានុពលខ្ពស់ខ្លាំងសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធបច្ចេកវិទ្យានៅកម្ពុជា ជាពិសេសដោយសារយើងជាប្រទេសដែលកំពុងខ្វះខាតទិន្នន័យមានស្លាក (Labeled Data) សម្រាប់ហ្វឹកហាត់ម៉ាស៊ីន។

ដំណើរការភាសាខ្មែរ (Khmer NLP): បច្ចេកទេស PLSA និង Clustering អាចយកមកអនុវត្តក្នុងការបង្កើតម៉ាស៊ីនស្វែងរក (Search Engine) ឯកសាររដ្ឋបាល ឬស្រាវជ្រាវជាភាសាខ្មែរ ដោយធ្វើការចាត់ថ្នាក់អត្ថបទដោយស្វ័យប្រវត្តិ។
វិស័យកសិកម្ម និងបរិស្ថាន (ឧទាហរណ៍ ជួរភ្នំក្រវាញ): ការប្រើប្រាស់បច្ចេកទេសកាត់បំណែករូបភាពពីដ្រូន (RGB-D) និង HMP អាចជួយក្នុងការតាមដានសុខភាពដំណាំ ការប្រែប្រួលគម្របព្រៃឈើ ឬការរកឃើញបទល្មើសព្រៃឈើដោយស្វ័យប្រវត្តិ។
ការស្រាវជ្រាវតាមសាកលវិទ្យាល័យនៅកម្ពុជា: សាកលវិទ្យាល័យអាចប្រើប្រាស់ឧបករណ៍ដូចជា KEEL ដើម្បីបង្រៀននិស្សិតជំនាញវិទ្យាសាស្ត្រទិន្នន័យ (Data Science) ឱ្យយល់ដឹងពីការវិភាគក្បួនដោះស្រាយ និងបង្កើនសក្តានុពលនៃការស្រាវជ្រាវថ្នាក់ជាតិ។

ជារួម ការយល់ដឹង និងការកែច្នៃក្បួនដោះស្រាយទាំងនេះ នឹងជួយស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាក្នុងការទាញយកតម្លៃពីទិន្នន័យឆៅដ៏ច្រើនសន្ធឹកសន្ធាប់ ដើម្បីផ្លាស់ប្តូរទៅកាន់ប្រព័ន្ធស្វ័យប្រវត្តិកម្មឆ្លាតវៃ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃក្បួនដោះស្រាយ: និស្សិតត្រូវចាប់ផ្តើមសិក្សាអំពីទ្រឹស្តីនៃ K-means Clustering និង PCA ដោយប្រើប្រាស់បណ្ណាល័យ Scikit-Learn នៅក្នុងភាសា Python ដើម្បីយល់ពីរបៀបដែលម៉ាស៊ីនស្វែងរកលំនាំដោយគ្មានស្លាកសញ្ញា។
អនុវត្តការចង្កោមលើទិន្នន័យក្នុងស្រុក: ស្វែងរកសំណុំទិន្នន័យរបស់កម្ពុជា (ឧទាហរណ៍ ទិន្នន័យអាកាសធាតុពី ODC ឬអត្ថបទព័ត៌មានក្នុងស្រុក) ហើយសាកល្បងប្រើប្រាស់ Jupyter Notebook ធ្វើការចាត់ថ្នាក់ទិន្នន័យទាំងនោះជាក្រុមៗដោយស្វ័យប្រវត្តិ។
ស្វែងយល់ពីបច្ចេកទេសរៀនជ្រៅដោយប្រើប្រាស់ GPU: ដោយសារឯកសារបញ្ជាក់ពីល្បឿននៃ GPU, និស្សិតគួរសិក្សាប្រើប្រាស់ PyTorch ឬ TensorFlow រួមជាមួយនឹង Google Colab ដើម្បទទួលបាន GPU ឥតគិតថ្លៃសម្រាប់សាកល្បងហ្វឹកហាត់ Deep Belief Networks លើរូបភាពខ្នាតតូច។
សាកល្បងបង្កើតម៉ាស៊ីនស្វែងរកខ្នាតតូច: សាកល្បងអនុវត្តបច្ចេកទេស Probabilistic Latent Semantic Analysis (PLSA) ដោយប្រើ Gensim ដើម្បីបង្កើតប្រព័ន្ធស្វែងរកឯកសារ ឬប្រធានបទ (Topic Modeling) សម្រាប់បណ្ណាល័យក្នុងសាកលវិទ្យាល័យផ្ទាល់។
ប្រើប្រាស់ឧបករណ៍វាយតម្លៃស្តង់ដារ: ទាញយកកម្មវិធី KEEL Software Tool ដូចដែលបានរៀបរាប់ក្នុងឯកសារ ដើម្បីធ្វើតេស្ត ប្រៀបធៀប និងវិភាគដំណើរការនៃក្បួនដោះស្រាយដែលអ្នកបានបង្កើត ដោយផ្តោតលើប៉ារ៉ាម៉ែត្រដូចជា ភាពត្រឹមត្រូវ (Accuracy) និងភាពស្មុគស្មាញ (Complexity)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Unsupervised Learning	ជាទម្រង់មួយនៃការរៀនម៉ាស៊ីនដែលកុំព្យូទ័រព្យាយាមស្វែងរកលំនាំ ឬរចនាសម្ព័ន្ធនៅក្នុងទិន្នន័យដោយខ្លួនឯង ដោយមិនមានការប្រាប់ជាមុនថាទិន្នន័យនោះជាអ្វី (គ្មានស្លាកចំណាំ ឬ Unlabeled Data)។	ដូចជាការឱ្យក្មេងម្នាក់ចាត់ថ្នាក់ប្រដាប់ក្មេងលេងទៅតាមពណ៌ ឬរូបរាងដោយខ្លួនឯង ដោយគ្មាននរណាម្នាក់ប្រាប់ថាមួយណាជាឡាន មួយណាជាតុក្កតា។
Deep Belief Networks (DBNs)	ជាបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលមានស្រទាប់ច្រើន (Deep Learning) ដែលប្រើសម្រាប់រៀនទាញយកលក្ខណៈពិសេសពីទិន្នន័យស្មុគស្មាញដោយគ្មានការត្រួតពិនិត្យ វាជួយកសាងម៉ូដែលដែលមានប៉ារ៉ាម៉ែត្ររាប់លាន។	ដូចជាក្រុមអ្នកស៊ើបអង្កេតដែលធ្វើការតៗគ្នាពីថ្នាក់ក្រោមដល់ថ្នាក់លើ ដើម្បីផ្គុំភស្តុតាងតូចៗឱ្យក្លាយជារូបភាពធំមួយ។
K-means	ជាក្បួនដោះស្រាយដ៏សាមញ្ញ និងពេញនិយមបំផុតសម្រាប់ការប្រមូលផ្តុំទិន្នន័យ (Clustering) ដោយបែងចែកទិន្នន័យទៅជាក្រុមចំនួន K ផ្សេងៗគ្នា ផ្អែកលើភាពស្រដៀងគ្នារបស់វា។	ដូចជាការបែងចែកសិស្សក្នុងថ្នាក់ទៅជា ៥ ក្រុមដោយស្វ័យប្រវត្តិ ផ្អែកលើពិន្ទុដែលពួកគេទទួលបានប្រហាក់ប្រហែលគ្នា។
Sparse coding	ជាបច្ចេកទេសរៀនដោយគ្មានការត្រួតពិនិត្យដែលព្យាយាមស្វែងរកតំណាងទិន្នន័យដោយប្រើប្រាស់ធាតុផ្សំតិចតួចបំផុត (sparse) ដើម្បីពិពណ៌នាទិន្នន័យនោះ ដែលជួយក្នុងការកាត់បន្ថយទំហំទិន្នន័យ តែនៅរក្សាលក្ខណៈសំខាន់ៗបាន។	ដូចជាការសរសេរសេចក្តីសង្ខេបនៃសៀវភៅមួយក្បាលធំ ដោយប្រើតែពាក្យគន្លឹះសំខាន់ៗមួយចំនួនប៉ុណ្ណោះ ប៉ុន្តែនៅតែអាចឱ្យគេយល់អត្ថន័យទាំងមូល។
Probabilistic Latent Semantic Analysis	ជាបច្ចេកទេសស្ថិតិដែលប្រើដើម្បីវិភាគអត្ថបទ ឬទិន្នន័យ ដោយស្វែងរកប្រធានបទកំបាំង (hidden topics) ដែលមាននៅក្នុងឯកសារទាំងនោះ ផ្អែកលើប្រូបាប៊ីលីតេនៃពាក្យដែលតែងតែលេចឡើងជាមួយគ្នា។	ដូចជាការអានអត្ថបទកាសែតមួយរយច្បាប់ ហើយទាយដឹងថាអត្ថបទទាំងនោះកំពុងនិយាយពី 'កីឡា' ឬ 'នយោបាយ' ដោយគ្រាន់តែសង្កេតមើលពាក្យដែលគេប្រើញឹកញាប់រួមគ្នា។
Locally Linear Embedding	ជាក្បួនដោះស្រាយសម្រាប់កាត់បន្ថយវិមាត្រទិន្នន័យ (Dimensionality reduction) ដោយរក្សារចនាសម្ព័ន្ធធរណីមាត្រនៃទិន្នន័យដែលនៅក្បែរៗគ្នា ជួយឱ្យកុំព្យូទ័រអាចមើលឃើញទិន្នន័យស្មុគស្មាញក្នុងទម្រង់សាមញ្ញជាងមុន (nonlinear manifold learning)។	ដូចជាការលាតផែនទីពិភពលោកដែលមូល (3D) ឱ្យទៅជាផ្ទាំងក្រដាសរាបស្មើ (2D) ដោយព្យាយាមរក្សាទម្រង់ទ្វីបនីមួយៗកុំឱ្យខូចទ្រង់ទ្រាយ។
Expectation-Maximization	ជាវិធីសាស្ត្រស្ថិតិដែលប្រើសម្រាប់ប៉ាន់ស្មានប៉ារ៉ាម៉ែត្រនៃម៉ូដែលទិន្នន័យដែលមានតម្លៃបាត់បង់ ឬកំបាំង ដោយវាធ្វើការផ្លាស់ប្តូរចុះឡើងរវាងការទាយតម្លៃ និងការកែលម្អម៉ូដែលរហូតដល់ទទួលបានលទ្ធផលល្អបំផុត។	ដូចជាការទាយទម្ងន់របស់ផ្លែឪឡឹកក្នុងកន្ត្រកដែលបិទជិត ដោយទាយសាកល្បងមុន រួចថ្លឹងកន្ត្រក ហើយកែតម្រូវការទាយម្តងបន្តិចៗរហូតដល់ត្រូវច្បាស់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖