បញ្ហា (The Problem)៖ ឯកសារនេះធ្វើការប្រៀបធៀបយ៉ាងលម្អិតដើម្បីកំណត់អត្តសញ្ញាណអត្ថប្រយោជន៍ ដែនកំណត់ និងកម្មវិធីប្រើប្រាស់រវាងវិធីសាស្ត្រម៉ាស៊ីនរៀនបែបមានការគ្រប់គ្រង (Supervised learning) និងគ្មានការគ្រប់គ្រង (Unsupervised learning)។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រវិភាគប្រៀបធៀបស៊ីជម្រៅលើលក្ខណៈបច្ចេកទេស កម្មវិធីប្រើប្រាស់ជាក់ស្តែង និងការពិចារណាលើបញ្ហាសីលធម៌នៃវិធីសាស្ត្ររៀនទាំងពីរ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Supervised Learning ការរៀនបែបមានការគ្រប់គ្រង |
ផ្តល់លទ្ធផលច្បាស់លាស់ និងភាពត្រឹមត្រូវខ្ពស់នៅពេលមានទិន្នន័យស្លាកសញ្ញាគ្រប់គ្រាន់។ ស័ក្តិសមបំផុតសម្រាប់ការចាត់ថ្នាក់ទិន្នន័យ និងការព្យាករណ៍ផ្អែកលើទិន្នន័យប្រវត្តិសាស្ត្រ។ | ទាមទារទិន្នន័យមានស្លាកសញ្ញាច្រើនសន្ធឹកសន្ធាប់ ដែលចំណាយពេល និងថវិកាខ្ពស់ក្នុងការរៀបចំ។ ងាយរងគ្រោះដោយបញ្ហា Overfitting ប្រសិនបើទិន្នន័យបង្វឹកមិនល្អ។ | សម្រេចបានប្រតិបត្តិការល្អប្រសើរបំផុតក្នុងការវិភាគហានិភ័យឥណទាន និងការធ្វើរោគវិនិច្ឆ័យជំងឺតាមរយៈរូបភាពវេជ្ជសាស្ត្រ។ |
| Unsupervised Learning ការរៀនបែបគ្មានការគ្រប់គ្រង |
មិនតម្រូវឱ្យមានទិន្នន័យមានស្លាកសញ្ញា ជួយសន្សំសំចៃកម្លាំងពលកម្មប្រមូលទិន្នន័យ។ ពូកែក្នុងការស្វែងរកលំនាំលាក់កំបាំង និងភាពមិនប្រក្រតី (Anomalies) ក្នុងបណ្តុំទិន្នន័យធំៗដោយស្វ័យប្រវត្តិ។ | ពិបាកវាយតម្លៃប្រសិទ្ធភាពដោយសារគ្មានទិន្នន័យគោល (Ground truth) សម្រាប់ផ្ទៀងផ្ទាត់ និងទាមទារការរៀបចំទិន្នន័យស្មុគស្មាញ។ | មានប្រសិទ្ធភាពខ្ពស់ក្នុងការស្វែងរកការក្លែងបន្លំហិរញ្ញវត្ថុ តាមដានឧបករណ៍ខូចខាត និងរាវរកការវាយប្រហារតាមអ៊ីនធឺណិត (Zero-day attacks)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តម៉ូដែល Machine Learning ទាំងនេះទាមទារការវិនិយោគច្រើនលើការរៀបចំទិន្នន័យ កម្លាំងម៉ាស៊ីន និងការចូលរួមពីអ្នកជំនាញ។
ឯកសារនេះជាការសិក្សាស្រាវជ្រាវបែបពិនិត្យឡើងវិញ ដែលសង្កត់ធ្ងន់លើបញ្ហាលម្អៀងក្នុងទិន្នន័យបង្វឹកពាក់ព័ន្ធនឹងយេនឌ័រ និងជាតិសាសន៍។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកលើទិន្នន័យពីបរទេសទាំងស្រុងអាចបង្កឱ្យមានភាពលម្អៀងក្នុងការធ្វើរោគវិនិច្ឆ័យជំងឺ ឬការវាយតម្លៃហិរញ្ញវត្ថុ ដោយសារភាពខុសគ្នានៃប្រជាសាស្ត្រ និងបរិបទក្នុងស្រុក។
វិធីសាស្ត្រ Machine Learning ទាំងពីរនេះមានសក្តានុពលខ្ពស់ក្នុងការជំរុញការអភិវឌ្ឍប្រព័ន្ធឌីជីថល និងស្វ័យប្រវត្តិកម្មនៅកម្ពុជា។
ការជ្រើសរើស និងរួមបញ្ចូលគ្នានូវវិធីសាស្ត្រទាំងពីរនេះដោយផ្អែកលើធនធានជាក់ស្តែង នឹងជួយស្ថាប័ននៅកម្ពុជាបង្កើនប្រសិទ្ធភាពការងារ និងកាត់បន្ថយហានិភ័យប្រកបដោយនវានុវត្តន៍។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Supervised Learning | ជាវិធីសាស្ត្របង្វឹកប្រព័ន្ធកុំព្យូទ័រដោយផ្តល់ទិន្នន័យដែលមានភ្ជាប់ជាមួយស្លាកសញ្ញា (ចម្លើយ) ជាមុន ដើម្បីឱ្យវាអាចរៀនពីទំនាក់ទំនងរវាងទិន្នន័យបញ្ចូល និងលទ្ធផល រួចអាចទស្សន៍ទាយទិន្នន័យថ្មីៗនៅពេលក្រោយ។ | ដូចជាគ្រូបង្រៀនសិស្សដោយបង្ហាញរូបភាពសត្វរួចប្រាប់ឈ្មោះសត្វនោះ ដើម្បីឱ្យសិស្សចំណាំ និងស្គាល់វានៅថ្ងៃក្រោយ។ |
| Unsupervised Learning | ជាវិធីសាស្ត្រឱ្យកុំព្យូទ័ររៀនដោយខ្លួនឯងពីទិន្នន័យដែលគ្មានស្លាកសញ្ញា (គ្មានចម្លើយប្រាប់មុន) ដោយវាព្យាយាមរកមើលលំនាំលាក់កំបាំង ឬចាត់ថ្នាក់ទិន្នន័យដែលមានលក្ខណៈស្រដៀងគ្នាជាក្រុមដោយស្វ័យប្រវត្តិ។ | ដូចជាការឱ្យក្មេងតម្រៀបក្រដាសចម្រុះពណ៌ដោយឱ្យគេបែងចែកជាគំនរតាមពណ៌ដោយខ្លួនឯង ដោយមិនបាច់ប្រាប់មុនថាមានពណ៌អ្វីខ្លះ។ |
| Overfitting | ជាបញ្ហាក្នុង Machine Learning ដែលម៉ូដែលរៀន ឬចងចាំទិន្នន័យបង្វឹកច្បាស់លាស់ពេក (រួមទាំងទិន្នន័យរំខាន ឬ Noise) ដែលធ្វើឱ្យវាមិនអាចទស្សន៍ទាយបានត្រឹមត្រូវនៅពេលជួបប្រទះទិន្នន័យថ្មីដែលវាមិនធ្លាប់ឃើញ។ | ដូចសិស្សដែលទន្ទេញចាំចម្លើយវិញ្ញាសាចាស់គ្រប់អក្សរ ប៉ុន្តែប្រឡងធ្លាក់ដោយសារគ្រូចេញលំហាត់ថ្មីដែលគ្រាន់តែប្តូរលេខ។ |
| Ground Truth | ជាទិន្នន័យជាក់ស្តែង ឬចម្លើយពិតប្រាកដដែលត្រូវបានគេបញ្ជាក់ថាត្រឹមត្រូវ១០០% សម្រាប់យកមកផ្ទៀងផ្ទាត់ថាតើម៉ូដែល Machine Learning ទស្សន៍ទាយបានត្រឹមត្រូវកម្រិតណា។ | ដូចជា "កូនសោចម្លើយ" ដែលគ្រូកាន់នៅក្នុងដៃដើម្បីកែសន្លឹកកិច្ចការរបស់សិស្ស។ |
| Principal Component Analysis (PCA) | ជាបច្ចេកទេសកាត់បន្ថយវិមាត្រ (Dimensionality Reduction) នៃទិន្នន័យដ៏ស្មុគស្មាញដោយរក្សាទុកតែព័ត៌មានសំខាន់ៗបំផុត ដើម្បីជួយឱ្យការគណនាមានភាពលឿន និងងាយស្រួលមើលទិន្នន័យ។ | ដូចជាការសង្ខេបសៀវភៅ១០០០ទំព័រ មកត្រឹម១០ទំព័រ ដោយរក្សាទុកតែអត្ថន័យស្នូល និងសាច់រឿងសំខាន់ៗមិនឱ្យបាត់បង់។ |
| Support Vector Machines | ជាក្បួនដោះស្រាយ (Algorithm) សម្រាប់ចំណាត់ថ្នាក់ទិន្នន័យ ដែលព្យាយាមគូសបន្ទាត់ ឬប្លង់ (Hyperplane) មួយដើម្បីខណ្ឌចែកក្រុមទិន្នន័យខុសៗគ្នាឱ្យនៅឆ្ងាយពីគ្នាបំផុតតាមដែលអាចធ្វើទៅបាន។ | ដូចជាការសង់របងនៅចំកណ្តាលទីធ្លាធំមួយដើម្បីខណ្ឌចែកហ្វូងចៀម និងហ្វូងពពែឱ្យនៅដាច់ពីគ្នាបានល្អបំផុតដោយមិនឱ្យច្របូកច្របល់គ្នា។ |
| K-means clustering | ជាក្បួនដោះស្រាយបែប Unsupervised Learning ដែលបែងចែកទិន្នន័យជា K ក្រុម ដោយស្វែងរកចំណុចកណ្តាលនៃក្រុមនីមួយៗ រួចទាញទិន្នន័យដែលនៅជិតចំណុចកណ្តាលនោះបញ្ចូលជាក្រុមតែមួយ។ | ដូចជាការជ្រើសរើសប្រធានក្រុមចំនួន K នាក់ឈរនៅទីតាំងផ្សេងៗគ្នា ហើយឱ្យសិស្សដទៃទៀតរត់ទៅឈរជុំវិញប្រធានក្រុមណាដែលនៅជិតខ្លួនជាងគេដើម្បីបង្កើតជាក្រុម។ |
| Explainable AI | ជាប្រព័ន្ធបញ្ញាសិប្បនិម្មិតដែលត្រូវបានរចនាឡើងដើម្បីអាចបកស្រាយ ឬបង្ហាញតម្លាភាពពីមូលហេតុ និងដំណើរការដែលនាំឱ្យវាធ្វើការសម្រេចចិត្តបែបនេះ ដើម្បីឱ្យមនុស្សអាចជឿទុកចិត្ត និងត្រួតពិនិត្យបាន។ | ដូចជាគ្រូពេទ្យដែលមិនត្រឹមតែប្រាប់អ្នកថាអ្នកមានជំងឺអ្វីនោះទេ តែថែមទាំងពន្យល់ប្រាប់ពីមូលហេតុ និងរោគសញ្ញាជាក់លាក់ដែលធ្វើឱ្យគាត់សន្និដ្ឋានបែបនេះ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖