បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការកែលម្អភាពត្រឹមត្រូវ និងសមត្ថភាពបកស្រាយ (Interpretability) នៃការព្យាករណ៍ទិន្នន័យស្មុគស្មាញ ដូចជាតម្លៃភាគហ៊ុន ដោយរួមបញ្ចូលចំណុចខ្លាំងនៃការរៀនម៉ាស៊ីនបែបប្រពៃណី (ML) និងការរៀនស៊ីជម្រៅ (DL)។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះអនុវត្តការរចនាបែបពិសោធន៍ ដោយប្រៀបធៀប និងវាយតម្លៃម៉ូដែលរៀនម៉ាស៊ីនផ្សេងៗគ្នា ដើម្បីព្យាករណ៍តម្លៃភាគហ៊ុនរបស់ក្រុមហ៊ុន Google ដោយផ្អែកលើទិន្នន័យប្រវត្តិសាស្ត្ររយៈពេល ៩០ថ្ងៃ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Random Forest ម៉ូដែលរៀនម៉ាស៊ីនបែបប្រពៃណី (Random Forest) |
មានភាពងាយស្រួលក្នុងការបកស្រាយ និងមានកំហុសមធ្យម (MAE) ទាបបំផុត ដែលបង្ហាញពីប្រសិទ្ធភាពក្នុងការគ្រប់គ្រងកំហុសនីមួយៗបានល្អ។ | ងាយរងឥទ្ធិពលពីទិន្នន័យខុសប្រក្រតី (Outliers) ដែលធ្វើឱ្យមានកំហុសរង្វាស់ការ៉េ (MSE និង RMSE) ខ្ពស់។ | សម្រេចបាន MAE: ៦.៣៤, MSE: ៩១.៣៥ និង RMSE: ៩.៥៥ |
| LSTM ម៉ូដែលបណ្តាញសរសៃប្រសាទរៀនស៊ីជម្រៅ (Long Short-Term Memory) |
មានសមត្ថភាពខ្ពស់ក្នុងការគ្រប់គ្រងទិន្នន័យធំៗនិងលំនាំស្មុគស្មាញ ដែលជួយកាត់បន្ថយ MSE ឱ្យទាបជាងម៉ូដែល Random Forest។ | មានភាពមិនស៊ីសង្វាក់គ្នាក្នុងការព្យាករណ៍នីមួយៗ ដែលធ្វើឱ្យ MAE មានការកើនឡើងខ្ពស់ជាងម៉ូដែលប្រពៃណី។ | សម្រេចបាន MAE: ៧.៣៥, MSE: ៨០.៣៥ និងមិនមានទិន្នន័យ RMSE បង្ហាញ |
| Hybrid Model ប្រព័ន្ធសិក្សាកូនកាត់ (រួមបញ្ចូល ML និង DL) |
មានភាពស៊ីសង្វាក់គ្នាខ្ពស់ក្នុងការទស្សន៍ទាយសរុប និងមានភាពរឹងមាំប្រឆាំងនឹងទិន្នន័យ Outliers ដែលធ្វើឱ្យតម្លៃ MSE និង RMSE ទាបបំផុត។ | មានភាពស្មុគស្មាញក្នុងការរចនានិងដាក់ឱ្យដំណើរការ ព្រមទាំងមានកំហុសមធ្យម (MAE) ខ្ពស់ជាងគេបន្តិច។ | សម្រេចបាន MAE: ៩.១៦, MSE: ១៣.៧៨ និង RMSE: ៧.១៣ (ល្អបំផុតជារួម) |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធសិក្សាកូនកាត់នេះទាមទារនូវធនធានកុំព្យូទ័រខ្លាំង ចំណេះដឹងស៊ីជម្រៅលើក្បួនដោះស្រាយចម្រុះ និងការចំណាយថាមពលខ្ពស់សម្រាប់ការបង្ហាត់ម៉ូដែល (Training)។
ការសិក្សានេះពឹងផ្អែកទាំងស្រុងទៅលើទិន្នន័យតម្លៃភាគហ៊ុនរបស់ក្រុមហ៊ុនបច្ចេកវិទ្យាយក្សអាមេរិក (Google) ដែលមានទីផ្សារសាច់ប្រាក់រាវខ្ពស់និងមានទំហំទិន្នន័យមហាសាល។ សម្រាប់បរិបទប្រទេសកម្ពុជា ទីផ្សារមូលបត្រកម្ពុជា (CSX) នៅមានទំហំតូច និងសកម្មភាពជួញដូរទាប ដែលលក្ខណៈនៃទិន្នន័យគឺខុសគ្នាស្រឡះ ដូច្នេះម៉ូដែលនេះត្រូវតែបង្ហាត់ឡើងវិញជាមួយទិន្នន័យក្នុងស្រុកទើបអាចប្រើប្រាស់បានត្រឹមត្រូវ។
ទោះបីជាបរិបទទីផ្សារខុសគ្នាក៏ដោយ វិធីសាស្ត្រនៃការរួមបញ្ចូលគ្នារវាងម៉ូដែលកូនកាត់ (Hybrid System) នេះគឺមានតម្លៃខ្ពស់សម្រាប់ការអនុវត្តក្នុងវិស័យគោលដៅនៅកម្ពុជា។
ជារួម ការអនុវត្តប្រព័ន្ធកូនកាត់នៅកម្ពុជានឹងផ្តល់អត្ថប្រយោជន៍យ៉ាងធំធេងដល់ស្ថាប័នដែលត្រូវការទាំងភាពត្រឹមត្រូវនៃការទស្សន៍ទាយ និងសមត្ថភាពដែលអាចពន្យល់ពីហេតុផលនៃការសម្រេចចិត្តបានច្បាស់លាស់។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Hybrid Learning System | ប្រព័ន្ធដែលរួមបញ្ចូលក្បួនដោះស្រាយរៀនម៉ាស៊ីនបែបប្រពៃណី (ML) និងបណ្តាញសរសៃប្រសាទរៀនស៊ីជម្រៅ (DL) បញ្ចូលគ្នាដើម្បីទាញយកចំណុចខ្លាំងរបស់ពួកវាទាំងពីរ ដូចជាភាពងាយស្រួលយល់នៃហេតុផលរបស់ ML និងសមត្ថភាពវិភាគទិន្នន័យស្មុគស្មាញរបស់ DL។ | ដូចជាការបង្កើតក្រុមការងារមួយដែលមានអ្នកពូកែរៀបចំផែនការច្បាស់លាស់ (ML) និងអ្នកពូកែគិតច្នៃប្រឌិតដោះស្រាយបញ្ហាស្មុគស្មាញ (DL) ធ្វើការជាមួយគ្នាដើម្បីទទួលបានលទ្ធផលល្អបំផុត។ |
| Long Short-Term Memory (LSTMS) | ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) មួយប្រភេទដែលត្រូវបានរចនាឡើងយ៉ាងពិសេសដើម្បីចងចាំព័ត៌មាន ឬទិន្នន័យដែលមានលក្ខណៈជាស៊េរីពេលវេលា (Time-series) ក្នុងរយៈពេលយូរ ដែលស័ក្តិសមបំផុតសម្រាប់ទស្សន៍ទាយតម្លៃភាគហ៊ុន ឬអាកាសធាតុ។ | ដូចជាមនុស្សម្នាក់ដែលអាចចងចាំព្រឹត្តិការណ៍សំខាន់ៗដែលបានកើតឡើងកាលពីច្រើនខែមុន ហើយយកព័ត៌មានទាំងនោះមកទាយពីអ្វីដែលអាចកើតឡើងនៅថ្ងៃស្អែក។ |
| Random Forest | ជាក្បួនដោះស្រាយរៀនម៉ាស៊ីន (ML) ដែលបង្កើតឡើងដោយការប្រមូលផ្តុំដើមឈើសម្រេចចិត្ត (Decision Trees) ជាច្រើន។ វាធ្វើការទស្សន៍ទាយដោយយកលទ្ធផលភាគច្រើននៃដើមឈើទាំងអស់នោះមករួមបញ្ចូលគ្នា ដើម្បីកាត់បន្ថយកំហុស និងបង្កើនភាពត្រឹមត្រូវ។ | ដូចជាការសួរយោបល់ពីក្រុមអ្នកជំនាញជាច្រើននាក់លើបញ្ហាមួយ រួចយកចម្លើយដែលអ្នកជំនាញភាគច្រើនបានឯកភាពគ្នា មកធ្វើជាសេចក្តីសម្រេចចុងក្រោយ។ |
| Root Mean Squared Error (RMSE) | ជារង្វាស់ស្ថិតិដែលប្រើសម្រាប់វាស់ស្ទង់កម្រិតខុសគ្នារវាងតម្លៃដែលម៉ូដែលបានទស្សន៍ទាយ និងតម្លៃពិតប្រាកដ។ តម្លៃ RMSE កាន់តែតូច បង្ហាញថាម៉ូដែលនោះទស្សន៍ទាយបានកាន់តែសុក្រឹត ហើយវាផ្តល់ការពិន័យខ្ពស់ចំពោះកំហុសធំៗ (Outliers)។ | ដូចជាការបាញ់ព្រួញទៅកាន់ផ្ទាំងស៊ីប ដែល RMSE គឺជាការវាស់ចម្ងាយសរុបនៃព្រួញទាំងអស់ដែលខុសពីចំណុចកណ្តាល ហើយព្រួញណាដែលផ្លាតឆ្ងាយខ្លាំងនឹងត្រូវដកពិន្ទុធ្ងន់ធ្ងរ។ |
| MinMaxScaler | ជាបច្ចេកទេសក្នុងដំណាក់កាលរៀបចំទិន្នន័យជាមុន (Preprocessing) ដែលបំប្លែងតម្លៃទិន្នន័យដើមទាំងអស់ឱ្យស្ថិតនៅក្នុងចន្លោះតូចមួយ (ជាទូទៅចន្លោះពី ០ ទៅ ១) ដើម្បីជួយឱ្យបណ្តាញសរសៃប្រសាទរៀនបានលឿន និងមានប្រសិទ្ធភាព។ | ដូចជាការប្តូររូបិយប័ណ្ណពីប្រទេសផ្សេងៗគ្នា (រៀល ដុល្លារ បាត) ទៅជារូបិយប័ណ្ណតែមួយស្តង់ដារ (ឧ. ដុល្លារ) ដើម្បីងាយស្រួលក្នុងការបូកសរុប និងប្រៀបធៀប។ |
| Ensemble methods | ជាបច្ចេកទេសនៃការយកម៉ូដែលទស្សន៍ទាយច្រើនជាងមួយមកបញ្ចូលគ្នា (ឧទាហរណ៍ យក ML និង DL បញ្ចូលគ្នា) ដើម្បីបង្កើតជាម៉ូដែលតែមួយដែលមានភាពរឹងមាំ និងមានកម្រិតភាពត្រឹមត្រូវខ្ពស់ជាងម៉ូដែលនីមួយៗនៅដាច់ដោយឡែកពីគ្នា។ | ដូចជាការច្រៀងបន្ទរជាក្រុម ដែលសំឡេងរបស់មនុស្សម្នាក់ៗអាចមានចំណុចខ្សោយរៀងៗខ្លួន ប៉ុន្តែពេលច្រៀងរួមគ្នា វាបង្កើតបានជាសំនៀងមួយដែលពិរោះ និងមានកំហុសតិចតួចបំផុត។ |
| Feature Extraction | ជាដំណើរការនៃការទាញយកព័ត៌មាន ឬលក្ខណៈសំខាន់ៗបំផុតពីទិន្នន័យដើមដែលស្មុគស្មាញ និងមានទំហំធំ (ឧ. រូបភាព ឬអត្ថបទ) មកប្រើប្រាស់ ដើម្បីកាត់បន្ថយទំហំទិន្នន័យ និងជួយឱ្យម៉ូដែលរៀនចាប់យកលំនាំបានច្បាស់លាស់។ | ដូចជាការអានសៀវភៅក្រាស់មួយក្បាល ហើយសរសេរសង្ខេបយកតែចំណុចសំខាន់ៗបំផុត ដើម្បីប្រាប់ទៅនរណាម្នាក់ឱ្យយល់ពីសាច់រឿងយ៉ាងលឿនដោយមិនបាច់អានសៀវភៅពេញទាំងមូល។ |
| Convolutional Neural Network (CNN) | ជាបណ្តាញសរសៃប្រសាទរៀនស៊ីជម្រៅ (DL) ដែលពូកែខាងសម្គាល់លំនាំក្នុងទិន្នន័យជារូបភាព ដោយប្រើស្រទាប់ច្រោះ (Filters) ដើម្បីចាប់យកទម្រង់ដូចជា គែម (Edges) ទំហំ និងពណ៌ជារូបភាព។ | ដូចជាភ្នែករបស់មនុស្សដែលសម្លឹងមើលទៅផ្ទាំងគំនូរមួយ ដោយផ្តោតលើបន្ទាត់ ពណ៌ និងរូបរាងផ្សេងៗដើម្បីសម្គាល់ និងបំបែកថាវាជារូបភាពអ្វី (ឧ. រូបឡាន ឬរូបមនុស្ស)។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖