បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយតម្រូវការក្នុងការទស្សន៍ទាយតម្លៃ pH ឱ្យបានត្រឹមត្រូវ ដែលជាប៉ារ៉ាម៉ែត្រដ៏សំខាន់ក្នុងការវាយតម្លៃគុណភាពទឹក តាមរយៈការវាយតម្លៃ និងប្រៀបធៀបក្បួនដោះស្រាយយន្តការរៀនម៉ាស៊ីន (Machine learning algorithms) ផ្សេងៗគ្នា។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់ម៉ូដែលយន្តការរៀនម៉ាស៊ីន (Machine learning models) ចំនួនពីរ ដែលត្រូវបានវាយតម្លៃលើសំណុំទិន្នន័យគុណភាពទឹកដ៏ធំ ដើម្បីកំណត់រកប្រសិទ្ធភាពនៃការទស្សន៍ទាយដែលល្អបំផុត។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Random Forest Regression ក្បួនដោះស្រាយ Random Forest Regression (RFR) |
មានសមត្ថភាពទូទៅល្អក្នុងការដោះស្រាយបញ្ហាស៊ាំញ៉ាំ និងត្រូវការការរៀបចំទិន្នន័យជាមុន (Data preprocessing) តិចតួច។ វាជួយកាត់បន្ថយបញ្ហា Overfitting តាមរយៈការរួមបញ្ចូលមែកធាងការសម្រេចចិត្ត (Decision trees) ជាច្រើន។ | ទទួលបានលទ្ធផលទាបជាង LightGBM ក្នុងការសិក្សានេះ ហើយជាទូទៅដំណើរការយឺតជាង និងប្រើប្រាស់ធនធានច្រើនសម្រាប់ការគណនាលើទិន្នន័យធំៗ។ | RMSE = ០.២៣៣, R-squared = ០.៣៤៦, និង AUC = ០.៨៤ |
| Light Gradient Boosting Machine (LightGBM) ក្បួនដោះស្រាយ LightGBM |
មានល្បឿនបង្វឹកម៉ូដែល (Training time) លឿន ប្រើប្រាស់អង្គចងចាំ (Memory) តិច និងមានភាពត្រឹមត្រូវខ្ពស់ ជាពិសេសសម្រាប់សំណុំទិន្នន័យធំ និងមានវិមាត្រច្រើន។ | ដោយសារតែវាផ្តោតលើការលូតលាស់តាមស្លឹក (Leaf-wise growth) វាអាចងាយនឹងជួបបញ្ហា Overfitting ប្រសិនបើប្រើប្រាស់លើសំណុំទិន្នន័យតូចពេក។ | ទទួលបានលទ្ធផលល្អជាងដោយមាន RMSE = ០.២០៧, R-squared = ០.៤៨១, និង AUC = ០.៨៦ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ភាសាកម្មវិធី Python សម្រាប់ការវិភាគទិន្នន័យ ប៉ុន្តែមិនបានបញ្ជាក់លម្អិតពីទំហំផ្នែករឹង (Hardware) ដែលត្រូវការនោះទេ តែបានសង្កត់ធ្ងន់ថា LightGBM ជួយកាត់បន្ថយការប្រើប្រាស់អង្គចងចាំ។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ 'waterdataset' ពីវេទិកា Kaggle ដែលមិនបានបញ្ជាក់ពីទីតាំងភូមិសាស្ត្រជាក់លាក់នៃប្រភពទឹកនោះទេ។ នេះមានន័យថាម៉ូដែលនេះអាចនឹងមិនឆ្លុះបញ្ចាំងពីលក្ខណៈពិសេសនៃធនធានទឹកនៅកម្ពុជា (ដូចជាលក្ខណៈទឹកទន្លេមេគង្គ ឬបឹងទន្លេសាប) ឡើយ។ ដូច្នេះ ដើម្បីធានាបាននូវភាពត្រឹមត្រូវសម្រាប់ការប្រើប្រាស់នៅកម្ពុជា គេចាំបាច់ត្រូវប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែមដើម្បីយកមកបង្វឹកម៉ូដែលនេះឡើងវិញ។
វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់សម្រាប់អនុវត្តនៅកម្ពុជា ក្នុងការតាមដាន និងគ្រប់គ្រងគុណភាពទឹកប្រកបដោយប្រសិទ្ធភាព ដោយប្រើប្រាស់បច្ចេកវិទ្យាយន្តការរៀនម៉ាស៊ីន (Machine Learning)។
ជារួម ការប្រើប្រាស់ក្បួនដោះស្រាយ LightGBM អាចផ្តល់នូវដំណោះស្រាយរហ័ស ឆ្លាតវៃ និងចំណាយតិចសម្រាប់ការតាមដានគុណភាពទឹកនៅកម្ពុជា ប្រសិនបើមានការរួមបញ្ចូលជាមួយឧបករណ៍ចាប់សញ្ញា (Sensors) និងទិន្នន័យក្នុងស្រុក។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Random Forest Regression | យន្តការរៀនម៉ាស៊ីនដែលបង្កើតជា 'មែកធាងការសម្រេចចិត្ត' (Decision trees) ជាច្រើនដោយចៃដន្យ ហើយយកចម្លើយទស្សន៍ទាយរបស់មែកធាងនីមួយៗមកគណនាជាមធ្យម ដើម្បីទទួលបានលទ្ធផលរួមមួយដែលច្បាស់លាស់ និងកាត់បន្ថយកំហុសប្រភេទ Overfitting។ | ដូចជាការសួរសុំយោបល់ពីអ្នកជំនាញ១០០នាក់ផ្សេងៗគ្នា រួចយកចម្លើយដែលភាគច្រើនឯកភាពគ្នា ដើម្បីធ្វើការសម្រេចចិត្តចុងក្រោយ ជាជាងជឿលើមនុស្សតែម្នាក់។ |
| LightGBM Algorithm | ក្បួនដោះស្រាយដ៏មានអានុភាពដែលរៀនពីកំហុសនៃម៉ូដែលមុនៗជាបន្តបន្ទាប់ (Gradient Boosting) ត្រូវបានរចនាឡើងពិសេសដើម្បីដំណើរការលឿន ស៊ីអង្គចងចាំ (Memory) តិច និងស័ក្តិសមបំផុតសម្រាប់ទស្សន៍ទាយលើទិន្នន័យធំៗរាប់ម៉ឺនជួរដោយមានភាពត្រឹមត្រូវខ្ពស់។ | ដូចជាសិស្សដែលរៀនពូកែ និងឆ្លាតវៃ ដោយផ្តោតលើការកែតម្រូវតែចំណុចខ្សោយ ឬលំហាត់ណាដែលខ្លួនធ្វើខុសពីមុន ដើម្បីឱ្យប្រឡងលើកក្រោយបានពិន្ទុល្អឥតខ្ចោះក្នុងពេលដ៏ខ្លី។ |
| RMSE (Root Mean Square Error) | រង្វាស់គណិតវិទ្យាសម្រាប់វាស់កម្រិតកំហុសនៃម៉ូដែលទស្សន៍ទាយ ដោយបង្ហាញពីគម្លាតជាមធ្យមរវាងតម្លៃដែលម៉ូដែលទាយបាន និងតម្លៃជាក់ស្តែងពិតប្រាកដ។ តម្លៃ RMSE កាន់តែតូច មានន័យថាម៉ូដែលកាន់តែមានភាពត្រឹមត្រូវ។ | ដូចជាការវាស់ចម្ងាយខុសគោលដៅនៃការបាញ់ព្រួញ ប្រសិនបើព្រួញភាគច្រើនបាញ់ចំជិតចំណុចកណ្តាល នោះកម្រិតលម្អៀង (RMSE) គឺមានទំហំតូច។ |
| AUC (Area Under Curve) | រង្វាស់វាយតម្លៃជារួមដែលបង្ហាញពីសមត្ថភាពរបស់ម៉ូដែលក្នុងការបែងចែក ឬទស្សន៍ទាយបានត្រឹមត្រូវរវាងទិន្នន័យខុសៗគ្នា។ តម្លៃ AUC កាន់តែខិតជិត ១ បង្ហាញថាម៉ូដែលទស្សន៍ទាយបានល្អឥតខ្ចោះ ចំណែកឯតម្លៃ ០.៥ មានន័យថាវាទាយដោយការស្មានចៃដន្យធម្មតា។ | ដូចជាពិន្ទុប្រឡងសរុបរបស់សិស្សម្នាក់ ដែលពិន្ទុកាន់តែខិតជិត ១០០% (ឬ ១.០) បង្ហាញថាសិស្សនោះមានសមត្ថភាពដោះស្រាយបញ្ហាពិតប្រាកដ មិនមែនចេះតែគូសស្មាននោះទេ។ |
| Gradient Boosting | បច្ចេកទេសសាងសង់ម៉ូដែលរៀនម៉ាស៊ីនដោយបន្ថែម 'មែកធាង' ថ្មីៗជាបន្តបន្ទាប់ ដែលមែកធាងថ្មីនីមួយៗមានតួនាទីយ៉ាងសំខាន់ក្នុងការកែតម្រូវ និងបង្រួមកំហុសដែលបន្សល់ទុកដោយមែកធាងចាស់ៗមុនវា។ | ដូចជាការសាងសង់ជញ្ជាំងឥដ្ឋ ដែលជាងម្នាក់រៀបឥដ្ឋឱ្យចេញជារូបរាង រួចជាងម្នាក់ទៀតដើរតាមក្រោយដើម្បីបូកស៊ីម៉ងត៍លុបចន្លោះប្រហោងដែលជាងមុនធ្វើឱ្យរលាត់ ដើម្បីឱ្យជញ្ជាំងកាន់តែរឹងមាំ និងស្អាត។ |
| Out-of-Bag (OOB) error | វិធីសាស្ត្រវាយតម្លៃកំហុសរបស់ Random Forest ដោយប្រើប្រាស់ទិន្នន័យដែលនៅសល់ (មិនត្រូវបានជ្រើសរើសយកទៅបង្វឹកមែកធាងនោះ) មកធ្វើតេស្តសមត្ថភាពម៉ូដែលដោយផ្ទាល់ ដែលជួយសន្សំសំចៃមិនបាច់បែងចែកទិន្នន័យតេស្ត (Test set) ដាច់ដោយឡែក។ | ដូចជាការយកវិញ្ញាសាដែលគ្រូមិនទាន់បានបង្រៀននៅក្នុងថ្នាក់ មកធ្វើជាវិញ្ញាសាប្រឡង ដើម្បីវាស់ស្ទង់សមត្ថភាពដោះស្រាយបញ្ហាជាក់ស្តែងរបស់សិស្សយ៉ាងពិតប្រាកដ។ |
| Leaf-Wise Growth Strategy | យុទ្ធសាស្ត្រលូតលាស់មែកធាងរបស់ LightGBM ដែលវាយតម្លៃ និងជ្រើសរើសពង្រីកតែ 'ស្លឹក' (ចំណុចសម្រេចចិត្ត) ណាដែលផ្តល់អត្ថប្រយោជន៍ ឬជួយកាត់បន្ថយកំហុសទិន្នន័យបានច្រើនជាងគេបំផុត ជាជាងការលូតលាស់គ្រប់មែកឱ្យស្មើគ្នាតាមកម្រិតជួរ។ | ដូចជាការប្រឡង ដោយជ្រើសរើសធ្វើតែលំហាត់ណាដែលខ្លួនចេះច្បាស់និងទទួលបានពិន្ទុច្រើនមុនគេ ដើម្បីសន្សំពេលនិងបានពិន្ទុសរុបខ្ពស់ ជាជាងខំធ្វើរៀងតាមលំដាប់តាំងពីលំហាត់ទី១ដល់ចប់។ |
| Decision trees | រចនាសម្ព័ន្ធក្បួនដោះស្រាយដែលដំណើរការជាទម្រង់សំនួរ ឬលក្ខខណ្ឌ 'ពិត/មិនពិត' បន្តបន្ទាប់គ្នា (មានរាងដូចជាមែកធាង) ដើម្បីបំបែកទិន្នន័យជាក្រុមតូចៗបណ្តើរៗ រហូតដល់ទទួលបានចម្លើយទស្សន៍ទាយចុងក្រោយមួយនៅលើចុងស្លឹករបស់វា។ | ដូចជាការលេងហ្គេមទាយឈ្មោះសត្វ ដោយយើងសួរជម្រុះម្តងមួយៗ (ឧ. តើវាមានជើងបួនទេ? តើវាស៊ីសាច់ជាអាហារទេ?) រហូតដល់ទាយដឹងថាវាជាសត្វអ្វីឱ្យប្រាកដ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖