Original Title: Prediction of Water Quality’s pH value using Random Forest and LightGBM Algorithms
Source: doi.org/10.58626/memba.1667338
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការទស្សន៍ទាយតម្លៃ pH នៃគុណភាពទឹកដោយប្រើប្រាស់ក្បួនដោះស្រាយ Random Forest និង LightGBM

ចំណងជើងដើម៖ Prediction of Water Quality’s pH value using Random Forest and LightGBM Algorithms

អ្នកនិពន្ធ៖ İbrahim Budak (Kastamonu University, Türkiye)

ឆ្នាំបោះពុម្ព៖ 2025, Memba Water Sciences Journal

វិស័យសិក្សា៖ Environmental Data Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយតម្រូវការក្នុងការទស្សន៍ទាយតម្លៃ pH ឱ្យបានត្រឹមត្រូវ ដែលជាប៉ារ៉ាម៉ែត្រដ៏សំខាន់ក្នុងការវាយតម្លៃគុណភាពទឹក តាមរយៈការវាយតម្លៃ និងប្រៀបធៀបក្បួនដោះស្រាយយន្តការរៀនម៉ាស៊ីន (Machine learning algorithms) ផ្សេងៗគ្នា។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់ម៉ូដែលយន្តការរៀនម៉ាស៊ីន (Machine learning models) ចំនួនពីរ ដែលត្រូវបានវាយតម្លៃលើសំណុំទិន្នន័យគុណភាពទឹកដ៏ធំ ដើម្បីកំណត់រកប្រសិទ្ធភាពនៃការទស្សន៍ទាយដែលល្អបំផុត។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Random Forest Regression
ក្បួនដោះស្រាយ Random Forest Regression (RFR)
មានសមត្ថភាពទូទៅល្អក្នុងការដោះស្រាយបញ្ហាស៊ាំញ៉ាំ និងត្រូវការការរៀបចំទិន្នន័យជាមុន (Data preprocessing) តិចតួច។ វាជួយកាត់បន្ថយបញ្ហា Overfitting តាមរយៈការរួមបញ្ចូលមែកធាងការសម្រេចចិត្ត (Decision trees) ជាច្រើន។ ទទួលបានលទ្ធផលទាបជាង LightGBM ក្នុងការសិក្សានេះ ហើយជាទូទៅដំណើរការយឺតជាង និងប្រើប្រាស់ធនធានច្រើនសម្រាប់ការគណនាលើទិន្នន័យធំៗ។ RMSE = ០.២៣៣, R-squared = ០.៣៤៦, និង AUC = ០.៨៤
Light Gradient Boosting Machine (LightGBM)
ក្បួនដោះស្រាយ LightGBM
មានល្បឿនបង្វឹកម៉ូដែល (Training time) លឿន ប្រើប្រាស់អង្គចងចាំ (Memory) តិច និងមានភាពត្រឹមត្រូវខ្ពស់ ជាពិសេសសម្រាប់សំណុំទិន្នន័យធំ និងមានវិមាត្រច្រើន។ ដោយសារតែវាផ្តោតលើការលូតលាស់តាមស្លឹក (Leaf-wise growth) វាអាចងាយនឹងជួបបញ្ហា Overfitting ប្រសិនបើប្រើប្រាស់លើសំណុំទិន្នន័យតូចពេក។ ទទួលបានលទ្ធផលល្អជាងដោយមាន RMSE = ០.២០៧, R-squared = ០.៤៨១, និង AUC = ០.៨៦

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ភាសាកម្មវិធី Python សម្រាប់ការវិភាគទិន្នន័យ ប៉ុន្តែមិនបានបញ្ជាក់លម្អិតពីទំហំផ្នែករឹង (Hardware) ដែលត្រូវការនោះទេ តែបានសង្កត់ធ្ងន់ថា LightGBM ជួយកាត់បន្ថយការប្រើប្រាស់អង្គចងចាំ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យ 'waterdataset' ពីវេទិកា Kaggle ដែលមិនបានបញ្ជាក់ពីទីតាំងភូមិសាស្ត្រជាក់លាក់នៃប្រភពទឹកនោះទេ។ នេះមានន័យថាម៉ូដែលនេះអាចនឹងមិនឆ្លុះបញ្ចាំងពីលក្ខណៈពិសេសនៃធនធានទឹកនៅកម្ពុជា (ដូចជាលក្ខណៈទឹកទន្លេមេគង្គ ឬបឹងទន្លេសាប) ឡើយ។ ដូច្នេះ ដើម្បីធានាបាននូវភាពត្រឹមត្រូវសម្រាប់ការប្រើប្រាស់នៅកម្ពុជា គេចាំបាច់ត្រូវប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែមដើម្បីយកមកបង្វឹកម៉ូដែលនេះឡើងវិញ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់សម្រាប់អនុវត្តនៅកម្ពុជា ក្នុងការតាមដាន និងគ្រប់គ្រងគុណភាពទឹកប្រកបដោយប្រសិទ្ធភាព ដោយប្រើប្រាស់បច្ចេកវិទ្យាយន្តការរៀនម៉ាស៊ីន (Machine Learning)។

ជារួម ការប្រើប្រាស់ក្បួនដោះស្រាយ LightGBM អាចផ្តល់នូវដំណោះស្រាយរហ័ស ឆ្លាតវៃ និងចំណាយតិចសម្រាប់ការតាមដានគុណភាពទឹកនៅកម្ពុជា ប្រសិនបើមានការរួមបញ្ចូលជាមួយឧបករណ៍ចាប់សញ្ញា (Sensors) និងទិន្នន័យក្នុងស្រុក។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ស្វែងយល់ពីភាសា Python និងបណ្ណាល័យវិភាគទិន្នន័យ: និស្សិតគួរចាប់ផ្តើមរៀនសរសេរកូដ Python និងប្រើប្រាស់បណ្ណាល័យដូចជា Pandas សម្រាប់រៀបចំទិន្នន័យ (Data normalization) និង Scikit-Learn សម្រាប់ការអនុវត្ត Machine Learning ជាមូលដ្ឋាន និងគណនារង្វាស់ RMSE។
  2. អនុវត្តផ្ទាល់ជាមួយសំណុំទិន្នន័យ Kaggle: ទាញយកសំណុំទិន្នន័យ 'waterdataset' ពី Kaggle ដូចដែលបានប្រើក្នុងការសិក្សានេះ ហើយសាកល្បងសរសេរកូដដើម្បីបង្វឹកម៉ូដែល Random Forest ដោយខ្លួនឯងដើម្បីស្វែងយល់ពីដំណើរការ។
  3. សិក្សាស៊ីជម្រៅលើ LightGBM: ដំឡើងបណ្ណាល័យ LightGBM ក្នុង Python សិក្សាពីរបៀបកែតម្រូវ Hyperparameters (ដូចជា Learning rate និង Number of leaves) រួចប្រៀបធៀបលទ្ធផល AUC និង R-squared ជាមួយម៉ូដែល Random Forest។
  4. ប្រមូល និងសាកល្បងជាមួយទិន្នន័យនៅកម្ពុជា: ទាក់ទងស្វែងរកសំណុំទិន្នន័យគុណភាពទឹកពីក្រសួងបរិស្ថាន ឬគម្រោងស្រាវជ្រាវនានានៅកម្ពុជា ដើម្បីយកមកធ្វើតេស្តថាតើម៉ូដែលនេះនៅតែរក្សាបានភាពត្រឹមត្រូវកម្រិតណា នៅពេលប្រើជាមួយទិន្នន័យភូមិសាស្ត្រថ្មី។
  5. បង្កើតផ្ទាំងគ្រប់គ្រងតាមដាន (Monitoring Dashboard): ប្រើប្រាស់ឧបករណ៍ដូចជា Streamlit ក្នុងការសាងសង់ផ្ទាំងគ្រប់គ្រងទិន្នន័យ ដែលអាចទាញយកទិន្នន័យគុណភាពទឹក និងបង្ហាញការទស្សន៍ទាយកម្រិត pH ក្នុងពេលវេលាជាក់ស្តែង (Real-time prediction) សម្រាប់អ្នកប្រើប្រាស់ចុងក្រោយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Random Forest Regression យន្តការរៀនម៉ាស៊ីនដែលបង្កើតជា 'មែកធាងការសម្រេចចិត្ត' (Decision trees) ជាច្រើនដោយចៃដន្យ ហើយយកចម្លើយទស្សន៍ទាយរបស់មែកធាងនីមួយៗមកគណនាជាមធ្យម ដើម្បីទទួលបានលទ្ធផលរួមមួយដែលច្បាស់លាស់ និងកាត់បន្ថយកំហុសប្រភេទ Overfitting។ ដូចជាការសួរសុំយោបល់ពីអ្នកជំនាញ១០០នាក់ផ្សេងៗគ្នា រួចយកចម្លើយដែលភាគច្រើនឯកភាពគ្នា ដើម្បីធ្វើការសម្រេចចិត្តចុងក្រោយ ជាជាងជឿលើមនុស្សតែម្នាក់។
LightGBM Algorithm ក្បួនដោះស្រាយដ៏មានអានុភាពដែលរៀនពីកំហុសនៃម៉ូដែលមុនៗជាបន្តបន្ទាប់ (Gradient Boosting) ត្រូវបានរចនាឡើងពិសេសដើម្បីដំណើរការលឿន ស៊ីអង្គចងចាំ (Memory) តិច និងស័ក្តិសមបំផុតសម្រាប់ទស្សន៍ទាយលើទិន្នន័យធំៗរាប់ម៉ឺនជួរដោយមានភាពត្រឹមត្រូវខ្ពស់។ ដូចជាសិស្សដែលរៀនពូកែ និងឆ្លាតវៃ ដោយផ្តោតលើការកែតម្រូវតែចំណុចខ្សោយ ឬលំហាត់ណាដែលខ្លួនធ្វើខុសពីមុន ដើម្បីឱ្យប្រឡងលើកក្រោយបានពិន្ទុល្អឥតខ្ចោះក្នុងពេលដ៏ខ្លី។
RMSE (Root Mean Square Error) រង្វាស់គណិតវិទ្យាសម្រាប់វាស់កម្រិតកំហុសនៃម៉ូដែលទស្សន៍ទាយ ដោយបង្ហាញពីគម្លាតជាមធ្យមរវាងតម្លៃដែលម៉ូដែលទាយបាន និងតម្លៃជាក់ស្តែងពិតប្រាកដ។ តម្លៃ RMSE កាន់តែតូច មានន័យថាម៉ូដែលកាន់តែមានភាពត្រឹមត្រូវ។ ដូចជាការវាស់ចម្ងាយខុសគោលដៅនៃការបាញ់ព្រួញ ប្រសិនបើព្រួញភាគច្រើនបាញ់ចំជិតចំណុចកណ្តាល នោះកម្រិតលម្អៀង (RMSE) គឺមានទំហំតូច។
AUC (Area Under Curve) រង្វាស់វាយតម្លៃជារួមដែលបង្ហាញពីសមត្ថភាពរបស់ម៉ូដែលក្នុងការបែងចែក ឬទស្សន៍ទាយបានត្រឹមត្រូវរវាងទិន្នន័យខុសៗគ្នា។ តម្លៃ AUC កាន់តែខិតជិត ១ បង្ហាញថាម៉ូដែលទស្សន៍ទាយបានល្អឥតខ្ចោះ ចំណែកឯតម្លៃ ០.៥ មានន័យថាវាទាយដោយការស្មានចៃដន្យធម្មតា។ ដូចជាពិន្ទុប្រឡងសរុបរបស់សិស្សម្នាក់ ដែលពិន្ទុកាន់តែខិតជិត ១០០% (ឬ ១.០) បង្ហាញថាសិស្សនោះមានសមត្ថភាពដោះស្រាយបញ្ហាពិតប្រាកដ មិនមែនចេះតែគូសស្មាននោះទេ។
Gradient Boosting បច្ចេកទេសសាងសង់ម៉ូដែលរៀនម៉ាស៊ីនដោយបន្ថែម 'មែកធាង' ថ្មីៗជាបន្តបន្ទាប់ ដែលមែកធាងថ្មីនីមួយៗមានតួនាទីយ៉ាងសំខាន់ក្នុងការកែតម្រូវ និងបង្រួមកំហុសដែលបន្សល់ទុកដោយមែកធាងចាស់ៗមុនវា។ ដូចជាការសាងសង់ជញ្ជាំងឥដ្ឋ ដែលជាងម្នាក់រៀបឥដ្ឋឱ្យចេញជារូបរាង រួចជាងម្នាក់ទៀតដើរតាមក្រោយដើម្បីបូកស៊ីម៉ងត៍លុបចន្លោះប្រហោងដែលជាងមុនធ្វើឱ្យរលាត់ ដើម្បីឱ្យជញ្ជាំងកាន់តែរឹងមាំ និងស្អាត។
Out-of-Bag (OOB) error វិធីសាស្ត្រវាយតម្លៃកំហុសរបស់ Random Forest ដោយប្រើប្រាស់ទិន្នន័យដែលនៅសល់ (មិនត្រូវបានជ្រើសរើសយកទៅបង្វឹកមែកធាងនោះ) មកធ្វើតេស្តសមត្ថភាពម៉ូដែលដោយផ្ទាល់ ដែលជួយសន្សំសំចៃមិនបាច់បែងចែកទិន្នន័យតេស្ត (Test set) ដាច់ដោយឡែក។ ដូចជាការយកវិញ្ញាសាដែលគ្រូមិនទាន់បានបង្រៀននៅក្នុងថ្នាក់ មកធ្វើជាវិញ្ញាសាប្រឡង ដើម្បីវាស់ស្ទង់សមត្ថភាពដោះស្រាយបញ្ហាជាក់ស្តែងរបស់សិស្សយ៉ាងពិតប្រាកដ។
Leaf-Wise Growth Strategy យុទ្ធសាស្ត្រលូតលាស់មែកធាងរបស់ LightGBM ដែលវាយតម្លៃ និងជ្រើសរើសពង្រីកតែ 'ស្លឹក' (ចំណុចសម្រេចចិត្ត) ណាដែលផ្តល់អត្ថប្រយោជន៍ ឬជួយកាត់បន្ថយកំហុសទិន្នន័យបានច្រើនជាងគេបំផុត ជាជាងការលូតលាស់គ្រប់មែកឱ្យស្មើគ្នាតាមកម្រិតជួរ។ ដូចជាការប្រឡង ដោយជ្រើសរើសធ្វើតែលំហាត់ណាដែលខ្លួនចេះច្បាស់និងទទួលបានពិន្ទុច្រើនមុនគេ ដើម្បីសន្សំពេលនិងបានពិន្ទុសរុបខ្ពស់ ជាជាងខំធ្វើរៀងតាមលំដាប់តាំងពីលំហាត់ទី១ដល់ចប់។
Decision trees រចនាសម្ព័ន្ធក្បួនដោះស្រាយដែលដំណើរការជាទម្រង់សំនួរ ឬលក្ខខណ្ឌ 'ពិត/មិនពិត' បន្តបន្ទាប់គ្នា (មានរាងដូចជាមែកធាង) ដើម្បីបំបែកទិន្នន័យជាក្រុមតូចៗបណ្តើរៗ រហូតដល់ទទួលបានចម្លើយទស្សន៍ទាយចុងក្រោយមួយនៅលើចុងស្លឹករបស់វា។ ដូចជាការលេងហ្គេមទាយឈ្មោះសត្វ ដោយយើងសួរជម្រុះម្តងមួយៗ (ឧ. តើវាមានជើងបួនទេ? តើវាស៊ីសាច់ជាអាហារទេ?) រហូតដល់ទាយដឹងថាវាជាសត្វអ្វីឱ្យប្រាកដ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖