បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាទិន្នន័យមិនទៀងទាត់ (Irregular Data) នៅក្នុងទីផ្សារភាគហ៊ុន ដែលបណ្តាលមកពីការប្រែប្រួលទីផ្សារ និងចន្លោះខ្វះខាតនៃទិន្នន័យ ធ្វើឱ្យប៉ះពាល់ដល់ភាពត្រឹមត្រូវនៃម៉ូដែលទស្សន៍ទាយបែបប្រពៃណី។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់ទិន្នន័យភាគហ៊ុនក្រុមហ៊ុន Tesla រយៈពេល ១០ឆ្នាំ ដោយអនុវត្តវិធីសាស្ត្រ ប៉ាន់ស្មានលីនេអ៊ែរសាមញ្ញ (Simple Linear Interpolation) ដើម្បីកែលម្អគុណភាពទិន្នន័យ មុននឹងធ្វើការសាកល្បងជាមួយម៉ូដែល Machine Learning ផ្សេងៗ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Stacked Model with Simple Linear Interpolation (SLI) ការប្រើប្រាស់គំរូត្រួតគ្នា (Stacked Model) រួមជាមួយការបំពេញចន្លោះទិន្នន័យ (SLI) |
ផ្តល់នូវការកើនឡើងនៃប្រសិទ្ធភាពខ្ពស់បំផុត ដោយសារវាអាចរៀនពីលក្ខណៈទិន្នន័យដែលបានបំពេញបន្ថែមបានល្អជាងគំរូទោល។ | មានភាពស្មុគស្មាញក្នុងការបង្កើត និងទាមទារធនធានគណនាច្រើនជាងគំរូធម្មតា។ | ភាពត្រឹមត្រូវ (Accuracy) កើនឡើង ៧.០៣% និង AUC កើនឡើង ៧.៥២% បើធៀបនឹងទិន្នន័យដើម។ |
| Random Forest & XGBoost with SLI ការប្រើប្រាស់ Random Forest និង XGBoost រួមជាមួយ SLI |
មានភាពធន់នឹងការរំខាន (Noise) និងហានិភ័យនៃ Overfitting ទាបជាងម៉ូដែលដទៃ។ | ការកែលម្អមានកម្រិតតិចតួចណាស់ (ប្រហែល ១%) ដែលបង្ហាញថាវាមិនសូវទទួលបានផលពី SLI ដូច Stacked Model ទេ។ | ការកើនឡើងនៃភាពត្រឹមត្រូវមានត្រឹមតែ ០.០៥% ទៅ ១.០៦% ប៉ុណ្ណោះ។ |
| K-Nearest Neighbors (KNN) with SLI ការប្រើប្រាស់ KNN រួមជាមួយ SLI |
មានភាពសាមញ្ញក្នុងការអនុវត្ត និងបង្ហាញការកើនឡើងនៃភាពត្រឹមត្រូវខ្លះ។ | ងាយរងគ្រោះដោយសារទិន្នន័យមិនពិត (Artifacts) ដែលកើតចេញពីការប៉ាន់ស្មាន បណ្តាលឱ្យមានបញ្ហា Overfitting ។ | តម្លៃ KS (Kolmogorov-Smirnov) ធ្លាក់ចុះ ដែលបង្ហាញពីការថយចុះសមត្ថភាពក្នុងការបែងចែកប្រភេទ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រក្នុងកម្រិតមធ្យម ដែលនិស្សិត ឬអ្នកស្រាវជ្រាវអាចអនុវត្តបានលើកុំព្យូទ័រផ្ទាល់ខ្លួន។
ការសិក្សានេះផ្តោតតែលើភាគហ៊ុនក្រុមហ៊ុន Tesla (US Market) រយៈពេល ១០ឆ្នាំ ដែលជាភាគហ៊ុនដែលមានការប្រែប្រួលខ្ពស់ (High Volatility) និងទំហំជួញដូរធំ។ នេះជាចំណុចខ្វះខាតមួយសម្រាប់កម្ពុជា ព្រោះទីផ្សារភាគហ៊ុនកម្ពុជា (CSX) មានទំហំតូចជាង និងមានលក្ខណៈនៃការជួញដូរខុសគ្នា (Low Liquidity) ដែលលទ្ធផលអាចនឹងមិនឆ្លុះបញ្ចាំងទាំងស្រុង។
វិធីសាស្ត្រនេះមានប្រយោជន៍ខ្លាំងសម្រាប់កម្ពុជា ជាពិសេសក្នុងការដោះស្រាយបញ្ហាទិន្នន័យមិនពេញលេញនៅក្នុងវិស័យហិរញ្ញវត្ថុ។
បច្ចេកទេសនេះសាមញ្ញតែមានប្រសិទ្ធភាពខ្ពស់សម្រាប់ការចាប់ផ្តើមវិភាគទិន្នន័យហិរញ្ញវត្ថុនៅកម្ពុជា ដែលទិន្នន័យជាញឹកញាប់មិនមានភាពពេញលេញ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Irregular Data | សំដៅលើទិន្នន័យដែលត្រូវបានប្រមូលក្នុងចន្លោះពេលវេលាដែលមិនស្មើគ្នា ឬមានការបាត់បង់ទិន្នន័យនៅចំណុចខ្លះ ដែលធ្វើឱ្យពិបាកក្នុងការប្រើប្រាស់ជាមួយគំរូស្ថិតិបែបប្រពៃណីដែលទាមទារភាពទៀងទាត់។ | ដូចជាការកត់ត្រាកំណត់ហេតុប្រចាំថ្ងៃ ដែលថ្ងៃខ្លះអ្នកសរសេរ ហើយថ្ងៃខ្លះទៀតអ្នកភ្លេចសរសេរ ដែលធ្វើឱ្យព័ត៌មានមិនបន្តជាប់គ្នា។ |
| Simple Linear Interpolation | ជាបច្ចេកទេសគណិតវិទ្យាសម្រាប់ប៉ាន់ស្មានតម្លៃដែលបាត់ ដោយគូសបន្ទាត់ត្រង់ភ្ជាប់រវាងចំណុចទិន្នន័យពីរដែលគេស្គាល់ ដើម្បីរកតម្លៃកណ្តាល។ | ប្រៀបដូចជាការគូសបន្ទាត់ត្រង់ភ្ជាប់ពីចំណុចមួយទៅចំណុចមួយទៀត ដើម្បីបិទចន្លោះដែលដាច់នៅលើក្រដាស។ |
| Stacked Model | ជាវិធីសាស្ត្រមួយក្នុង Machine Learning ដែលយកលទ្ធផលទស្សន៍ទាយពីម៉ូដែលជាច្រើន (Base Models) មកបញ្ចូលគ្នា ហើយប្រើម៉ូដែលមេមួយ (Meta-learner) ដើម្បីធ្វើការសម្រេចចិត្តចុងក្រោយដែលមានភាពសុក្រឹតជាងមុន។ | ដូចជាការមានគណៈកម្មការមួយក្រុមដែលផ្តល់យោបល់ ហើយមានប្រធានម្នាក់ជាអ្នកសម្រេចចិត្តចុងក្រោយដោយផ្អែកលើយោបល់ល្អៗទាំងនោះ។ |
| Stepwise Feature Selection | ដំណើរការនៃការជ្រើសរើសអថេរ (Variables) សម្រាប់ដាក់ចូលក្នុងម៉ូដែល ដោយធ្វើការបន្ថែមឬដកចេញម្តងមួយៗ ដើម្បីស្វែងរកបន្សំនៃអថេរណាដែលផ្តល់លទ្ធផលល្អបំផុត និងកាត់បន្ថយភាពស្មុគស្មាញ។ | ដូចជាការសាកល្បងគ្រឿងផ្សំម្ហូបម្តងមួយមុខ ដើម្បីដឹងថាគ្រឿងផ្សំណាធ្វើឱ្យម្ហូបឆ្ងាញ់ ហើយដកគ្រឿងផ្សំដែលមិនចាំបាច់ចេញ។ |
| Kolmogorov-Smirnov (KS) Statistic | រង្វាស់ស្ថិតិដែលប្រើដើម្បីវាយតម្លៃថា តើម៉ូដែលមួយអាចបែងចែករវាងក្រុមពីរផ្សេងគ្នា (ឧទាហរណ៍៖ ភាគហ៊ុនឡើង និងភាគហ៊ុនចុះ) បានដាច់ស្រឡះពីគ្នាកម្រិតណា។ | ប្រៀបដូចជាការវាស់គម្លាតរវាងសិស្សពូកែ និងសិស្សខ្សោយ ដើម្បីមើលថាតើការប្រឡងមួយអាចបែងចែកសមត្ថភាពពួកគេបានច្បាស់ឬអត់។ |
| Hold-Out Set | ផ្នែកមួយនៃទិន្នន័យដែលត្រូវបានដកចេញតាំងពីដំបូង និងមិនត្រូវបានប្រើសម្រាប់ការបង្វឹកម៉ូដែលឡើយ ដើម្បីទុកប្រើប្រាស់សម្រាប់ធ្វើតេស្តសមត្ថភាពម៉ូដែលជាលើកចុងក្រោយ។ | ដូចជាវិញ្ញាសាប្រឡងដែលគ្រូទុកដោយឡែក មិនយកមកបង្រៀនក្នុងថ្នាក់ ដើម្បីយកមកធ្វើតេស្តសិស្សនៅថ្ងៃប្រឡងបញ្ចប់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖