Original Title: Irregular Stock Data Prediction Performance Optimisation Based on the Simple Linear Interpolation
Source: doi.org/10.5220/0013264100004568
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបង្កើនប្រសិទ្ធភាពនៃការទស្សន៍ទាយទិន្នន័យភាគហ៊ុនមិនទៀងទាត់ដោយផ្អែកលើការប៉ាន់ស្មានលីនេអ៊ែរសាមញ្ញ (Simple Linear Interpolation)

ចំណងជើងដើម៖ Irregular Stock Data Prediction Performance Optimisation Based on the Simple Linear Interpolation

អ្នកនិពន្ធ៖ Zhenyu Xu (Warwick Manufacturing Group, University of Warwick, Coventry, U.K.)

ឆ្នាំបោះពុម្ព៖ 2025 (ECAI 2024)

វិស័យសិក្សា៖ Machine Learning / Financial Technology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាទិន្នន័យមិនទៀងទាត់ (Irregular Data) នៅក្នុងទីផ្សារភាគហ៊ុន ដែលបណ្តាលមកពីការប្រែប្រួលទីផ្សារ និងចន្លោះខ្វះខាតនៃទិន្នន័យ ធ្វើឱ្យប៉ះពាល់ដល់ភាពត្រឹមត្រូវនៃម៉ូដែលទស្សន៍ទាយបែបប្រពៃណី។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់ទិន្នន័យភាគហ៊ុនក្រុមហ៊ុន Tesla រយៈពេល ១០ឆ្នាំ ដោយអនុវត្តវិធីសាស្ត្រ ប៉ាន់ស្មានលីនេអ៊ែរសាមញ្ញ (Simple Linear Interpolation) ដើម្បីកែលម្អគុណភាពទិន្នន័យ មុននឹងធ្វើការសាកល្បងជាមួយម៉ូដែល Machine Learning ផ្សេងៗ។

ការប៉ាន់ស្មានលីនេអ៊ែរសាមញ្ញ (Simple Linear Interpolation - SLI) ដើម្បីបំពេញទិន្នន័យដែលបាត់
ការជ្រើសរើសលក្ខណៈពិសេសតាមជំហាន (Stepwise Feature Selection) និងការប្រើប្រាស់ម៉ូដែលដូចជា XGBoost, Random Forest, KNN និង Stacked Model

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការប្រើប្រាស់ SLI ធ្វើឱ្យប្រសិទ្ធភាពម៉ូដែល Stacked Model កើនឡើងយ៉ាងខ្លាំង ដោយភាពត្រឹមត្រូវ (Accuracy) កើនឡើង ៧.០៣% និង AUC កើនឡើង ៧.៥២%។
សម្រាប់ម៉ូដែលដូចជា Random Forest និង XGBoost ការកែលម្អមានកម្រិតតិចតួច ប៉ុន្តែវាជួយកាត់បន្ថយភាពមិនច្បាស់លាស់ (Noise) និងបង្កើនសង្គតិភាពទិន្នន័យ។
លទ្ធផលពីការធ្វើតេស្តលើទិន្នន័យដាច់ដោយឡែក (Hold-Out Set) បង្ហាញថា SLI ជួយការពារបញ្ហា Overfitting និងបង្កើនសមត្ថភាពទស្សន៍ទាយលើទិន្នន័យថ្មី។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Stacked Model with Simple Linear Interpolation (SLI) ការប្រើប្រាស់គំរូត្រួតគ្នា (Stacked Model) រួមជាមួយការបំពេញចន្លោះទិន្នន័យ (SLI)	ផ្តល់នូវការកើនឡើងនៃប្រសិទ្ធភាពខ្ពស់បំផុត ដោយសារវាអាចរៀនពីលក្ខណៈទិន្នន័យដែលបានបំពេញបន្ថែមបានល្អជាងគំរូទោល។	មានភាពស្មុគស្មាញក្នុងការបង្កើត និងទាមទារធនធានគណនាច្រើនជាងគំរូធម្មតា។	ភាពត្រឹមត្រូវ (Accuracy) កើនឡើង ៧.០៣% និង AUC កើនឡើង ៧.៥២% បើធៀបនឹងទិន្នន័យដើម។
Random Forest & XGBoost with SLI ការប្រើប្រាស់ Random Forest និង XGBoost រួមជាមួយ SLI	មានភាពធន់នឹងការរំខាន (Noise) និងហានិភ័យនៃ Overfitting ទាបជាងម៉ូដែលដទៃ។	ការកែលម្អមានកម្រិតតិចតួចណាស់ (ប្រហែល ១%) ដែលបង្ហាញថាវាមិនសូវទទួលបានផលពី SLI ដូច Stacked Model ទេ។	ការកើនឡើងនៃភាពត្រឹមត្រូវមានត្រឹមតែ ០.០៥% ទៅ ១.០៦% ប៉ុណ្ណោះ។
K-Nearest Neighbors (KNN) with SLI ការប្រើប្រាស់ KNN រួមជាមួយ SLI	មានភាពសាមញ្ញក្នុងការអនុវត្ត និងបង្ហាញការកើនឡើងនៃភាពត្រឹមត្រូវខ្លះ។	ងាយរងគ្រោះដោយសារទិន្នន័យមិនពិត (Artifacts) ដែលកើតចេញពីការប៉ាន់ស្មាន បណ្តាលឱ្យមានបញ្ហា Overfitting ។	តម្លៃ KS (Kolmogorov-Smirnov) ធ្លាក់ចុះ ដែលបង្ហាញពីការថយចុះសមត្ថភាពក្នុងការបែងចែកប្រភេទ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រក្នុងកម្រិតមធ្យម ដែលនិស្សិត ឬអ្នកស្រាវជ្រាវអាចអនុវត្តបានលើកុំព្យូទ័រផ្ទាល់ខ្លួន។

Software: ភាសា Python ដោយប្រើបណ្ណាល័យដូចជា Pandas (សម្រាប់គ្រប់គ្រងទិន្នន័យ), Scikit-learn (សម្រាប់ ML), និង XGBoost library។
Dataset: ទិន្នន័យប្រវត្តិភាគហ៊ុន (Historical Stock Data) ដែលមានចន្លោះខ្វះខាត (Missing Values) ឬមិនទៀងទាត់។
Hardware: កុំព្យូទ័រដែលមាន CPU ល្បឿនមធ្យមគឺគ្រប់គ្រាន់ ប៉ុន្តែប្រសិនបើប្រើ Stacked Model ធំ អាចត្រូវការ RAM ខ្ពស់បន្តិច (៨GB+)

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះផ្តោតតែលើភាគហ៊ុនក្រុមហ៊ុន Tesla (US Market) រយៈពេល ១០ឆ្នាំ ដែលជាភាគហ៊ុនដែលមានការប្រែប្រួលខ្ពស់ (High Volatility) និងទំហំជួញដូរធំ។ នេះជាចំណុចខ្វះខាតមួយសម្រាប់កម្ពុជា ព្រោះទីផ្សារភាគហ៊ុនកម្ពុជា (CSX) មានទំហំតូចជាង និងមានលក្ខណៈនៃការជួញដូរខុសគ្នា (Low Liquidity) ដែលលទ្ធផលអាចនឹងមិនឆ្លុះបញ្ចាំងទាំងស្រុង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានប្រយោជន៍ខ្លាំងសម្រាប់កម្ពុជា ជាពិសេសក្នុងការដោះស្រាយបញ្ហាទិន្នន័យមិនពេញលេញនៅក្នុងវិស័យហិរញ្ញវត្ថុ។

Cambodia Securities Exchange (CSX): ដោយសារភាគហ៊ុននៅកម្ពុជាខ្លះមិនមានការជួញដូររាល់ថ្ងៃ ឬមានចន្លោះម៉ោងយូរ ការប្រើ SLI អាចជួយបំពេញទិន្នន័យដើម្បីធ្វើការវិភាគបច្ចេកទេសបាន។
Microfinance & Banking Sector: ការវិភាគហានិភ័យឥណទាន (Credit Risk) ដែលទិន្នន័យនៃការសងប្រាក់អាចមានភាពមិនទៀងទាត់ អាចប្រើវិធីសាស្ត្រនេះដើម្បីធ្វើឱ្យទិន្នន័យមានសង្គតិភាព។
Agricultural Price Prediction: តម្លៃកសិផល (ស្រូវ, កៅស៊ូ) នៅកម្ពុជាច្រើនតែមិនត្រូវបានកត់ត្រាជាប្រចាំ ការប្រើ Interpolation អាចជួយបង្កើតទិន្នន័យពេញលេញសម្រាប់ការទស្សន៍ទាយនិន្នាការ។

បច្ចេកទេសនេះសាមញ្ញតែមានប្រសិទ្ធភាពខ្ពស់សម្រាប់ការចាប់ផ្តើមវិភាគទិន្នន័យហិរញ្ញវត្ថុនៅកម្ពុជា ដែលទិន្នន័យជាញឹកញាប់មិនមានភាពពេញលេញ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការរៀបចំទិន្នន័យមូលដ្ឋាន: និស្សិតគួរចាប់ផ្តើមរៀនប្រើប្រាស់ Python library ឈ្មោះ Pandas ដើម្បីទាញយកទិន្នន័យភាគហ៊ុនពី Yahoo Finance ឬ CSX website និងកំណត់អត្តសញ្ញាណទិន្នន័យដែលបាត់ (Missing Values)។
ការអនុវត្តបច្ចេកទេសបំពេញទិន្នន័យ: សរសេរកូដដើម្បីអនុវត្ត Simple Linear Interpolation (SLI) លើទិន្នន័យដែលបាត់ ដោយប្រៀបធៀបជាមួយវិធីសាស្ត្រផ្សេងដូចជា Mean Imputation ដើម្បីឃើញភាពខុសគ្នា។
ការបង្កើតម៉ូដែលប្រៀបធៀប: ប្រើប្រាស់ Scikit-learn ដើម្បីបង្កើតម៉ូដែលសាមញ្ញ (ដូចជា Random Forest) ហើយបង្វឹកវាជាមួយទិន្នន័យពីរឈុត៖ មួយដែលមិនទាន់កែសម្រួល និងមួយទៀតដែលបានប្រើ SLI។
ការវាស់វែងលទ្ធផល: វាយតម្លៃប្រសិទ្ធភាពដោយប្រើរង្វាស់ AUC និង KS Statistic ដូចក្នុងឯកសារ ដើម្បីធានាថាការបំពេញទិន្នន័យមិនបង្កឱ្យមានបញ្ហា Overfitting។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Irregular Data	សំដៅលើទិន្នន័យដែលត្រូវបានប្រមូលក្នុងចន្លោះពេលវេលាដែលមិនស្មើគ្នា ឬមានការបាត់បង់ទិន្នន័យនៅចំណុចខ្លះ ដែលធ្វើឱ្យពិបាកក្នុងការប្រើប្រាស់ជាមួយគំរូស្ថិតិបែបប្រពៃណីដែលទាមទារភាពទៀងទាត់។	ដូចជាការកត់ត្រាកំណត់ហេតុប្រចាំថ្ងៃ ដែលថ្ងៃខ្លះអ្នកសរសេរ ហើយថ្ងៃខ្លះទៀតអ្នកភ្លេចសរសេរ ដែលធ្វើឱ្យព័ត៌មានមិនបន្តជាប់គ្នា។
Simple Linear Interpolation	ជាបច្ចេកទេសគណិតវិទ្យាសម្រាប់ប៉ាន់ស្មានតម្លៃដែលបាត់ ដោយគូសបន្ទាត់ត្រង់ភ្ជាប់រវាងចំណុចទិន្នន័យពីរដែលគេស្គាល់ ដើម្បីរកតម្លៃកណ្តាល។	ប្រៀបដូចជាការគូសបន្ទាត់ត្រង់ភ្ជាប់ពីចំណុចមួយទៅចំណុចមួយទៀត ដើម្បីបិទចន្លោះដែលដាច់នៅលើក្រដាស។
Stacked Model	ជាវិធីសាស្ត្រមួយក្នុង Machine Learning ដែលយកលទ្ធផលទស្សន៍ទាយពីម៉ូដែលជាច្រើន (Base Models) មកបញ្ចូលគ្នា ហើយប្រើម៉ូដែលមេមួយ (Meta-learner) ដើម្បីធ្វើការសម្រេចចិត្តចុងក្រោយដែលមានភាពសុក្រឹតជាងមុន។	ដូចជាការមានគណៈកម្មការមួយក្រុមដែលផ្តល់យោបល់ ហើយមានប្រធានម្នាក់ជាអ្នកសម្រេចចិត្តចុងក្រោយដោយផ្អែកលើយោបល់ល្អៗទាំងនោះ។
Stepwise Feature Selection	ដំណើរការនៃការជ្រើសរើសអថេរ (Variables) សម្រាប់ដាក់ចូលក្នុងម៉ូដែល ដោយធ្វើការបន្ថែមឬដកចេញម្តងមួយៗ ដើម្បីស្វែងរកបន្សំនៃអថេរណាដែលផ្តល់លទ្ធផលល្អបំផុត និងកាត់បន្ថយភាពស្មុគស្មាញ។	ដូចជាការសាកល្បងគ្រឿងផ្សំម្ហូបម្តងមួយមុខ ដើម្បីដឹងថាគ្រឿងផ្សំណាធ្វើឱ្យម្ហូបឆ្ងាញ់ ហើយដកគ្រឿងផ្សំដែលមិនចាំបាច់ចេញ។
Kolmogorov-Smirnov (KS) Statistic	រង្វាស់ស្ថិតិដែលប្រើដើម្បីវាយតម្លៃថា តើម៉ូដែលមួយអាចបែងចែករវាងក្រុមពីរផ្សេងគ្នា (ឧទាហរណ៍៖ ភាគហ៊ុនឡើង និងភាគហ៊ុនចុះ) បានដាច់ស្រឡះពីគ្នាកម្រិតណា។	ប្រៀបដូចជាការវាស់គម្លាតរវាងសិស្សពូកែ និងសិស្សខ្សោយ ដើម្បីមើលថាតើការប្រឡងមួយអាចបែងចែកសមត្ថភាពពួកគេបានច្បាស់ឬអត់។
Hold-Out Set	ផ្នែកមួយនៃទិន្នន័យដែលត្រូវបានដកចេញតាំងពីដំបូង និងមិនត្រូវបានប្រើសម្រាប់ការបង្វឹកម៉ូដែលឡើយ ដើម្បីទុកប្រើប្រាស់សម្រាប់ធ្វើតេស្តសមត្ថភាពម៉ូដែលជាលើកចុងក្រោយ។	ដូចជាវិញ្ញាសាប្រឡងដែលគ្រូទុកដោយឡែក មិនយកមកបង្រៀនក្នុងថ្នាក់ ដើម្បីយកមកធ្វើតេស្តសិស្សនៅថ្ងៃប្រឡងបញ្ចប់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖