Original Title: Irregular Stock Data Prediction Performance Optimisation Based on the Simple Linear Interpolation
Source: doi.org/10.5220/0013264100004568
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបង្កើនប្រសិទ្ធភាពនៃការទស្សន៍ទាយទិន្នន័យភាគហ៊ុនមិនទៀងទាត់ដោយផ្អែកលើការប៉ាន់ស្មានលីនេអ៊ែរសាមញ្ញ (Simple Linear Interpolation)

ចំណងជើងដើម៖ Irregular Stock Data Prediction Performance Optimisation Based on the Simple Linear Interpolation

អ្នកនិពន្ធ៖ Zhenyu Xu (Warwick Manufacturing Group, University of Warwick, Coventry, U.K.)

ឆ្នាំបោះពុម្ព៖ 2025 (ECAI 2024)

វិស័យសិក្សា៖ Machine Learning / Financial Technology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាទិន្នន័យមិនទៀងទាត់ (Irregular Data) នៅក្នុងទីផ្សារភាគហ៊ុន ដែលបណ្តាលមកពីការប្រែប្រួលទីផ្សារ និងចន្លោះខ្វះខាតនៃទិន្នន័យ ធ្វើឱ្យប៉ះពាល់ដល់ភាពត្រឹមត្រូវនៃម៉ូដែលទស្សន៍ទាយបែបប្រពៃណី។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់ទិន្នន័យភាគហ៊ុនក្រុមហ៊ុន Tesla រយៈពេល ១០ឆ្នាំ ដោយអនុវត្តវិធីសាស្ត្រ ប៉ាន់ស្មានលីនេអ៊ែរសាមញ្ញ (Simple Linear Interpolation) ដើម្បីកែលម្អគុណភាពទិន្នន័យ មុននឹងធ្វើការសាកល្បងជាមួយម៉ូដែល Machine Learning ផ្សេងៗ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Stacked Model with Simple Linear Interpolation (SLI)
ការប្រើប្រាស់គំរូត្រួតគ្នា (Stacked Model) រួមជាមួយការបំពេញចន្លោះទិន្នន័យ (SLI)
ផ្តល់នូវការកើនឡើងនៃប្រសិទ្ធភាពខ្ពស់បំផុត ដោយសារវាអាចរៀនពីលក្ខណៈទិន្នន័យដែលបានបំពេញបន្ថែមបានល្អជាងគំរូទោល។ មានភាពស្មុគស្មាញក្នុងការបង្កើត និងទាមទារធនធានគណនាច្រើនជាងគំរូធម្មតា។ ភាពត្រឹមត្រូវ (Accuracy) កើនឡើង ៧.០៣% និង AUC កើនឡើង ៧.៥២% បើធៀបនឹងទិន្នន័យដើម។
Random Forest & XGBoost with SLI
ការប្រើប្រាស់ Random Forest និង XGBoost រួមជាមួយ SLI
មានភាពធន់នឹងការរំខាន (Noise) និងហានិភ័យនៃ Overfitting ទាបជាងម៉ូដែលដទៃ។ ការកែលម្អមានកម្រិតតិចតួចណាស់ (ប្រហែល ១%) ដែលបង្ហាញថាវាមិនសូវទទួលបានផលពី SLI ដូច Stacked Model ទេ។ ការកើនឡើងនៃភាពត្រឹមត្រូវមានត្រឹមតែ ០.០៥% ទៅ ១.០៦% ប៉ុណ្ណោះ។
K-Nearest Neighbors (KNN) with SLI
ការប្រើប្រាស់ KNN រួមជាមួយ SLI
មានភាពសាមញ្ញក្នុងការអនុវត្ត និងបង្ហាញការកើនឡើងនៃភាពត្រឹមត្រូវខ្លះ។ ងាយរងគ្រោះដោយសារទិន្នន័យមិនពិត (Artifacts) ដែលកើតចេញពីការប៉ាន់ស្មាន បណ្តាលឱ្យមានបញ្ហា Overfitting ។ តម្លៃ KS (Kolmogorov-Smirnov) ធ្លាក់ចុះ ដែលបង្ហាញពីការថយចុះសមត្ថភាពក្នុងការបែងចែកប្រភេទ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រក្នុងកម្រិតមធ្យម ដែលនិស្សិត ឬអ្នកស្រាវជ្រាវអាចអនុវត្តបានលើកុំព្យូទ័រផ្ទាល់ខ្លួន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះផ្តោតតែលើភាគហ៊ុនក្រុមហ៊ុន Tesla (US Market) រយៈពេល ១០ឆ្នាំ ដែលជាភាគហ៊ុនដែលមានការប្រែប្រួលខ្ពស់ (High Volatility) និងទំហំជួញដូរធំ។ នេះជាចំណុចខ្វះខាតមួយសម្រាប់កម្ពុជា ព្រោះទីផ្សារភាគហ៊ុនកម្ពុជា (CSX) មានទំហំតូចជាង និងមានលក្ខណៈនៃការជួញដូរខុសគ្នា (Low Liquidity) ដែលលទ្ធផលអាចនឹងមិនឆ្លុះបញ្ចាំងទាំងស្រុង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានប្រយោជន៍ខ្លាំងសម្រាប់កម្ពុជា ជាពិសេសក្នុងការដោះស្រាយបញ្ហាទិន្នន័យមិនពេញលេញនៅក្នុងវិស័យហិរញ្ញវត្ថុ។

បច្ចេកទេសនេះសាមញ្ញតែមានប្រសិទ្ធភាពខ្ពស់សម្រាប់ការចាប់ផ្តើមវិភាគទិន្នន័យហិរញ្ញវត្ថុនៅកម្ពុជា ដែលទិន្នន័យជាញឹកញាប់មិនមានភាពពេញលេញ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ការរៀបចំទិន្នន័យមូលដ្ឋាន: និស្សិតគួរចាប់ផ្តើមរៀនប្រើប្រាស់ Python library ឈ្មោះ Pandas ដើម្បីទាញយកទិន្នន័យភាគហ៊ុនពី Yahoo Finance ឬ CSX website និងកំណត់អត្តសញ្ញាណទិន្នន័យដែលបាត់ (Missing Values)។
  2. ការអនុវត្តបច្ចេកទេសបំពេញទិន្នន័យ: សរសេរកូដដើម្បីអនុវត្ត Simple Linear Interpolation (SLI) លើទិន្នន័យដែលបាត់ ដោយប្រៀបធៀបជាមួយវិធីសាស្ត្រផ្សេងដូចជា Mean Imputation ដើម្បីឃើញភាពខុសគ្នា។
  3. ការបង្កើតម៉ូដែលប្រៀបធៀប: ប្រើប្រាស់ Scikit-learn ដើម្បីបង្កើតម៉ូដែលសាមញ្ញ (ដូចជា Random Forest) ហើយបង្វឹកវាជាមួយទិន្នន័យពីរឈុត៖ មួយដែលមិនទាន់កែសម្រួល និងមួយទៀតដែលបានប្រើ SLI។
  4. ការវាស់វែងលទ្ធផល: វាយតម្លៃប្រសិទ្ធភាពដោយប្រើរង្វាស់ AUC និង KS Statistic ដូចក្នុងឯកសារ ដើម្បីធានាថាការបំពេញទិន្នន័យមិនបង្កឱ្យមានបញ្ហា Overfitting។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Irregular Data សំដៅលើទិន្នន័យដែលត្រូវបានប្រមូលក្នុងចន្លោះពេលវេលាដែលមិនស្មើគ្នា ឬមានការបាត់បង់ទិន្នន័យនៅចំណុចខ្លះ ដែលធ្វើឱ្យពិបាកក្នុងការប្រើប្រាស់ជាមួយគំរូស្ថិតិបែបប្រពៃណីដែលទាមទារភាពទៀងទាត់។ ដូចជាការកត់ត្រាកំណត់ហេតុប្រចាំថ្ងៃ ដែលថ្ងៃខ្លះអ្នកសរសេរ ហើយថ្ងៃខ្លះទៀតអ្នកភ្លេចសរសេរ ដែលធ្វើឱ្យព័ត៌មានមិនបន្តជាប់គ្នា។
Simple Linear Interpolation ជាបច្ចេកទេសគណិតវិទ្យាសម្រាប់ប៉ាន់ស្មានតម្លៃដែលបាត់ ដោយគូសបន្ទាត់ត្រង់ភ្ជាប់រវាងចំណុចទិន្នន័យពីរដែលគេស្គាល់ ដើម្បីរកតម្លៃកណ្តាល។ ប្រៀបដូចជាការគូសបន្ទាត់ត្រង់ភ្ជាប់ពីចំណុចមួយទៅចំណុចមួយទៀត ដើម្បីបិទចន្លោះដែលដាច់នៅលើក្រដាស។
Stacked Model ជាវិធីសាស្ត្រមួយក្នុង Machine Learning ដែលយកលទ្ធផលទស្សន៍ទាយពីម៉ូដែលជាច្រើន (Base Models) មកបញ្ចូលគ្នា ហើយប្រើម៉ូដែលមេមួយ (Meta-learner) ដើម្បីធ្វើការសម្រេចចិត្តចុងក្រោយដែលមានភាពសុក្រឹតជាងមុន។ ដូចជាការមានគណៈកម្មការមួយក្រុមដែលផ្តល់យោបល់ ហើយមានប្រធានម្នាក់ជាអ្នកសម្រេចចិត្តចុងក្រោយដោយផ្អែកលើយោបល់ល្អៗទាំងនោះ។
Stepwise Feature Selection ដំណើរការនៃការជ្រើសរើសអថេរ (Variables) សម្រាប់ដាក់ចូលក្នុងម៉ូដែល ដោយធ្វើការបន្ថែមឬដកចេញម្តងមួយៗ ដើម្បីស្វែងរកបន្សំនៃអថេរណាដែលផ្តល់លទ្ធផលល្អបំផុត និងកាត់បន្ថយភាពស្មុគស្មាញ។ ដូចជាការសាកល្បងគ្រឿងផ្សំម្ហូបម្តងមួយមុខ ដើម្បីដឹងថាគ្រឿងផ្សំណាធ្វើឱ្យម្ហូបឆ្ងាញ់ ហើយដកគ្រឿងផ្សំដែលមិនចាំបាច់ចេញ។
Kolmogorov-Smirnov (KS) Statistic រង្វាស់ស្ថិតិដែលប្រើដើម្បីវាយតម្លៃថា តើម៉ូដែលមួយអាចបែងចែករវាងក្រុមពីរផ្សេងគ្នា (ឧទាហរណ៍៖ ភាគហ៊ុនឡើង និងភាគហ៊ុនចុះ) បានដាច់ស្រឡះពីគ្នាកម្រិតណា។ ប្រៀបដូចជាការវាស់គម្លាតរវាងសិស្សពូកែ និងសិស្សខ្សោយ ដើម្បីមើលថាតើការប្រឡងមួយអាចបែងចែកសមត្ថភាពពួកគេបានច្បាស់ឬអត់។
Hold-Out Set ផ្នែកមួយនៃទិន្នន័យដែលត្រូវបានដកចេញតាំងពីដំបូង និងមិនត្រូវបានប្រើសម្រាប់ការបង្វឹកម៉ូដែលឡើយ ដើម្បីទុកប្រើប្រាស់សម្រាប់ធ្វើតេស្តសមត្ថភាពម៉ូដែលជាលើកចុងក្រោយ។ ដូចជាវិញ្ញាសាប្រឡងដែលគ្រូទុកដោយឡែក មិនយកមកបង្រៀនក្នុងថ្នាក់ ដើម្បីយកមកធ្វើតេស្តសិស្សនៅថ្ងៃប្រឡងបញ្ចប់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖