Original Title: Time series analysis and forecasting in finance: A data mining approach
Source: doi.org/10.53022/oarjst.2023.9.1.0045
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគស៊េរីពេលវេលា និងការព្យាករណ៍ក្នុងវិស័យហិរញ្ញវត្ថុ៖ អភិក្រមនៃការទាញយកទិន្នន័យ

ចំណងជើងដើម៖ Time series analysis and forecasting in finance: A data mining approach

អ្នកនិពន្ធ៖ Afiz Adewale Lawal (Ladoke Akintola University of Technology), Omogbolahan Alli (Hult International Business School), Aishat Oluwatoyin Olatunji (East Tennessee State University), Enuma Ezeife (Ernst & Young LLC), Ehizele Dean Okoduwa (Yale School of Management)

ឆ្នាំបោះពុម្ព៖ 2023 Open Access Research Journal of Science and Technology

វិស័យសិក្សា៖ Financial Technology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះពិនិត្យមើលបញ្ហាប្រឈមនៃការព្យាករណ៍ទីផ្សារហិរញ្ញវត្ថុ ដែលម៉ូដែលស្ថិតិប្រពៃណីតែងតែជួបការលំបាកដោយសារកម្រិតនៃទំនាក់ទំនងមិនមែនលីនេអ៊ែរ ភាពប្រែប្រួល និងសម្លេងរំខានក្នុងទិន្នន័យទីផ្សារ។ ការសិក្សានេះស្វែងរកដំណោះស្រាយតាមរយៈការប្រើប្រាស់បច្ចេកទេសទាញយកទិន្នន័យទំនើបៗជំនួសវិញ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះគឺជាអត្ថបទពិនិត្យឡើងវិញ (Review Article) ដែលធ្វើការប្រៀបធៀប និងវាយតម្លៃរវាងម៉ូដែលស្ថិតិប្រពៃណី និងបច្ចេកទេសរៀនសូត្ររបស់ម៉ាស៊ីនសម្រាប់ការវិភាគស៊េរីពេលវេលាហិរញ្ញវត្ថុ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
ARIMA and SARIMA (Traditional Statistical Models)
ម៉ូដែលស្ថិតិប្រពៃណី ARIMA និង SARIMA
មានភាពរឹងមាំខាងផ្នែកគណិតវិទ្យា ងាយស្រួលក្នុងការបកស្រាយលទ្ធផល និងស័ក្តិសមសម្រាប់ទិន្នន័យដែលមាននិន្នាការលីនេអ៊ែរ (Linear trends)។ ទាមទារឱ្យទិន្នន័យមានលក្ខណៈថេរ (Stationarity assumption) និងមិនសូវមានប្រសិទ្ធភាពចំពោះទិន្នន័យស្មុគស្មាញ ឬមិនមែនលីនេអ៊ែរ។ ជាម៉ូដែលមូលដ្ឋានដ៏ល្អសម្រាប់ការវិភាគនិន្នាការរយៈពេលខ្លី តែងាយរងឥទ្ធិពលពីសម្លេងរំខានក្នុងទីផ្សារ (Noise)។
GARCH Model
ម៉ូដែលព្យាករណ៍ភាពប្រែប្រួល GARCH
មានប្រសិទ្ធភាពខ្ពស់ក្នុងការចាប់យកការផ្លាស់ប្តូរនៃវ៉ារ្យ៉ង់ (Variance) តាមពេលវេលា ដែលស័ក្តិសមបំផុតសម្រាប់ការគ្រប់គ្រងហានិភ័យទីផ្សារ។ មានកម្រិតក្នុងការចាត់ចែងសំណុំទិន្នន័យធំៗ (Large datasets) និងពិបាកក្នុងការចាប់យកទំនាក់ទំនងមិនមែនលីនេអ៊ែរ។ ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់ក្នុងការវាស់ស្ទង់ភាពប្រែប្រួល (Volatility) ក្នុងហិរញ្ញវត្ថុ។
Deep Learning (RNNs, LSTMs)
បណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតជ្រៅ (RNNs & LSTMs)
មានសមត្ថភាពខ្ពស់ក្នុងការចងចាំព័ត៌មានរយៈពេលយូរ ចាប់យកទំនាក់ទំនងមិនមែនលីនេអ៊ែរ និងសម្របខ្លួនទៅនឹងទិន្នន័យដែលមានភាពស្មុគស្មាញ។ ម៉ូដែលដំណើរការជាប្រអប់ខ្មៅ (Black-box) ដែលពិបាកបកស្រាយ ងាយនឹង Overfitting ព្រមទាំងទាមទារធនធានកុំព្យូទ័រខ្ពស់។ ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងការការព្យាករណ៍ចលនាទីផ្សារស្មុគស្មាញ បើប្រៀបធៀបនឹងម៉ូដែលប្រពៃណី។
Hybrid Models (e.g., ARIMA-LSTM)
ម៉ូដែលកូនកាត់ (ឧ. ARIMA-LSTM)
រួមបញ្ចូលគ្នានូវសមត្ថភាពចាប់យកនិន្នាការលីនេអ៊ែររបស់ ARIMA និងថាមពលសិក្សាមិនមែនលីនេអ៊ែររបស់ LSTM។ មានភាពស្មុគស្មាញខ្លាំងក្នុងការរចនា (Architecture design) និងត្រូវចំណាយពេលយូរក្នុងការបង្វឹកម៉ូដែល (Training time)។ បង្កើនភាពត្រឹមត្រូវនៃការព្យាករណ៍សរុប (Improved forecasting accuracy) និងស័ក្តិសមសម្រាប់ការងារហិរញ្ញវត្ថុស្មុគស្មាញដូចជាការវាយតម្លៃហានិភ័យពេលវេលាជាក់ស្តែង។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់ថា ការប្រើប្រាស់ម៉ូដែលទាញយកទិន្នន័យកម្រិតខ្ពស់ (Advanced Data Mining Models) ទាមទារធនធានកុំព្យូទ័រ និងផ្នែកទន់ខ្លាំង ជាពិសេសសម្រាប់វិភាគទិន្នន័យធំៗ និងក្នុងពេលជាក់ស្តែង (Real-Time)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះគឺជាអត្ថបទពិនិត្យឡើងវិញ (Review Article) ដែលផ្អែកលើការស្រាវជ្រាវដែលមានស្រាប់ជុំវិញពិភពលោក ដោយប្រើប្រាស់ទិន្នន័យទីផ្សារហិរញ្ញវត្ថុអភិវឌ្ឍន៍ (ដូចជាសន្ទស្សន៍ Nasdaq ជាដើម)។ សម្រាប់ប្រទេសកម្ពុជា ទិន្នន័យហិរញ្ញវត្ថុប្រវត្តិសាស្ត្រនៅមានកម្រិត និងមានទម្រង់ប្រែប្រួលខុសពីទីផ្សារសកល ដែលទាមទារការប្រុងប្រយ័ត្នខ្ពស់ និងការកែច្នៃទិន្នន័យឱ្យស្របតាមបរិបទមុននឹងយកម៉ូដែលទាំងនេះទៅអនុវត្តផ្ទាល់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រទាញយកទិន្នន័យ និងការព្យាករណ៍ទាំងនេះ ពិតជាមានសារៈសំខាន់សម្រាប់ការអភិវឌ្ឍវិស័យហិរញ្ញវត្ថុ និងបច្ចេកវិទ្យាហិរញ្ញវត្ថុ (FinTech) នៅប្រទេសកម្ពុជា។

ការអនុវត្តបច្ចេកទេសទាំងនេះនឹងជួយបង្កើនប្រសិទ្ធភាពនៃការសម្រេចចិត្តផ្នែកហិរញ្ញវត្ថុ និងការគ្រប់គ្រងហានិភ័យនៅកម្ពុជា ប៉ុន្តែត្រូវចាប់ផ្តើមពីការប្រមូល ការធ្វើសមាហរណកម្ម និងការសម្អាតទិន្នន័យក្នុងស្រុកឱ្យមានស្តង់ដារជាមុនសិន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ូដែលស្ថិតិហិរញ្ញវត្ថុ: ចាប់ផ្តើមអនុវត្តការវិភាគស៊េរីពេលវេលា ដោយប្រើប្រាស់ម៉ូដែល ARIMA និង GARCH តាមរយៈភាសា Python (ប្រើបណ្ណាល័យ statsmodelsarch) ដើម្បីស្វែងយល់ពីរបៀបវាយតម្លៃភាពថេរនៃទិន្នន័យ (Stationarity) និងនិន្នាការ។
  2. អនុវត្តការរៀបចំទិន្នន័យ និងកាត់បន្ថយវិមាត្រ: សាកល្បងប្រើប្រាស់បច្ចេកទេស PCAK-means clustering តាមរយៈ scikit-learn ដើម្បីញែកលក្ខណៈសំខាន់ៗពីសំណុំទិន្នន័យហិរញ្ញវត្ថុដែលមានទំហំធំ និងកាត់បន្ថយសម្លេងរំខាន (Noise/Outliers) មុននឹងបញ្ចូលទៅក្នុងម៉ូដែល។
  3. សាងសង់ម៉ូដែល Deep Learning សម្រាប់ការព្យាករណ៍: ប្រើប្រាស់ Frameworks ដូចជា TensorFlowPyTorch ដើម្បីបង្កើតម៉ូដែល LSTMTransformer ដោយប្រើប្រាស់ទិន្នន័យហិរញ្ញវត្ថុជាក់ស្តែង (ឧទាហរណ៍៖ ទិន្នន័យភាគហ៊ុនពី Yahoo Finance) ដើម្បីព្យាករណ៍ចលនាតម្លៃ។
  4. វាស់ស្ទង់ និងប្រៀបធៀបប្រសិទ្ធភាពម៉ូដែល: ធ្វើការវាយតម្លៃលទ្ធផលម៉ូដែល ដោយប្រើប្រាស់រង្វាស់ស្តង់ដារដូចជា RMSE, MAE, និង MAPE រួចប្រៀបធៀបរវាងម៉ូដែលស្ថិតិ និងម៉ូដែល Machine Learning ដើម្បីស្វែងរកចំណុចខ្លាំងនិងខ្សោយពិតប្រាកដ។
  5. ស្រាវជ្រាវលើបញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន (XAI): សិក្សាប្រើប្រាស់បណ្ណាល័យដូចជា SHAPLIME ដើម្បីបកស្រាយពីរបៀបដែលម៉ូដែល (Black-box) របស់អ្នកធ្វើការសម្រេចចិត្ត ដែលចំណុចនេះមានភាពចាំបាច់ខ្លាំងសម្រាប់ការបញ្ចុះបញ្ចូលថ្នាក់ដឹកនាំធនាគារ ឬស្ថាប័នហិរញ្ញវត្ថុឱ្យជឿជាក់លើលទ្ធផល។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Stationarity គឺជាលក្ខណៈនៃទិន្នន័យស៊េរីពេលវេលាដែលតម្លៃមធ្យម (Mean) និងរំលាតស្តង់ដារ (Variance) របស់វាមិនប្រែប្រួលទាល់តែសោះតាមពេលវេលា ដែលជាលក្ខខណ្ឌចាំបាច់បំផុតសម្រាប់ឱ្យម៉ូដែលស្ថិតិប្រពៃណីដូចជា ARIMA អាចដំណើរការការព្យាករណ៍បាន។ ដូចជាការបើកបរឡានក្នុងល្បឿនថេរមួយ ដែលយើងអាចទស្សន៍ទាយដឹងយ៉ាងងាយថានាទីបន្ទាប់ឡាននឹងទៅដល់ទីតាំងណា។
Volatility Clustering ជាបាតុភូតក្នុងទីផ្សារហិរញ្ញវត្ថុដែលរយៈពេលមានការប្រែប្រួលតម្លៃខ្លាំង (ឡើងចុះខ្លាំង) តែងតែកើតឡើងជាប់ៗគ្នាជាបន្តបន្ទាប់ ហើយនៅពេលដែលទីផ្សារស្ងប់ស្ងាត់ វាក៏បន្តស្ងប់ស្ងាត់ជាប់ៗគ្នាផងដែរ ដែលទាមទារម៉ូដែលដូចជា GARCH ដើម្បីវិភាគ។ ដូចជារដូវភ្លៀងធ្លាក់ ដែលថ្ងៃនេះភ្លៀងខ្លាំង ថ្ងៃស្អែកក៏ច្រើនតែបន្តភ្លៀងខ្លាំងទៀត ចំណែកឯរដូវប្រាំងគឺក្តៅហួតហែងជាប់ៗគ្នាជារៀងរាល់ថ្ងៃ។
Autoregressive Integrated Moving Average (ARIMA) ជាម៉ូដែលស្ថិតិប្រពៃណីដែលប្រើប្រាស់ទិន្នន័យក្នុងអតីតកាល (Autoregressive) និងកំហុសឆ្គងពីមុនៗ (Moving Average) ផ្សំជាមួយនឹងការធ្វើឱ្យទិន្នន័យនៅថេរ (Integrated) ដើម្បីព្យាករណ៍តម្លៃនិន្នាការនាពេលអនាគត។ ដូចជាការទស្សន៍ទាយពិន្ទុប្រឡងខែក្រោយរបស់អ្នក យោងទៅតាមពិន្ទុខែមុនៗបូករួមនឹងការកែតម្រូវកំហុសដែលអ្នកធ្លាប់ធ្វើខុសពីមុន។
Generalized Autoregressive Conditional Heteroskedasticity (GARCH) ជាម៉ូដែលស្ថិតិដែលត្រូវបានបង្កើតឡើងជាពិសេសសម្រាប់វាស់ស្ទង់ និងព្យាករណ៍ពីកម្រិតនៃភាពប្រែប្រួលហានិភ័យ (Volatility) នៃតម្លៃក្នុងទីផ្សារហិរញ្ញវត្ថុ ដោយវាអាចចាប់យកការផ្លាស់ប្តូរនៃវ៉ារ្យ៉ង់តាមពេលវេលាបានយ៉ាងល្អ។ ដូចជាឧបករណ៍វាស់រលកសមុទ្រ ដែលមិនខ្វល់ថាសមុទ្រកំពុងជោរឬនាចទេ តែវាខ្វល់តែត្រង់ថាតើរលកនោះបោកបក់ខ្លាំង ឬខ្សោយកម្រិតណាប៉ុណ្ណោះ។
Long Short-Term Memory (LSTM) ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតជ្រៅ (Deep Learning) ដែលមានយន្តការទ្វារ (Gating mechanisms) ពិសេសអាចចងចាំព័ត៌មានសំខាន់ៗក្នុងរយៈពេលវែង និងបំភ្លេចចោលព័ត៌មានដែលមិនចាំបាច់ ដែលស័ក្តិសមបំផុតសម្រាប់វិភាគទិន្នន័យហិរញ្ញវត្ថុ។ ដូចជាមនុស្សឆ្លាតម្នាក់ដែលអានសៀវភៅក្រាស់មួយក្បាល រួចអាចចងចាំបានតែចំណុចសំខាន់ៗដើម្បីយកទៅប្រឡង ដោយបំភ្លេចចោលនូវពាក្យពណ៌នាវែងឆ្ងាយដែលអត់ប្រយោជន៍។
Dimensionality reduction ជាបច្ចេកទេសក្នុងការទាញយកទិន្នន័យ (ដូចជា PCA) សម្រាប់កាត់បន្ថយចំនួនអថេរ (Features) រាប់រយពាន់នៅក្នុងទិន្នន័យទីផ្សារ ឱ្យមកនៅសល់តិច ដោយរក្សាទុកតែព័ត៌មានដែលសំខាន់បំផុត ដើម្បីពន្លឿនដំណើរការគណនារបស់ម៉ាស៊ីន។ ដូចជាការសង្ខេបសាច់រឿងភាពយន្តរាប់ម៉ោងឱ្យមកនៅសល់ត្រឹមតែវីដេអូខ្លីមួយនាទី ដោយអ្នកមើលនៅតែអាចយល់ពីអត្ថន័យដើមទាំងស្រុង។
Overfitting ជាបញ្ហាដែលម៉ូដែល Machine Learning ទន្ទេញចាំទិន្នន័យសម្រាប់ហ្វឹកហាត់ (Training data) ច្បាស់ពេក រហូតដល់ចាប់យកទាំងសម្លេងរំខាន (Noise) ដែលធ្វើឱ្យវាបរាជ័យទាំងស្រុងក្នុងការទស្សន៍ទាយទិន្នន័យថ្មីៗក្នុងស្ថានភាពទីផ្សារជាក់ស្តែង។ ដូចជាសិស្សដែលទន្ទេញចាំចម្លើយវិញ្ញាសាចាស់គ្រប់ម៉ាត់ តែពេលប្រឡងចេញសំណួរថ្មីបន្តិច ឬប្តូរលេខ ក៏គិតលែងចេញនិងធ្វើមិនបានតែម្តង។
Explainable AI (XAI) ជាប្រព័ន្ធបញ្ញាសិប្បនិម្មិតដែលត្រូវបានរចនាឡើងដើម្បីឱ្យមនុស្សអាចមើលឃើញ យល់ និងបកស្រាយពីដំណើរការនៃការគិត និងមូលហេតុនៃការសម្រេចចិត្តរបស់ម៉ូដែល (ផ្ទុយពីប្រព័ន្ធប្រអប់ខ្មៅ ឬ Black-box)។ ដូចជាគ្រូពេទ្យដែលមិនត្រឹមតែប្រាប់ថាអ្នកមានជំងឺអ្វីនោះទេ ថែមទាំងបង្ហាញពីលទ្ធផលឈាម និងពន្យល់ពីមូលហេតុច្បាស់លាស់ដល់អ្នកជំងឺឱ្យអស់មន្ទិលសង្ស័យទៀតផង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖