Original Title: Data Mining for Prediction. Financial Series Case
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការទាញយកទិន្នន័យសម្រាប់ការទស្សន៍ទាយ៖ ករណីស៊េរីហិរញ្ញវត្ថុ

ចំណងជើងដើម៖ Data Mining for Prediction. Financial Series Case

អ្នកនិពន្ធ៖ Stefan Zemke (The Royal Institute of Technology)

ឆ្នាំបោះពុម្ព៖ 2003, Doctoral Thesis, The Royal Institute of Technology

វិស័យសិក្សា៖ Computer Science / Data Mining

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ និក្ខេបបទនេះដោះស្រាយបញ្ហាប្រឈមនៃការទស្សន៍ទាយទិន្នន័យស៊េរីពេលវេលាហិរញ្ញវត្ថុ (Financial time series) ដែលមានលក្ខណៈស្មុគស្មាញ មានសម្លេងរំខាន (noise) និងមិនមានលីនេអ៊ែរ ដោយស្វែងរកវិធីសាស្ត្រទាញយកទិន្នន័យ (Data mining) ដែលមានប្រសិទ្ធភាពបំផុត។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រចម្រុះនៃក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine learning) រួមបញ្ចូលទាំងការកែលម្អការរៀបចំទិន្នន័យជាមុន និងបច្ចេកទេសបណ្តុំ (Ensemble techniques)។

ការវាយតម្លៃវិធីសាស្ត្រម៉ាស៊ីនរៀនជាមូលដ្ឋានរួមមាន បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (ANN), អ្នកជិតខាងជិតបំផុត (kNN), និងក្បួនដោះស្រាយហ្សែន (Genetic Algorithms)
ការបង្កើតប្រព័ន្ធទស្សន៍ទាយតាមរយៈការបោះឆ្នោតជាបណ្តុំ (Bagging និង Boosting)
ការអភិវឌ្ឍវិធីសាស្ត្របំបែកទិន្នន័យពហុអថេរថ្មី (Multivariate Discretization) ដោយប្រើក្បួនដោះស្រាយហ្សែនដើម្បីជ្រើសរើសលក្ខណៈពិសេស

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ក្នុងចំណោមវិធីសាស្ត្រមូលដ្ឋាន វិធីសាស្ត្រអ្នកជិតខាងជិតបំផុត (kNN) សម្រេចបានភាពត្រឹមត្រូវខ្ពស់បំផុតរហូតដល់ ៦៤% លើទិន្នន័យសន្ទស្សន៍ផ្សារហ៊ុន។
ការប្រើប្រាស់វិធីសាស្ត្រ Bagging លើបណ្តុំអ្នកចាត់ថ្នាក់ដែលបង្កើតដោយក្បួនដោះស្រាយហ្សែន បានបង្កើនប្រាក់ចំណេញពីការជួញដូររហូតដល់ ៣២% ប្រៀបធៀបនឹងយុទ្ធសាស្ត្រចៃដន្យដែលបានត្រឹម ១៧%។
ក្បួនដោះស្រាយការបំបែកទិន្នន័យពហុអថេរថ្មី (Multivariate Discretization algorithm) បានបង្ហាញពីសមត្ថភាពក្នុងការស្វែងរកទំនាក់ទំនងរវាងអថេររហូតដល់ ១០០ ស៊េរី ទោះបីជាមានវត្តមានសម្លេងរំខានទិន្នន័យក៏ដោយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
K-Nearest Neighbor (kNN) វិធីសាស្ត្រស្វែងរកអ្នកជិតខាងជិតបំផុត (kNN)	មានភាពបត់បែនខ្ពស់ក្នុងការចាប់យកគំរូទិន្នន័យ (patterns) ក្នុងតំបន់ដោយមិនចាំបាច់បង្កើតម៉ូដែលសកល។ សាកសមសម្រាប់ស្វែងរកភាពមិនលីនេអ៊ែរ (non-linear)។	ងាយរងឥទ្ធិពលពីសម្លេងរំខាន (noise) និងទិន្នន័យដែលមិនពាក់ព័ន្ធ។ ទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រឲ្យបានត្រឹមត្រូវ។	សម្រេចបានភាពត្រឹមត្រូវខ្ពស់បំផុតរហូតដល់ ៦៤% លើទិន្នន័យសន្ទស្សន៍មូលដ្ឋាន (Baseline) នៃផ្សារភាគហ៊ុន WSE។
Artificial Neural Networks (ANN) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (ANN)	មានសមត្ថភាពខ្ពស់ក្នុងការរៀនសូត្រពីទំនាក់ទំនងស្មុគស្មាញរវាងអថេរ និងមានប្រជាប្រិយភាពខ្លាំងសម្រាប់ការទស្សន៍ទាយស៊េរីពេលវេលា។	ត្រូវការពេលវេលាយូរក្នុងការបណ្តុះបណ្តាល ងាយជួបប្រទះបញ្ហា Overfitting និងពិបាកក្នុងការកំណត់រចនាសម្ព័ន្ធ (Architecture)។	ផ្តល់លទ្ធផលភាពត្រឹមត្រូវចន្លោះពី ៥៦% ទៅ ៦១% ប៉ុន្តែនៅតែទាបជាងវិធីសាស្ត្រ kNN សម្រាប់ការទស្សន៍ទាយសន្ទស្សន៍។
Inductive Logic Programming (ILP) via GA ការសរសេរកម្មវិធីតក្កវិជ្ជាបង្កើតដោយក្បួនហ្សែន (ILP/GA)	បង្កើតចេញនូវវិធាន (Rules) ដែលមនុស្សអាចអាន និងយល់បាន ដែលជួយសម្រួលដល់ការពន្យល់ពីមូលហេតុនៃការសម្រេចចិត្ត។	ត្រូវការថាមពលកុំព្យូទ័រខ្ពស់ខ្លាំង (ស៊ីពេលជាង ៥០ម៉ោង សម្រាប់ទិន្នន័យ១០០០) ហើយពិបាកស្វែងរកលទ្ធផលល្អក្នុងទិន្នន័យដែលមានសម្លេងរំខានហិរញ្ញវត្ថុ។	ទទួលបានភាពត្រឹមត្រូវត្រឹមតែប្រមាណ ៥០% ទៅ ៥៨.៨% ប៉ុណ្ណោះ ដែលស្ទើរតែប្រហាក់ប្រហែលនឹងការទាយដោយចៃដន្យ។
Bagging GA-optimized Ensembles បណ្តុំអ្នកចាត់ថ្នាក់ធ្វើឲ្យប្រសើរដោយក្បួនហ្សែន (Bagged GA-kNN)	ជួយកាត់បន្ថយភាពប្រែប្រួល (Variance) នៃម៉ូដែលទោល និងជួយបង្កើនភាពត្រឹមត្រូវ និងប្រាក់ចំណេញពីការជួញដូរយ៉ាងមានប្រសិទ្ធភាព។	ទាមទារការបណ្តុះបណ្តាលអ្នកចាត់ថ្នាក់ (Classifiers) ជាច្រើន ដែលស៊ីកម្លាំងកុំព្យូទ័រ និងបាត់បង់លទ្ធភាពក្នុងការអានយល់ (Readability)។	ទទួលបានប្រាក់ចំណេញប្រចាំឆ្នាំ ៣២% ប្រៀបធៀបនឹងយុទ្ធសាស្ត្រចៃដន្យដែលបានត្រឹម ១៧% និងម៉ូដែលទោលដ៏ល្អបំផុតដែលបានត្រឹម ២៣%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធទស្សន៍ទាយតាមរយៈម៉ាស៊ីនរៀន និងក្បួនដោះស្រាយហ្សែន ដូចដែលបានបង្ហាញក្នុងឯកសារនេះ ទាមទារធនធានកុំព្យូទ័រ និងពេលវេលាច្រើនក្នុងការស្រាវជ្រាវសាកល្បង។

Hardware: ត្រូវការម៉ាស៊ីនកុំព្យូទ័រដែលមានកម្លាំង CPU/GPU ខ្ពស់សម្រាប់ការរត់ការធ្វើតេស្តច្រើនក្នុងពេលតែមួយ (Parallel experiments) ជាពិសេសសម្រាប់ការប្រើប្រាស់ Genetic Algorithms ដែលត្រូវការវាយតម្លៃម៉ូដែលរាប់ពាន់ដង។
Software: ត្រូវការកញ្ចប់កម្មវិធីទាញយកទិន្នន័យដូចជា Weka (សម្រាប់ Java) ឬប្រព័ន្ធទាញយកតក្កវិជ្ជាដូចជា Progol រួមជាមួយនឹងការសរសេរកូដដោយខ្លួនឯងដើម្បីកែច្នៃទិន្នន័យ និងបង្កើតបណ្តុំ Ensemble។
Dataset: ទាមទារទិន្នន័យស៊េរីពេលវេលាជាប្រវត្តិសាស្ត្រដែលមានគុណភាព និងមានចំនួនច្រើន (រាប់ពាន់កំណត់ត្រា) និងមានលក្ខណៈពិសេសច្រើន (Multivariate) ឧទាហរណ៍ ទិន្នន័យសន្ទស្សន៍ភាគហ៊ុនប្រចាំថ្ងៃយូរឆ្នាំ។
Expertise: អ្នកស្រាវជ្រាវត្រូវមានចំណេះដឹងស៊ីជម្រៅលើ Machine Learning, ស្ថិតិវិទ្យាសម្រាប់ការវាយតម្លៃ និងការយល់ដឹងពីសូចនាករហិរញ្ញវត្ថុ (Financial Indicators)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះផ្អែកលើទិន្នន័យផ្សារភាគហ៊ុនអន្តរជាតិ (Warsaw Stock Exchange និង NYSE) ដែលមានទំហំជួញដូរធំ រចនាសម្ព័ន្ធច្បាស់លាស់ និងមានប្រវត្តិទិន្នន័យច្រើនឆ្នាំ។ សម្រាប់ប្រទេសកម្ពុជា ទិន្នន័យហិរញ្ញវត្ថុ ឬភាគហ៊ុននៅមានកម្រិត និងមានភាពប្រែប្រួលខ្ពស់ ដែលអាចធ្វើឲ្យការបកប្រែម៉ូដែលទាំងនេះជួបបញ្ហាប្រសិនបើទិន្នន័យមិនត្រូវបានសម្អាត និងរៀបចំឲ្យបានត្រឹមត្រូវ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាផ្សារមូលបត្រកម្ពុជានៅមានទំហំតូចក៏ពិតមែន ប៉ុន្តែបច្ចេកទេសរៀបចំទិន្នន័យ និងក្បួនដោះស្រាយកម្រិតខ្ពស់ទាំងនេះ មានសារៈសំខាន់ខ្លាំងសម្រាប់ការវិភាគទិន្នន័យសេដ្ឋកិច្ចផ្សេងៗក្នុងប្រទេស។

Cambodia Securities Exchange (CSX): អាចប្រើវិធីសាស្ត្រ kNN និងបច្ចេកទេស Bagging ដើម្បីចាប់ផ្តើមវិភាគ និងទស្សន៍ទាយនិន្នាការនៃតម្លៃភាគហ៊ុនរបស់ក្រុមហ៊ុនក្នុងស្រុក (ឧ. រដ្ឋាករទឹកស្វយ័តក្រុងភ្នំពេញ កំពង់ផែស្វយ័តក្រុងព្រះសីហនុ) ដោយផ្តោតលើការកែច្នៃសូចនាករហិរញ្ញវត្ថុ។
កសិកម្ម និងការកំណត់តម្លៃទំនិញ (Agriculture Commodity Pricing): ស្ថាប័នពាក់ព័ន្ធ ឬអ្នកស្រាវជ្រាវ អាចអនុវត្តបច្ចេកទេស Ensemble ជាមួយវិធីសាស្ត្រ Time Series Prediction ដើម្បីទស្សន៍ទាយការប្រែប្រួលតម្លៃកសិផលសំខាន់ៗ (ដូចជា ស្រូវកៅស៊ូ ស្វាយចន្ទី) ដើម្បីជួយសហគមន៍កសិករត្រៀមខ្លួនជាមុន។
វិស័យធនាគារ និងមីក្រូហិរញ្ញវត្ថុ (Banking & Microfinance): ក្បួនដោះស្រាយ Multivariate Discretization អាចត្រូវបានប្រើប្រាស់ដោយធនាគារជាតិ ឬគ្រឹះស្ថានហិរញ្ញវត្ថុ ដើម្បីទាញយកលក្ខណៈពិសេស (Features) ពីទិន្នន័យអតិថិជន សម្រាប់បង្កើតម៉ូដែលវាយតម្លៃហានិភ័យឥណទាន (Credit Scoring)។

សរុបមក វិធីសាស្ត្រ Ensemble Methods និងការសម្អាតទិន្នន័យក្នុងនិក្ខេបបទនេះ ជាមគ្គុទ្ទេសក៍ដ៏ល្អសម្រាប់អ្នកវិភាគទិន្នន័យនៅកម្ពុជា ក្នុងការដោះស្រាយបញ្ហាទិន្នន័យដែលមានសម្លេងរំខាន ទោះបីជាត្រូវអនុវត្តក្នុងវិស័យក្រៅពីផ្សារភាគហ៊ុនក៏ដោយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Machine Learning និង Time Series: និស្សិតគួរតែចាប់ផ្តើមពីការស្វែងយល់ទ្រឹស្តីក្បួនដោះស្រាយ kNN និង Neural Networks ដោយប្រើប្រាស់បណ្ណាល័យកូដ Scikit-Learn ក្នុង Python ឬប្រើកម្មវិធី Weka ដើម្បីសាកល្បងម៉ូដែលជាមួយទិន្នន័យហិរញ្ញវត្ថុដោយមិនចាំបាច់សរសេរកូដច្រើនពីដំបូង។
ការសម្អាតទិន្នន័យ និងការច្នៃសូចនាករ (Data Preprocessing): ប្រមូលទិន្នន័យពី CSX ឬទិន្នន័យសេដ្ឋកិច្ចកម្ពុជា រួចអនុវត្តបច្ចេកទេសការសម្អាតទិន្នន័យបាត់បង់ (Missing Values) និងការបំបែកតម្លៃ ( Discretization )។ សាកល្បងបង្កើតសូចនាករដូចជា Moving Average (MA) ឬ MACD ដើម្បីជួយម៉ូដែលឲ្យចាប់យានការផ្លាស់ប្តូរបានល្អប្រសើរ។
អនុវត្តបច្ចេកទេស Ensemble ដើម្បីបង្កើនប្រសិទ្ធភាព: ជៀសវាងការប្រើប្រាស់តែម៉ូដែលមួយមុខ។ ត្រូវសាកល្បងបញ្ចូលម៉ូដែលជាច្រើនតាមរយៈវិធីសាស្ត្រ Bagging ឬ Boosting (ឧ. AdaBoost ឬ Random Forest) ដើម្បីកាត់បន្ថយហានិភ័យនៃកំហុស និងធ្វើឲ្យលទ្ធផលកាន់តែមានស្ថិរភាព។
រៀបចំការវាយតម្លៃដោយប្រើ Sliding Window: សម្រាប់ការវិភាគទិន្នន័យពេលវេលា (Time Series) សូមកុំប្រើវិធី N-cross validation ធម្មតាដែលធ្វើឲ្យម៉ូដែលមើលឃើញទិន្នន័យអនាគត។ ជំនួសមកវិញ ត្រូវរៀបចំការធ្វើតេស្តតាមបែប Sliding Window ដើម្បីទទួលបានការវាយតម្លៃមួយដែលឆ្លុះបញ្ចាំងពីស្ថានភាពជាក់ស្តែងនៃការជួញដូរ។
អនុវត្តការរៀបចំប៉ារ៉ាម៉ែត្ររហ័ស (Rapid Fine-Tuning): នៅពេលដែលកូដរបស់អ្នកស៊ីពេលយូរដើម្បីរត់ សូមអនុវត្តតាមគំនិតក្នុងនិក្ខេបបទដោយការរត់តេស្តជម្រើសប៉ារ៉ាម៉ែត្រជាច្រើនក្នុងពេលតែមួយ ( Parallel experiments ) ដែលនឹងជួយសន្សំពេលវេលាកុំព្យូទ័រ និងអនុញ្ញាតឲ្យអ្នករុករកជម្រើសល្អបំផុតបានឆាប់រហ័ស។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Bagging	គឺជាបច្ចេកទេសមួយក្នុងម៉ាស៊ីនរៀនដែលបង្កើតម៉ូដែលទស្សន៍ទាយជាច្រើនដោយប្រើទិន្នន័យគំរូផ្សេងៗគ្នា (ជ្រើសរើសដោយចៃដន្យពីទិន្នន័យដើម) រួចយកលទ្ធផលរបស់ម៉ូដែលទាំងនោះមកបោះឆ្នោត ឬមធ្យមភាគបញ្ចូលគ្នា ដើម្បីទទួលបានលទ្ធផលចុងក្រោយដែលមានស្ថិរភាព និងកាត់បន្ថយកំហុស។	ដូចជាការសួរមតិពីក្រុមអ្នកជំនាញជាច្រើននាក់ រួចយកចម្លើយដែលភាគច្រើនឯកភាពគ្នា ជាជាងការជឿលើបុគ្គលតែម្នាក់។
K-Nearest Neighbor (kNN)	គឺជាក្បួនដោះស្រាយដែលធ្វើការទស្សន៍ទាយលទ្ធផលថ្មីមួយ ដោយការស្វែងរកទិន្នន័យចាស់ៗចំនួន k ដែលមានលក្ខណៈស្រដៀងគ្នាបំផុត (អ្នកជិតខាង) ហើយយកលទ្ធផលដែលមានច្រើនជាងគេក្នុងចំណោមអ្នកជិតខាងទាំងនោះមកធ្វើជាចម្លើយ។	ដូចជាការទស្សន៍ទាយចំណង់ចំណូលចិត្តរបស់មនុស្សម្នាក់ ដោយមើលទៅលើចំណង់ចំណូលចិត្តរបស់មិត្តភក្តិជិតស្និទ្ធបំផុតរបស់គាត់។
Genetic Algorithms	គឺជាវិធីសាស្ត្រស្វែងរកដំណោះស្រាយដ៏ល្អបំផុតដោយយកគំរូតាមដំណើរការវិវឌ្ឍន៍នៃជីវសាស្ត្រធម្មជាតិ (ការបង្កាត់ពូជ និងការបំប្លែងហ្សែន) ក្នុងគោលបំណងស្វែងរកការកំណត់រចនាសម្ព័ន្ធម៉ូដែលដែលអាចផ្ដល់លទ្ធផលទស្សន៍ទាយបានត្រឹមត្រូវជាងគេពីជំនាន់មួយទៅជំនាន់មួយ។	ដូចជាការបង្កាត់ពូជដំណាំ ដោយជ្រើសរើសយកតែពូជណាដែលធន់នឹងជំងឺ និងផ្តល់ទិន្នផលខ្ពស់មកបង្កាត់បន្ត រហូតបានពូជដែលល្អឥតខ្ចោះ។
Multivariate Discretization	គឺជាដំណើរការបំប្លែងទិន្នន័យលេខរអិល (Continuous) ទៅជាក្រុមឬចន្លោះលេខដាច់ៗ (Discrete) ដោយធ្វើការពិចារណាលើទំនាក់ទំនង និងឥទ្ធិពលរួមគ្នានៃអថេរជាច្រើនក្នុងពេលតែមួយ ជាជាងការមើលលើអថេរនីមួយៗដាច់ដោយឡែកពីគ្នា។	ដូចជាការចាត់ថ្នាក់សិស្សជាពូកែ ឬមធ្យម ដោយមើលលើពិន្ទុវិញ្ញាសាជាច្រើនមុខរួមបញ្ចូលគ្នា ជំនួសឲ្យការវាយតម្លៃលើមុខវិជ្ជានីមួយៗ។
Delay vectors embedding	គឺជាវិធីសាស្ត្ររៀបចំទិន្នន័យស៊េរីពេលវេលា ដោយយកតម្លៃទិន្នន័យនៅពេលវេលាមុនៗជាបន្តបន្ទាប់ (ឧទាហរណ៍ តម្លៃម្សិលមិញ ម្សិលម្ង៉ៃ) មកផ្តុំគ្នាជាវ៉ិចទ័រតែមួយ ដើម្បីជួយឲ្យម៉ូដែលមើលឃើញពីប្រវត្តិ និងនិន្នាការមុនពេលធ្វើការទស្សន៍ទាយតម្លៃបន្ទាប់។	ដូចជាការមើលរូបភាពថតជាស៊េរីនៃបាល់មួយដែលកំពុងហោះ ដើម្បីស្មានថាតើវានឹងធ្លាក់ទៅទីតាំងណានៅវិនាទីបន្ទាប់។
Overfitting	ជាបញ្ហាមួយនៅពេលដែលម៉ូដែលរៀនទន្ទេញចាំរាល់ចំណុចលម្អិត និងសម្លេងរំខាន (noise) នៃទិន្នន័យហ្វឹកហាត់ខ្លាំងពេក ដែលធ្វើឲ្យវាទទួលបានពិន្ទុល្អពេលហ្វឹកហាត់ ប៉ុន្តែបរាជ័យក្នុងការធ្វើការទស្សន៍ទាយលើទិន្នន័យថ្មីដែលវាមិនធ្លាប់ជួប។	ដូចជាសិស្សដែលទន្ទេញចាំចម្លើយវិញ្ញាសាចាស់គ្រប់សំណួរ តែមិនអាចឆ្លើយបាននៅពេលប្រឡងពិតដែលវិញ្ញាសាមានការកែប្រែបន្តិចបន្តួច។
Boosting	ជាបច្ចេកទេសបណ្តុំម៉ូដែលដែលដំណើរការជាបន្តបន្ទាប់ ដោយផ្តល់ទម្ងន់ឬការយកចិត្តទុកដាក់កាន់តែខ្លាំងទៅលើទិន្នន័យណាដែលម៉ូដែលមុនៗទាយខុស ដើម្បីជួយឲ្យម៉ូដែលបន្ទាប់ព្យាយាមកែតម្រូវកំហុសនោះ។	ដូចជាការផ្តោតលើការរៀនសាឡើងវិញតែលើមេរៀនណាដែលអ្នកធ្លាប់ប្រឡងធ្លាក់ ដើម្បីពង្រឹងចំណេះដឹងឲ្យបានគ្រប់ជ្រុងជ្រោយសម្រាប់ការប្រឡងលើកក្រោយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖