Original Title: Data Mining for Prediction. Financial Series Case
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការទាញយកទិន្នន័យសម្រាប់ការទស្សន៍ទាយ៖ ករណីស៊េរីហិរញ្ញវត្ថុ

ចំណងជើងដើម៖ Data Mining for Prediction. Financial Series Case

អ្នកនិពន្ធ៖ Stefan Zemke (The Royal Institute of Technology)

ឆ្នាំបោះពុម្ព៖ 2003, Doctoral Thesis, The Royal Institute of Technology

វិស័យសិក្សា៖ Computer Science / Data Mining

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ និក្ខេបបទនេះដោះស្រាយបញ្ហាប្រឈមនៃការទស្សន៍ទាយទិន្នន័យស៊េរីពេលវេលាហិរញ្ញវត្ថុ (Financial time series) ដែលមានលក្ខណៈស្មុគស្មាញ មានសម្លេងរំខាន (noise) និងមិនមានលីនេអ៊ែរ ដោយស្វែងរកវិធីសាស្ត្រទាញយកទិន្នន័យ (Data mining) ដែលមានប្រសិទ្ធភាពបំផុត។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រចម្រុះនៃក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine learning) រួមបញ្ចូលទាំងការកែលម្អការរៀបចំទិន្នន័យជាមុន និងបច្ចេកទេសបណ្តុំ (Ensemble techniques)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
K-Nearest Neighbor (kNN)
វិធីសាស្ត្រស្វែងរកអ្នកជិតខាងជិតបំផុត (kNN)
មានភាពបត់បែនខ្ពស់ក្នុងការចាប់យកគំរូទិន្នន័យ (patterns) ក្នុងតំបន់ដោយមិនចាំបាច់បង្កើតម៉ូដែលសកល។ សាកសមសម្រាប់ស្វែងរកភាពមិនលីនេអ៊ែរ (non-linear)។ ងាយរងឥទ្ធិពលពីសម្លេងរំខាន (noise) និងទិន្នន័យដែលមិនពាក់ព័ន្ធ។ ទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រឲ្យបានត្រឹមត្រូវ។ សម្រេចបានភាពត្រឹមត្រូវខ្ពស់បំផុតរហូតដល់ ៦៤% លើទិន្នន័យសន្ទស្សន៍មូលដ្ឋាន (Baseline) នៃផ្សារភាគហ៊ុន WSE។
Artificial Neural Networks (ANN)
បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (ANN)
មានសមត្ថភាពខ្ពស់ក្នុងការរៀនសូត្រពីទំនាក់ទំនងស្មុគស្មាញរវាងអថេរ និងមានប្រជាប្រិយភាពខ្លាំងសម្រាប់ការទស្សន៍ទាយស៊េរីពេលវេលា។ ត្រូវការពេលវេលាយូរក្នុងការបណ្តុះបណ្តាល ងាយជួបប្រទះបញ្ហា Overfitting និងពិបាកក្នុងការកំណត់រចនាសម្ព័ន្ធ (Architecture)។ ផ្តល់លទ្ធផលភាពត្រឹមត្រូវចន្លោះពី ៥៦% ទៅ ៦១% ប៉ុន្តែនៅតែទាបជាងវិធីសាស្ត្រ kNN សម្រាប់ការទស្សន៍ទាយសន្ទស្សន៍។
Inductive Logic Programming (ILP) via GA
ការសរសេរកម្មវិធីតក្កវិជ្ជាបង្កើតដោយក្បួនហ្សែន (ILP/GA)
បង្កើតចេញនូវវិធាន (Rules) ដែលមនុស្សអាចអាន និងយល់បាន ដែលជួយសម្រួលដល់ការពន្យល់ពីមូលហេតុនៃការសម្រេចចិត្ត។ ត្រូវការថាមពលកុំព្យូទ័រខ្ពស់ខ្លាំង (ស៊ីពេលជាង ៥០ម៉ោង សម្រាប់ទិន្នន័យ១០០០) ហើយពិបាកស្វែងរកលទ្ធផលល្អក្នុងទិន្នន័យដែលមានសម្លេងរំខានហិរញ្ញវត្ថុ។ ទទួលបានភាពត្រឹមត្រូវត្រឹមតែប្រមាណ ៥០% ទៅ ៥៨.៨% ប៉ុណ្ណោះ ដែលស្ទើរតែប្រហាក់ប្រហែលនឹងការទាយដោយចៃដន្យ។
Bagging GA-optimized Ensembles
បណ្តុំអ្នកចាត់ថ្នាក់ធ្វើឲ្យប្រសើរដោយក្បួនហ្សែន (Bagged GA-kNN)
ជួយកាត់បន្ថយភាពប្រែប្រួល (Variance) នៃម៉ូដែលទោល និងជួយបង្កើនភាពត្រឹមត្រូវ និងប្រាក់ចំណេញពីការជួញដូរយ៉ាងមានប្រសិទ្ធភាព។ ទាមទារការបណ្តុះបណ្តាលអ្នកចាត់ថ្នាក់ (Classifiers) ជាច្រើន ដែលស៊ីកម្លាំងកុំព្យូទ័រ និងបាត់បង់លទ្ធភាពក្នុងការអានយល់ (Readability)។ ទទួលបានប្រាក់ចំណេញប្រចាំឆ្នាំ ៣២% ប្រៀបធៀបនឹងយុទ្ធសាស្ត្រចៃដន្យដែលបានត្រឹម ១៧% និងម៉ូដែលទោលដ៏ល្អបំផុតដែលបានត្រឹម ២៣%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធទស្សន៍ទាយតាមរយៈម៉ាស៊ីនរៀន និងក្បួនដោះស្រាយហ្សែន ដូចដែលបានបង្ហាញក្នុងឯកសារនេះ ទាមទារធនធានកុំព្យូទ័រ និងពេលវេលាច្រើនក្នុងការស្រាវជ្រាវសាកល្បង។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះផ្អែកលើទិន្នន័យផ្សារភាគហ៊ុនអន្តរជាតិ (Warsaw Stock Exchange និង NYSE) ដែលមានទំហំជួញដូរធំ រចនាសម្ព័ន្ធច្បាស់លាស់ និងមានប្រវត្តិទិន្នន័យច្រើនឆ្នាំ។ សម្រាប់ប្រទេសកម្ពុជា ទិន្នន័យហិរញ្ញវត្ថុ ឬភាគហ៊ុននៅមានកម្រិត និងមានភាពប្រែប្រួលខ្ពស់ ដែលអាចធ្វើឲ្យការបកប្រែម៉ូដែលទាំងនេះជួបបញ្ហាប្រសិនបើទិន្នន័យមិនត្រូវបានសម្អាត និងរៀបចំឲ្យបានត្រឹមត្រូវ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាផ្សារមូលបត្រកម្ពុជានៅមានទំហំតូចក៏ពិតមែន ប៉ុន្តែបច្ចេកទេសរៀបចំទិន្នន័យ និងក្បួនដោះស្រាយកម្រិតខ្ពស់ទាំងនេះ មានសារៈសំខាន់ខ្លាំងសម្រាប់ការវិភាគទិន្នន័យសេដ្ឋកិច្ចផ្សេងៗក្នុងប្រទេស។

សរុបមក វិធីសាស្ត្រ Ensemble Methods និងការសម្អាតទិន្នន័យក្នុងនិក្ខេបបទនេះ ជាមគ្គុទ្ទេសក៍ដ៏ល្អសម្រាប់អ្នកវិភាគទិន្នន័យនៅកម្ពុជា ក្នុងការដោះស្រាយបញ្ហាទិន្នន័យដែលមានសម្លេងរំខាន ទោះបីជាត្រូវអនុវត្តក្នុងវិស័យក្រៅពីផ្សារភាគហ៊ុនក៏ដោយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ Machine Learning និង Time Series: និស្សិតគួរតែចាប់ផ្តើមពីការស្វែងយល់ទ្រឹស្តីក្បួនដោះស្រាយ kNN និង Neural Networks ដោយប្រើប្រាស់បណ្ណាល័យកូដ Scikit-Learn ក្នុង Python ឬប្រើកម្មវិធី Weka ដើម្បីសាកល្បងម៉ូដែលជាមួយទិន្នន័យហិរញ្ញវត្ថុដោយមិនចាំបាច់សរសេរកូដច្រើនពីដំបូង។
  2. ការសម្អាតទិន្នន័យ និងការច្នៃសូចនាករ (Data Preprocessing): ប្រមូលទិន្នន័យពី CSX ឬទិន្នន័យសេដ្ឋកិច្ចកម្ពុជា រួចអនុវត្តបច្ចេកទេសការសម្អាតទិន្នន័យបាត់បង់ (Missing Values) និងការបំបែកតម្លៃ ( Discretization )។ សាកល្បងបង្កើតសូចនាករដូចជា Moving Average (MA)MACD ដើម្បីជួយម៉ូដែលឲ្យចាប់យានការផ្លាស់ប្តូរបានល្អប្រសើរ។
  3. អនុវត្តបច្ចេកទេស Ensemble ដើម្បីបង្កើនប្រសិទ្ធភាព: ជៀសវាងការប្រើប្រាស់តែម៉ូដែលមួយមុខ។ ត្រូវសាកល្បងបញ្ចូលម៉ូដែលជាច្រើនតាមរយៈវិធីសាស្ត្រ BaggingBoosting (ឧ. AdaBoostRandom Forest) ដើម្បីកាត់បន្ថយហានិភ័យនៃកំហុស និងធ្វើឲ្យលទ្ធផលកាន់តែមានស្ថិរភាព។
  4. រៀបចំការវាយតម្លៃដោយប្រើ Sliding Window: សម្រាប់ការវិភាគទិន្នន័យពេលវេលា (Time Series) សូមកុំប្រើវិធី N-cross validation ធម្មតាដែលធ្វើឲ្យម៉ូដែលមើលឃើញទិន្នន័យអនាគត។ ជំនួសមកវិញ ត្រូវរៀបចំការធ្វើតេស្តតាមបែប Sliding Window ដើម្បីទទួលបានការវាយតម្លៃមួយដែលឆ្លុះបញ្ចាំងពីស្ថានភាពជាក់ស្តែងនៃការជួញដូរ។
  5. អនុវត្តការរៀបចំប៉ារ៉ាម៉ែត្ររហ័ស (Rapid Fine-Tuning): នៅពេលដែលកូដរបស់អ្នកស៊ីពេលយូរដើម្បីរត់ សូមអនុវត្តតាមគំនិតក្នុងនិក្ខេបបទដោយការរត់តេស្តជម្រើសប៉ារ៉ាម៉ែត្រជាច្រើនក្នុងពេលតែមួយ ( Parallel experiments ) ដែលនឹងជួយសន្សំពេលវេលាកុំព្យូទ័រ និងអនុញ្ញាតឲ្យអ្នករុករកជម្រើសល្អបំផុតបានឆាប់រហ័ស។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Bagging គឺជាបច្ចេកទេសមួយក្នុងម៉ាស៊ីនរៀនដែលបង្កើតម៉ូដែលទស្សន៍ទាយជាច្រើនដោយប្រើទិន្នន័យគំរូផ្សេងៗគ្នា (ជ្រើសរើសដោយចៃដន្យពីទិន្នន័យដើម) រួចយកលទ្ធផលរបស់ម៉ូដែលទាំងនោះមកបោះឆ្នោត ឬមធ្យមភាគបញ្ចូលគ្នា ដើម្បីទទួលបានលទ្ធផលចុងក្រោយដែលមានស្ថិរភាព និងកាត់បន្ថយកំហុស។ ដូចជាការសួរមតិពីក្រុមអ្នកជំនាញជាច្រើននាក់ រួចយកចម្លើយដែលភាគច្រើនឯកភាពគ្នា ជាជាងការជឿលើបុគ្គលតែម្នាក់។
K-Nearest Neighbor (kNN) គឺជាក្បួនដោះស្រាយដែលធ្វើការទស្សន៍ទាយលទ្ធផលថ្មីមួយ ដោយការស្វែងរកទិន្នន័យចាស់ៗចំនួន k ដែលមានលក្ខណៈស្រដៀងគ្នាបំផុត (អ្នកជិតខាង) ហើយយកលទ្ធផលដែលមានច្រើនជាងគេក្នុងចំណោមអ្នកជិតខាងទាំងនោះមកធ្វើជាចម្លើយ។ ដូចជាការទស្សន៍ទាយចំណង់ចំណូលចិត្តរបស់មនុស្សម្នាក់ ដោយមើលទៅលើចំណង់ចំណូលចិត្តរបស់មិត្តភក្តិជិតស្និទ្ធបំផុតរបស់គាត់។
Genetic Algorithms គឺជាវិធីសាស្ត្រស្វែងរកដំណោះស្រាយដ៏ល្អបំផុតដោយយកគំរូតាមដំណើរការវិវឌ្ឍន៍នៃជីវសាស្ត្រធម្មជាតិ (ការបង្កាត់ពូជ និងការបំប្លែងហ្សែន) ក្នុងគោលបំណងស្វែងរកការកំណត់រចនាសម្ព័ន្ធម៉ូដែលដែលអាចផ្ដល់លទ្ធផលទស្សន៍ទាយបានត្រឹមត្រូវជាងគេពីជំនាន់មួយទៅជំនាន់មួយ។ ដូចជាការបង្កាត់ពូជដំណាំ ដោយជ្រើសរើសយកតែពូជណាដែលធន់នឹងជំងឺ និងផ្តល់ទិន្នផលខ្ពស់មកបង្កាត់បន្ត រហូតបានពូជដែលល្អឥតខ្ចោះ។
Multivariate Discretization គឺជាដំណើរការបំប្លែងទិន្នន័យលេខរអិល (Continuous) ទៅជាក្រុមឬចន្លោះលេខដាច់ៗ (Discrete) ដោយធ្វើការពិចារណាលើទំនាក់ទំនង និងឥទ្ធិពលរួមគ្នានៃអថេរជាច្រើនក្នុងពេលតែមួយ ជាជាងការមើលលើអថេរនីមួយៗដាច់ដោយឡែកពីគ្នា។ ដូចជាការចាត់ថ្នាក់សិស្សជាពូកែ ឬមធ្យម ដោយមើលលើពិន្ទុវិញ្ញាសាជាច្រើនមុខរួមបញ្ចូលគ្នា ជំនួសឲ្យការវាយតម្លៃលើមុខវិជ្ជានីមួយៗ។
Delay vectors embedding គឺជាវិធីសាស្ត្ររៀបចំទិន្នន័យស៊េរីពេលវេលា ដោយយកតម្លៃទិន្នន័យនៅពេលវេលាមុនៗជាបន្តបន្ទាប់ (ឧទាហរណ៍ តម្លៃម្សិលមិញ ម្សិលម្ង៉ៃ) មកផ្តុំគ្នាជាវ៉ិចទ័រតែមួយ ដើម្បីជួយឲ្យម៉ូដែលមើលឃើញពីប្រវត្តិ និងនិន្នាការមុនពេលធ្វើការទស្សន៍ទាយតម្លៃបន្ទាប់។ ដូចជាការមើលរូបភាពថតជាស៊េរីនៃបាល់មួយដែលកំពុងហោះ ដើម្បីស្មានថាតើវានឹងធ្លាក់ទៅទីតាំងណានៅវិនាទីបន្ទាប់។
Overfitting ជាបញ្ហាមួយនៅពេលដែលម៉ូដែលរៀនទន្ទេញចាំរាល់ចំណុចលម្អិត និងសម្លេងរំខាន (noise) នៃទិន្នន័យហ្វឹកហាត់ខ្លាំងពេក ដែលធ្វើឲ្យវាទទួលបានពិន្ទុល្អពេលហ្វឹកហាត់ ប៉ុន្តែបរាជ័យក្នុងការធ្វើការទស្សន៍ទាយលើទិន្នន័យថ្មីដែលវាមិនធ្លាប់ជួប។ ដូចជាសិស្សដែលទន្ទេញចាំចម្លើយវិញ្ញាសាចាស់គ្រប់សំណួរ តែមិនអាចឆ្លើយបាននៅពេលប្រឡងពិតដែលវិញ្ញាសាមានការកែប្រែបន្តិចបន្តួច។
Boosting ជាបច្ចេកទេសបណ្តុំម៉ូដែលដែលដំណើរការជាបន្តបន្ទាប់ ដោយផ្តល់ទម្ងន់ឬការយកចិត្តទុកដាក់កាន់តែខ្លាំងទៅលើទិន្នន័យណាដែលម៉ូដែលមុនៗទាយខុស ដើម្បីជួយឲ្យម៉ូដែលបន្ទាប់ព្យាយាមកែតម្រូវកំហុសនោះ។ ដូចជាការផ្តោតលើការរៀនសាឡើងវិញតែលើមេរៀនណាដែលអ្នកធ្លាប់ប្រឡងធ្លាក់ ដើម្បីពង្រឹងចំណេះដឹងឲ្យបានគ្រប់ជ្រុងជ្រោយសម្រាប់ការប្រឡងលើកក្រោយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖