បញ្ហា (The Problem)៖ និក្ខេបបទនេះដោះស្រាយបញ្ហាប្រឈមនៃការទស្សន៍ទាយទិន្នន័យស៊េរីពេលវេលាហិរញ្ញវត្ថុ (Financial time series) ដែលមានលក្ខណៈស្មុគស្មាញ មានសម្លេងរំខាន (noise) និងមិនមានលីនេអ៊ែរ ដោយស្វែងរកវិធីសាស្ត្រទាញយកទិន្នន័យ (Data mining) ដែលមានប្រសិទ្ធភាពបំផុត។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រចម្រុះនៃក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine learning) រួមបញ្ចូលទាំងការកែលម្អការរៀបចំទិន្នន័យជាមុន និងបច្ចេកទេសបណ្តុំ (Ensemble techniques)។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| K-Nearest Neighbor (kNN) វិធីសាស្ត្រស្វែងរកអ្នកជិតខាងជិតបំផុត (kNN) |
មានភាពបត់បែនខ្ពស់ក្នុងការចាប់យកគំរូទិន្នន័យ (patterns) ក្នុងតំបន់ដោយមិនចាំបាច់បង្កើតម៉ូដែលសកល។ សាកសមសម្រាប់ស្វែងរកភាពមិនលីនេអ៊ែរ (non-linear)។ | ងាយរងឥទ្ធិពលពីសម្លេងរំខាន (noise) និងទិន្នន័យដែលមិនពាក់ព័ន្ធ។ ទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រឲ្យបានត្រឹមត្រូវ។ | សម្រេចបានភាពត្រឹមត្រូវខ្ពស់បំផុតរហូតដល់ ៦៤% លើទិន្នន័យសន្ទស្សន៍មូលដ្ឋាន (Baseline) នៃផ្សារភាគហ៊ុន WSE។ |
| Artificial Neural Networks (ANN) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (ANN) |
មានសមត្ថភាពខ្ពស់ក្នុងការរៀនសូត្រពីទំនាក់ទំនងស្មុគស្មាញរវាងអថេរ និងមានប្រជាប្រិយភាពខ្លាំងសម្រាប់ការទស្សន៍ទាយស៊េរីពេលវេលា។ | ត្រូវការពេលវេលាយូរក្នុងការបណ្តុះបណ្តាល ងាយជួបប្រទះបញ្ហា Overfitting និងពិបាកក្នុងការកំណត់រចនាសម្ព័ន្ធ (Architecture)។ | ផ្តល់លទ្ធផលភាពត្រឹមត្រូវចន្លោះពី ៥៦% ទៅ ៦១% ប៉ុន្តែនៅតែទាបជាងវិធីសាស្ត្រ kNN សម្រាប់ការទស្សន៍ទាយសន្ទស្សន៍។ |
| Inductive Logic Programming (ILP) via GA ការសរសេរកម្មវិធីតក្កវិជ្ជាបង្កើតដោយក្បួនហ្សែន (ILP/GA) |
បង្កើតចេញនូវវិធាន (Rules) ដែលមនុស្សអាចអាន និងយល់បាន ដែលជួយសម្រួលដល់ការពន្យល់ពីមូលហេតុនៃការសម្រេចចិត្ត។ | ត្រូវការថាមពលកុំព្យូទ័រខ្ពស់ខ្លាំង (ស៊ីពេលជាង ៥០ម៉ោង សម្រាប់ទិន្នន័យ១០០០) ហើយពិបាកស្វែងរកលទ្ធផលល្អក្នុងទិន្នន័យដែលមានសម្លេងរំខានហិរញ្ញវត្ថុ។ | ទទួលបានភាពត្រឹមត្រូវត្រឹមតែប្រមាណ ៥០% ទៅ ៥៨.៨% ប៉ុណ្ណោះ ដែលស្ទើរតែប្រហាក់ប្រហែលនឹងការទាយដោយចៃដន្យ។ |
| Bagging GA-optimized Ensembles បណ្តុំអ្នកចាត់ថ្នាក់ធ្វើឲ្យប្រសើរដោយក្បួនហ្សែន (Bagged GA-kNN) |
ជួយកាត់បន្ថយភាពប្រែប្រួល (Variance) នៃម៉ូដែលទោល និងជួយបង្កើនភាពត្រឹមត្រូវ និងប្រាក់ចំណេញពីការជួញដូរយ៉ាងមានប្រសិទ្ធភាព។ | ទាមទារការបណ្តុះបណ្តាលអ្នកចាត់ថ្នាក់ (Classifiers) ជាច្រើន ដែលស៊ីកម្លាំងកុំព្យូទ័រ និងបាត់បង់លទ្ធភាពក្នុងការអានយល់ (Readability)។ | ទទួលបានប្រាក់ចំណេញប្រចាំឆ្នាំ ៣២% ប្រៀបធៀបនឹងយុទ្ធសាស្ត្រចៃដន្យដែលបានត្រឹម ១៧% និងម៉ូដែលទោលដ៏ល្អបំផុតដែលបានត្រឹម ២៣%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធទស្សន៍ទាយតាមរយៈម៉ាស៊ីនរៀន និងក្បួនដោះស្រាយហ្សែន ដូចដែលបានបង្ហាញក្នុងឯកសារនេះ ទាមទារធនធានកុំព្យូទ័រ និងពេលវេលាច្រើនក្នុងការស្រាវជ្រាវសាកល្បង។
ការសិក្សានេះផ្អែកលើទិន្នន័យផ្សារភាគហ៊ុនអន្តរជាតិ (Warsaw Stock Exchange និង NYSE) ដែលមានទំហំជួញដូរធំ រចនាសម្ព័ន្ធច្បាស់លាស់ និងមានប្រវត្តិទិន្នន័យច្រើនឆ្នាំ។ សម្រាប់ប្រទេសកម្ពុជា ទិន្នន័យហិរញ្ញវត្ថុ ឬភាគហ៊ុននៅមានកម្រិត និងមានភាពប្រែប្រួលខ្ពស់ ដែលអាចធ្វើឲ្យការបកប្រែម៉ូដែលទាំងនេះជួបបញ្ហាប្រសិនបើទិន្នន័យមិនត្រូវបានសម្អាត និងរៀបចំឲ្យបានត្រឹមត្រូវ។
ទោះបីជាផ្សារមូលបត្រកម្ពុជានៅមានទំហំតូចក៏ពិតមែន ប៉ុន្តែបច្ចេកទេសរៀបចំទិន្នន័យ និងក្បួនដោះស្រាយកម្រិតខ្ពស់ទាំងនេះ មានសារៈសំខាន់ខ្លាំងសម្រាប់ការវិភាគទិន្នន័យសេដ្ឋកិច្ចផ្សេងៗក្នុងប្រទេស។
សរុបមក វិធីសាស្ត្រ Ensemble Methods និងការសម្អាតទិន្នន័យក្នុងនិក្ខេបបទនេះ ជាមគ្គុទ្ទេសក៍ដ៏ល្អសម្រាប់អ្នកវិភាគទិន្នន័យនៅកម្ពុជា ក្នុងការដោះស្រាយបញ្ហាទិន្នន័យដែលមានសម្លេងរំខាន ទោះបីជាត្រូវអនុវត្តក្នុងវិស័យក្រៅពីផ្សារភាគហ៊ុនក៏ដោយ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Bagging | គឺជាបច្ចេកទេសមួយក្នុងម៉ាស៊ីនរៀនដែលបង្កើតម៉ូដែលទស្សន៍ទាយជាច្រើនដោយប្រើទិន្នន័យគំរូផ្សេងៗគ្នា (ជ្រើសរើសដោយចៃដន្យពីទិន្នន័យដើម) រួចយកលទ្ធផលរបស់ម៉ូដែលទាំងនោះមកបោះឆ្នោត ឬមធ្យមភាគបញ្ចូលគ្នា ដើម្បីទទួលបានលទ្ធផលចុងក្រោយដែលមានស្ថិរភាព និងកាត់បន្ថយកំហុស។ | ដូចជាការសួរមតិពីក្រុមអ្នកជំនាញជាច្រើននាក់ រួចយកចម្លើយដែលភាគច្រើនឯកភាពគ្នា ជាជាងការជឿលើបុគ្គលតែម្នាក់។ |
| K-Nearest Neighbor (kNN) | គឺជាក្បួនដោះស្រាយដែលធ្វើការទស្សន៍ទាយលទ្ធផលថ្មីមួយ ដោយការស្វែងរកទិន្នន័យចាស់ៗចំនួន k ដែលមានលក្ខណៈស្រដៀងគ្នាបំផុត (អ្នកជិតខាង) ហើយយកលទ្ធផលដែលមានច្រើនជាងគេក្នុងចំណោមអ្នកជិតខាងទាំងនោះមកធ្វើជាចម្លើយ។ | ដូចជាការទស្សន៍ទាយចំណង់ចំណូលចិត្តរបស់មនុស្សម្នាក់ ដោយមើលទៅលើចំណង់ចំណូលចិត្តរបស់មិត្តភក្តិជិតស្និទ្ធបំផុតរបស់គាត់។ |
| Genetic Algorithms | គឺជាវិធីសាស្ត្រស្វែងរកដំណោះស្រាយដ៏ល្អបំផុតដោយយកគំរូតាមដំណើរការវិវឌ្ឍន៍នៃជីវសាស្ត្រធម្មជាតិ (ការបង្កាត់ពូជ និងការបំប្លែងហ្សែន) ក្នុងគោលបំណងស្វែងរកការកំណត់រចនាសម្ព័ន្ធម៉ូដែលដែលអាចផ្ដល់លទ្ធផលទស្សន៍ទាយបានត្រឹមត្រូវជាងគេពីជំនាន់មួយទៅជំនាន់មួយ។ | ដូចជាការបង្កាត់ពូជដំណាំ ដោយជ្រើសរើសយកតែពូជណាដែលធន់នឹងជំងឺ និងផ្តល់ទិន្នផលខ្ពស់មកបង្កាត់បន្ត រហូតបានពូជដែលល្អឥតខ្ចោះ។ |
| Multivariate Discretization | គឺជាដំណើរការបំប្លែងទិន្នន័យលេខរអិល (Continuous) ទៅជាក្រុមឬចន្លោះលេខដាច់ៗ (Discrete) ដោយធ្វើការពិចារណាលើទំនាក់ទំនង និងឥទ្ធិពលរួមគ្នានៃអថេរជាច្រើនក្នុងពេលតែមួយ ជាជាងការមើលលើអថេរនីមួយៗដាច់ដោយឡែកពីគ្នា។ | ដូចជាការចាត់ថ្នាក់សិស្សជាពូកែ ឬមធ្យម ដោយមើលលើពិន្ទុវិញ្ញាសាជាច្រើនមុខរួមបញ្ចូលគ្នា ជំនួសឲ្យការវាយតម្លៃលើមុខវិជ្ជានីមួយៗ។ |
| Delay vectors embedding | គឺជាវិធីសាស្ត្ររៀបចំទិន្នន័យស៊េរីពេលវេលា ដោយយកតម្លៃទិន្នន័យនៅពេលវេលាមុនៗជាបន្តបន្ទាប់ (ឧទាហរណ៍ តម្លៃម្សិលមិញ ម្សិលម្ង៉ៃ) មកផ្តុំគ្នាជាវ៉ិចទ័រតែមួយ ដើម្បីជួយឲ្យម៉ូដែលមើលឃើញពីប្រវត្តិ និងនិន្នាការមុនពេលធ្វើការទស្សន៍ទាយតម្លៃបន្ទាប់។ | ដូចជាការមើលរូបភាពថតជាស៊េរីនៃបាល់មួយដែលកំពុងហោះ ដើម្បីស្មានថាតើវានឹងធ្លាក់ទៅទីតាំងណានៅវិនាទីបន្ទាប់។ |
| Overfitting | ជាបញ្ហាមួយនៅពេលដែលម៉ូដែលរៀនទន្ទេញចាំរាល់ចំណុចលម្អិត និងសម្លេងរំខាន (noise) នៃទិន្នន័យហ្វឹកហាត់ខ្លាំងពេក ដែលធ្វើឲ្យវាទទួលបានពិន្ទុល្អពេលហ្វឹកហាត់ ប៉ុន្តែបរាជ័យក្នុងការធ្វើការទស្សន៍ទាយលើទិន្នន័យថ្មីដែលវាមិនធ្លាប់ជួប។ | ដូចជាសិស្សដែលទន្ទេញចាំចម្លើយវិញ្ញាសាចាស់គ្រប់សំណួរ តែមិនអាចឆ្លើយបាននៅពេលប្រឡងពិតដែលវិញ្ញាសាមានការកែប្រែបន្តិចបន្តួច។ |
| Boosting | ជាបច្ចេកទេសបណ្តុំម៉ូដែលដែលដំណើរការជាបន្តបន្ទាប់ ដោយផ្តល់ទម្ងន់ឬការយកចិត្តទុកដាក់កាន់តែខ្លាំងទៅលើទិន្នន័យណាដែលម៉ូដែលមុនៗទាយខុស ដើម្បីជួយឲ្យម៉ូដែលបន្ទាប់ព្យាយាមកែតម្រូវកំហុសនោះ។ | ដូចជាការផ្តោតលើការរៀនសាឡើងវិញតែលើមេរៀនណាដែលអ្នកធ្លាប់ប្រឡងធ្លាក់ ដើម្បីពង្រឹងចំណេះដឹងឲ្យបានគ្រប់ជ្រុងជ្រោយសម្រាប់ការប្រឡងលើកក្រោយ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖