Original Title: ENCODING TIME-SERIES DATA INTO IMAGES FOR FINANCIAL FORECASTING USING CONVOLUTIONAL NEURAL NETWORKS (CNN)
Source: www.asyakongresi.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបំប្លែងទិន្នន័យតាមពេលវេលាទៅជារូបភាពសម្រាប់ការទស្សន៍ទាយហិរញ្ញវត្ថុដោយប្រើបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (CNN)

ចំណងជើងដើម៖ ENCODING TIME-SERIES DATA INTO IMAGES FOR FINANCIAL FORECASTING USING CONVOLUTIONAL NEURAL NETWORKS (CNN)

អ្នកនិពន្ធ៖ Shiraz Amadu Bello (Istanbul Ticaret Universitesi), Mustafa Cem Kasapbaşı (Istanbul Ticaret Universitesi)

ឆ្នាំបោះពុម្ព៖ 2023 (8th International Asian Congress on Contemporary Sciences)

វិស័យសិក្សា៖ Computer Science / Financial Technology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃភាពស្មុគស្មាញ និងការចំណាយខ្ពស់ក្នុងការទស្សន៍ទាយទីផ្សារហិរញ្ញវត្ថុដែលមានការប្រែប្រួលខ្លាំង ដោយប្រើប្រាស់វិធីសាស្ត្រសាមញ្ញហួសសម័យ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្របំប្លែងទិន្នន័យភាគហ៊ុនទៅជារូបភាព ដើម្បីបង្វឹកបណ្តុំនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Ensemble CNNs) សម្រាប់ការទស្សន៍ទាយ។

ការបំប្លែងទិន្នន័យតាមពេលវេលាទៅជារូបភាពដោយប្រើបច្ចេកទេស Gramian Angular Fields (GAF)
ការប្រើប្រាស់គំរូ VGG-16 Pretrained CNN ដើម្បីធ្វើចំណាត់ថ្នាក់ និងទស្សន៍ទាយទិសដៅទីផ្សារ

លទ្ធផលសំខាន់ៗ (The Verdict)៖

គំរូដែលបានស្នើឡើងសម្រេចបាននូវភាពត្រឹមត្រូវរហូតដល់ ៩៧.៤% លើទិន្នន័យសាកល្បង។
ប្រព័ន្ធនេះមានសមត្ថភាពបង្កើតប្រាក់ចំណេញខ្ពស់ជាង និងកាត់បន្ថយហានិភ័យបានល្អជាងយុទ្ធសាស្ត្រជួញដូរទូទៅ (Buy & Hold)។
ការប្រើប្រាស់គំរូ VGG-16 ដែលបានបង្វឹកស្រាប់ (Pretrained) ផ្តល់លទ្ធផលល្អជាងគំរូធម្មតាដែលមានភាពត្រឹមត្រូវត្រឹមតែ ៥៣.៤%។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Ensemble CNN with VGG-16 (Proposed) ការប្រើប្រាស់បណ្តុំនៃបណ្តាញសរសៃប្រសាទ CNN ដែលបានបង្វឹកមុន (Pretrained VGG-16) លើរូបភាព GAF	មានសមត្ថភាពចាប់យកលំនាំនៃការប្រែប្រួលទិន្នន័យបានល្អ និងផ្តល់ភាពត្រឹមត្រូវខ្ពស់ក្នុងការទស្សន៍ទាយ។	ទាមទារធនធានកុំព្យូទ័រខ្លាំងសម្រាប់ដំណើរការរូបភាព និងម៉ូដែល Deep Learning។	សម្រេចបានភាពត្រឹមត្រូវ ៩៧.៤% និងប្រាក់ចំណេញខ្ពស់ជាងវិធីសាស្ត្រធម្មតា។
Standard CNN (No Pretraining) បណ្តាញសរសៃប្រសាទ CNN ធម្មតាដែលមិនមានការបង្វឹកមុន (Without Pretraining)	មិនពឹងផ្អែកលើទម្ងន់ (Weights) ពីម៉ូដែលដទៃ។	មានភាពត្រឹមត្រូវទាបខ្លាំងដោយសារខ្វះទិន្នន័យមូលដ្ឋានក្នុងការសម្គាល់លក្ខណៈរូបភាព។	សម្រេចបានភាពត្រឹមត្រូវត្រឹមតែ ៥៣.៤% ប៉ុណ្ណោះ។
Buy and Hold Strategy យុទ្ធសាស្ត្រទិញហើយរក្សាទុក (វិធីសាស្ត្រវិនិយោគបុរាណ)	ងាយស្រួលអនុវត្ត និងមិនទាមទារការគណនាស្មុគស្មាញ។	ទទួលបានប្រាក់ចំណេញទាបជាង និងមានហានិភ័យខ្ពស់នៅពេលទីផ្សារធ្លាក់ចុះ។	ប្រាក់ចំណេញទាបជាង (Lower Profit) និងការខាតបង់ខ្ពស់ជាង (Higher Loss)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះទាមទារធនធានផ្នែករឹងកម្រិតមធ្យមទៅខ្ពស់ ជាពិសេសសម្រាប់ការបង្វឹកម៉ូដែល Deep Learning។

Hardware: តម្រូវឱ្យមាន GPU (ដូចជា NVIDIA GPUs ឬប្រើប្រាស់ Google Colab) ដើម្បីពន្លឿនការបង្វឹកម៉ូដែល CNN។
Software: ប្រើប្រាស់ភាសា Python និងបណ្ណាល័យសំខាន់ៗដូចជា TensorFlow, Keras, និងឧបករណ៍បំប្លែង GAF។
Data: ទិន្នន័យភាគហ៊ុនលម្អិតតាមនាទី (Intraday Data) ដែលមានចំនួនច្រើន (ក្នុងឯកសារប្រើប្រាស់ទិន្នន័យ IBM ជាង ២លានកំណត់ត្រា)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យភាគហ៊ុនរបស់ក្រុមហ៊ុន IBM នៅសហរដ្ឋអាមេរិកចាប់ពីឆ្នាំ ១៩៩៨ ដល់ ២០២២ ដែលជាទីផ្សារដែលមានទំហំធំ និងមានសន្ទនីយភាព (Liquidity) ខ្ពស់។ នេះអាចជាចំណុចលំអៀងមួយព្រោះទីផ្សារកម្ពុជា (CSX) នៅមានទំហំតូច និងមានលក្ខណៈប្រែប្រួលខុសពីទីផ្សារអាមេរិក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់សម្រាប់អ្នកវិភាគហិរញ្ញវត្ថុ និងអ្នកអភិវឌ្ឍន៍បច្ចេកវិទ្យាហិរញ្ញវត្ថុ (FinTech) នៅកម្ពុជាក្នុងការបង្កើតឧបករណ៍ទស្សន៍ទាយថ្មីៗ។

Cambodia Securities Exchange (CSX): អាចយកទៅអនុវត្តដើម្បីវិភាគនិន្នាការភាគហ៊ុនរបស់ក្រុមហ៊ុនក្នុងស្រុកដូចជា អេស៊ីលីដា (ABC) ឬ កំពង់ផែស្វយ័តក្រុងព្រះសីហនុ (PAS) ដោយបំប្លែងទិន្នន័យជួញដូរទៅជារូបភាព GAF។
Academic Research at Universities: ជារបកគំហើញល្អសម្រាប់និស្សិតនៅវិទ្យាស្ថានបច្ចេកវិទ្យាកម្ពុជា (ITC) ឬសាកលវិទ្យាល័យភូមិន្ទភ្នំពេញ (RUPP) ក្នុងការសិក្សាអំពីការអនុវត្ត Computer Vision លើទិន្នន័យហិរញ្ញវត្ថុ។

ទោះបីជាទិន្នន័យបរទេសត្រូវបានប្រើប្រាស់ ប៉ុន្តែវិធីសាស្ត្របំប្លែង Time-Series ទៅជារូបភាពនេះអាចក្លាយជាឧបករណ៍ដ៏មានប្រសិទ្ធភាពសម្រាប់ការវិភាគទីផ្សារមូលធននៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី ១៖ សិក្សាមូលដ្ឋានគ្រឹះ Python និងការវិភាគទិន្នន័យ: និស្សិតគួរចាប់ផ្តើមរៀនភាសា Python និងបណ្ណាល័យសម្រាប់វិភាគទិន្នន័យដូចជា Pandas និង NumPy ដើម្បីអាចគ្រប់គ្រងទិន្នន័យភាគហ៊ុន (Time-series data)។
ជំហានទី ២៖ ស្វែងយល់ពីបច្ចេកទេស GAF: សិក្សាអំពីរបៀបបំប្លែងទិន្នន័យលេខទៅជារូបភាពដោយប្រើវិធីសាស្ត្រ Gramian Angular Fields ដោយអាចប្រើប្រាស់បណ្ណាល័យ pyts (Python Time Series)។
ជំហានទី ៣៖ ការបង្កើត និងបង្វឹកម៉ូដែល CNN: រៀនបង្កើតម៉ូដែល Convolutional Neural Networks ដោយប្រើ TensorFlow/Keras និងសាកល្បងប្រើប្រាស់ម៉ូដែលដែលបានបង្វឹកស្រាប់ដូចជា VGG-16 (Transfer Learning)។
ជំហានទី ៤៖ ការពិសោធន៍ជាមួយទិន្នន័យជាក់ស្តែង: ទាញយកទិន្នន័យប្រវត្តិភាគហ៊ុនពី CSX ឬ Yahoo Finance រួចអនុវត្តដំណើរការបំប្លែងទៅជារូបភាព និងធ្វើការទស្សន៍ទាយដើម្បីផ្ទៀងផ្ទាត់លទ្ធផល។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Gramian Angular Fields (GAF)	ជាបច្ចេកទេសគណិតវិទ្យាថ្មីមួយដែលត្រូវបានប្រើដើម្បីបំប្លែងទិន្នន័យជាស៊េរីពេលវេលា (Time Series) ឱ្យទៅជារូបភាព។ វិធីនេះអនុញ្ញាតឱ្យកុំព្យូទ័រអាចមើលឃើញទំនាក់ទំនងរវាងទិន្នន័យនៅចំណុចពេលវេលាផ្សេងៗគ្នាក្នុងទម្រង់ជាលំនាំរូបភាព។	ប្រៀបដូចជាការបំប្លែងសំឡេងតន្ត្រី (ទិន្នន័យមើលមិនឃើញ) ឱ្យទៅជាតារាងភ្លេង (រូបភាព) ដើម្បីឱ្យងាយស្រួលអាននិងវិភាគ។
Convolutional Neural Networks (CNN)	ជាប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Deep Learning) ដែលមានឯកទេសខ្ពស់ក្នុងការវិភាគរូបភាព។ វាដំណើរការដោយការស្កេនរកលក្ខណៈពិសេស (Features) ដូចជា បន្ទាត់ រាង និងពណ៌ ដើម្បីធ្វើការបែងចែកប្រភេទ។	ដូចទៅនឹងភ្នែករបស់មនុស្សដែលមើលរូបថត ហើយខួរក្បាលធ្វើការវិភាគថាវាជារូបឆ្មា ឬរូបឆ្កែ។
Ensemble CNNs	ជាយុទ្ធសាស្ត្រនៃការប្រើប្រាស់ម៉ូដែល CNN ច្រើនបញ្ចូលគ្នាដើម្បីធ្វើការទស្សន៍ទាយតែមួយ។ លទ្ធផលចុងក្រោយត្រូវបានសម្រេចដោយការបោះឆ្នោត (Voting) ពីម៉ូដែលនីមួយៗ ដើម្បីកាត់បន្ថយកំហុស និងបង្កើនភាពត្រឹមត្រូវ។	ប្រៀបដូចជាការសួរយោបល់ពីគណៈកម្មការជំនាញ ១០នាក់ ដើម្បីសម្រេចចិត្តលើរឿងអ្វីមួយ ជាជាងជឿលើមនុស្សតែម្នាក់។
Time-Series Data	ជាបណ្តុំទិន្នន័យដែលត្រូវបានកត់ត្រាតាមលំដាប់លំដោយនៃពេលវេលាជាក់លាក់ (ឧទាហរណ៍៖ តម្លៃភាគហ៊ុនរៀងរាល់ ១ នាទីម្តង)។ ការវិភាគទិន្នន័យនេះតម្រូវឱ្យគិតគូរពីនិន្នាការកាលពីអតីតកាល។	ដូចជាក្រាហ្វដែលបង្ហាញពីចង្វាក់បេះដូងរបស់អ្នកជំងឺដែលលោតឡើងចុះជារៀងរាល់វិនាទី។
Polar Coordinates	ជាប្រព័ន្ធកូអរដោនេដែលកំណត់ទីតាំងនៃចំណុចមួយដោយប្រើចម្ងាយពីចំណុចកណ្តាល (Radius) និងមុំ (Angle)។ នៅក្នុងការសិក្សានេះ វាត្រូវបានប្រើដើម្បីបំប្លែងតម្លៃភាគហ៊ុនមុននឹងបង្កើតជារូបភាព GAF។	ដូចជាការប្រាប់ផ្លូវដោយប្រើទិសដៅនាឡិកា (ម៉ោង ៣) និងចម្ងាយ (៥ ម៉ែត្រ) ជំនួសឱ្យការប្រើទិសឆ្វេងស្តាំ។
VGG-16	ជាឈ្មោះនៃម៉ូដែល CNN ដ៏ល្បីមួយដែលត្រូវបានបង្វឹកជាមុន (Pre-trained) លើរូបភាពរាប់លាន។ អ្នកស្រាវជ្រាវប្រើវាជាមូលដ្ឋានគ្រឹះដើម្បីកុំឱ្យបង្វឹកម៉ូដែលថ្មីពីចំណុចសូន្យ (Transfer Learning)។	ប្រៀបដូចជាសិស្សដែលចេះលេងព្យាណូស្ទាត់ហើយ (VGG-16) ទៅរៀនលេងអورហ្គ (ការងារថ្មី) គឺរៀនបានលឿនជាងអ្នកមិនចេះសោះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖