Original Title: Stock Prediction via Sentimental Transfer Learning
Source: doi.org/10.1109/ACCESS.2018.2881689
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការទស្សន៍ទាយទីផ្សារភាគហ៊ុនតាមរយៈការរៀនផ្ទេរព័ត៌មានមនោសញ្ចេតនាអត្ថបទ

ចំណងជើងដើម៖ Stock Prediction via Sentimental Transfer Learning

អ្នកនិពន្ធ៖ Xiaodong Li (Hohai University, China), Haoran Xie (The Education University of Hong Kong), Raymond Y. K. Lau (City University of Hong Kong), Tak-Lam Wong (Douglas College, Canada), Fu-Lee Wang (The Open University of Hong Kong)

ឆ្នាំបោះពុម្ព៖ 2018 (IEEE Access, Volume 6)

វិស័យសិក្សា៖ Computer Science / Financial Technology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ម៉ូដែលទស្សន៍ទាយភាគហ៊ុនដោយផ្អែកលើព័ត៌មានជួបប្រទះបញ្ហាភាពមិនត្រឹមត្រូវចំពោះភាគហ៊ុនដែលមានអត្ថបទព័ត៌មានតិចតួច (News-poor stocks) ដោយសារកង្វះខាតទិន្នន័យគ្រប់គ្រាន់សម្រាប់បង្ហាត់ម៉ូដែល។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវវិធីសាស្ត្ររៀនផ្ទេរមនោសញ្ចេតនា (Sentimental Transfer Learning) ដើម្បីផ្ទេរព័ត៌មានមនោសញ្ចេតនាពីភាគហ៊ុនដែលមានព័ត៌មានច្រើន (ប្រភព) ទៅកាន់ភាគហ៊ុនដែលមានព័ត៌មានតិច (គោលដៅ) តាមរយៈយន្តការបោះឆ្នោត។

ការបំប្លែងព័ត៌មានហិរញ្ញវត្ថុទៅជាលំហលក្ខណៈមនោសញ្ចេតនា (Sentiment Feature Space) ដោយប្រើប្រាស់វចនានុក្រមមនោសញ្ចេតនាដូចជា Loughran-McDonald និង Harvard IV-4
ការបង្កើតគោលការណ៍ផ្ទេរចំនួនបី៖ ទំនាក់ទំនងតម្លៃប្រវត្តិសាស្ត្រ (Historical price correlation) ចំនួនព័ត៌មាន (Number of news) និងដំណើរការផ្ទៀងផ្ទាត់ (Validation performance)
ការអនុវត្តយន្តការបោះឆ្នោតដោយសំឡេងភាគច្រើន (Majority voting mechanism) ដើម្បីជ្រើសរើសភាគហ៊ុនប្រភពដ៏ស័ក្តិសមបំផុត
ការបង្ហាត់ម៉ូដែល Support Vector Machines (SVMs) លើទិន្នន័យរួមបញ្ចូលគ្នាដើម្បីទស្សន៍ទាយភាគហ៊ុន

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រ Sentimental Transfer Learning បានធ្វើឲ្យប្រសើរឡើងនូវភាពត្រឹមត្រូវក្នុងការទស្សន៍ទាយភាគហ៊ុនគោលដៅដែលមានព័ត៌មានតិចតួច ដោយជោគជ័យ។
ការប្រើប្រាស់យន្តការបោះឆ្នោតដោយសំឡេងភាគច្រើនដើម្បីជ្រើសរើសភាគហ៊ុនប្រភព បានផ្តល់នូវលទ្ធផលទស្សន៍ទាយដែលមានស្ថិរភាព និងប្រសើរជាងការប្រើគោលការណ៍ផ្ទេរតែមួយមុខ។
លទ្ធផលនៃការពិសោធន៍លើទិន្នន័យទីផ្សារភាគហ៊ុនហុងកុង (២០០៣-២០០៨) បានបញ្ជាក់យ៉ាងច្បាស់ថាម៉ូដែលនេះមានដំណើរការល្អជាងម៉ូដែលធម្មតាដែលមិនមានការប្រើប្រាស់បច្ចេកវិទ្យាផ្ទេរចំណេះដឹង (Baselines)។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Baseline Model (No Transfer Learning) ម៉ូដែលមូលដ្ឋាន (មិនមានការរៀនផ្ទេរចំណេះដឹង)	ងាយស្រួលក្នុងការបង្កើត និងមិនទាមទារទិន្នន័យពីភាគហ៊ុនដទៃផ្សេងទៀតឡើយ។	មានភាពត្រឹមត្រូវទាប និងអន់ខ្សោយខ្លាំងចំពោះភាគហ៊ុនដែលមានអត្ថបទព័ត៌មានហិរញ្ញវត្ថុតិចតួច។	អត្រាភាពត្រឹមត្រូវ (Accuracy) ទាបជាងវិធីសាស្ត្រស្នើឡើង ក្នុងការទស្សន៍ទាយលើទិន្នន័យផ្ទៀងផ្ទាត់ និងទិន្នន័យតេស្តឯករាជ្យ។
Sentimental Transfer Learning (Single Principle) ការរៀនផ្ទេរមនោសញ្ចេតនាដោយប្រើគោលការណ៍ទោល	ជួយធ្វើឲ្យប្រសើរឡើងនូវការទស្សន៍ទាយសម្រាប់ភាគហ៊ុនខ្វះព័ត៌មាន ដោយទាញយកចំណេះដឹងពីភាគហ៊ុនប្រភពតែមួយ។	លទ្ធផលទស្សន៍ទាយអាចមិនមានស្ថិរភាពគ្រប់កាលៈទេសៈ ព្រោះវាអាស្រ័យខ្លាំងលើគោលការណ៍ជ្រើសរើសភាគហ៊ុនប្រភព។	បង្ហាញលទ្ធផលល្អជាងម៉ូដែលមូលដ្ឋាននៅក្នុងការសាកល្បងភាគច្រើន (ឧទាហរណ៍ គោលការណ៍ផ្អែកលើចំនួនព័ត៌មានឈ្នះ 11 ក្នុងចំណោម 36 ករណី)។
Sentimental Transfer Learning with Majority Voting ការរៀនផ្ទេរមនោសញ្ចេតនាតាមរយៈយន្តការបោះឆ្នោតដោយសំឡេងភាគច្រើន	ផ្តល់នូវលទ្ធផលទស្សន៍ទាយដែលមានស្ថិរភាពបំផុត និងកាត់បន្ថយហានិភ័យនៃការជ្រើសរើសភាគហ៊ុនប្រភពខុស។	ទាមទារដំណើរការគណនាស្មុគស្មាញជាងមុន ដោយសារត្រូវវាយតម្លៃលើគោលការណ៍ទាំងបីមុននឹងសម្រេចជ្រើសរើសភាគហ៊ុនប្រភពចុងក្រោយ។	ផ្តល់លទ្ធផលល្អប្រសើរជាប់លាប់ និងឈ្នះដាច់ម៉ូដែលមូលដ្ឋាននៅក្នុងការធ្វើតេស្តឯករាជ្យទាំងអស់ ធានាបាននូវការទស្សន៍ទាយដែលអាចទុកចិត្តបានខ្ពស់។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះទាមទារធនធានកុំព្យូទ័រមធ្យមសម្រាប់ការបង្ហាត់ម៉ូដែលស្វែងរកប៉ារ៉ាម៉ែត្រ (Grid Search) និងទាមទារទិន្នន័យអត្ថបទហិរញ្ញវត្ថុក្នុងទំហំធំល្មម។

Software: ភាសាប្រូក្រាមដូចជា Python អមដោយបណ្ណាល័យ Machine Learning សម្រាប់ Support Vector Machines (SVMs) និងវចនានុក្រមមនោសញ្ចេតនា (Loughran-McDonald, Harvard IV-4, SenticNet)។
Hardware: ម៉ាស៊ីនកុំព្យូទ័រដែលមានកម្លាំង CPU ល្អ ឬ GPU កម្រិតមធ្យម ដើម្បីដំណើរការ Grid Search ក្នុងការកែសម្រួលប៉ារ៉ាម៉ែត្រម៉ូដែល (Hyperparameter Tuning) ក្នុងទំហំ 90 បន្សំ (Combinations)។
Dataset: ទិន្នន័យតម្លៃភាគហ៊ុនប្រវត្តិសាស្ត្រ (Open, High, Low, Close) និងបណ្ណសារព័ត៌មានហិរញ្ញវត្ថុដែលមានកាលបរិច្ឆេទច្បាស់លាស់សម្រាប់ផ្គូផ្គង។
Expertise: អ្នកស្រាវជ្រាវចាំបាច់ត្រូវមានចំណេះដឹងផ្នែកវិភាគទិន្នន័យអត្ថបទ (Text Mining/NLP) វិទ្យាសាស្ត្រទិន្នន័យ (Data Science) និងចំណេះដឹងមូលដ្ឋានផ្នែកហិរញ្ញវត្ថុទីផ្សារភាគហ៊ុន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យពីទីផ្សារភាគហ៊ុនហុងកុង ចន្លោះឆ្នាំ ២០០៣ ដល់ ២០០៨ ដែលជាទីផ្សារធំ មានសន្ទុះជួញដូរខ្ពស់ និងសម្បូរដោយព័ត៌មាន។ សម្រាប់ប្រទេសកម្ពុជា នេះជាភាពខុសគ្នាដ៏ធំមួយ ព្រោះទីផ្សារមូលបត្រកម្ពុជា (CSX) នៅតូច មានភាគហ៊ុនតិច និងខ្វះខាតអត្ថបទព័ត៌មានហិរញ្ញវត្ថុឌីជីថលដែលធ្វើឲ្យលំនាំនៃការចែកចាយទិន្នន័យ (Data distribution) ខុសគ្នាស្រឡះ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះជាយ៉ាងនេះក្តី គំនិតស្នូលនៃការប្រើប្រាស់ការរៀនផ្ទេរចំណេះដឹង (Transfer Learning) គឺពិតជាស័ក្តិសម និងមានប្រយោជន៍ខ្លាំងណាស់សម្រាប់ដោះស្រាយបញ្ហាកង្វះទិន្នន័យនៅកម្ពុជា។

ទីផ្សារមូលបត្រកម្ពុជា (CSX): វិធីសាស្ត្រនេះអាចយកមកអនុវត្តដោយការផ្ទេរចំណេះដឹងពីភាគហ៊ុនដែលមានព័ត៌មានច្រើនជាងគេ (ឧទាហរណ៍៖ ភាគហ៊ុនធនាគារអេស៊ីលីដា ភាគហ៊ុនរដ្ឋាករទឹក) ទៅកាន់ភាគហ៊ុនផ្សេងទៀតដែលមិនសូវមានអត្ថបទព័ត៌មានពាក់ព័ន្ធ។
ការវិភាគព័ត៌មានសេដ្ឋកិច្ចឆ្លងព្រំដែន (Cross-border Sentiment): អ្នកស្រាវជ្រាវនៅកម្ពុជាអាចប្រើប្រាស់ព័ត៌មានពីទីផ្សារមូលបត្រថៃ (SET) ឬវៀតណាម (HOSE) ដែលស្ថិតក្នុងវិស័យស្រដៀងគ្នា ដើម្បីធ្វើជាភាគហ៊ុនប្រភព (Source) សម្រាប់ទស្សន៍ទាយភាគហ៊ុននៅកម្ពុជា។
វិស័យអចលនទ្រព្យ និងកសិកម្ម: យន្តការផ្ទេរមនោសញ្ចេតនានេះក៏អាចបំប្លែងទៅប្រើដើម្បីទស្សន៍ទាយនិន្នាការតម្លៃដីធ្លី ឬផលិតផលកសិកម្ម ដោយស្រូបយកមនោសញ្ចេតនាពីព័ត៌មានអន្តរជាតិស្តីពីការវិនិយោគផ្ទាល់ពីបរទេស (FDI) មកគិតបញ្ចូល។

សរុបមក បច្ចេកទេស Transfer Learning នេះគឺជាដំណោះស្រាយដ៏មានសក្តានុពលមួយក្នុងការជម្នះឧបសគ្គ 'កង្វះទិន្នន័យ' នៅក្នុងបរិបទនៃការសិក្សាស្រាវជ្រាវទីផ្សារហិរញ្ញវត្ថុក្នុងប្រទេសកំពុងអភិវឌ្ឍន៍ដូចជាកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃមនោសញ្ចេតនាអត្ថបទ (Sentiment Analysis): ចាប់ផ្តើមរៀនអំពីការវិភាគអត្ថបទ (Text Mining) និងស្វែងយល់ពីរបៀបប្រើប្រាស់វចនានុក្រមមនោសញ្ចេតនាដោយប្រើបណ្ណាល័យ NLTK ឬ TextBlob នៅក្នុងភាសា Python សម្រាប់វាយតម្លៃពាក្យវិជ្ជមាន និងអវិជ្ជមាន។
ប្រមូល និងរៀបចំទិន្នន័យក្នុងស្រុក: ទាញយកទិន្នន័យប្រវត្តិសាស្ត្រតម្លៃភាគហ៊ុនពីគេហទំព័រ Cambodia Securities Exchange (CSX) និងសរសេរកូដប្រមូលអត្ថបទព័ត៌មានហិរញ្ញវត្ថុពីសារព័ត៌មានក្នុងស្រុកជាភាសាអង់គ្លេស (ឧ. Khmer Times ឬ Phnom Penh Post) ដោយប្រើប្រាស់ BeautifulSoup។
កសាងម៉ូដែល Support Vector Machine (SVM) មូលដ្ឋាន: អនុវត្តការបង្ហាត់ម៉ូដែលទស្សន៍ទាយដោយប្រើ scikit-learn លើទិន្នន័យភាគហ៊ុនណាមួយនៅកម្ពុជាដែលមានទិន្នន័យច្រើនជាងគេជាមុនសិន (ឧ. ទិន្នន័យ Acleda Bank) ដើម្បីធ្វើជាម៉ូដែលយោង (Baseline Model)។
អនុវត្តការរៀនផ្ទេរចំណេះដឹង (Transfer Learning): សរសេរកូដដើម្បីបញ្ចូលគ្នានូវលំហលក្ខណៈ (Feature Space) នៃភាគហ៊ុនគោលដៅ និងភាគហ៊ុនប្រភព។ សាកល្បងប្រើប្រាស់គោលការណ៍ទំនាក់ទំនងតម្លៃប្រវត្តិសាស្ត្រ (Historical Price Correlation) ដោយប្រើកូដ pandas.DataFrame.corr() ដើម្បីស្វែងរកភាគហ៊ុនដែលមានទំនាក់ទំនងនឹងគ្នា និងធ្វើការផ្ទេរទិន្នន័យ។
បង្កើតយន្តការបោះឆ្នោតដោយសំឡេងភាគច្រើន (Majority Voting): កសាងប្រព័ន្ធ Ensemble/Voting Mechanism សាមញ្ញមួយនៅក្នុង Python ដែលទាមទារឲ្យម៉ូដែលវាយតម្លៃ និងជ្រើសរើសភាគហ៊ុនប្រភពដ៏ល្អបំផុត ដោយផ្អែកលើលក្ខណៈវិនិច្ឆ័យយ៉ាងហោចណាស់ពីរ ដូចដែលបានរៀបរាប់ក្នុងឯកសារស្រាវជ្រាវ រួចវាយតម្លៃលទ្ធផលសម្រេច (Accuracy metrics)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Sentimental Transfer Learning	ជាបច្ចេកទេសបញ្ញាសិប្បនិម្មិត (AI) ដែលទាញយកចំណេះដឹងពីការវិភាគមនោសញ្ចេតនានៃអត្ថបទព័ត៌មានរបស់ភាគហ៊ុនដែលមានទិន្នន័យច្រើន (ប្រភព) យកទៅជួយទស្សន៍ទាយភាគហ៊ុនដែលខ្វះខាតទិន្នន័យព័ត៌មាន (គោលដៅ) ដើម្បីបង្កើនភាពត្រឹមត្រូវ។	ដូចជាសិស្សពូកែដែលរៀនសៀវភៅច្រើន ជួយពន្យល់មេរៀនប្រាប់ទៅសិស្សម្នាក់ទៀតដែលមិនសូវមានសៀវភៅអាន ដើម្បីឲ្យប្រឡងជាប់ដូចគ្នា។
Sentiment Feature Space	ជាលំហទិន្នន័យគណិតវិទ្យាដែលបំប្លែងពាក្យពេចន៍ក្នុងអត្ថបទព័ត៌មានរាប់ពាន់ពាក្យ ទៅជាទម្រង់វ៉ិចទ័រ (លេខ) តំណាងឲ្យអារម្មណ៍ (វិជ្ជមាន អវិជ្ជមាន ឬអព្យាក្រឹត) ដោយផ្អែកលើវចនានុក្រមមនោសញ្ចេតនា ដើម្បីឲ្យកុំព្យូទ័រអាចគណនាបាន។	ដូចជាការបកប្រែភាសាផ្សេងៗគ្នាជាច្រើន ទៅជាភាសាកាយវិការតែមួយកម្រិតដែលមនុស្សគ្រប់គ្នាអាចយល់បានភ្លាមៗថាជាអារម្មណ៍ 'សប្បាយចិត្ត' ឬ 'ខឹង'។
Instance Transfer	ជាប្រភេទមួយនៃការរៀនផ្ទេរចំណេះដឹង (Transfer Learning) ដែលក្នុងនោះទិន្នន័យជាក់លាក់ (Instances) ពីដែនប្រភពត្រូវបានជ្រើសរើសយកមកបូកបញ្ចូលជាមួយទិន្នន័យក្នុងដែនគោលដៅ ដើម្បីបង្ហាត់ម៉ូដែលតែមួយបញ្ចូលគ្នា។	ដូចជាការខ្ចីលំហាត់គណិតវិទ្យាពីសាលាផ្សេងដែលរៀនកម្រិតដូចគ្នា យកមកឲ្យសិស្សសាលាយើងធ្វើបន្ថែម ដើម្បីឲ្យកាន់តែស្ទាត់ជំនាញ។
Majority Voting Mechanism	ជាយន្តការសម្រេចចិត្តមួយដែលម៉ូដែលជ្រើសរើសយកលទ្ធផលណាដែលមានការគាំទ្រច្រើនជាងគេពីគោលការណ៍វាយតម្លៃផ្សេងៗគ្នា (ឧ. ទំនាក់ទំនងតម្លៃប្រវត្តិសាស្ត្រ, ចំនួនព័ត៌មាន, និងភាពត្រឹមត្រូវ) ដើម្បីធានាភាពជឿជាក់និងស្ថិរភាព។	ដូចជាការបោះឆ្នោតជ្រើសរើសប្រធានថ្នាក់ ដោយសិស្សម្នាក់ៗផ្តល់យោបល់ ហើយអ្នកដែលទទួលបានសំឡេងគាំទ្រច្រើនជាងគេនឹងឈ្នះ។
Support Vector Machines (SVMs)	ជាក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning Algorithm) មួយប្រភេទដែលព្យាយាមគូសបន្ទាត់ ឬបង្កើតប្លង់ព្រំដែនដ៏ល្អបំផុត ដើម្បីបែងចែកក្រុមទិន្នន័យ (ឧទាហរណ៍៖ បែងចែកព័ត៌មានដែលធ្វើឲ្យភាគហ៊ុនឡើង និងព័ត៌មានដែលធ្វើឲ្យភាគហ៊ុនចុះ)។	ដូចជាការសង់របងមួយចំកណ្តាលទីធ្លា ដើម្បីបំបែកហ្វូងចៀម និងហ្វូងពពែឲ្យនៅឆ្ងាយពីគ្នាបានល្អបំផុតដោយមិនឲ្យឡូកឡំគ្នា។
Bag-of-words approach	ជាវិធីសាស្ត្រមូលដ្ឋានក្នុងការវិភាគអត្ថបទ ដែលវាគ្រាន់តែរាប់ចំនួនដងនៃពាក្យនីមួយៗដែលលេចឡើងក្នុងអត្ថបទ ដោយមិនខ្វល់ពីវេយ្យាករណ៍ ឬលំដាប់លំដោយនៃពាក្យនោះឡើយ ដែលជារឿយៗវាខ្វះភាពសុក្រឹតនៅពេលវិភាគទិន្នន័យស្មុគស្មាញ។	ដូចជាការរុះរើឡានមួយដោយយកគ្រឿងបន្លាស់ទាំងអស់ទៅគរក្នុងគំនរតែមួយ រួចរាប់ថានៅក្នុងគំនរនោះមានកង់ប៉ុន្មាន និងកញ្ចក់ប៉ុន្មាន ដោយមិនខ្វល់ថាវារៀបចំផ្គុំគ្នាបែបណា។
Grid search	ជាបច្ចេកទេសស្វែងរកតម្លៃប៉ារ៉ាម៉ែត្រ (Hyperparameters) ដ៏ល្អបំផុតសម្រាប់ម៉ូដែល AI ដោយធ្វើការសាកល្បងរាល់ការផ្គូផ្គងតម្លៃទាំងអស់នៅក្នុងតារាងក្រឡាចត្រង្គដែលបានកំណត់ទុកជាមុនរហូតទាល់តែឃើញលទ្ធផលល្អបំផុត។	ដូចជាការសាកល្បងចាក់សោរលេខសម្ងាត់វ៉ាលី ដោយរុញលេខម្តងមួយៗតាមលំដាប់តាំងពី 000 ដល់ 999 រហូតដល់រកឃើញលេខដែលបើកចេញ។
Fat tail	ជាទម្រង់នៃការចែកចាយទិន្នន័យស្ថិតិ (Statistical Distribution) ដែលបង្ហាញថាព្រឹត្តិការណ៍កម្រ ឬព្រឹត្តិការណ៍ធំៗ (Extreme events) ឧទាហរណ៍ដូចជាការធ្លាក់ចុះគំហុកនៃទីផ្សារភាគហ៊ុន មានភាគរយនៃការកើតឡើងខ្ពស់ជាងការរំពឹងទុកបើធៀបនឹងទម្រង់កណ្តឹងធម្មតា។	ដូចជាការរំពឹងថានឹងមានមនុស្សកម្ពស់ ២ ម៉ែត្រតែម្នាក់ក្នុងចំណោមមនុស្ស១ម៉ឺននាក់ ប៉ុន្តែជាក់ស្តែងនៅក្នុងក្រុមកីឡាករបែរជាមានដល់ទៅ ១០០ នាក់ដែលកម្ពស់ ២ ម៉ែត្រ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖