Original Title: Sequential Reinforcement Learning on Economic Discourse for Real-Time
Source: github.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការពង្រឹងការរៀនតាមលំដាប់លំដោយលើសុន្ទរកថាសេដ្ឋកិច្ចសម្រាប់ពេលវេលាជាក់ស្តែង

ចំណងជើងដើម៖ Sequential Reinforcement Learning on Economic Discourse for Real-Time

អ្នកនិពន្ធ៖ Sarang Goel (Stanford University), Chirag Maheshwari (Stanford University), Ekansh Mittal (Stanford University)

ឆ្នាំបោះពុម្ព៖ 2025 Stanford CS224R Final Report

វិស័យសិក្សា៖ Artificial Intelligence / Quantitative Finance

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាដែលក្បួនដោះស្រាយការជួញដូរភាគច្រើនពឹងផ្អែកតែលើទិន្នន័យលេខរៀងតាមពេលវេលា (Time-series data) ដោយមិនអើពើនឹងព័ត៌មានពីការសន្ទនាផ្ទាល់ (Real-time verbal communications) ដូចជាការហៅទូរស័ព្ទស្តីពីប្រាក់ចំណូល ដែលជះឥទ្ធិពលខ្លាំងដល់ទីផ្សារ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតភ្នាក់ងារពង្រឹងការរៀនសូត្រ (Reinforcement Learning Agent) ដែលដំណើរការទិន្នន័យអត្ថបទនិងទិន្នន័យទីផ្សារបូកបញ្ចូលគ្នាដើម្បីធ្វើការសម្រេចចិត្តទិញ លក់ ឬរក្សាទុក។

ការបង្កប់អត្ថបទដោយប្រើម៉ូដែល Transformer (Transformer-based text embedding ដូចជា BERT, FinBERT, Longformer, LongT5)
ការរួមបញ្ចូលទិន្នន័យទីផ្សារតាមវិនាទី (Second-by-second market data integration)
ការប្រើប្រាស់ក្បួនដោះស្រាយ PPO ជាមួយបណ្តាញគោលនយោបាយផ្សេងៗ (Proximal Policy Optimization with MLP, GRU, and Transformer policies)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលមូលដ្ឋាន FinBERT (Static FinBERT baseline) ដំណើរការល្អជាងភ្នាក់ងារ RL ទាំងអស់ទាក់ទងនឹងផលចំណេញជាមធ្យម (០,២៧%) និងកម្រិតហានិភ័យទាបជាង។
ភ្នាក់ងារ RL ដែលប្រើប្រាស់ Longformer និង LongT5 អាចទទួលបានផលចំណេញអតិបរមាខ្ពស់ (រហូតដល់ ៤,៦២%) ប៉ុន្តែជួបប្រទះនូវភាពប្រែប្រួលខ្ពស់ និងអស្ថិរភាព (High volatility and instability)។
ម៉ូដែលគោលនយោបាយ GRU (GRU policies) អាចរៀនពីទំនាក់ទំនងពេលវេលាបាន តែមិនមានស្ថិរភាព ចំណែកឯម៉ូដែល MLP មានស្ថិរភាពតែមិនសូវឆ្លើយតបរហ័ស ហើយម៉ូដែល Transformer ដែលមាន Causal Attention មិនអាចហ្វឹកហាត់បានប្រកបដោយប្រសិទ្ធភាពឡើយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Static FinBERT Classifier (Baseline) ការចាត់ថ្នាក់មនោសញ្ចេតនាអត្ថបទ FinBERT ថេរ (ម៉ូដែលមូលដ្ឋាន)	មានស្ថិរភាពខ្ពស់ក្នុងការសម្រេចចិត្ត និងផ្តល់ប្រាក់ចំណេញជាមធ្យម ព្រមទាំងកម្រិតហានិភ័យ (Sharpe Ratio) ល្អជាងគេ។ ការពារមិនឱ្យមានការខាតបង់ធំដុំ។	មិនអាចបត់បែន ឬសម្របខ្លួនទៅតាមបរិបទនៃសាច់រឿងដែលកំពុងវិវត្ត (Evolving context) ធ្វើឱ្យខកខានឱកាសចំណេញពីព្រឹត្តិការណ៍ធំៗ។	អត្រាចំណេញជាមធ្យម (Average Return): ០%, អនុបាត Sharpe (Sharpe Ratio): ០.៥៨ និងការធ្លាក់ចុះជាមធ្យម: -០.៦១%។
RL with MLP Policy ភ្នាក់ងារ RL ប្រើប្រាស់បណ្តាញ MLP	មានភាពស្ងប់ស្ងាត់និងមានស្ថិរភាពជាងគេក្នុងចំណោមភ្នាក់ងារ RL ទាំងអស់ ដោយចៀសវាងការខាតបង់ធ្ងន់ធ្ងរ។	មិនមានសមត្ថភាពចងចាំទិន្នន័យពីមុន (No explicit temporal modeling) ដែលធ្វើឱ្យប្រតិកម្មយឺត និងរំលងឱកាសទិញលក់ល្អៗ។	អត្រាចំណេញជាមធ្យម: -០.០១%, ការធ្លាក់ចុះជាមធ្យម (Drawdown): -០.៥៤%។
RL with GRU Policy ភ្នាក់ងារ RL ប្រើប្រាស់បណ្តាញ GRU	អាចទាញយកប្រយោជន៍ពីព្រឹត្តិការណ៍ទីផ្សារធំៗបានល្អ តាមរយៈការចងចាំទំនាក់ទំនងពេលវេលា (Temporal dependencies) នៃអត្ថបទ។	មានហានិភ័យនិងភាពប្រែប្រួល (Volatility) ខ្ពស់ ដោយជារឿយៗមានប្រតិកម្មជ្រុលចំពោះអត្ថបទដែលស្រពិចស្រពិល។	អត្រាចំណេញអតិបរមា: ៤.៦០%, ប៉ុន្តែអត្រាចំណេញជាមធ្យមគឺ -០.៨៩% និងការធ្លាក់ចុះជាមធ្យម -៣.២៩%។
RL with Causal Attention Transformer Policy ភ្នាក់ងារ RL ប្រើប្រាស់បណ្តាញ Transformer	តាមទ្រឹស្តី វាមានសក្តានុពលខ្ពស់ក្នុងការស្វែងយល់ពីទំនាក់ទំនងនៃប្រយោគវែងៗ (Long-range dependencies) នៅក្នុងរបាយការណ៍សេដ្ឋកិច្ច។	ជួបប្រទះបញ្ហាអស្ថិរភាពក្នុងការហ្វឹកហាត់យ៉ាងខ្លាំងនៅក្នុងបរិស្ថានទីផ្សារដែលមានទិន្នន័យរំខាន (Noisy) ដែលធ្វើឱ្យវាមិនអាចរៀនយុទ្ធសាស្រ្តជួញដូរបាន។	មិនមានសកម្មភាពជួញដូរត្រឹមត្រូវ (រាល់សូចនាករទាំងអស់ស្មើ ០)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រនិងទិន្នន័យកម្រិតខ្ពស់ ជាពិសេសសម្រាប់ការដំណើរការម៉ូដែលភាសាខ្នាតធំ និងការទាញយកទិន្នន័យទីផ្សារពេលវេលាជាក់ស្តែង។

Dataset: ទិន្នន័យទីផ្សារកម្រិតវិនាទី (High-frequency stock data) ពី Databento API និងសំឡេងហៅទូរស័ព្ទស្តីពីប្រាក់ចំណូល (Earnings calls transcripts) របស់ក្រុមហ៊ុន S&P 500។
Software: ប្រព័ន្ធបំប្លែងសំឡេង OpenAI Whisper, បណ្ណាល័យ AI សម្រាប់ហ្វឹកហាត់ក្បួនដោះស្រាយ PPO (Proximal Policy Optimization) និងបរិស្ថានស្រូបយកទិន្នន័យនិម្មិតតាមស្តង់ដារ OpenAI Gym។
Hardware: ម៉ាស៊ីនកុំព្យូទ័រដែលមានអង្គគណនា (GPU) កម្រិតខ្ពស់ដើម្បីដំណើរការនិងហ្វឹកហាត់ម៉ូដែល Transformer-based embeddings ដូចជា Longformer និង LongT5។
Expertise: ជំនាញស៊ីជម្រៅលើដំណើរការភាសាធម្មជាតិ (NLP) ពាណិជ្ជកម្មតាមក្បួនចំណាំង (Algorithmic Trading) ការបង្កើត Reward Function និងការពង្រឹងការរៀន (Reinforcement Learning)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានអនុវត្តទាំងស្រុងទៅលើទិន្នន័យរបស់ក្រុមហ៊ុនបច្ចេកវិទ្យាធំៗចំនួន ២០ នៅក្នុងសន្ទស្សន៍ S&P 500 របស់សហរដ្ឋអាមេរិក។ ទិន្នន័យនេះឆ្លុះបញ្ចាំងពីបរិបទទីផ្សារដែលមានភាពចាស់ទុំ សកម្មភាពខ្ពស់ និងរងឥទ្ធិពលខ្លាំងពីព័ត៌មានភាសាអង់គ្លេស។ សម្រាប់កម្ពុជា លទ្ធផលនេះមិនអាចយកមកអនុវត្តដោយផ្ទាល់បានភ្លាមៗទេ ដោយសារទីផ្សារមូលបត្រកម្ពុជានៅតូច ប៉ុន្តែវិធីសាស្ត្រនៃការចាប់យកព័ត៌មានពីអត្ថបទមកវិភាគគឺមានសារៈសំខាន់សម្រាប់ការស្រាវជ្រាវអនាគត។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាទីផ្សារហិរញ្ញវត្ថុកម្ពុជាមិនទាន់ស្មុគស្មាញដល់កម្រិត High-Frequency Trading ក៏ដោយ ក៏បច្ចេកវិទ្យាវិភាគអត្ថបទនេះអាចផ្តល់អត្ថប្រយោជន៍ដល់វិស័យមួយចំនួននៅកម្ពុជា។

ក្រុមហ៊ុនមូលបត្រនៅកម្ពុជា (Securities Firms in Cambodia): អាចប្រើប្រាស់ NLP ដើម្បីវិភាគរបាយការណ៍ហិរញ្ញវត្ថុ និងសេចក្តីប្រកាសព័ត៌មាន ដើម្បីគាំទ្រដល់ការវាយតម្លៃភាគហ៊ុននៅក្នុងទីផ្សារមូលបត្រកម្ពុជា (CSX) ជំនួសឱ្យការអានដោយមនុស្សផ្ទាល់។
ធនាគារជាតិ និងស្ថាប័នហិរញ្ញវត្ថុ (NBC & Financial Institutions): អាចប្រើប្រាស់បច្ចេកទេស Sentiment Analysis ដើម្បីតាមដាននិន្នាការនៃព័ត៌មានសេដ្ឋកិច្ចជាតិ អតិផរណា និងទីផ្សារអចលនទ្រព្យ ដើម្បីវាយតម្លៃហានិភ័យនៃសេដ្ឋកិច្ចជារួម។
អ្នកបង្កើតគោលនយោបាយសេដ្ឋកិច្ច (Economic Policymakers): អាចប្រើប្រាស់បច្ចេកវិទ្យាបំប្លែងសំឡេងទៅជាអត្ថបទក្នុងការប្រជុំ ឬសន្និសីទសារព័ត៌មានសំខាន់ៗ រួចទាញយកចំណុចសន្និដ្ឋានស្វ័យប្រវត្តិដើម្បីវិភាគពីទិសដៅគោលនយោបាយ។

ជារួម ការស្រាវជ្រាវនេះគឺជាមូលដ្ឋានគ្រឹះដ៏ល្អសម្រាប់ស្ថាប័នហិរញ្ញវត្ថុកម្ពុជាក្នុងការចាប់ផ្តើមធ្វើសមាហរណកម្មបច្ចេកវិទ្យា AI (NLP) ទៅក្នុងការវិភាគព័ត៌មានសេដ្ឋកិច្ច ជាជាងការពឹងផ្អែកតែលើទិន្នន័យតួលេខសាមញ្ញ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ូដែលភាសាសម្រាប់ហិរញ្ញវត្ថុ: និស្សិតគួររៀនប្រើប្រាស់ម៉ូដែល FinBERT តាមរយៈបណ្ណាល័យ Hugging Face ដើម្បីសាកល្បងធ្វើការវិភាគមនោសញ្ចេតនា (Sentiment Analysis) លើចំណងជើងព័ត៌មានហិរញ្ញវត្ថុភាសាអង់គ្លេស។
កសាងប្រព័ន្ធបរិស្ថានជួញដូរនិម្មិត (Trading Environment): រៀបចំបរិស្ថានសាកល្បងដោយប្រើប្រាស់ OpenAI Gym ដែលអាចក្លែងធ្វើការទិញលក់ភាគហ៊ុនដោយផ្អែកលើទិន្នន័យប្រវត្តិសាស្រ្ត (Historical Data) សាមញ្ញៗ មុននឹងឈានដល់ទិន្នន័យពេលវេលាជាក់ស្តែង។
សាកល្បងហ្វឹកហាត់ភ្នាក់ងារ RL ដំណាក់កាលដំបូង: អនុវត្តក្បួនដោះស្រាយ PPO (Proximal Policy Optimization) ជាមួយនឹងបណ្តាញសរសៃប្រសាទ MLP ជាមូលដ្ឋាន ដោយប្រើប្រាស់បណ្ណាល័យ Stable Baselines3 ដើម្បីស្វែងយល់ពីរបៀបដែលភ្នាក់ងារធ្វើសកម្មភាពទិញ/លក់។
កែលម្អមុខងាររង្វាន់ (Reward Shaping): សិក្សាពីវិធីសាស្រ្តក្នុងការកែសម្រួលប្រព័ន្ធផ្តល់រង្វាន់ (Reward Function) ដល់ភ្នាក់ងារ RL ឧទាហរណ៍ដូចជាការដាក់ពិន័យ (Penalties) លើការទិញលក់ញឹកញាប់ពេក ដើម្បីកាត់បន្ថយហានិភ័យនៅក្នុងការជួញដូរ។
អភិវឌ្ឍប្រព័ន្ធស្រូបទិន្នន័យសំឡេងរួមបញ្ចូលគ្នា: សាកល្បងប្រើប្រាស់ OpenAI Whisper ដើម្បីបំប្លែងសំឡេងសន្និសីទទៅជាអត្ថបទ ហើយទាញយក Embedding vectors យកទៅបញ្ចូលជាមួយទិន្នន័យទីផ្សារដើម្បីហ្វឹកហាត់ម៉ូដែលជាប្រព័ន្ធរួម (End-to-end pipeline)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Reinforcement Learning (RL)	ជាវិធីសាស្ត្របង្រៀនបញ្ញាសិប្បនិម្មិត (AI) ឱ្យចេះធ្វើការសម្រេចចិត្តជាបន្តបន្ទាប់ ដោយផ្តល់រង្វាន់នៅពេលវាធ្វើត្រូវ និងពិន័យនៅពេលវាធ្វើខុស ដើម្បីឱ្យវារកឃើញយុទ្ធសាស្ត្រទិញលក់ភាគហ៊ុនដ៏ល្អបំផុតដោយខ្លួនឯង។	ដូចជាការបង្ហាត់សត្វឆ្កែឱ្យចេះស្តាប់បង្គាប់ ដោយឱ្យចំណីពេលវាធ្វើតាមបញ្ជា និងមិនឱ្យចំណីពេលវាធ្វើខុស។
Transformer embeddings	ជាដំណើរការបំប្លែងប្រយោគ ឬអត្ថបទពីសេចក្តីប្រកាសសេដ្ឋកិច្ច ទៅជាទិន្នន័យលេខ (Vectors) ដោយរក្សាទុកនូវអត្ថន័យជ្រាលជ្រៅនិងបរិបទនៃពាក្យនីមួយៗ ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ពីអារម្មណ៍និងអត្ថន័យលាក់កំបាំងក្នុងការសន្ទនា។	ដូចជាការបកប្រែអារម្មណ៍ និងអត្ថន័យនៃពាក្យសម្តីរបស់មនុស្ស ទៅជាតួលេខដែលម៉ាស៊ីនអាចអាន និងយល់បានភ្លាមៗ។
Proximal Policy Optimization (PPO)	ជាក្បួនដោះស្រាយ (Algorithm) មួយជួយគ្រប់គ្រងរបៀបដែល AI ផ្លាស់ប្តូរយុទ្ធសាស្ត្ររបស់វា ដោយមិនអនុញ្ញាតឱ្យមានការផ្លាស់ប្តូរធំដុំពេកក្នុងពេលតែមួយ ដើម្បីធានាថាការរៀនសូត្ររបស់វាមានស្ថិរភាព និងមិនងាយភ្លេចនូវអ្វីដែលធ្លាប់រៀនរួច។	ដូចជាការរៀនជិះកង់ដោយកែសម្រួលជំហរខ្លួនបន្តិចម្តងៗ ជាជាងការកាច់ចង្កូតខ្លាំងៗភ្លាមៗដែលអាចធ្វើឱ្យដួល។
Sharpe Ratio	ជាសូចនាករហិរញ្ញវត្ថុសម្រាប់វាស់ស្ទង់ថាតើប្រាក់ចំណេញដែលទទួលបានពីការជួញដូរ គឺពិតជាស័ក្តិសមនឹងទំហំហានិភ័យដែលបានប្រឈមដែរឬទេ (ចំណេញច្រើនតែប្រថុយខ្លាំង គឺមានតម្លៃ Sharpe Ratio ទាប)។	ដូចជាការប្រៀបធៀបអ្នកបើកបរពីរនាក់ដែលទៅដល់គោលដៅលឿនដូចគ្នា តែម្នាក់បើកបរដោយសុវត្ថិភាព ចំណែកម្នាក់ទៀតបើកបរដោយប្រថុយប្រថានបំពានភ្លើងស្តុប។
Maximum Drawdown	ជារង្វាស់នៃការខាតបង់ធំបំផុត ដោយគិតចាប់ពីចំណុចដែលផលប័ត្រ (Portfolio) ឬដើមទុនមានតម្លៃខ្ពស់បំផុត ធ្លាក់ចុះមកដល់ចំណុចទាបបំផុត មុនពេលវាចាប់ផ្តើមងើបឡើងវិញ។ គិតជាភាគរយដើម្បីវាស់ស្ទង់ហានិភ័យធ្លាក់ចុះ។	ដូចជាការវាស់ជម្រៅនៃជ្រលងភ្នំដ៏ជ្រៅបំផុត ដែលអ្នកបានធ្លាក់ចុះ អំឡុងពេលនៃការធ្វើដំណើរឡើងភ្នំ មុននឹងអាចបន្តដំណើរឡើងទៅលើវិញបាន។
Gated Recurrent Unit (GRU)	ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដែលមានសមត្ថភាព "ចងចាំ" ទិន្នន័យចាស់ៗតាមលំដាប់លំដោយពេលវេលា ដោយវាចេះសម្រេចចិត្តថាតើព័ត៌មានពីមុនណាមួយគួររក្សាទុក ហើយព័ត៌មានណាមួយគួរលុបចោលដើម្បីទស្សន៍ទាយនិន្នាការទីផ្សារ។	ដូចជាមនុស្សដែលកំពុងអានសៀវភៅប្រលោមលោក ហើយចេះចងចាំតែតួអង្គនិងព្រឹត្តិការណ៍សំខាន់ៗពីជំពូកមុនៗ ដើម្បីយល់សាច់រឿងនៅជំពូកបន្ទាប់។
Causal Attention	ជាយន្តការនៅក្នុងម៉ូដែល AI ដែលបង្ខំឱ្យវាវិភាគទិន្នន័យអត្ថបទដោយមើលតែព័ត៌មានក្នុងអតីតកាល និងបច្ចុប្បន្នកាលប៉ុណ្ណោះ ដោយហាមឃាត់មិនឱ្យវាលួចមើលទិន្នន័យនាពេលអនាគត ដើម្បីធានាថាការពិសោធន៍គឺដូចទៅនឹងការជួញដូរក្នុងពិភពពិត។	ដូចជាការបិទភ្នែកម្ខាងមិនឱ្យមើលចម្លើយនៃវិញ្ញាសាប្រឡង ដើម្បីធានាថាអ្នកកំពុងដោះស្រាយលំហាត់ដោយពឹងផ្អែកលើចំណេះដឹងដែលមានស្រាប់ប៉ុណ្ណោះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖