Original Title: Examining the limitations and challenges of using Transformers for time series forecasting
Source: forecastingdata.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការពិនិត្យមើលដែនកំណត់ និងបញ្ហាប្រឈមនៃការប្រើប្រាស់ Transformers សម្រាប់ការព្យាករណ៍ស៊េរីពេលវេលា

ចំណងជើងដើម៖ Examining the limitations and challenges of using Transformers for time series forecasting

អ្នកនិពន្ធ៖ Stefano Grassi (Goldsmiths, University of London)

ឆ្នាំបោះពុម្ព៖ 2024

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះពិនិត្យមើលទៅលើប្រសិទ្ធភាព និងបញ្ហាប្រឈមនៃម៉ូដែល Transformers (ដែលពេញនិយមដោយសារ ChatGPT) ក្នុងការយកមកប្រើប្រាស់សម្រាប់ការការព្យាករណ៍ទិន្នន័យស៊េរីពេលវេលា (Time Series Forecasting) ធៀបនឹងម៉ូដែលស្ថិតិបុរាណ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការត្រួតពិនិត្យអក្សរសិល្ប៍យ៉ាងល្អិតល្អន់ (Literature Review) ទៅលើស្ថាបត្យកម្មរបស់ Transformer ដោយផ្តោតលើការវាយតម្លៃយន្តការយកចិត្តទុកដាក់ (Attention Mechanism) ក្នុងទិន្នន័យពេលវេលា។

ការវិភាគយន្តការនៃការយកចិត្តទុកដាក់ (Self-Attention Mechanism) និងភាពមិនចាប់អារម្មណ៍លើទីតាំង (Locality-agnostics)។
ការវាយតម្លៃលើលក្ខណៈរក្សាទុកលំដាប់ថ្នាក់ (Permutation-invariant) នៅក្នុងបរិបទនៃទិន្នន័យពេលវេលា។
ការប្រៀបធៀបភាពស្មុគស្មាញនៃការគណនា និងការប្រើប្រាស់អង្គចងចាំ (Computational Complexity) រវាងម៉ូដែលផ្សេងៗ (ឧ. LogTrans, Informer)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល Transformers មានការលំបាកក្នុងការចាប់យកលំនាំពេលវេលាក្នុងតំបន់ និងអាចបាត់បង់ព័ត៌មានតាមលំដាប់លំដោយដោយសារលក្ខណៈ Permutation-invariance នៃ Self-attention។
ភាពស្មុគស្មាញនៃការគណនារបស់ Transformers កើនឡើងជាការ៉េ O(N^2) ទៅតាមប្រវែងនៃទិន្នន័យ ដែលបណ្តាលឱ្យមានបញ្ហាកកស្ទះអង្គចងចាំ (Memory bottleneck) និងមានតម្លៃថ្លៃក្នុងការដំណើរការទិន្នន័យរយៈពេលវែង។
បើទោះបីជាមានម៉ូដែលកែលម្អជាច្រើន អ្នកស្រាវជ្រាវភាគច្រើនមិនបានធ្វើការវាយតម្លៃត្រឹមត្រូវតាមបែបបទស្តង់ដារ ដោយជារឿយៗបានមើលរំលងម៉ូដែលស្ថិតិដូចជា ARIMA ជាគោលវាស់វែង (Benchmark) ដែលធ្វើឱ្យប្រសិទ្ធភាពជាក់ស្តែងរបស់ Transformers នៅមានមន្ទិលសង្ស័យនៅឡើយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Statistical Methods (ARIMA, ETS) វិធីសាស្ត្រស្ថិតិបុរាណ (ARIMA និង ETS)	ងាយស្រួលប្រើប្រាស់ ងាយយល់ (Interpretability) និងមានភាពត្រឹមត្រូវខ្ពស់សម្រាប់ទិន្នន័យទូទៅ។ ពួកវាមានប្រសិទ្ធភាពខ្ពស់ និងមិនទាមទារធនធានកុំព្យូទ័រធំដុំនោះទេ។	អាចជួបការលំបាកក្នុងការចាប់យកលំនាំទិន្នន័យស្មុគស្មាញ និងទិន្នន័យដែលមានទំហំធំខ្លាំង (Big Data) ក្នុងរយៈពេលវែង។	ត្រូវបានអ្នកស្រាវជ្រាវ និងអ្នកអនុវត្តចាត់ទុកជាម៉ូដែលគោល (Benchmark) ដ៏រឹងមាំ និងបានឈ្នះកម្មវិធីប្រកួតប្រជែងជាច្រើន (ដូចជា M3, NN3, NN5)។
Vanilla Transformers ម៉ូដែល Transformer ដើម (Vanilla Transformer)	មានសមត្ថភាពអាចចាប់យកទំនាក់ទំនងទិន្នន័យក្នុងរយៈពេលខ្លី និងវែងបានតាមរយៈយន្តការ Self-Attention។ អាចដំណើរការទិន្នន័យដែលមានទំហំធំ និងមានប្រេកង់ខ្ពស់។	ទាមទារអង្គចងចាំទំហំធំខ្លាំងកម្រិត O(N^2) មិនសូវខ្វល់ពីទីតាំងទិន្នន័យ (Locality-agnostic) និងបាត់បង់លំដាប់លំដោយ (Permutation-invariant)។	ប្រឈមនឹងបញ្ហាកកស្ទះអង្គចងចាំ (Memory bottleneck) ដែលធ្វើឱ្យការប្រើប្រាស់ក្នុងពិភពពិតមានតម្លៃថ្លៃខ្លាំង និងពិបាកពង្រីកទំហំ។
Efficient Transformers (LogTrans, Informer, Pyraformer) ម៉ូដែល Transformer កែលម្អ (Efficient Transformers)	កាត់បន្ថយភាពស្មុគស្មាញនៃការគណនាមកត្រឹម O(N log N) ឬ O(N) តាមរយៈការប្រើប្រាស់ Sparsity bias ឬ Convolution។ ដោះស្រាយបញ្ហាកកស្ទះអង្គចងចាំបានមួយកម្រិតធំ។	នៅតែមានភាពស្មុគស្មាញខ្ពស់ជាងម៉ូដែលស្ថិតិ និងទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រច្រើន ហើយលទ្ធផលជារឿយៗមិនទាន់ត្រូវបានវាយតម្លៃតាមស្តង់ដារតឹងរ៉ឹងនៅឡើយទេ។	Convolutional self-attention អាចបង្កើនភាពត្រឹមត្រូវរហូតដល់ 9% ធៀបនឹង Transformer ដើម នៅពេលសាកល្បងលើទិន្នន័យស្មុគស្មាញ។
Linear Models (LTSF-Linear) ម៉ូដែលលីនេអ៊ែរសាមញ្ញ (LTSF-Linear)	មានភាពសាមញ្ញបំផុត ដំណើរការលឿន និងស៊ីធនធានកុំព្យូទ័រតិចតួចបំផុត បើធៀបនឹង Transformers។	អាចមានដែនកំណត់ប្រសិនបើទិន្នន័យមានទំនាក់ទំនងមិនមែនលីនេអ៊ែរ (Non-linear) ដែលស្មុគស្មាញខ្លាំងពេក។	បានបង្ហាញឱ្យឃើញថាម៉ូដែលលីនេអ៊ែរសាមញ្ញ ជារឿយៗអាចយកឈ្នះម៉ូដែល Transformers ស្មុគស្មាញៗក្នុងការការព្យាករណ៍ស៊េរីពេលវេលា។

ការចំណាយលើធនធាន (Resource Cost)៖ ម៉ូដែល Transformers ត្រូវការធនធានកុំព្យូទ័រ និងអង្គចងចាំទំហំធំខ្លាំង ដោយសារភាពស្មុគស្មាញកម្រិត O(N^2) ដែលធ្វើឱ្យពួកវាមានតម្លៃថ្លៃក្នុងការដំណើរការជាក់ស្តែងធៀបនឹងវិធីសាស្ត្រស្ថិតិ។

Hardware: ទាមទារម៉ាស៊ីនកុំព្យូទ័រដែលមានសមត្ថភាពគណនាខ្ពស់ (ជាពិសេស GPU) ដើម្បីដោះស្រាយជាមួយបញ្ហាកកស្ទះអង្គចងចាំ (Memory bottleneck) ពេលដំណើរការទិន្នន័យវែង។
Dataset: ត្រូវការទិន្នន័យប្រវត្តិសាស្ត្រទំហំធំ (Big Data) និងមានប្រេកង់ខ្ពស់ ដើម្បីបង្ហាត់ម៉ូដែលឱ្យចាប់យកលំនាំរយៈពេលវែងបានល្អ។
Expertise: ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងជ្រៅជ្រះផ្នែក Deep Learning ដើម្បីកែសម្រួលស្ថាបត្យកម្ម (ដូចជាការប្រើប្រាស់ Positional Encoding) ឱ្យសមស្របនឹងទិន្នន័យពេលវេលា។
Software & Repositories: ត្រូវការការប្រើប្រាស់កូដចំហ (Open-source codes) និងប្រភពទិន្នន័យស្តង់ដារដូចជា Monash Time Series Forecasting Archive ដើម្បីផ្ទៀងផ្ទាត់ភាពត្រឹមត្រូវ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សាស្រាវជ្រាវភាគច្រើនបានប្រើប្រាស់សំណុំទិន្នន័យពីវិស័យថាមពល ការដឹកជញ្ជូន និងការលក់ ជាជាងវិស័យធនាគារ សុខាភិបាល ឬបរិស្ថាន ហើយជារឿយៗប្រើប្រាស់ទិន្នន័យតែមួយជ្រុងតូចដើម្បីទាញសេចក្តីសន្និដ្ឋាន។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតការវាយតម្លៃលើទិន្នន័យចម្រុះនេះមានន័យថា ម៉ូដែល Transformers អាចនឹងមិនធានាបាននូវប្រសិទ្ធភាពខ្ពស់នៅពេលយកមកអនុវត្តជាក់ស្តែងក្នុងបរិបទក្នុងស្រុកឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បើទោះបីជា Transformers មានតម្លៃថ្លៃក្នុងការដំណើរការ និងមានភាពស្មុគស្មាញក៏ដោយ ក៏ម៉ូដែលកែលម្អថ្មីៗ (Efficient Transformers) អាចផ្តល់អត្ថប្រយោជន៍ដល់វិស័យមួយចំនួននៅកម្ពុជា ប្រសិនបើមានទិន្នន័យគ្រាប់គ្រាន់។

វិស័យថាមពលកកើតឡើងវិញ (ឧ. អគ្គិសនីកម្ពុជា និងស្ថានីយថាមពលព្រះអាទិត្យ): អាចប្រើប្រាស់ម៉ូដែលដូចជា SpringNet ដែលពូកែខាងចាប់យកការប្រែប្រួលតាមតំបន់ ដើម្បីទស្សន៍ទាយទិន្នផលថាមពលព្រះអាទិត្យ (Solar PV power forecasting) ឱ្យបានកាន់តែសុក្រឹត។
វិស័យធនាគារ និងហិរញ្ញវត្ថុ (ឧ. ធនាគារជាតិ ឫគ្រឹះស្ថានមីក្រូហិរញ្ញវត្ថុ): ការប្រើប្រាស់ម៉ូដែលលីនេអ៊ែរសាមញ្ញ (LTSF-Linear) ឬ ARIMA ដើម្បីទស្សន៍ទាយអតិផរណា ឬហានិភ័យឥណទាន ដែលប្រើប្រាស់ធនធានតិច និងផ្តល់ភាពងាយស្រួលក្នុងការបកស្រាយលទ្ធផលជូនអ្នកធ្វើសេចក្តីសម្រេច។
ការតាមដានបរិស្ថាន និងកសិកម្ម (ឧ. ក្រសួងធនធានទឹក និងឧតុនិយម): ការអនុវត្តម៉ូដែលព្យាករណ៍ស៊េរីពេលវេលាលើទិន្នន័យអាកាសធាតុ និងកម្រិតទឹកទន្លេមេគង្គ ទោះបីជាវិស័យនេះត្រូវបានគេមើលរំលងក្នុងការសិក្សាជាសកលក៏ដោយ វាមានសារៈសំខាន់ណាស់សម្រាប់សេដ្ឋកិច្ចកម្ពុជា។

សរុបមក អ្នកស្រាវជ្រាវ និងវិស្វករទិន្នន័យនៅកម្ពុជាគួរតែចាប់ផ្តើមជាមួយវិធីសាស្ត្រស្ថិតិ ឬម៉ូដែលសាមញ្ញជាមុនសិន មុននឹងសម្រេចចិត្តវិនិយោគធនធានដ៏ច្រើនសន្ធឹកសន្ធាប់លើម៉ូដែល Transformers សម្រាប់ការការព្យាករណ៍ទិន្នន័យពេលវេលា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ូដែលស្ថិតិបុរាណជាមុន: ចាប់ផ្តើមអនុវត្ត និងស្វែងយល់ពីម៉ូដែលស្ថិតិដូចជា ARIMA និង ETS ឱ្យបានច្បាស់លាស់ ដើម្បីប្រើប្រាស់ពួកវាជាម៉ូដែលគោល (Benchmark standard) សម្រាប់ការវាយតម្លៃ។
ប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារសម្រាប់ការស្រាវជ្រាវ: ចូលទៅកាន់វេបសាយ Monash Time Series Forecasting Archive (forecastingdata.org) ដើម្បីទាញយកសំណុំទិន្នន័យស្តង់ដារចំនួន ២៥ យកមកធ្វើការសាកល្បងនិងវាយតម្លៃម៉ូដែលរបស់អ្នក។
ទាញយកលក្ខណៈពិសេសនៃទិន្នន័យ (Feature Extraction): ប្រើប្រាស់កញ្ចប់កូដដូចជា tsfeatures និង catch22 នៅក្នុង Python ឬ R ដើម្បីវិភាគ និងស្វែងយល់ពីលក្ខណៈស៊ីជម្រៅនៃទិន្នន័យស៊េរីពេលវេលា មុននឹងបញ្ជូនទៅកាន់ម៉ូដែល។
សាកល្បងម៉ូដែល Linear មុននឹងឈានទៅ Deep Learning: អនុវត្តម៉ូដែលសាមញ្ញដូចជា LTSF-Linear ទៅលើទិន្នន័យរបស់អ្នក ដើម្បីផ្ទៀងផ្ទាត់ថាតើអ្នកពិតជាត្រូវការម៉ូដែលកម្រិតស្មុគស្មាញ (Transformers) ឬក៏អត់ ដោយចំណាយធនធានតិចតួចបំផុត។
វាយតម្លៃប្រសិទ្ធភាពម៉ូដែលឱ្យបានគ្រប់ជ្រុងជ្រោយ: ជ្រើសរើសរង្វាស់កំហុស (Error metrics) ដែលសមស្របទៅនឹងប្រភេទអាជីវកម្ម ដោយមិនត្រូវពឹងផ្អែកតែលើរង្វាស់ ad-hoc ណាមួយឡើយ ហើយត្រូវធានាថាការស្រាវជ្រាវរបស់អ្នកមានកូដដែលអាចដំណើរការឡើងវិញបាន (Reproducibility) ដោយបង្ហោះលើ GitHub។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Self-attention mechanism	យន្តការនៅក្នុងម៉ូដែល AI ដែលអនុញ្ញាតឱ្យវាវាយតម្លៃ និងផ្តល់ទម្ងន់ទៅលើផ្នែកផ្សេងៗនៃទិន្នន័យ (ឧទាហរណ៍ ពាក្យ ឬចំណុចពេលវេលា) ក្នុងពេលតែមួយ ដើម្បីយល់ពីទំនាក់ទំនងនៃបរិបទទាំងមូល។	ដូចជាពេលយើងអានសៀវភៅ ហើយខួរក្បាលយើងភ្ជាប់ទំនាក់ទំនងរវាងតួអង្គដែលទើបលេចមុខនៅទំព័រនេះ ទៅនឹងសាច់រឿងដែលបានកើតឡើងនៅទំព័រមុនៗដោយស្វ័យប្រវត្តិ។
Time series forecasting	ការប្រើប្រាស់វិធីសាស្ត្រគណិតវិទ្យា ឬបញ្ញាសិប្បនិម្មិតដើម្បីវិភាគទិន្នន័យអតីតកាលដែលបានកត់ត្រាតាមលំដាប់ពេលវេលាជាបន្តបន្ទាប់ ក្នុងគោលបំណងទស្សន៍ទាយនិន្នាការ ឬតម្លៃនាពេលអនាគត។	ដូចជាការមើលកំណត់ត្រាសីតុណ្ហភាពរៀងរាល់ថ្ងៃក្នុងខែមុន ដើម្បីទាយថាតើថ្ងៃស្អែកមេឃនឹងក្តៅ ឬត្រជាក់។
Locality-agnostics	លក្ខណៈរបស់ម៉ូដែលដែលមិនសូវចាប់អារម្មណ៍ ឬពិបាកក្នុងការចាប់យកលំនាំនៃទិន្នន័យដែលនៅក្បែរៗគ្នា ដែលធ្វើឱ្យវាខកខានក្នុងការយល់ពីបម្រែបម្រួលភ្លាមៗ ឬភាពមិនប្រក្រតីក្នុងរយៈពេលខ្លី (Local patterns/anomalies)។	ដូចជាមនុស្សដែលមើលឃើញតែរូបភាពធំពីចម្ងាយ ប៉ុន្តែមិនបានកត់សម្គាល់ពីព័ត៌មានលម្អិតតូចៗដែលនៅជាប់នឹងភ្នែករបស់គាត់។
Permutation-invariant	លក្ខណៈគណិតវិទ្យាដែលម៉ូដែលផ្តល់លទ្ធផលដូចគ្នាទោះបីជាលំដាប់លំដោយនៃទិន្នន័យបញ្ជូល (Input) ត្រូវបានផ្លាស់ប្តូរទីតាំងក៏ដោយ។ នេះជាបញ្ហាធំសម្រាប់ទិន្នន័យពេលវេលាដែលទាមទារការតម្រៀបតាមលំដាប់មុនក្រោយយ៉ាងតឹងរ៉ឹង។	ដូចជាម៉ាស៊ីនក្រឡុកទឹកក្រឡុក ដែលមិនខ្វល់ថាអ្នកដាក់ផ្លែប៉ោមមុន ឬចេកមុននោះទេ លទ្ធផលចេញមកគឺទឹកក្រឡុកដូចគ្នា (បាត់បង់អត្ថន័យនៃលំដាប់មុនក្រោយ)។
Positional Encoding	បច្ចេកទេសក្នុងការបន្ថែមវ៉ិចទ័រដែលបញ្ជាក់ពីទីតាំង ឬលំដាប់លំដោយទៅក្នុងទិន្នន័យនីមួយៗ មុននឹងបញ្ជូនទៅកាន់ម៉ូដែល Transformer ដើម្បីជួយឱ្យវាដឹងថាទិន្នន័យមួយណាមុន ទិន្នន័យមួយណាក្រោយ។	ដូចជាការបិទលេខរៀងលើសន្លឹកបៀនីមួយៗ មុននឹងបោះវាចូលទៅក្នុងប្រអប់ ដើម្បីឱ្យគេអាចរៀបចំវាត្រឡប់មកតាមលំដាប់ដើមវិញបាន។
Computational complexity	រង្វាស់នៃចំនួនធនធាន (ដូចជាពេលវេលាដំណើរការ និងទំហំអង្គចងចាំ) ដែលកុំព្យូទ័រត្រូវការដើម្បីដោះស្រាយបញ្ហាណាមួយ។ សម្រាប់ Transformer ដើម វាមានកម្រិត O(N²) ដែលកើនឡើងយ៉ាងលឿនជាការ៉េនៅពេលទិន្នន័យកាន់តែវែង។	ដូចជាការរៀបចំពិធីជប់លៀង ពេលមានភ្ញៀវ១០នាក់ ការចាប់ដៃគ្នាស្វាគមន៍មានចំនួនតិច តែបើភ្ញៀវកើនដល់១០០នាក់ ការចាប់ដៃគ្នាម្នាក់ម្តងៗនឹងកើនឡើងយ៉ាងច្រើនសន្ធឹកសន្ធាប់ដែលចំណាយពេលនិងកម្លាំងខ្លាំង។
Dynamic Time Warping (DTW)	ក្បួនអាល់ហ្គោរីតឹមសម្រាប់វាស់ស្ទង់ភាពស្រដៀងគ្នារវាងស៊េរីទិន្នន័យពេលវេលាពីរ ទោះបីជាពួកវាមានល្បឿន ឬប្រវែងខុសគ្នាក៏ដោយ (ទប់ទល់នឹងភាពរអិល ឬការខុសចង្វាក់នៃពេលវេលា)។	ដូចជាការប្រៀបធៀបបទចម្រៀងតែមួយដែលច្រៀងដោយមនុស្សពីរនាក់ ម្នាក់ច្រៀងញាប់ ម្នាក់ច្រៀងយឺត តែយើងនៅតែអាចស្តាប់ដឹងថាវាជាបទតែមួយ។
Autoregressive Integrated Moving Average (ARIMA)	ម៉ូដែលស្ថិតិបុរាណដ៏ពេញនិយមមួយដែលប្រើប្រាស់ទិន្នន័យអតីតកាល (Autoregressive) ការដកយកភាពខុសគ្នាដើម្បីរក្សាលំនឹងទិន្នន័យ (Integrated) និងកម្រិតមធ្យមនៃកំហុសប្រែប្រួល (Moving Average) ដើម្បីធ្វើការព្យាករណ៍ស៊េរីពេលវេលា។	ដូចជាការទស្សន៍ទាយពិន្ទុប្រឡងខែនេះ ដោយផ្អែកលើពិន្ទុខែមុនរបស់សិស្ស និងការវាយតម្លៃមើលថាតើគាត់មានការវិវត្តប្រែប្រួលកម្រិតណាបើធៀបនឹងមធ្យមភាគរបស់គាត់កន្លងមក។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖