Original Title: Examining the limitations and challenges of using Transformers for time series forecasting
Source: forecastingdata.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការពិនិត្យមើលដែនកំណត់ និងបញ្ហាប្រឈមនៃការប្រើប្រាស់ Transformers សម្រាប់ការព្យាករណ៍ស៊េរីពេលវេលា

ចំណងជើងដើម៖ Examining the limitations and challenges of using Transformers for time series forecasting

អ្នកនិពន្ធ៖ Stefano Grassi (Goldsmiths, University of London)

ឆ្នាំបោះពុម្ព៖ 2024

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះពិនិត្យមើលទៅលើប្រសិទ្ធភាព និងបញ្ហាប្រឈមនៃម៉ូដែល Transformers (ដែលពេញនិយមដោយសារ ChatGPT) ក្នុងការយកមកប្រើប្រាស់សម្រាប់ការការព្យាករណ៍ទិន្នន័យស៊េរីពេលវេលា (Time Series Forecasting) ធៀបនឹងម៉ូដែលស្ថិតិបុរាណ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការត្រួតពិនិត្យអក្សរសិល្ប៍យ៉ាងល្អិតល្អន់ (Literature Review) ទៅលើស្ថាបត្យកម្មរបស់ Transformer ដោយផ្តោតលើការវាយតម្លៃយន្តការយកចិត្តទុកដាក់ (Attention Mechanism) ក្នុងទិន្នន័យពេលវេលា។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Statistical Methods (ARIMA, ETS)
វិធីសាស្ត្រស្ថិតិបុរាណ (ARIMA និង ETS)
ងាយស្រួលប្រើប្រាស់ ងាយយល់ (Interpretability) និងមានភាពត្រឹមត្រូវខ្ពស់សម្រាប់ទិន្នន័យទូទៅ។ ពួកវាមានប្រសិទ្ធភាពខ្ពស់ និងមិនទាមទារធនធានកុំព្យូទ័រធំដុំនោះទេ។ អាចជួបការលំបាកក្នុងការចាប់យកលំនាំទិន្នន័យស្មុគស្មាញ និងទិន្នន័យដែលមានទំហំធំខ្លាំង (Big Data) ក្នុងរយៈពេលវែង។ ត្រូវបានអ្នកស្រាវជ្រាវ និងអ្នកអនុវត្តចាត់ទុកជាម៉ូដែលគោល (Benchmark) ដ៏រឹងមាំ និងបានឈ្នះកម្មវិធីប្រកួតប្រជែងជាច្រើន (ដូចជា M3, NN3, NN5)។
Vanilla Transformers
ម៉ូដែល Transformer ដើម (Vanilla Transformer)
មានសមត្ថភាពអាចចាប់យកទំនាក់ទំនងទិន្នន័យក្នុងរយៈពេលខ្លី និងវែងបានតាមរយៈយន្តការ Self-Attention។ អាចដំណើរការទិន្នន័យដែលមានទំហំធំ និងមានប្រេកង់ខ្ពស់។ ទាមទារអង្គចងចាំទំហំធំខ្លាំងកម្រិត O(N^2) មិនសូវខ្វល់ពីទីតាំងទិន្នន័យ (Locality-agnostic) និងបាត់បង់លំដាប់លំដោយ (Permutation-invariant)។ ប្រឈមនឹងបញ្ហាកកស្ទះអង្គចងចាំ (Memory bottleneck) ដែលធ្វើឱ្យការប្រើប្រាស់ក្នុងពិភពពិតមានតម្លៃថ្លៃខ្លាំង និងពិបាកពង្រីកទំហំ។
Efficient Transformers (LogTrans, Informer, Pyraformer)
ម៉ូដែល Transformer កែលម្អ (Efficient Transformers)
កាត់បន្ថយភាពស្មុគស្មាញនៃការគណនាមកត្រឹម O(N log N) ឬ O(N) តាមរយៈការប្រើប្រាស់ Sparsity bias ឬ Convolution។ ដោះស្រាយបញ្ហាកកស្ទះអង្គចងចាំបានមួយកម្រិតធំ។ នៅតែមានភាពស្មុគស្មាញខ្ពស់ជាងម៉ូដែលស្ថិតិ និងទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រច្រើន ហើយលទ្ធផលជារឿយៗមិនទាន់ត្រូវបានវាយតម្លៃតាមស្តង់ដារតឹងរ៉ឹងនៅឡើយទេ។ Convolutional self-attention អាចបង្កើនភាពត្រឹមត្រូវរហូតដល់ 9% ធៀបនឹង Transformer ដើម នៅពេលសាកល្បងលើទិន្នន័យស្មុគស្មាញ។
Linear Models (LTSF-Linear)
ម៉ូដែលលីនេអ៊ែរសាមញ្ញ (LTSF-Linear)
មានភាពសាមញ្ញបំផុត ដំណើរការលឿន និងស៊ីធនធានកុំព្យូទ័រតិចតួចបំផុត បើធៀបនឹង Transformers។ អាចមានដែនកំណត់ប្រសិនបើទិន្នន័យមានទំនាក់ទំនងមិនមែនលីនេអ៊ែរ (Non-linear) ដែលស្មុគស្មាញខ្លាំងពេក។ បានបង្ហាញឱ្យឃើញថាម៉ូដែលលីនេអ៊ែរសាមញ្ញ ជារឿយៗអាចយកឈ្នះម៉ូដែល Transformers ស្មុគស្មាញៗក្នុងការការព្យាករណ៍ស៊េរីពេលវេលា។

ការចំណាយលើធនធាន (Resource Cost)៖ ម៉ូដែល Transformers ត្រូវការធនធានកុំព្យូទ័រ និងអង្គចងចាំទំហំធំខ្លាំង ដោយសារភាពស្មុគស្មាញកម្រិត O(N^2) ដែលធ្វើឱ្យពួកវាមានតម្លៃថ្លៃក្នុងការដំណើរការជាក់ស្តែងធៀបនឹងវិធីសាស្ត្រស្ថិតិ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សាស្រាវជ្រាវភាគច្រើនបានប្រើប្រាស់សំណុំទិន្នន័យពីវិស័យថាមពល ការដឹកជញ្ជូន និងការលក់ ជាជាងវិស័យធនាគារ សុខាភិបាល ឬបរិស្ថាន ហើយជារឿយៗប្រើប្រាស់ទិន្នន័យតែមួយជ្រុងតូចដើម្បីទាញសេចក្តីសន្និដ្ឋាន។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតការវាយតម្លៃលើទិន្នន័យចម្រុះនេះមានន័យថា ម៉ូដែល Transformers អាចនឹងមិនធានាបាននូវប្រសិទ្ធភាពខ្ពស់នៅពេលយកមកអនុវត្តជាក់ស្តែងក្នុងបរិបទក្នុងស្រុកឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បើទោះបីជា Transformers មានតម្លៃថ្លៃក្នុងការដំណើរការ និងមានភាពស្មុគស្មាញក៏ដោយ ក៏ម៉ូដែលកែលម្អថ្មីៗ (Efficient Transformers) អាចផ្តល់អត្ថប្រយោជន៍ដល់វិស័យមួយចំនួននៅកម្ពុជា ប្រសិនបើមានទិន្នន័យគ្រាប់គ្រាន់។

សរុបមក អ្នកស្រាវជ្រាវ និងវិស្វករទិន្នន័យនៅកម្ពុជាគួរតែចាប់ផ្តើមជាមួយវិធីសាស្ត្រស្ថិតិ ឬម៉ូដែលសាមញ្ញជាមុនសិន មុននឹងសម្រេចចិត្តវិនិយោគធនធានដ៏ច្រើនសន្ធឹកសន្ធាប់លើម៉ូដែល Transformers សម្រាប់ការការព្យាករណ៍ទិន្នន័យពេលវេលា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ូដែលស្ថិតិបុរាណជាមុន: ចាប់ផ្តើមអនុវត្ត និងស្វែងយល់ពីម៉ូដែលស្ថិតិដូចជា ARIMA និង ETS ឱ្យបានច្បាស់លាស់ ដើម្បីប្រើប្រាស់ពួកវាជាម៉ូដែលគោល (Benchmark standard) សម្រាប់ការវាយតម្លៃ។
  2. ប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារសម្រាប់ការស្រាវជ្រាវ: ចូលទៅកាន់វេបសាយ Monash Time Series Forecasting Archive (forecastingdata.org) ដើម្បីទាញយកសំណុំទិន្នន័យស្តង់ដារចំនួន ២៥ យកមកធ្វើការសាកល្បងនិងវាយតម្លៃម៉ូដែលរបស់អ្នក។
  3. ទាញយកលក្ខណៈពិសេសនៃទិន្នន័យ (Feature Extraction): ប្រើប្រាស់កញ្ចប់កូដដូចជា tsfeatures និង catch22 នៅក្នុង Python ឬ R ដើម្បីវិភាគ និងស្វែងយល់ពីលក្ខណៈស៊ីជម្រៅនៃទិន្នន័យស៊េរីពេលវេលា មុននឹងបញ្ជូនទៅកាន់ម៉ូដែល។
  4. សាកល្បងម៉ូដែល Linear មុននឹងឈានទៅ Deep Learning: អនុវត្តម៉ូដែលសាមញ្ញដូចជា LTSF-Linear ទៅលើទិន្នន័យរបស់អ្នក ដើម្បីផ្ទៀងផ្ទាត់ថាតើអ្នកពិតជាត្រូវការម៉ូដែលកម្រិតស្មុគស្មាញ (Transformers) ឬក៏អត់ ដោយចំណាយធនធានតិចតួចបំផុត។
  5. វាយតម្លៃប្រសិទ្ធភាពម៉ូដែលឱ្យបានគ្រប់ជ្រុងជ្រោយ: ជ្រើសរើសរង្វាស់កំហុស (Error metrics) ដែលសមស្របទៅនឹងប្រភេទអាជីវកម្ម ដោយមិនត្រូវពឹងផ្អែកតែលើរង្វាស់ ad-hoc ណាមួយឡើយ ហើយត្រូវធានាថាការស្រាវជ្រាវរបស់អ្នកមានកូដដែលអាចដំណើរការឡើងវិញបាន (Reproducibility) ដោយបង្ហោះលើ GitHub។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Self-attention mechanism យន្តការនៅក្នុងម៉ូដែល AI ដែលអនុញ្ញាតឱ្យវាវាយតម្លៃ និងផ្តល់ទម្ងន់ទៅលើផ្នែកផ្សេងៗនៃទិន្នន័យ (ឧទាហរណ៍ ពាក្យ ឬចំណុចពេលវេលា) ក្នុងពេលតែមួយ ដើម្បីយល់ពីទំនាក់ទំនងនៃបរិបទទាំងមូល។ ដូចជាពេលយើងអានសៀវភៅ ហើយខួរក្បាលយើងភ្ជាប់ទំនាក់ទំនងរវាងតួអង្គដែលទើបលេចមុខនៅទំព័រនេះ ទៅនឹងសាច់រឿងដែលបានកើតឡើងនៅទំព័រមុនៗដោយស្វ័យប្រវត្តិ។
Time series forecasting ការប្រើប្រាស់វិធីសាស្ត្រគណិតវិទ្យា ឬបញ្ញាសិប្បនិម្មិតដើម្បីវិភាគទិន្នន័យអតីតកាលដែលបានកត់ត្រាតាមលំដាប់ពេលវេលាជាបន្តបន្ទាប់ ក្នុងគោលបំណងទស្សន៍ទាយនិន្នាការ ឬតម្លៃនាពេលអនាគត។ ដូចជាការមើលកំណត់ត្រាសីតុណ្ហភាពរៀងរាល់ថ្ងៃក្នុងខែមុន ដើម្បីទាយថាតើថ្ងៃស្អែកមេឃនឹងក្តៅ ឬត្រជាក់។
Locality-agnostics លក្ខណៈរបស់ម៉ូដែលដែលមិនសូវចាប់អារម្មណ៍ ឬពិបាកក្នុងការចាប់យកលំនាំនៃទិន្នន័យដែលនៅក្បែរៗគ្នា ដែលធ្វើឱ្យវាខកខានក្នុងការយល់ពីបម្រែបម្រួលភ្លាមៗ ឬភាពមិនប្រក្រតីក្នុងរយៈពេលខ្លី (Local patterns/anomalies)។ ដូចជាមនុស្សដែលមើលឃើញតែរូបភាពធំពីចម្ងាយ ប៉ុន្តែមិនបានកត់សម្គាល់ពីព័ត៌មានលម្អិតតូចៗដែលនៅជាប់នឹងភ្នែករបស់គាត់។
Permutation-invariant លក្ខណៈគណិតវិទ្យាដែលម៉ូដែលផ្តល់លទ្ធផលដូចគ្នាទោះបីជាលំដាប់លំដោយនៃទិន្នន័យបញ្ជូល (Input) ត្រូវបានផ្លាស់ប្តូរទីតាំងក៏ដោយ។ នេះជាបញ្ហាធំសម្រាប់ទិន្នន័យពេលវេលាដែលទាមទារការតម្រៀបតាមលំដាប់មុនក្រោយយ៉ាងតឹងរ៉ឹង។ ដូចជាម៉ាស៊ីនក្រឡុកទឹកក្រឡុក ដែលមិនខ្វល់ថាអ្នកដាក់ផ្លែប៉ោមមុន ឬចេកមុននោះទេ លទ្ធផលចេញមកគឺទឹកក្រឡុកដូចគ្នា (បាត់បង់អត្ថន័យនៃលំដាប់មុនក្រោយ)។
Positional Encoding បច្ចេកទេសក្នុងការបន្ថែមវ៉ិចទ័រដែលបញ្ជាក់ពីទីតាំង ឬលំដាប់លំដោយទៅក្នុងទិន្នន័យនីមួយៗ មុននឹងបញ្ជូនទៅកាន់ម៉ូដែល Transformer ដើម្បីជួយឱ្យវាដឹងថាទិន្នន័យមួយណាមុន ទិន្នន័យមួយណាក្រោយ។ ដូចជាការបិទលេខរៀងលើសន្លឹកបៀនីមួយៗ មុននឹងបោះវាចូលទៅក្នុងប្រអប់ ដើម្បីឱ្យគេអាចរៀបចំវាត្រឡប់មកតាមលំដាប់ដើមវិញបាន។
Computational complexity រង្វាស់នៃចំនួនធនធាន (ដូចជាពេលវេលាដំណើរការ និងទំហំអង្គចងចាំ) ដែលកុំព្យូទ័រត្រូវការដើម្បីដោះស្រាយបញ្ហាណាមួយ។ សម្រាប់ Transformer ដើម វាមានកម្រិត O(N²) ដែលកើនឡើងយ៉ាងលឿនជាការ៉េនៅពេលទិន្នន័យកាន់តែវែង។ ដូចជាការរៀបចំពិធីជប់លៀង ពេលមានភ្ញៀវ១០នាក់ ការចាប់ដៃគ្នាស្វាគមន៍មានចំនួនតិច តែបើភ្ញៀវកើនដល់១០០នាក់ ការចាប់ដៃគ្នាម្នាក់ម្តងៗនឹងកើនឡើងយ៉ាងច្រើនសន្ធឹកសន្ធាប់ដែលចំណាយពេលនិងកម្លាំងខ្លាំង។
Dynamic Time Warping (DTW) ក្បួនអាល់ហ្គោរីតឹមសម្រាប់វាស់ស្ទង់ភាពស្រដៀងគ្នារវាងស៊េរីទិន្នន័យពេលវេលាពីរ ទោះបីជាពួកវាមានល្បឿន ឬប្រវែងខុសគ្នាក៏ដោយ (ទប់ទល់នឹងភាពរអិល ឬការខុសចង្វាក់នៃពេលវេលា)។ ដូចជាការប្រៀបធៀបបទចម្រៀងតែមួយដែលច្រៀងដោយមនុស្សពីរនាក់ ម្នាក់ច្រៀងញាប់ ម្នាក់ច្រៀងយឺត តែយើងនៅតែអាចស្តាប់ដឹងថាវាជាបទតែមួយ។
Autoregressive Integrated Moving Average (ARIMA) ម៉ូដែលស្ថិតិបុរាណដ៏ពេញនិយមមួយដែលប្រើប្រាស់ទិន្នន័យអតីតកាល (Autoregressive) ការដកយកភាពខុសគ្នាដើម្បីរក្សាលំនឹងទិន្នន័យ (Integrated) និងកម្រិតមធ្យមនៃកំហុសប្រែប្រួល (Moving Average) ដើម្បីធ្វើការព្យាករណ៍ស៊េរីពេលវេលា។ ដូចជាការទស្សន៍ទាយពិន្ទុប្រឡងខែនេះ ដោយផ្អែកលើពិន្ទុខែមុនរបស់សិស្ស និងការវាយតម្លៃមើលថាតើគាត់មានការវិវត្តប្រែប្រួលកម្រិតណាបើធៀបនឹងមធ្យមភាគរបស់គាត់កន្លងមក។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖