Original Title: Exploring Efficient Hardware for AI Acceleration in TinyML
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការស្វែងយល់ពីផ្នែករឹងដែលមានប្រសិទ្ធភាពសម្រាប់ការបង្កើនល្បឿន AI នៅក្នុង TinyML

ចំណងជើងដើម៖ Exploring Efficient Hardware for AI Acceleration in TinyML

អ្នកនិពន្ធ៖ Ahmad Shraideh (Yarmouk University, Jordan), Mahmoud Masadeh (Yarmouk University, Jordan)

ឆ្នាំបោះពុម្ព៖ 2025 6th International Conference on Data Analytics for Business and Industry (ICDABI)

វិស័យសិក្សា៖ Computer Engineering

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធ Internet of Things (IoT) ទាមទារដំណោះស្រាយបញ្ញាសិប្បនិម្មិត (AI) ដែលប្រើប្រាស់ថាមពលតិច និងឆ្លាតវៃនៅលើឧបករណ៍ផ្ទាល់ ដើម្បីដោះស្រាយបញ្ហាយឺតយ៉ាវ ការស៊ីភ្លើងច្រើន និងហានិភ័យឯកជនភាពពីការប្រើប្រាស់ប្រព័ន្ធក្លោដ (Cloud computing)។ ឯកសារនេះស្វែងយល់ពីបញ្ហាប្រឈម និងដំណោះស្រាយចំពោះការដាក់ដំណើរការម៉ូដែល AI លើឧបករណ៍ដែលមានធនធានមានកំណត់ (Microcontrollers)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះគឺជាការពិនិត្យឡើងវិញ (Systematic Review) ទៅលើឯកសារស្រាវជ្រាវពីឆ្នាំ 2018 ដល់ 2025 ដែលវាយតម្លៃលើការអភិវឌ្ឍន៍ស្ថាបត្យកម្មផ្នែករឹង និងបច្ចេកទេសផ្នែកទន់សម្រាប់ការបង្កើនល្បឿន AI ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Hardware-Based Acceleration
ការពន្លឿនដោយផ្អែកលើស្ថាបត្យកម្មផ្នែករឹង (Hardware)
ផ្តល់ដំណើរការលឿនខ្លាំង និងប្រើប្រាស់ថាមពលតិចតួចបំផុត (Ultra-low power) ដែលស័ក្តិសមឥតខ្ចោះសម្រាប់ឧបករណ៍ប្រើថ្ម។ ទាមទារការរចនាបន្ទះឈីបថ្មី ដែលមានតម្លៃថ្លៃក្នុងការផលិត និងមានភាពស្មុគស្មាញខ្ពស់ក្នុងការអភិវឌ្ឍ។ សម្រេចបានល្បឿន 10 GMAC/s ក្នុងកម្រិតថាមពលត្រឹមតែ 75 mW (ឧទាហរណ៍៖ បន្ទះឈីប GAP-8)។
Software-Based Optimization
ការធ្វើឱ្យប្រសើរលើផ្នែកទន់ (ការបង្រួមម៉ូដែល និងការគណនាប្រហាក់ប្រហែល)
អាចដាក់ឱ្យដំណើរការលើ Microcontroller ដែលមានស្រាប់បានដោយមិនបាច់ផ្លាស់ប្តូរផ្នែករឹង និងជួយសន្សំសំចៃទំហំអង្គចងចាំ។ អាចធ្វើឱ្យបាត់បង់កម្រិតភាពត្រឹមត្រូវខ្លះៗ (Accuracy tradeoff) ប្រសិនបើបង្រួមទំហំ ឬកាត់បន្ថយប៊ីត (Bit) តូចពេក។ កាត់បន្ថយភាពយឺតយ៉ាវ (Latency) បាន 21% ដោយរក្សាភាពត្រឹមត្រូវនៅកម្រិតដដែល និងប្រើប្រាស់ Flash ត្រឹម 13%។
Hardware-Software Co-Design
ការរចនារួមគ្នារវាងផ្នែករឹងនិងផ្នែកទន់ (ឧទាហរណ៍៖ TinyDevID)
ផ្តល់តុល្យភាពល្អបំផុតរវាងភាពត្រឹមត្រូវ ទំហំម៉ូដែល និងប្រសិទ្ធភាពនៃការប្រើប្រាស់ថាមពល។ ទាមទារការតម្រឹម (Alignment) យ៉ាងជាក់លាក់រវាងកូដ និងពាក្យបញ្ជាផ្នែករឹង ដែលធ្វើឱ្យពិបាកក្នុងការចម្លងទៅប្រើលើប្រព័ន្ធផ្សេង។ កំណត់អត្តសញ្ញាណឧបករណ៍ IoT បានយ៉ាងត្រឹមត្រូវក្នុងអត្រាមធ្យម 91% នៅលើប្រព័ន្ធ Arduino ដែលមានអង្គចងចាំទាប។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធ TinyML ទាមទារឧបករណ៍ដែលមានកម្រិតថាមពលទាបបំផុត ប៉ុន្តែចាំបាច់ត្រូវមានការគ្រប់គ្រងអង្គចងចាំ (RAM/Flash) យ៉ាងប្រុងប្រយ័ត្ន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះគឺជាការពិនិត្យឡើងវិញនូវឯកសារស្រាវជ្រាវ (Systematic Review) ជាសកល ដោយផ្តោតលើស្ថាបត្យកម្មផ្នែករឹងជាជាងការវិភាគលើទិន្នន័យប្រជាសាស្ត្រជាក់លាក់ណាមួយ។ យ៉ាងណាក្តី សម្រាប់បរិបទកម្ពុជា ការខ្វះខាតសំណុំទិន្នន័យក្នុងស្រុក (ដូចជាទិន្នន័យសំឡេងភាសាខ្មែរ ឬទិន្នន័យកសិកម្មតាមតំបន់) អាចទាមទារឱ្យមានការប្រមូលទិន្នន័យផ្ទាល់ខ្លួនដើម្បីបង្ហាត់ម៉ូដែលជាថ្មី ទើបម៉ូដែលទាំងនោះអាចដំណើរការបានយ៉ាងមានប្រសិទ្ធភាព។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យា TinyML មានសក្តានុពលខ្ពស់ និងមានតម្លៃសមរម្យ ដែលស័ក្តិសមខ្លាំងក្នុងការចូលរួមដោះស្រាយបញ្ហាជាក់ស្តែងនៅក្នុងប្រទេសកម្ពុជា។

សរុបមក ការបង្កើនល្បឿន AI តាមរយៈ TinyML ផ្តល់ឱកាសមាសសម្រាប់វិស្វករកម្ពុជាក្នុងការបង្កើតប្រព័ន្ធ IoT ឆ្លាតវៃ ប្រើប្រាស់ថាមពលទាប ឯករាជ្យពីប្រព័ន្ធ Cloud និងស័ក្តិសមបំផុតសម្រាប់តំបន់ដាច់ស្រយាល។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃ TinyML លើឧបករណ៍តូចៗ: ចាប់ផ្តើមអនុវត្តជាក់ស្តែងជាមួយឧបករណ៍ Microcontroller មានតម្លៃសមរម្យដូចជា Arduino Nano 33 BLE SenseSTM32 Nucleo ដោយសិក្សាពីរបៀបសរសេរកូដបញ្ចូលម៉ូដែល AI សាមញ្ញទៅកាន់ឧបករណ៍ទាំងនេះ។
  2. ជំហានទី២៖ ស្ទាត់ជំនាញលើ Frameworks និងការបង្រួមម៉ូដែល (Model Compression): អនុវត្តការបង្ហាត់ម៉ូដែល AI រួចប្រើប្រាស់បណ្ណាល័យ (Libraries) ដូចជា TensorFlow Lite Micro (TFLM) សម្រាប់ការបង្រួមទំហំម៉ូដែល (Quantization) ពី 32-bit មកត្រឹម 8-bit ដើម្បីឱ្យសមស្របនឹងអង្គចងចាំ <1MB។
  3. ជំហានទី៣៖ អភិវឌ្ឍគម្រោងគំរូ (Proof of Concept) សម្រាប់ដោះស្រាយបញ្ហាក្នុងស្រុក: បង្កើតគម្រោងជាក់ស្តែងមួយ ឧទាហរណ៍៖ ប្រព័ន្ធត្រួតពិនិត្យការស្រោចស្រពដំណាំដោយប្រើសេនស័រ ឬប្រព័ន្ធសម្គាល់ពាក្យបញ្ជាជាសំឡេង (Keyword Spotting) ដោយត្រូវប្រមូលទិន្នន័យពីមជ្ឈដ្ឋានជុំវិញមកបង្ហាត់ម៉ូដែលដោយខ្លួនឯង។
  4. ជំហានទី៤៖ ស្វែងយល់ពីស្ថាបត្យកម្មផ្នែករឹងជំនាន់ថ្មី និងការគ្រប់គ្រងថាមពល: ឈានទៅសិក្សាស៊ីជម្រៅពីស្ថាបត្យកម្ម RISC-V ឬពាក្យបញ្ជាផ្ទាល់ខ្លួន (Custom ISAs) និងរបៀបប្រើប្រាស់មុខងារសន្សំសំចៃថាមពល (Sleep/Standby Modes) ដើម្បីធានាថាឧបករណ៍ IoT អាចដំណើរការបានយូរដោយប្រើត្រឹមថាមពលថ្មតូច។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
TinyML បច្ចេកវិទ្យាក្នុងការដាក់ឱ្យដំណើរការម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) នៅលើឧបករណ៍តូចៗដូចជា Microcontrollers ដែលមានអង្គចងចាំ និងថាមពលអគ្គិសនីមានកម្រិតបំផុត (ជាទូទៅក្រោម ១ មេហ្គាបៃ និងប្រើថាមពលគិតជាមីលីវ៉ាត់)។ ដូចជាការបង្រួមខួរក្បាលឆ្លាតវៃឱ្យតូចបំផុត ដើម្បីអាចដាក់ចូលទៅក្នុងនាឡិកាដៃ ឬសេនស័រតូចៗបាន ដោយមិនបាច់ពឹងផ្អែកលើការបញ្ជូនទិន្នន័យតាមអ៊ីនធឺណិត។
System-on-Chip (SoC) បន្ទះឈីបអេឡិចត្រូនិកតែមួយដែលរួមបញ្ចូលនូវសមាសធាតុសំខាន់ៗទាំងអស់នៃប្រព័ន្ធកុំព្យូទ័រទាំងមូល ដូចជាអង្គគណនា (CPU), អង្គចងចាំ (Memory), និងផ្នែកសម្រាប់តភ្ជាប់ទៅខាងក្រៅ (I/O ports)។ ដូចជាការយកផ្ទះទាំងមូល (ដែលមានបន្ទប់គេង ផ្ទះបាយ និងបន្ទប់ទឹក) មកបង្រួមសាងសង់បញ្ចូលគ្នានៅលើប្លុកដីតែមួយដុំតូច ដើម្បីសន្សំសំចៃទំហំ និងថាមពល។
Approximate Computing បច្ចេកទេសគណនាដែលអនុញ្ញាតឱ្យមានកំហុសឆ្គងបន្តិចបន្តួចដែលអាចទទួលយកបាន ដើម្បីកាត់បន្ថយពេលវេលាគណនា និងសន្សំសំចៃថាមពល ដោយមិនធ្វើឱ្យលទ្ធផលចុងក្រោយផ្លាស់ប្តូរខ្លាំង។ ដូចជាការប៉ាន់ស្មានតម្លៃទំនិញថា "ប្រហែល ១០ ដុល្លារ" ជាជាងការគណនាច្បាស់លាស់ "៩.៩៩ ដុល្លារ" ដើម្បីងាយស្រួលគិតលុយបានលឿន។
Quantization បច្ចេកទេសបង្រួមទំហំម៉ូដែល AI ដោយកាត់បន្ថយចំនួនកម្រិតភាពច្បាស់ (Bits) ដែលតំណាងឱ្យលេខទម្ងន់ (Weights) របស់ម៉ូដែល (ឧទាហរណ៍៖ ប្តូរពីលេខ 32-bit មកត្រឹម 8-bit) ដើម្បីកាត់បន្ថយការប្រើប្រាស់អង្គចងចាំ។ ដូចជាការបង្រួមទំហំរូបថតពីកម្រិតច្បាស់ខ្លាំង (4K) មកត្រឹមទំហំតូចល្មមមើលឃើញ ដើម្បីងាយស្រួលផ្ញើតាមទូរស័ព្ទបានលឿន និងមិនស៊ីទំហំផ្ទុក។
Multiply–Accumulate (MAC) operations ប្រតិបត្តិការគណនាគណិតវិទ្យាជាមូលដ្ឋាននៅក្នុងបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Networks) ដែលធ្វើការគុណលេខពីរចូលគ្នា រួចបូកលទ្ធផលនោះទៅនឹងតម្លៃសរុបដែលមានស្រាប់។ វាត្រូវបានប្រើជាខ្នាតដើម្បីវាស់ល្បឿនដំណើរការរបស់ AI (ឧទាហរណ៍ GMAC/s)។ ដូចជាការគិតលុយទំនិញច្រើនមុខរបស់អ្នកគិតលុយ ដោយយក "តម្លៃរាយ x ចំនួន" រួចបូកបញ្ចូលគ្នាជាបន្តបន្ទាប់ដើម្បីរកតម្លៃសរុបចុងក្រោយ។
Hardware-Software Co-design វិធីសាស្ត្រនៃការអភិវឌ្ឍប្រព័ន្ធដោយធ្វើការរចនា និងកែសម្រួលទាំងផ្នែករឹង (Hardware) និងផ្នែកទន់ (Software) ក្នុងពេលតែមួយ និងស្របគ្នា ដើម្បីឱ្យពួកវាធ្វើការស៊ីចង្វាក់គ្នាបានល្អបំផុត និងមានប្រសិទ្ធភាពខ្ពស់បំផុត។ ដូចជាការកាត់សម្លៀកបំពាក់តម្រូវតាមរាងកាយអ្នកពាក់ផ្ទាល់ ជាជាងការទិញខោអាវរ៉ូប៊ឺតមកស្លៀក ដែលធ្វើឱ្យវាមានទំហំល្មមល្អឥតខ្ចោះ។
Instruction Set Architecture (ISA) សំណុំនៃពាក្យបញ្ជាមូលដ្ឋានដែលខួរក្បាលកុំព្យូទ័រ (CPU) អាចយល់ និងអនុវត្តបាន។ នៅក្នុងការបង្កើនល្បឿន AI គេតែងតែបន្ថែមពាក្យបញ្ជាថ្មីៗ (Custom ISAs) ទៅក្នុងសំណុំនេះ ដើម្បីឱ្យម៉ាស៊ីនអាចគណនារូបមន្ត AI បានលឿនជាងមុន។ ដូចជាសៀវភៅវចនានុក្រម ឬបញ្ជីពាក្យបញ្ជាដែលប្រាប់ម៉ាស៊ីនអំពីភាសា និងកាយវិការដែលវាត្រូវស្តាប់តាម និងអនុវត្ត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖