Original Title: Exploring Efficient Hardware for AI Acceleration in TinyML
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការស្វែងយល់ពីផ្នែករឹងដែលមានប្រសិទ្ធភាពសម្រាប់ការបង្កើនល្បឿន AI នៅក្នុង TinyML

ចំណងជើងដើម៖ Exploring Efficient Hardware for AI Acceleration in TinyML

អ្នកនិពន្ធ៖ Ahmad Shraideh (Yarmouk University, Jordan), Mahmoud Masadeh (Yarmouk University, Jordan)

ឆ្នាំបោះពុម្ព៖ 2025 6th International Conference on Data Analytics for Business and Industry (ICDABI)

វិស័យសិក្សា៖ Computer Engineering

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធ Internet of Things (IoT) ទាមទារដំណោះស្រាយបញ្ញាសិប្បនិម្មិត (AI) ដែលប្រើប្រាស់ថាមពលតិច និងឆ្លាតវៃនៅលើឧបករណ៍ផ្ទាល់ ដើម្បីដោះស្រាយបញ្ហាយឺតយ៉ាវ ការស៊ីភ្លើងច្រើន និងហានិភ័យឯកជនភាពពីការប្រើប្រាស់ប្រព័ន្ធក្លោដ (Cloud computing)។ ឯកសារនេះស្វែងយល់ពីបញ្ហាប្រឈម និងដំណោះស្រាយចំពោះការដាក់ដំណើរការម៉ូដែល AI លើឧបករណ៍ដែលមានធនធានមានកំណត់ (Microcontrollers)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះគឺជាការពិនិត្យឡើងវិញ (Systematic Review) ទៅលើឯកសារស្រាវជ្រាវពីឆ្នាំ 2018 ដល់ 2025 ដែលវាយតម្លៃលើការអភិវឌ្ឍន៍ស្ថាបត្យកម្មផ្នែករឹង និងបច្ចេកទេសផ្នែកទន់សម្រាប់ការបង្កើនល្បឿន AI ។

ការពន្លឿនដោយផ្អែកលើផ្នែករឹង (Hardware-Based Acceleration) ដូចជាការប្រើប្រាស់បន្ទះឈីប GAP-8 និងការបន្ថែមពាក្យបញ្ជាពិសេស RISC-V Custom ISAs
ការធ្វើឱ្យប្រសើរលើផ្នែកទន់ (Software-Based Optimization) រួមមានបច្ចេកទេសគណនាប្រហាក់ប្រហែល (Approximate Computing) និងការបង្រួមទំហំម៉ូដែល (Quantization)
ការវាយតម្លៃលើការអនុវត្តជាក់ស្តែងតាមរយៈប្រព័ន្ធកំណត់អត្តសញ្ញាណឧបករណ៍ (TinyDevID Framework)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ស្ថាបត្យកម្មបន្ទះឈីប GAP-8 អាចសម្រេចបានដំណើរការរហូតដល់ 10 GMAC/s ដោយប្រើប្រាស់ថាមពលត្រឹមតែ 75 mW សម្រាប់ការគណនាបណ្តាញសរសៃប្រសាទកម្រិតខ្ពស់។
បច្ចេកទេសគណនាប្រហាក់ប្រហែល (Approximate Computing) អាចកាត់បន្ថយភាពយឺតយ៉ាវនៃដំណើរការ (Latency) បានរហូតដល់ 21% ដោយមិនធ្វើឱ្យបាត់បង់កម្រិតភាពត្រឹមត្រូវរបស់ម៉ូដែលឡើយ។
ប្រព័ន្ធ TinyDevID អាចកំណត់អត្តសញ្ញាណឧបករណ៍ IoT បានដោយជោគជ័យក្នុងអត្រាភាពត្រឹមត្រូវជាមធ្យម 91% និងរហូតដល់ 97% សម្រាប់ឧបករណ៍ជាក់លាក់ នៅលើឧបករណ៍ Microcontroller ដែលមានអង្គចងចាំត្រឹមតែ 1MB។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Hardware-Based Acceleration ការពន្លឿនដោយផ្អែកលើស្ថាបត្យកម្មផ្នែករឹង (Hardware)	ផ្តល់ដំណើរការលឿនខ្លាំង និងប្រើប្រាស់ថាមពលតិចតួចបំផុត (Ultra-low power) ដែលស័ក្តិសមឥតខ្ចោះសម្រាប់ឧបករណ៍ប្រើថ្ម។	ទាមទារការរចនាបន្ទះឈីបថ្មី ដែលមានតម្លៃថ្លៃក្នុងការផលិត និងមានភាពស្មុគស្មាញខ្ពស់ក្នុងការអភិវឌ្ឍ។	សម្រេចបានល្បឿន 10 GMAC/s ក្នុងកម្រិតថាមពលត្រឹមតែ 75 mW (ឧទាហរណ៍៖ បន្ទះឈីប GAP-8)។
Software-Based Optimization ការធ្វើឱ្យប្រសើរលើផ្នែកទន់ (ការបង្រួមម៉ូដែល និងការគណនាប្រហាក់ប្រហែល)	អាចដាក់ឱ្យដំណើរការលើ Microcontroller ដែលមានស្រាប់បានដោយមិនបាច់ផ្លាស់ប្តូរផ្នែករឹង និងជួយសន្សំសំចៃទំហំអង្គចងចាំ។	អាចធ្វើឱ្យបាត់បង់កម្រិតភាពត្រឹមត្រូវខ្លះៗ (Accuracy tradeoff) ប្រសិនបើបង្រួមទំហំ ឬកាត់បន្ថយប៊ីត (Bit) តូចពេក។	កាត់បន្ថយភាពយឺតយ៉ាវ (Latency) បាន 21% ដោយរក្សាភាពត្រឹមត្រូវនៅកម្រិតដដែល និងប្រើប្រាស់ Flash ត្រឹម 13%។
Hardware-Software Co-Design ការរចនារួមគ្នារវាងផ្នែករឹងនិងផ្នែកទន់ (ឧទាហរណ៍៖ TinyDevID)	ផ្តល់តុល្យភាពល្អបំផុតរវាងភាពត្រឹមត្រូវ ទំហំម៉ូដែល និងប្រសិទ្ធភាពនៃការប្រើប្រាស់ថាមពល។	ទាមទារការតម្រឹម (Alignment) យ៉ាងជាក់លាក់រវាងកូដ និងពាក្យបញ្ជាផ្នែករឹង ដែលធ្វើឱ្យពិបាកក្នុងការចម្លងទៅប្រើលើប្រព័ន្ធផ្សេង។	កំណត់អត្តសញ្ញាណឧបករណ៍ IoT បានយ៉ាងត្រឹមត្រូវក្នុងអត្រាមធ្យម 91% នៅលើប្រព័ន្ធ Arduino ដែលមានអង្គចងចាំទាប។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធ TinyML ទាមទារឧបករណ៍ដែលមានកម្រិតថាមពលទាបបំផុត ប៉ុន្តែចាំបាច់ត្រូវមានការគ្រប់គ្រងអង្គចងចាំ (RAM/Flash) យ៉ាងប្រុងប្រយ័ត្ន។

Hardware: Microcontrollers ដូចជា Arduino Nano 33 BLE Sense, STM32-Nucleo, ឬ GAP-8 SoC ដែលជាទូទៅមានអង្គចងចាំតិចជាង 1MB និងប្រើថាមពលក្រោម 100mW។
Software: Frameworks សម្រាប់ដំណើរការ AI លើឧបករណ៍តូចៗដូចជា TensorFlow Lite Micro (TFLM), CMSIS-NN, និង TinyEngine ព្រមទាំងឧបករណ៍វាយតម្លៃ (Benchmarks)។
Expertise: ជំនាញលើការរចនា Hardware-Software Co-design, ការបង្រួមទំហំម៉ូដែល (Quantization, Pruning), និងស្ថាបត្យកម្មប្រព័ន្ធកុំព្យូទ័រទំហំតូច។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះគឺជាការពិនិត្យឡើងវិញនូវឯកសារស្រាវជ្រាវ (Systematic Review) ជាសកល ដោយផ្តោតលើស្ថាបត្យកម្មផ្នែករឹងជាជាងការវិភាគលើទិន្នន័យប្រជាសាស្ត្រជាក់លាក់ណាមួយ។ យ៉ាងណាក្តី សម្រាប់បរិបទកម្ពុជា ការខ្វះខាតសំណុំទិន្នន័យក្នុងស្រុក (ដូចជាទិន្នន័យសំឡេងភាសាខ្មែរ ឬទិន្នន័យកសិកម្មតាមតំបន់) អាចទាមទារឱ្យមានការប្រមូលទិន្នន័យផ្ទាល់ខ្លួនដើម្បីបង្ហាត់ម៉ូដែលជាថ្មី ទើបម៉ូដែលទាំងនោះអាចដំណើរការបានយ៉ាងមានប្រសិទ្ធភាព។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យា TinyML មានសក្តានុពលខ្ពស់ និងមានតម្លៃសមរម្យ ដែលស័ក្តិសមខ្លាំងក្នុងការចូលរួមដោះស្រាយបញ្ហាជាក់ស្តែងនៅក្នុងប្រទេសកម្ពុជា។

វិស័យកសិកម្មឆ្លាតវៃ (Smart Agriculture) នៅតាមបណ្តាខេត្ត: អាចប្រើឧបករណ៍សេនស័រតម្លៃថោកដែលដំណើរការដោយ TinyML ដើម្បីត្រួតពិនិត្យសំណើមដី សីតុណ្ហភាព និងរកមើលជំងឺដំណាំ (ឧទាហរណ៍នៅខេត្តបាត់ដំបង) ដោយមិនចាំបាច់ពឹងផ្អែកលើអ៊ីនធឺណិតល្បឿនលឿនឡើយ។
ការត្រួតពិនិត្យសុខភាពម៉ាស៊ីនក្នុងវិស័យឧស្សាហកម្ម (Industrial Monitoring): នៅតាមរោងចក្រក្នុងតំបន់សេដ្ឋកិច្ចពិសេស គេអាចដាក់ពង្រាយឧបករណ៍សេនស័រដើម្បីតាមដានរំញ័រ ឬសម្លេងម៉ាស៊ីនខុសប្រក្រតី ដោយទិន្នន័យត្រូវបានវិភាគភ្លាមៗនៅនឹងកន្លែង (Edge AI) ដែលជួយកាត់បន្ថយការខូចខាតធ្ងន់ធ្ងរ។
សន្តិសុខ និងទីក្រុងឆ្លាតវៃ (Smart Home & Security) នៅរាជធានីភ្នំពេញ: អាចប្រើប្រាស់ប្រព័ន្ធដូចជា TinyDevID ឬប្រព័ន្ធសម្គាល់វត្ថុ/សំឡេងលើកាមេរ៉ាសុវត្ថិភាពផ្ទាល់ ដើម្បីកំណត់អត្តសញ្ញាណភាពមិនប្រក្រតី ដែលជួយការពារឯកជនភាពដោយមិនបញ្ជូនទិន្នន័យរសើបទៅកាន់ Cloud។

សរុបមក ការបង្កើនល្បឿន AI តាមរយៈ TinyML ផ្តល់ឱកាសមាសសម្រាប់វិស្វករកម្ពុជាក្នុងការបង្កើតប្រព័ន្ធ IoT ឆ្លាតវៃ ប្រើប្រាស់ថាមពលទាប ឯករាជ្យពីប្រព័ន្ធ Cloud និងស័ក្តិសមបំផុតសម្រាប់តំបន់ដាច់ស្រយាល។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃ TinyML លើឧបករណ៍តូចៗ: ចាប់ផ្តើមអនុវត្តជាក់ស្តែងជាមួយឧបករណ៍ Microcontroller មានតម្លៃសមរម្យដូចជា Arduino Nano 33 BLE Sense ឬ STM32 Nucleo ដោយសិក្សាពីរបៀបសរសេរកូដបញ្ចូលម៉ូដែល AI សាមញ្ញទៅកាន់ឧបករណ៍ទាំងនេះ។
ជំហានទី២៖ ស្ទាត់ជំនាញលើ Frameworks និងការបង្រួមម៉ូដែល (Model Compression): អនុវត្តការបង្ហាត់ម៉ូដែល AI រួចប្រើប្រាស់បណ្ណាល័យ (Libraries) ដូចជា TensorFlow Lite Micro (TFLM) សម្រាប់ការបង្រួមទំហំម៉ូដែល (Quantization) ពី 32-bit មកត្រឹម 8-bit ដើម្បីឱ្យសមស្របនឹងអង្គចងចាំ <1MB។
ជំហានទី៣៖ អភិវឌ្ឍគម្រោងគំរូ (Proof of Concept) សម្រាប់ដោះស្រាយបញ្ហាក្នុងស្រុក: បង្កើតគម្រោងជាក់ស្តែងមួយ ឧទាហរណ៍៖ ប្រព័ន្ធត្រួតពិនិត្យការស្រោចស្រពដំណាំដោយប្រើសេនស័រ ឬប្រព័ន្ធសម្គាល់ពាក្យបញ្ជាជាសំឡេង (Keyword Spotting) ដោយត្រូវប្រមូលទិន្នន័យពីមជ្ឈដ្ឋានជុំវិញមកបង្ហាត់ម៉ូដែលដោយខ្លួនឯង។
ជំហានទី៤៖ ស្វែងយល់ពីស្ថាបត្យកម្មផ្នែករឹងជំនាន់ថ្មី និងការគ្រប់គ្រងថាមពល: ឈានទៅសិក្សាស៊ីជម្រៅពីស្ថាបត្យកម្ម RISC-V ឬពាក្យបញ្ជាផ្ទាល់ខ្លួន (Custom ISAs) និងរបៀបប្រើប្រាស់មុខងារសន្សំសំចៃថាមពល (Sleep/Standby Modes) ដើម្បីធានាថាឧបករណ៍ IoT អាចដំណើរការបានយូរដោយប្រើត្រឹមថាមពលថ្មតូច។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
TinyML	បច្ចេកវិទ្យាក្នុងការដាក់ឱ្យដំណើរការម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) នៅលើឧបករណ៍តូចៗដូចជា Microcontrollers ដែលមានអង្គចងចាំ និងថាមពលអគ្គិសនីមានកម្រិតបំផុត (ជាទូទៅក្រោម ១ មេហ្គាបៃ និងប្រើថាមពលគិតជាមីលីវ៉ាត់)។	ដូចជាការបង្រួមខួរក្បាលឆ្លាតវៃឱ្យតូចបំផុត ដើម្បីអាចដាក់ចូលទៅក្នុងនាឡិកាដៃ ឬសេនស័រតូចៗបាន ដោយមិនបាច់ពឹងផ្អែកលើការបញ្ជូនទិន្នន័យតាមអ៊ីនធឺណិត។
System-on-Chip (SoC)	បន្ទះឈីបអេឡិចត្រូនិកតែមួយដែលរួមបញ្ចូលនូវសមាសធាតុសំខាន់ៗទាំងអស់នៃប្រព័ន្ធកុំព្យូទ័រទាំងមូល ដូចជាអង្គគណនា (CPU), អង្គចងចាំ (Memory), និងផ្នែកសម្រាប់តភ្ជាប់ទៅខាងក្រៅ (I/O ports)។	ដូចជាការយកផ្ទះទាំងមូល (ដែលមានបន្ទប់គេង ផ្ទះបាយ និងបន្ទប់ទឹក) មកបង្រួមសាងសង់បញ្ចូលគ្នានៅលើប្លុកដីតែមួយដុំតូច ដើម្បីសន្សំសំចៃទំហំ និងថាមពល។
Approximate Computing	បច្ចេកទេសគណនាដែលអនុញ្ញាតឱ្យមានកំហុសឆ្គងបន្តិចបន្តួចដែលអាចទទួលយកបាន ដើម្បីកាត់បន្ថយពេលវេលាគណនា និងសន្សំសំចៃថាមពល ដោយមិនធ្វើឱ្យលទ្ធផលចុងក្រោយផ្លាស់ប្តូរខ្លាំង។	ដូចជាការប៉ាន់ស្មានតម្លៃទំនិញថា "ប្រហែល ១០ ដុល្លារ" ជាជាងការគណនាច្បាស់លាស់ "៩.៩៩ ដុល្លារ" ដើម្បីងាយស្រួលគិតលុយបានលឿន។
Quantization	បច្ចេកទេសបង្រួមទំហំម៉ូដែល AI ដោយកាត់បន្ថយចំនួនកម្រិតភាពច្បាស់ (Bits) ដែលតំណាងឱ្យលេខទម្ងន់ (Weights) របស់ម៉ូដែល (ឧទាហរណ៍៖ ប្តូរពីលេខ 32-bit មកត្រឹម 8-bit) ដើម្បីកាត់បន្ថយការប្រើប្រាស់អង្គចងចាំ។	ដូចជាការបង្រួមទំហំរូបថតពីកម្រិតច្បាស់ខ្លាំង (4K) មកត្រឹមទំហំតូចល្មមមើលឃើញ ដើម្បីងាយស្រួលផ្ញើតាមទូរស័ព្ទបានលឿន និងមិនស៊ីទំហំផ្ទុក។
Multiply–Accumulate (MAC) operations	ប្រតិបត្តិការគណនាគណិតវិទ្យាជាមូលដ្ឋាននៅក្នុងបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Networks) ដែលធ្វើការគុណលេខពីរចូលគ្នា រួចបូកលទ្ធផលនោះទៅនឹងតម្លៃសរុបដែលមានស្រាប់។ វាត្រូវបានប្រើជាខ្នាតដើម្បីវាស់ល្បឿនដំណើរការរបស់ AI (ឧទាហរណ៍ GMAC/s)។	ដូចជាការគិតលុយទំនិញច្រើនមុខរបស់អ្នកគិតលុយ ដោយយក "តម្លៃរាយ x ចំនួន" រួចបូកបញ្ចូលគ្នាជាបន្តបន្ទាប់ដើម្បីរកតម្លៃសរុបចុងក្រោយ។
Hardware-Software Co-design	វិធីសាស្ត្រនៃការអភិវឌ្ឍប្រព័ន្ធដោយធ្វើការរចនា និងកែសម្រួលទាំងផ្នែករឹង (Hardware) និងផ្នែកទន់ (Software) ក្នុងពេលតែមួយ និងស្របគ្នា ដើម្បីឱ្យពួកវាធ្វើការស៊ីចង្វាក់គ្នាបានល្អបំផុត និងមានប្រសិទ្ធភាពខ្ពស់បំផុត។	ដូចជាការកាត់សម្លៀកបំពាក់តម្រូវតាមរាងកាយអ្នកពាក់ផ្ទាល់ ជាជាងការទិញខោអាវរ៉ូប៊ឺតមកស្លៀក ដែលធ្វើឱ្យវាមានទំហំល្មមល្អឥតខ្ចោះ។
Instruction Set Architecture (ISA)	សំណុំនៃពាក្យបញ្ជាមូលដ្ឋានដែលខួរក្បាលកុំព្យូទ័រ (CPU) អាចយល់ និងអនុវត្តបាន។ នៅក្នុងការបង្កើនល្បឿន AI គេតែងតែបន្ថែមពាក្យបញ្ជាថ្មីៗ (Custom ISAs) ទៅក្នុងសំណុំនេះ ដើម្បីឱ្យម៉ាស៊ីនអាចគណនារូបមន្ត AI បានលឿនជាងមុន។	ដូចជាសៀវភៅវចនានុក្រម ឬបញ្ជីពាក្យបញ្ជាដែលប្រាប់ម៉ាស៊ីនអំពីភាសា និងកាយវិការដែលវាត្រូវស្តាប់តាម និងអនុវត្ត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖