Original Title: Using Convolutional Neural Networks for Image Recognition
Source: www.multimediadocs.com
Document Type: Report
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original report for full accuracy.

ការប្រើប្រាស់បណ្តាញសរសៃប្រសាទខនវ៉ូលូហ្សិន (CNNs) សម្រាប់ការសម្គាល់រូបភាព

ចំណងជើងដើម៖ Using Convolutional Neural Networks for Image Recognition

អ្នកនិពន្ធ៖ Samer Hijazi, IP Group, Cadence, Rishi Kumar, IP Group, Cadence, Chris Rowen, IP Group, Cadence

ឆ្នាំបោះពុម្ព៖ 2015 Cadence Design Systems

វិស័យសិក្សា៖ Computer Vision / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា/ប្រធានបទ (The Problem/Topic)៖ ឯកសារនេះដោះស្រាយលើបញ្ហាប្រឈមក្នុងការប្រើប្រាស់បណ្ដាញសរសៃប្រសាទ (CNNs) សម្រាប់ការសម្គាល់រូបភាព ជាពិសេសផ្តោតលើការកាត់បន្ថយបន្ទុកគណនានិងថាមពលសម្រាប់ប្រើប្រាស់ក្នុងប្រព័ន្ធបង្កប់ (Embedded Systems)។

វិធីសាស្ត្រ (Approach)៖ របាយការណ៍នេះពន្យល់ពីគោលការណ៍ជាមូលដ្ឋានរបស់ CNN និងបង្ហាញពីក្បួនដោះស្រាយថ្មីរបស់ Cadence ដែលយកមកអនុវត្តលើការសម្គាល់ផ្លាកសញ្ញាចរាចរណ៍ដើម្បីថ្លឹងថ្លែងរវាងប្រសិទ្ធភាព និងភាពស្មុគស្មាញ។

សេចក្តីសន្និដ្ឋានសំខាន់ៗ (Key Conclusions)៖

២. ការរកឃើញសំខាន់ៗ (Key Findings)

របាយការណ៍នេះបង្ហាញពីប្រសិទ្ធភាពនៃបណ្តាញសរសៃប្រសាទខនវ៉ូលូហ្សិន (CNNs) ក្នុងការសម្គាល់រូបភាព ជាពិសេសការសម្គាល់ផ្លាកសញ្ញាចរាចរណ៍។ ក្រុមហ៊ុន Cadence បានបង្កើតក្បួនដោះស្រាយថ្មីដែលផ្តល់នូវអត្រាសម្គាល់ដ៏ត្រឹមត្រូវបំផុត ព្រមទាំងបច្ចេកទេសកាត់បន្ថយភាពស្មុគស្មាញដើម្បីឱ្យម៉ូដែល AI អាចដំណើរការបានល្អលើប្រព័ន្ធបង្កប់ (Embedded Systems) ដែលទាមទារថាមពលទាប។

ការរកឃើញ (Finding) ព័ត៌មានលម្អិត (Detail) ភស្តុតាង (Evidence)
អត្រានៃការសម្គាល់បានត្រឹមត្រូវខ្ពស់បំផុត (Highest Correct Detection Rate) ក្បួនដោះស្រាយ Hierarchical CNN របស់ក្រុមហ៊ុន Cadence អាចធ្វើការសម្គាល់ផ្លាកសញ្ញាចរាចរណ៍បានយ៉ាងល្អឥតខ្ចោះ ដោយសម្រេចបានអត្រាត្រឹមត្រូវលើសពី ៩៩% ដែលជាលទ្ធផលល្អបំផុតប្រចាំឧស្សាហកម្មទៅលើសំណុំទិន្នន័យផ្លូវការ។ សម្រេចបានអត្រាសម្គាល់ត្រឹមត្រូវ ៩៩,៥៨% លើសំណុំទិន្នន័យ GTSRB (German Traffic Sign Recognition Benchmark)។
ការកាត់បន្ថយបន្ទុកគណនា (Computational Complexity Reduction) តាមរយៈការប្រើប្រាស់ក្បួនដោះស្រាយ Eigenvalue Decomposition ក្រុមហ៊ុន Cadence អាចកាត់បន្ថយភាពស្មុគស្មាញនៃការគណនារបស់ CNN បានយ៉ាងច្រើនសន្ធឹកសន្ធាប់ ដោយលះបង់ភាពត្រឹមត្រូវនៃលទ្ធផលត្រឹមតែកម្រិតតូចមួយប៉ុណ្ណោះ។ ចំនួន MACs ត្រូវបានកាត់បន្ថយរហូតដល់ ៨៦,៤ ដង (ពី ៥៣ មកត្រឹម ០,៦១ MMACs ក្នុងមួយស៊ុម) ខណៈអត្រានៃបញ្ហា (Error rate) កើនឡើងត្រឹមតែ ១,៥% ប៉ុណ្ណោះ។
ប្រសិទ្ធភាពដំណើរការលើបន្ទះឈីប Tensilica Vision P5 DSP (High Performance on DSP) អង្គគណនាពហុមុខងារ (Vision DSP) ដែលត្រូវបានរចនាឡើងសម្រាប់ប្រព័ន្ធបង្កប់ អាចបំពេញកិច្ចការគណនាស្មុគស្មាញរបស់ CNNs បានយ៉ាងរហ័សនិងស៊ីភ្លើងតិចបំផុត ដោយសារមានការគាំទ្រការគណនាស្របគ្នា (VLIW និង SIMD)។ អង្គគណនា Tensilica Vision P5 DSP ដំណើរការក្នុងល្បឿន 600MHz អាចធ្វើការសម្គាល់ផ្លាកសញ្ញាចរាចរណ៍បានជាង ៨៥០ ផ្លាកក្នុងមួយវិនាទី និងអាចទាញយកប្រសិទ្ធភាពគណនាសរុប ៣៨,៥៨ MACs/cycle។
អត្ថប្រយោជន៍នៃបណ្តាញ CNN លើប្រព័ន្ធធម្មតា (Advantages of CNN over Standard Neural Networks) CNNs មានភាពធន់នឹងការផ្លាស់ប្តូរទីតាំងរូបភាព (Shift Invariance) ទប់ទល់នឹងកម្រិតពន្លឺខុសៗគ្នា និងទាមទារអង្គចងចាំទាបជាងបណ្តាញសរសៃប្រសាទស្តង់ដារ ដោយសារវាមានប្រព័ន្ធចែករំលែកទម្ងន់ត្រងទិន្នន័យ (Weight sharing in convolutional layers)។ ស្របពេលដែល Fully Connected Layer ទាមទារមេគុណរហូតដល់លំដាប់ 10^6 សម្រាប់រូបភាព 32x32 Convolutional Layer ទាមទារមេគុណនិងអង្គចងចាំតិចជាងឆ្ងាយ។

៣. អនុសាសន៍ (Recommendations)

ផ្អែកលើរបាយការណ៍បច្ចេកទេសនេះ ការអនុវត្តប្រព័ន្ធ CNN គួរតែផ្តោតលើការថ្លឹងថ្លែងរវាងប្រសិទ្ធភាពនៃការសម្គាល់ និងថាមពលដែលប្រព័ន្ធត្រូវប្រើប្រាស់ (Performance vs. Complexity Tradeoff)។

គោលដៅ (Target) សកម្មភាព (Action) អាទិភាព (Priority)
អ្នកអភិវឌ្ឍន៍ប្រព័ន្ធបង្កប់ (Embedded Systems Developers) គួរអនុវត្តបច្ចេកទេសកាត់បន្ថយទំហំម៉ូដែល (Model Optimization) ដូចជា Eigenvalue decomposition និងការកំណត់កម្រិតទិន្នន័យ (16-bit/8-bit Quantization) ដើម្បីកាត់បន្ថយភាពស្មុគស្មាញមុននឹងដាក់ឱ្យដំណើរការលើ Hardware ដែលមានថាមពលតូច។ ខ្ពស់ (High)
ក្រុមហ៊ុនបច្ចេកវិទ្យា និងផលិតករ Hardware (Tech Companies and Hardware Manufacturers) ពិចារណាប្រើប្រាស់បន្ទះឈីបប្រភេទ DSPs ដែលមានមុខងារគណនាស្របគ្នា (ដូចជា VLIW/SIMD architectures) ជាជាងប្រើប្រាស់ CPUs ធម្មតា ដើម្បីបង្កើនល្បឿនដំណើរការប្រព័ន្ធ AI ក៏ដូចជាកាត់បន្ថយការប្រើប្រាស់ថាមពលថ្មលើឧបករណ៍ចល័ត ឬកាមេរ៉ា។ ខ្ពស់ (High)
វិស្វករបញ្ញាសិប្បនិម្មិត (AI/Machine Learning Engineers) អនុវត្តទម្រង់បណ្តាញ CNN បែបឋានានុក្រម (Hierarchical CNNs) ជាជាងបណ្តាញតែមួយ សម្រាប់ការចាត់ថ្នាក់ទិន្នន័យដែលមានច្រើនប្រភេទ និងស្មុគស្មាញ (ដូចជាផ្លាកសញ្ញាចរាចរណ៍) ដើម្បីទទួលបានភាពត្រឹមត្រូវខ្ពស់។ មធ្យម (Medium)

៤. បរិបទកម្ពុជា (Cambodia Context)

របាយការណ៍នេះមានសារៈសំខាន់ខ្លាំងសម្រាប់ប្រទេសកម្ពុជា ស្របពេលដែលរាជរដ្ឋាភិបាលកំពុងជំរុញការអភិវឌ្ឍទីក្រុងឆ្លាតវៃ (Smart Cities) និងប្រព័ន្ធដឹកជញ្ជូនឆ្លាតវៃ។ ការប្រើប្រាស់បច្ចេកវិទ្យា CNN លើឧបករណ៍បង្កប់ (Edge AI) អាចជួយឱ្យកាមេរ៉ាសុវត្ថិភាពអាចធ្វើការវិភាគនិងអនុវត្តច្បាប់ដោយស្វ័យប្រវត្តិ ដោយមិនចាំបាច់ពឹងផ្អែកលើការបញ្ជូនទិន្នន័យទៅម៉ាស៊ីនមេ (Cloud Servers) ដែលអាចសន្សំសំចៃកម្រិតបញ្ជូនអ៊ីនធឺណិតនិងថវិកា។

ផលប៉ះពាល់មូលដ្ឋាន (Local Implications)៖

ការពាំនាំបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតកម្រិតខ្ពស់ (CNNs) មកដំណើរការលើឧបករណ៍ខ្នាតតូច (Edge Devices) គឺជាកត្តាគន្លឹះដែលអាចជួយឱ្យប្រទេសកម្ពុជាអភិវឌ្ឍប្រព័ន្ធស្វ័យប្រវត្តិកម្មក្នុងស្រុកប្រកបដោយឯករាជ្យភាព ប្រសិទ្ធភាពខ្ពស់ និងចំណាយទាប។

៥. ផែនការអនុវត្ត (Implementation Roadmap)

ដើម្បីអនុវត្តតាមអនុសាសន៍នៃរបាយការណ៍នេះ គួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ការស្រាវជ្រាវ និងការប្រមូលទិន្នន័យក្នុងស្រុក (Local Data Collection and Research): បង្កើតគម្រោងស្រាវជ្រាវរួមគ្នារវាងសាកលវិទ្យាល័យ (ឧ. ITC) និងក្រសួងពាក់ព័ន្ធ ដើម្បីប្រមូលសំណុំទិន្នន័យផ្លាកសញ្ញាចរាចរណ៍របស់កម្ពុជា (Cambodian Traffic Sign Dataset) ដែលមានលក្ខណៈស្តង់ដារស្រដៀងនឹង GTSRB សម្រាប់យកមកបង្ហាត់ម៉ូដែល AI។
  2. ការអភិវឌ្ឍម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI Model Development): ក្រុមវិស្វករ AI ក្នុងស្រុកអាចប្រើប្រាស់ក្របខណ្ឌបណ្តាញឋានានុក្រម (Hierarchical CNN architectures) ដើម្បីបង្កើតម៉ូដែលសម្គាល់រូបភាពដែលមានភាពត្រឹមត្រូវខ្ពស់បំផុត និងរៀបចំចងក្រងកូដឱ្យមានលក្ខណៈស្តង់ដារ។
  3. ការបង្រួមទំហំម៉ូដែលសម្រាប់ការប្រើប្រាស់ជាក់ស្តែង (Model Optimization for Edge Devices): អនុវត្តបច្ចេកទេស Quantization (បំប្លែងតួលេខទម្ងន់ពី 32-bit Floating point ទៅជា 16-bit ឬ 8-bit Fixed point) និង Complexity Tradeoff Algorithm ដើម្បីកាត់បន្ថយទំហំម៉ូដែលឱ្យអាចដំណើរការលើបន្ទះឈីបតូចៗបានលឿននិងមិនក្តៅ។
  4. ការសាកល្បងបំពាក់លើឧបករណ៍ Hardware (Hardware Implementation and Pilot Testing): ដំឡើងប្រព័ន្ធ CNN ដែលបានអភិវឌ្ឍរួចទៅលើបន្ទះឈីបប្រភេទ DSPs ឬ AI Microcontrollers នៃកាមេរ៉ាសុវត្ថិភាព រួចធ្វើការសាកល្បងផ្ទាល់នៅតាមទីតាំងគោលដៅ (Pilot Sites) ដូចជាផ្លូវជាតិលេខ១ ឬផ្លូវល្បឿនលឿនភ្នំពេញ-ព្រះសីហនុ។
  5. ការវាយតម្លៃ និងការពង្រីកគម្រោង (Evaluation and Project Expansion): វាយតម្លៃប្រសិទ្ធភាពនៃអត្រាសម្គាល់ (Detection Rate) និងល្បឿនប្រព័ន្ធជាក់ស្តែង។ បន្ទាប់មកសហការជាមួយវិស័យឯកជន រដ្ឋបាលថ្នាក់ក្រោមជាតិ និងរាជរដ្ឋាភិបាល ដើម្បីស្វែងរកការវិនិយោគ និងពង្រីកគម្រោងទៅកាន់ទូទាំងប្រទេស។

៦. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Convolutional Neural Networks (CNNs) ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលពូកែខាងវិភាគទិន្នន័យរូបភាព ដោយវាប្រើប្រាស់ស្រទាប់តម្រង (Filters) ដើម្បីទាញយកលក្ខណៈពិសេស (Features) ដូចជាគែម ជ្រុង ឬរូបរាងពីក្នុងរូបភាព។ ក្នុងន័យអនុវត្ត វាជួយឱ្យកាមេរ៉ាសុវត្ថិភាព ឬប្រព័ន្ធស្វ័យប្រវត្តិអាចស្គាល់វត្ថុ ឬផ្លាកសញ្ញាចរាចរណ៍បានដោយខ្លួនឯងប្រកបដោយភាពត្រឹមត្រូវខ្ពស់។ ដូចជាភ្នែកនិងខួរក្បាលមនុស្សដែលមើលរូបភាពមួយរំពេច ហើយអាចកត់សម្គាល់ដឹងថាវាជារូបអ្វី ដោយពឹងផ្អែកលើការចងចាំរាង និងពណ៌នៃវត្ថុនោះ។
Multiply-Accumulate (MAC) ជាប្រតិបត្តិការគណនាជាមូលដ្ឋាននៅក្នុងប្រព័ន្ធកុំព្យូទ័រ ដែលធ្វើការគុណលេខពីរចូលគ្នា រួចបូកលទ្ធផលនោះទៅនឹងតម្លៃសរុបចាស់។ នៅក្នុង CNNs ចំនួននៃការគណនា MACs (គិតជាលានដង ឬ MMACs) បង្ហាញពីកម្រិតនៃភាពស្មុគស្មាញ និងថាមពលដែលម៉ាស៊ីនត្រូវប្រើដើម្បីសម្គាល់រូបភាពមួយស៊ុម។ ដូចជាការគិតលុយទំនិញច្រើនមុខនៅផ្សារ ដោយយើងយកចំនួនទំនិញគុណនឹងតម្លៃនីមួយៗ រួចបូកបញ្ចូលគ្នាបន្តបន្ទាប់ដើម្បីរកតម្លៃសរុបចុងក្រោយ។
Pooling/subsampling layers ជាស្រទាប់មួយក្នុងបណ្តាញ CNN ដែលមានតួនាទីបង្រួមទំហំវិមាត្រនៃទិន្នន័យរូបភាព ដោយរក្សាទុកតែព័ត៌មានលេចធ្លោបំផុត ដើម្បីកាត់បន្ថយបន្ទុកគណនា និងជួយឱ្យប្រព័ន្ធនៅតែអាចសម្គាល់រូបភាពបាន ទោះបីជារូបភាពនោះមានរាងខូច ឬរំកិលទីតាំងបន្តិចបន្តួចក៏ដោយ។ ដូចជាការសង្ខេបអត្ថបទដ៏វែងមួយឱ្យនៅខ្លី ដោយយកតែចំណុចសំខាន់ៗបំផុត ដើម្បីងាយស្រួលអាននិងចំណាយពេលតិចក្នុងការយល់។
Digital Signal Processor (DSP) ជាបន្ទះឈីបកុំព្យូទ័រដែលត្រូវបានរចនាឡើងជាពិសេសសម្រាប់ការគណនាលេខរហ័ស និងទាមទារថាមពលអគ្គិសនីទាប។ វាស័ក្តិសមបំផុតសម្រាប់ការដំណើរការបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតកែច្នៃរូបភាពនៅលើឧបករណ៍ខ្នាតតូច (Embedded Systems) ដូចជាកាមេរ៉ាវៃឆ្លាត ឬទូរស័ព្ទដៃ ដែលមិនអាចពឹងផ្អែកលើកុំព្យូទ័រធំៗបាន។ ដូចជាអ្នកជំនាញគណិតវិទ្យាដែលប្រើម៉ាស៊ីនគិតលេខពិសេស អាចដោះស្រាយលំហាត់រាប់ពាន់បានក្នុងមួយវិនាទីដោយមិនសូវចំណាយកម្លាំង និងស៊ីភ្លើងតិច។
Rectified Linear Unit (ReLU) ជាអនុគមន៍គណិតវិទ្យា (Activation Function) មួយប្រភេទក្នុងទម្រង់ y = max(x,0) ដែលមានតួនាទីបំប្លែងតម្លៃអវិជ្ជមានទាំងអស់ឱ្យទៅជាសូន្យ ខណៈតម្លៃវិជ្ជមានរក្សាទុកដដែល។ ការប្រើប្រាស់វាជួយឱ្យការបង្ហាត់ម៉ូដែល AI ដើរបានលឿនជាងមុនច្រើនដង និងមិនសូវស្មុគស្មាញដល់ប្រព័ន្ធ។ ដូចជាឧបករណ៍ច្រោះដែលអនុញ្ញាតឱ្យតែទឹកស្អាត (តម្លៃវិជ្ជមាន) ហូរឆ្លងកាត់បាន ចំណែកឯកាកសំណល់ (តម្លៃអវិជ្ជមាន) ត្រូវបិទចោលឱ្យទៅជាសូន្យ។
Eigenvalue Decomposition ជាបច្ចេកទេសគណិតវិទ្យាជាន់ខ្ពស់ដែលត្រូវបានក្រុមហ៊ុនទាញយកមកប្រើដើម្បីបំបែកនិងកាត់បន្ថយវិមាត្រស្មុគស្មាញរបស់ម៉ូដែល CNN ឱ្យមកនៅតូចជាងមុនច្រើនដង។ បច្ចេកទេសនេះមានសារៈសំខាន់សម្រាប់អ្នកអភិវឌ្ឍប្រព័ន្ធ ក្នុងការយកម៉ូដែល AI ធំៗមកដាក់លើឧបករណ៍តូចៗដោយមិនសូវបាត់បង់ភាពត្រឹមត្រូវ។ ដូចជាការរុះរើម៉ាស៊ីនធំមួយហើយដកយកតែគ្រឿងបន្លាស់ស្នូលសំខាន់ៗបំផុត មកដំឡើងជាម៉ាស៊ីនតូចមួយដែលអាចដំណើរការបានស្ទើរតែល្អដូចម៉ាស៊ីនដើមប៉ុន្តែស្រាលជាងមុនឆ្ងាយ។
Very Long Instruction Word (VLIW) ជាស្ថាបត្យកម្មកុំព្យូទ័រ (Architecture) ដែលអនុញ្ញាតឱ្យប្រព័ន្ធអាចបញ្ជាប្រតិបត្តិការគណនាច្រើនមុខក្នុងពេលតែមួយ (Parallel processing) តាមរយៈកូដបញ្ជាតែមួយជួរវែង។ វាជួយបង្កើនល្បឿនដំណើរការរបស់បន្ទះឈីប DSP យ៉ាងខ្លាំងសម្រាប់កិច្ចការស្មុគស្មាញរបស់ AI។ ដូចជាអ្នកចាត់ការម្នាក់ដែលបញ្ជាការងារទៅកម្មករ ៥ នាក់ឱ្យធ្វើកិច្ចការផ្សេងគ្នាក្នុងពេលតែមួយ តាមរយៈការនិយាយបញ្ជាមួយប្រយោគវែងតែម្តងជាការស្រេច។
Fixed-point implementation (Quantization) ការបំប្លែងទិន្នន័យលេខទសភាគដែលមានទំហំធំលម្អិត (Floating-point) ឱ្យទៅជាទិន្នន័យលេខគត់ដែលមានទំហំតូចនិងកំណត់ (ដូចជា 16-bit ឬ 8-bit)។ ក្នុងន័យអនុវត្ត វាជួយកាត់បន្ថយការប្រើប្រាស់អង្គចងចាំ និងសន្សំសំចៃថាមពលថ្មរបស់ឧបករណ៍ ដោយគ្រាន់តែលះបង់ភាពជាក់លាក់នៃលទ្ធផលបន្តិចបន្តួចប៉ុណ្ណោះ។ ដូចជាការបង្គត់ប្រាក់ពី ១០០,៤៥ ដុល្លារ មកត្រឹម ១០០ ដុល្លារគត់ ដើម្បីងាយស្រួលគិតលេខរហ័ស មិនស្មុគស្មាញ និងចំណាយកន្លែងកត់ត្រាតិច។

៧. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖