Original Title: Teacher-Guided One-Shot Pruning via Context-Aware Knowledge Distillation
Source: arxiv.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការកាត់តម្រឹមត្រឹមមួយជំហានដោយមានការណែនាំពីគ្រូ តាមរយៈការចម្រាញ់ចំណេះដឹងផ្អែកលើបរិបទ

ចំណងជើងដើម៖ Teacher-Guided One-Shot Pruning via Context-Aware Knowledge Distillation

អ្នកនិពន្ធ៖ Md. Samiul Alim (North South University), Sharjil Khan (North South University), Amrijit Biswas (North South University), Fuad Rahman (Apurba Technologies), Shafin Rahman (North South University), Nabeel Mohammed (North South University)

ឆ្នាំបោះពុម្ព៖ 2025, arXiv preprint

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការបង្រួមទំហំបណ្ដាញសរសៃប្រសាទជ្រៅ (Deep Neural Networks) ជាទូទៅទាមទារនូវដំណើរការហ្វឹកហាត់និងកាត់តម្រឹមច្រើនដងត្រឡប់ចុះឡើង ដែលធ្វើឱ្យខាតបង់កម្លាំងនិងពេលវេលាគណនាយ៉ាងខ្លាំង។ ឯកសារនេះដោះស្រាយបញ្ហានេះដោយស្នើឡើងនូវការកាត់តម្រឹមតែមួយជំហានដែលមានប្រសិទ្ធភាពខ្ពស់ក្នុងការបង្រួមទំហំម៉ូដែល។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់ក្របខ័ណ្ឌកាត់តម្រឹមថ្មីដោយរួមបញ្ចូលការចម្រាញ់ចំណេះដឹង (Knowledge Distillation) ដោយផ្ទាល់ទៅក្នុងការគណនាពិន្ទុភាពសំខាន់របស់ប៉ារ៉ាម៉ែត្រ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Teacher-Guided One-Shot Pruning via CA-KLD (Proposed)
ការកាត់តម្រឹមត្រឹមមួយជំហានដោយមានការណែនាំពីគ្រូ តាមរយៈការចម្រាញ់ចំណេះដឹង (វិធីសាស្ត្រស្នើឡើង)
មានល្បឿនលឿនដោយសារធ្វើការកាត់តម្រឹមតែមួយជំហាន (One-shot) រក្សាបានភាពត្រឹមត្រូវខ្ពស់ទោះបីជាកាត់បន្ថយទំហំម៉ូដែលយ៉ាងច្រើនក្ដី និងប្រើប្រាស់ចំណេះដឹងពីម៉ូដែលគ្រូដើម្បីរក្សាប៉ារ៉ាម៉ែត្រសំខាន់ៗ។ ទាមទារឱ្យមានម៉ូដែលគ្រូ (Teacher model) ដែលបានហ្វឹកហាត់រួចជាស្រេច ហើយអាចមានការធ្លាក់ចុះភាពត្រឹមត្រូវបន្តិចបន្តួចនៅដំណាក់កាលកាត់តម្រឹមដំបូងមុនពេលហ្វឹកហាត់ឡើងវិញ។ សម្រេចបានភាពត្រឹមត្រូវ 90.79% នៅកម្រិតភាពស្តើង (Sparsity) 98.41% លើទិន្នន័យ CIFAR-10 ដោយប្រើពេលត្រឹមតែ 27.82 នាទី។
COLT (Cyclic Overlapping Lottery Tickets)
ការកាត់តម្រឹមបែបធ្វើឡើងវិញ COLT
ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់ និងជារបកគំហើញដ៏ល្អមួយសម្រាប់វិធីសាស្ត្រកាត់តម្រឹមបែបធ្វើឡើងវិញជាច្រើនជុំ (Iterative pruning)។ ទាមទារពេលវេលាគណនានិងហ្វឹកហាត់យូរខ្លាំងណាស់ (យឺតជាងវិធីសាស្ត្រស្នើឡើងប្រហែល ១០ ដង) ដោយសារត្រូវឆ្លងកាត់វដ្តនៃការហ្វឹកហាត់និងកាត់តម្រឹមច្រើនដង។ សម្រេចបានភាពត្រឹមត្រូវ 92.40% នៅកម្រិតភាពស្តើង 97.7% លើទិន្នន័យ CIFAR-10 ប៉ុន្តែប្រើពេលរហូតដល់ 276 នាទី។
One-Shot LTH (Lottery Ticket Hypothesis)
ការកាត់តម្រឹមមួយជំហាន LTH
ចំណេញពេលវេលាគណនាជាងការធ្វើឡើងវិញច្រើនជុំ និងងាយស្រួលក្នុងការអនុវត្ត។ ទទួលបានភាពត្រឹមត្រូវទាបជាងបើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រដែលមានការណែនាំពីម៉ូដែលគ្រូ ជាពិសេសនៅពេលដែលម៉ូដែលត្រូវបានកាត់បន្ថយទំហំខ្លាំងពេក។ សម្រេចបានភាពត្រឹមត្រូវត្រឹមតែ 89.47% ប៉ុណ្ណោះ នៅកម្រិតភាពស្តើង 98.41% លើទិន្នន័យ CIFAR-10។
Baseline KD Methods (e.g., DLB EPSD, PS-KD)
វិធីសាស្ត្រចម្រាញ់ចំណេះដឹងទូទៅ (DLB EPSD, PS-KD)
ជួយស្តារភាពត្រឹមត្រូវឡើងវិញបានមួយកម្រិតបន្ទាប់ពីការកាត់តម្រឹមម៉ូដែលរួច។ ដោយសារតែការចម្រាញ់ចំណេះដឹងត្រូវបានធ្វើឡើងក្រោយពេលកាត់តម្រឹម វាមិនបានជួយណែនាំតាំងពីដំបូងថាតើប៉ារ៉ាម៉ែត្រណាដែលគួររក្សាទុកនោះទេ ធ្វើឱ្យបាត់បង់ទិន្នន័យសំខាន់ៗ។ វិធីសាស្ត្រស្នើឡើងមានភាពត្រឹមត្រូវខ្ពស់ជាងវិធីសាស្ត្រទាំងនេះចាប់ពី +3.25% ដល់ +10% នៅកម្រិតភាពស្តើងខ្ពស់លើទិន្នន័យ TinyImageNet។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីធនធានកុំព្យូទ័រដែលត្រូវការសម្រាប់ការគណនា និងហ្វឹកហាត់ម៉ូដែល ដោយទាមទារកម្លាំងម៉ាស៊ីនក្រាហ្វិក (GPU) កម្រិតខ្ពស់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានវាយតម្លៃលើសំណុំទិន្នន័យរូបភាពស្តង់ដារអន្តរជាតិ (CIFAR, TinyImageNet) ដែលភាគច្រើនផ្ទុករូបភាពទូទៅដូចជារថយន្ត សត្វ និងវត្ថុប្រើប្រាស់ប្រចាំថ្ងៃបែបបស្ចិមប្រទេស។ សម្រាប់បរិបទប្រទេសកម្ពុជា សំណុំទិន្នន័យទាំងនេះមិនបានឆ្លុះបញ្ចាំងពីលក្ខណៈជាក់ស្តែងក្នុងស្រុកដូចជា ស្លាកលេខរថយន្តកម្ពុជា អក្សរខ្មែរ ឬប្រភេទជំងឺដំណាំក្នុងស្រុកនោះទេ។ ដូច្នេះ ការយកវិធីសាស្ត្រនេះមកអនុវត្ត ទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែមដើម្បីតម្រូវតាមស្ថានភាពជាក់ស្តែង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសនេះមានអត្ថប្រយោជន៍យ៉ាងធំធេងសម្រាប់ការអភិវឌ្ឍបច្ចេកវិទ្យានៅប្រទេសកម្ពុជា ជាពិសេសក្នុងការដាក់ឱ្យប្រើប្រាស់ AI លើឧបករណ៍តូចៗដែលមានធនធានកម្រិតទាប (Edge Devices)។

សរុបមក វិធីសាស្ត្របង្រួមម៉ូដែលនេះជួយឱ្យស្ថាប័នរដ្ឋនិងឯកជននៅកម្ពុជា អាចប្រើប្រាស់បច្ចេកវិទ្យា AI ដ៏ទំនើបនៅលើឧបករណ៍តម្លៃថោក ដោយកាត់បន្ថយការពឹងផ្អែកលើអ៊ីនធឺណិត និងម៉ាស៊ីនមេ (Cloud Servers) ថ្លៃៗ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ូដែល AI និងការបង្រួមទំហំ: និស្សិតគួរចាប់ផ្តើមពីការយល់ដឹងអំពី Convolutional Neural Networks (CNNs) ដូចជាម៉ូដែល ResNet និងស្វែងយល់ពីគោលគំនិតនៃការកាត់តម្រឹម (Pruning) ដោយប្រើប្រាស់បណ្ណាល័យ PyTorch ជាមូលដ្ឋានសម្រាប់ការសរសេរកូដ។
  2. ជំហានទី២៖ ស្វែងយល់និងអនុវត្ត Knowledge Distillation (KD): អនុវត្តការសរសេរកូដដើម្បីផ្ទេរចំណេះដឹងពីម៉ូដែលធំ (Teacher Model) ទៅម៉ូដែលតូច (Student Model) ដោយរៀនពីរបៀបគណនាមុខងារបាត់បង់ដូចជា Kullback-Leibler Divergence (KL Divergence)
  3. ជំហានទី៣៖ ហ្វឹកហាត់កាត់តម្រឹមម៉ូដែលជាមួយទិន្នន័យងាយៗ: សាកល្បងហ្វឹកហាត់ម៉ូដែលដែលកាត់តម្រឹមរួចជាមួយសំណុំទិន្នន័យខ្នាតតូចដូចជា CIFAR-10 តាមរយៈក្របខ័ណ្ឌដែលបានស្នើឡើងក្នុងឯកសារនេះ ដើម្បីស្ទាបស្ទង់ល្បឿននិងភាពត្រឹមត្រូវ។
  4. ជំហានទី៤៖ ប្រមូលនិងរៀបចំសំណុំទិន្នន័យក្នុងស្រុកកម្ពុជា: ចាប់ផ្តើមប្រមូលទិន្នន័យជាក់ស្តែង (ឧទាហរណ៍៖ រូបភាពស្លាកលេខរថយន្តខ្មែរ ឬជំងឺដំណាំ) រួចធ្វើចំណារពន្យល់ដោយប្រើឧបករណ៍ឥតគិតថ្លៃដូចជា RoboflowCVAT
  5. ជំហានទី៥៖ ដាក់ពង្រាយម៉ូដែលលើឧបករណ៍ជាក់ស្តែង (Edge Deployment): ប្រើប្រាស់បច្ចេកវិទ្យាដូចជា ONNX RuntimeTensorFlow Lite ដើម្បីបំប្លែងម៉ូដែលសរសៃប្រសាទដែលបានបង្រួមរួច ហើយដាក់ឱ្យដំណើរការវាលើឧបករណ៍ Raspberry Pi ឬស្មាតហ្វូន Android/iOS។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Knowledge Distillation (KD) ដំណើរការផ្ទេរចំណេះដឹងពីម៉ូដែល AI ធំនិងស្មុគស្មាញ (ហៅថាម៉ូដែលគ្រូ) ទៅកាន់ម៉ូដែល AI តូចនិងសាមញ្ញ (ហៅថាម៉ូដែលសិស្ស) ដើម្បីឱ្យម៉ូដែលតូចអាចមានសមត្ថភាពវិភាគបានល្អប្រហាក់ប្រហែលម៉ូដែលធំ ប៉ុន្តែប្រើប្រាស់ធនធានកុំព្យូទ័រតិចជាង។ ដូចជាសាស្ត្រាចារ្យម្នាក់សង្ខេបមេរៀនពីសៀវភៅក្រាស់ៗរាប់ពាន់ទំព័រ មកជាគន្លឹះខ្លីៗងាយយល់ ដើម្បីបង្រៀនដល់សិស្សកម្រិតមូលដ្ឋានឱ្យឆាប់ចេះអញ្ចឹងដែរ។
One-Shot Pruning វិធីសាស្ត្រក្នុងការកាត់បន្ថយទំហំម៉ូដែល AI ដោយកំណត់និងកាត់ចោលនូវប៉ារ៉ាម៉ែត្រ (ទម្ងន់) ដែលមិនសូវសំខាន់ចេញក្នុងជំហានតែមួយគត់ ជំនួសឱ្យការកាត់បន្តិចម្តងៗនិងហ្វឹកហាត់ឡើងវិញរាប់សិបជុំ ដែលជួយសន្សំសំចៃពេលវេលាគណនាយ៉ាងច្រើន។ ដូចជាជាងកាត់សក់ដែលដឹងច្បាស់ពីម៉ូដដែលត្រូវកាត់ ហើយប្រើកន្ត្រៃកាត់សក់ដែលមិនត្រូវការចោលតែម្តង ជំនួសឱ្យការកាត់តម្រឹមបន្តិចម្តងៗហើយឆ្លុះកញ្ចក់រាប់សិបដង។
Lottery Ticket Hypothesis (LTH) ទ្រឹស្តីក្នុងវិស័យបញ្ញាសិប្បនិម្មិតដែលអះអាងថានៅក្នុងបណ្តាញសរសៃប្រសាទដ៏ធំនិងក្រាស់ឃ្មឹក មានបណ្តាញតូចមួយលាក់ខ្លួននៅខាងក្នុង (ហៅថាសំបុត្រឆ្នោតដែលឈ្នះ) ដែលប្រសិនបើគេអាចរកឃើញនិងហ្វឹកហាត់វាពីដំបូង វាអាចផ្តល់លទ្ធផលល្អស្មើនឹងម៉ូដែលធំដើម។ ដូចជាការទិញសំបុត្រឆ្នោត១ពាន់សន្លឹក ដែលមានតែ១សន្លឹកគត់ត្រូវរង្វាន់ធំ បើយើងដឹងថាសន្លឹកមួយណាពីដំបូង យើងគ្រាន់តែទិញមួយសន្លឹកនោះទៅគឺបានហើយ ដោយមិនបាច់ខាតលុយទិញទាំងអស់នោះទេ។
Context-Aware Kullback-Leibler Divergence (CA-KLD) រូបមន្តគណនាភាពលម្អៀងកម្រិតខ្ពស់ ដែលវាស់ស្ទង់ភាពខុសគ្នារវាងការទស្សន៍ទាយរបស់ម៉ូដែលគ្រូនិងសិស្ស ដោយពិចារណាទាំងភាពជឿជាក់ (Confidence) និងភាពមិនប្រាកដប្រជា (Uncertainty) របស់ម៉ូដែលគ្រូ ដើម្បីជួយណែនាំម៉ូដែលសិស្សឱ្យរៀនបានកាន់តែសុក្រឹតនិងមានស្ថិរភាព។ ដូចជាឧបករណ៍វាស់កម្រិតភាពស្រដៀងគ្នានៃចម្លើយសិស្សនិងគ្រូ ដោយមិនត្រឹមតែមើលថាសិស្សឆ្លើយត្រូវឬខុសតាមគ្រូទេ តែមើលថាតើសិស្សមានកម្រិតភាពជឿជាក់លើចម្លើយនោះដូចគ្រូដែរឬទេ។
Unstructured Pruning ការកាត់តម្រឹមឬលុបចោលទម្ងន់ប៉ារ៉ាម៉ែត្រ (Weights) នីមួយៗរបស់ម៉ូដែលកុំព្យូទ័រ ដែលមិនមានសារៈសំខាន់ចោលដោយសេរី ដោយមិនខ្វល់ពីការរក្សារចនាសម្ព័ន្ធដើម (ដូចជាមិនចាំបាច់លុបចោលទាំងស្រទាប់ ឬទាំងបណ្តុំ) ឡើយ ដើម្បីទទួលបានកម្រិតនៃការបង្រួមខ្ពស់បំផុត។ ដូចជាការបេះតែស្លឹកឈើដែលងាប់ៗចេញពីមែកឈើនីមួយៗ ជំនួសឱ្យការកាប់ចោលទាំងមែកតែម្តង។
Exponential Moving Average (EMA) វិធីសាស្ត្រគណនាមធ្យមភាគដែលផ្តល់ទម្ងន់តម្លៃខ្ពស់ជាងទៅលើទិន្នន័យថ្មីៗបំផុត ដើម្បីធ្វើឱ្យការប្រែប្រួលទិន្នន័យមានភាពរលូន និងកាត់បន្ថយការរំខាន ឬភាពលោតចុះឡើងញឹកញាប់ (Noise) កំឡុងពេលកំពុងគណនាពិន្ទុភាពសំខាន់របស់ប៉ារ៉ាម៉ែត្រ។ ដូចជាការវាយតម្លៃសមត្ថភាពសិស្សម្នាក់ដោយផ្អែកលើពិន្ទុប្រឡងខែចុងក្រោយចំនួនច្រើនជាងពិន្ទុដែលគេធ្លាប់ទទួលបានកាលពីដើមឆ្នាំឆ្ងាយណាស់។
Logit Normalization ដំណើរការគណនាកែតម្រូវទិន្នន័យលទ្ធផលឆៅ (Logits) របស់ម៉ូដែលមុននឹងឆ្លងកាត់អនុគមន៍ប្រូបាប៊ីលីតេ ដើម្បីកាត់បន្ថយភាពខុសគ្នានៃទំហំទិន្នន័យ និងធានាថាសញ្ញានៃការរៀនសូត្រពីម៉ូដែលគ្រូមានស្ថិរភាពមិនលោតខុសខ្នាតពេក។ ដូចជាការកែតម្រូវប្រព័ន្ធពិន្ទុនៃការប្រកួតពីរមុខវិជ្ជាផ្សេងគ្នា ដែលមុខវិជ្ជាមួយពិន្ទុពេញ១០ ឯមួយទៀតពេញ១០០០ ឱ្យមកស្ថិតក្នុងស្តង់ដារពិន្ទុពេញ១០០ដូចគ្នា ដើម្បីងាយស្រួលធ្វើការប្រៀបធៀប។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖