បញ្ហា (The Problem)៖ ការបង្រួមទំហំបណ្ដាញសរសៃប្រសាទជ្រៅ (Deep Neural Networks) ជាទូទៅទាមទារនូវដំណើរការហ្វឹកហាត់និងកាត់តម្រឹមច្រើនដងត្រឡប់ចុះឡើង ដែលធ្វើឱ្យខាតបង់កម្លាំងនិងពេលវេលាគណនាយ៉ាងខ្លាំង។ ឯកសារនេះដោះស្រាយបញ្ហានេះដោយស្នើឡើងនូវការកាត់តម្រឹមតែមួយជំហានដែលមានប្រសិទ្ធភាពខ្ពស់ក្នុងការបង្រួមទំហំម៉ូដែល។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់ក្របខ័ណ្ឌកាត់តម្រឹមថ្មីដោយរួមបញ្ចូលការចម្រាញ់ចំណេះដឹង (Knowledge Distillation) ដោយផ្ទាល់ទៅក្នុងការគណនាពិន្ទុភាពសំខាន់របស់ប៉ារ៉ាម៉ែត្រ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Teacher-Guided One-Shot Pruning via CA-KLD (Proposed) ការកាត់តម្រឹមត្រឹមមួយជំហានដោយមានការណែនាំពីគ្រូ តាមរយៈការចម្រាញ់ចំណេះដឹង (វិធីសាស្ត្រស្នើឡើង) |
មានល្បឿនលឿនដោយសារធ្វើការកាត់តម្រឹមតែមួយជំហាន (One-shot) រក្សាបានភាពត្រឹមត្រូវខ្ពស់ទោះបីជាកាត់បន្ថយទំហំម៉ូដែលយ៉ាងច្រើនក្ដី និងប្រើប្រាស់ចំណេះដឹងពីម៉ូដែលគ្រូដើម្បីរក្សាប៉ារ៉ាម៉ែត្រសំខាន់ៗ។ | ទាមទារឱ្យមានម៉ូដែលគ្រូ (Teacher model) ដែលបានហ្វឹកហាត់រួចជាស្រេច ហើយអាចមានការធ្លាក់ចុះភាពត្រឹមត្រូវបន្តិចបន្តួចនៅដំណាក់កាលកាត់តម្រឹមដំបូងមុនពេលហ្វឹកហាត់ឡើងវិញ។ | សម្រេចបានភាពត្រឹមត្រូវ 90.79% នៅកម្រិតភាពស្តើង (Sparsity) 98.41% លើទិន្នន័យ CIFAR-10 ដោយប្រើពេលត្រឹមតែ 27.82 នាទី។ |
| COLT (Cyclic Overlapping Lottery Tickets) ការកាត់តម្រឹមបែបធ្វើឡើងវិញ COLT |
ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់ និងជារបកគំហើញដ៏ល្អមួយសម្រាប់វិធីសាស្ត្រកាត់តម្រឹមបែបធ្វើឡើងវិញជាច្រើនជុំ (Iterative pruning)។ | ទាមទារពេលវេលាគណនានិងហ្វឹកហាត់យូរខ្លាំងណាស់ (យឺតជាងវិធីសាស្ត្រស្នើឡើងប្រហែល ១០ ដង) ដោយសារត្រូវឆ្លងកាត់វដ្តនៃការហ្វឹកហាត់និងកាត់តម្រឹមច្រើនដង។ | សម្រេចបានភាពត្រឹមត្រូវ 92.40% នៅកម្រិតភាពស្តើង 97.7% លើទិន្នន័យ CIFAR-10 ប៉ុន្តែប្រើពេលរហូតដល់ 276 នាទី។ |
| One-Shot LTH (Lottery Ticket Hypothesis) ការកាត់តម្រឹមមួយជំហាន LTH |
ចំណេញពេលវេលាគណនាជាងការធ្វើឡើងវិញច្រើនជុំ និងងាយស្រួលក្នុងការអនុវត្ត។ | ទទួលបានភាពត្រឹមត្រូវទាបជាងបើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រដែលមានការណែនាំពីម៉ូដែលគ្រូ ជាពិសេសនៅពេលដែលម៉ូដែលត្រូវបានកាត់បន្ថយទំហំខ្លាំងពេក។ | សម្រេចបានភាពត្រឹមត្រូវត្រឹមតែ 89.47% ប៉ុណ្ណោះ នៅកម្រិតភាពស្តើង 98.41% លើទិន្នន័យ CIFAR-10។ |
| Baseline KD Methods (e.g., DLB EPSD, PS-KD) វិធីសាស្ត្រចម្រាញ់ចំណេះដឹងទូទៅ (DLB EPSD, PS-KD) |
ជួយស្តារភាពត្រឹមត្រូវឡើងវិញបានមួយកម្រិតបន្ទាប់ពីការកាត់តម្រឹមម៉ូដែលរួច។ | ដោយសារតែការចម្រាញ់ចំណេះដឹងត្រូវបានធ្វើឡើងក្រោយពេលកាត់តម្រឹម វាមិនបានជួយណែនាំតាំងពីដំបូងថាតើប៉ារ៉ាម៉ែត្រណាដែលគួររក្សាទុកនោះទេ ធ្វើឱ្យបាត់បង់ទិន្នន័យសំខាន់ៗ។ | វិធីសាស្ត្រស្នើឡើងមានភាពត្រឹមត្រូវខ្ពស់ជាងវិធីសាស្ត្រទាំងនេះចាប់ពី +3.25% ដល់ +10% នៅកម្រិតភាពស្តើងខ្ពស់លើទិន្នន័យ TinyImageNet។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីធនធានកុំព្យូទ័រដែលត្រូវការសម្រាប់ការគណនា និងហ្វឹកហាត់ម៉ូដែល ដោយទាមទារកម្លាំងម៉ាស៊ីនក្រាហ្វិក (GPU) កម្រិតខ្ពស់។
ការសិក្សានេះត្រូវបានវាយតម្លៃលើសំណុំទិន្នន័យរូបភាពស្តង់ដារអន្តរជាតិ (CIFAR, TinyImageNet) ដែលភាគច្រើនផ្ទុករូបភាពទូទៅដូចជារថយន្ត សត្វ និងវត្ថុប្រើប្រាស់ប្រចាំថ្ងៃបែបបស្ចិមប្រទេស។ សម្រាប់បរិបទប្រទេសកម្ពុជា សំណុំទិន្នន័យទាំងនេះមិនបានឆ្លុះបញ្ចាំងពីលក្ខណៈជាក់ស្តែងក្នុងស្រុកដូចជា ស្លាកលេខរថយន្តកម្ពុជា អក្សរខ្មែរ ឬប្រភេទជំងឺដំណាំក្នុងស្រុកនោះទេ។ ដូច្នេះ ការយកវិធីសាស្ត្រនេះមកអនុវត្ត ទាមទារឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែមដើម្បីតម្រូវតាមស្ថានភាពជាក់ស្តែង។
បច្ចេកទេសនេះមានអត្ថប្រយោជន៍យ៉ាងធំធេងសម្រាប់ការអភិវឌ្ឍបច្ចេកវិទ្យានៅប្រទេសកម្ពុជា ជាពិសេសក្នុងការដាក់ឱ្យប្រើប្រាស់ AI លើឧបករណ៍តូចៗដែលមានធនធានកម្រិតទាប (Edge Devices)។
សរុបមក វិធីសាស្ត្របង្រួមម៉ូដែលនេះជួយឱ្យស្ថាប័នរដ្ឋនិងឯកជននៅកម្ពុជា អាចប្រើប្រាស់បច្ចេកវិទ្យា AI ដ៏ទំនើបនៅលើឧបករណ៍តម្លៃថោក ដោយកាត់បន្ថយការពឹងផ្អែកលើអ៊ីនធឺណិត និងម៉ាស៊ីនមេ (Cloud Servers) ថ្លៃៗ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Knowledge Distillation (KD) | ដំណើរការផ្ទេរចំណេះដឹងពីម៉ូដែល AI ធំនិងស្មុគស្មាញ (ហៅថាម៉ូដែលគ្រូ) ទៅកាន់ម៉ូដែល AI តូចនិងសាមញ្ញ (ហៅថាម៉ូដែលសិស្ស) ដើម្បីឱ្យម៉ូដែលតូចអាចមានសមត្ថភាពវិភាគបានល្អប្រហាក់ប្រហែលម៉ូដែលធំ ប៉ុន្តែប្រើប្រាស់ធនធានកុំព្យូទ័រតិចជាង។ | ដូចជាសាស្ត្រាចារ្យម្នាក់សង្ខេបមេរៀនពីសៀវភៅក្រាស់ៗរាប់ពាន់ទំព័រ មកជាគន្លឹះខ្លីៗងាយយល់ ដើម្បីបង្រៀនដល់សិស្សកម្រិតមូលដ្ឋានឱ្យឆាប់ចេះអញ្ចឹងដែរ។ |
| One-Shot Pruning | វិធីសាស្ត្រក្នុងការកាត់បន្ថយទំហំម៉ូដែល AI ដោយកំណត់និងកាត់ចោលនូវប៉ារ៉ាម៉ែត្រ (ទម្ងន់) ដែលមិនសូវសំខាន់ចេញក្នុងជំហានតែមួយគត់ ជំនួសឱ្យការកាត់បន្តិចម្តងៗនិងហ្វឹកហាត់ឡើងវិញរាប់សិបជុំ ដែលជួយសន្សំសំចៃពេលវេលាគណនាយ៉ាងច្រើន។ | ដូចជាជាងកាត់សក់ដែលដឹងច្បាស់ពីម៉ូដដែលត្រូវកាត់ ហើយប្រើកន្ត្រៃកាត់សក់ដែលមិនត្រូវការចោលតែម្តង ជំនួសឱ្យការកាត់តម្រឹមបន្តិចម្តងៗហើយឆ្លុះកញ្ចក់រាប់សិបដង។ |
| Lottery Ticket Hypothesis (LTH) | ទ្រឹស្តីក្នុងវិស័យបញ្ញាសិប្បនិម្មិតដែលអះអាងថានៅក្នុងបណ្តាញសរសៃប្រសាទដ៏ធំនិងក្រាស់ឃ្មឹក មានបណ្តាញតូចមួយលាក់ខ្លួននៅខាងក្នុង (ហៅថាសំបុត្រឆ្នោតដែលឈ្នះ) ដែលប្រសិនបើគេអាចរកឃើញនិងហ្វឹកហាត់វាពីដំបូង វាអាចផ្តល់លទ្ធផលល្អស្មើនឹងម៉ូដែលធំដើម។ | ដូចជាការទិញសំបុត្រឆ្នោត១ពាន់សន្លឹក ដែលមានតែ១សន្លឹកគត់ត្រូវរង្វាន់ធំ បើយើងដឹងថាសន្លឹកមួយណាពីដំបូង យើងគ្រាន់តែទិញមួយសន្លឹកនោះទៅគឺបានហើយ ដោយមិនបាច់ខាតលុយទិញទាំងអស់នោះទេ។ |
| Context-Aware Kullback-Leibler Divergence (CA-KLD) | រូបមន្តគណនាភាពលម្អៀងកម្រិតខ្ពស់ ដែលវាស់ស្ទង់ភាពខុសគ្នារវាងការទស្សន៍ទាយរបស់ម៉ូដែលគ្រូនិងសិស្ស ដោយពិចារណាទាំងភាពជឿជាក់ (Confidence) និងភាពមិនប្រាកដប្រជា (Uncertainty) របស់ម៉ូដែលគ្រូ ដើម្បីជួយណែនាំម៉ូដែលសិស្សឱ្យរៀនបានកាន់តែសុក្រឹតនិងមានស្ថិរភាព។ | ដូចជាឧបករណ៍វាស់កម្រិតភាពស្រដៀងគ្នានៃចម្លើយសិស្សនិងគ្រូ ដោយមិនត្រឹមតែមើលថាសិស្សឆ្លើយត្រូវឬខុសតាមគ្រូទេ តែមើលថាតើសិស្សមានកម្រិតភាពជឿជាក់លើចម្លើយនោះដូចគ្រូដែរឬទេ។ |
| Unstructured Pruning | ការកាត់តម្រឹមឬលុបចោលទម្ងន់ប៉ារ៉ាម៉ែត្រ (Weights) នីមួយៗរបស់ម៉ូដែលកុំព្យូទ័រ ដែលមិនមានសារៈសំខាន់ចោលដោយសេរី ដោយមិនខ្វល់ពីការរក្សារចនាសម្ព័ន្ធដើម (ដូចជាមិនចាំបាច់លុបចោលទាំងស្រទាប់ ឬទាំងបណ្តុំ) ឡើយ ដើម្បីទទួលបានកម្រិតនៃការបង្រួមខ្ពស់បំផុត។ | ដូចជាការបេះតែស្លឹកឈើដែលងាប់ៗចេញពីមែកឈើនីមួយៗ ជំនួសឱ្យការកាប់ចោលទាំងមែកតែម្តង។ |
| Exponential Moving Average (EMA) | វិធីសាស្ត្រគណនាមធ្យមភាគដែលផ្តល់ទម្ងន់តម្លៃខ្ពស់ជាងទៅលើទិន្នន័យថ្មីៗបំផុត ដើម្បីធ្វើឱ្យការប្រែប្រួលទិន្នន័យមានភាពរលូន និងកាត់បន្ថយការរំខាន ឬភាពលោតចុះឡើងញឹកញាប់ (Noise) កំឡុងពេលកំពុងគណនាពិន្ទុភាពសំខាន់របស់ប៉ារ៉ាម៉ែត្រ។ | ដូចជាការវាយតម្លៃសមត្ថភាពសិស្សម្នាក់ដោយផ្អែកលើពិន្ទុប្រឡងខែចុងក្រោយចំនួនច្រើនជាងពិន្ទុដែលគេធ្លាប់ទទួលបានកាលពីដើមឆ្នាំឆ្ងាយណាស់។ |
| Logit Normalization | ដំណើរការគណនាកែតម្រូវទិន្នន័យលទ្ធផលឆៅ (Logits) របស់ម៉ូដែលមុននឹងឆ្លងកាត់អនុគមន៍ប្រូបាប៊ីលីតេ ដើម្បីកាត់បន្ថយភាពខុសគ្នានៃទំហំទិន្នន័យ និងធានាថាសញ្ញានៃការរៀនសូត្រពីម៉ូដែលគ្រូមានស្ថិរភាពមិនលោតខុសខ្នាតពេក។ | ដូចជាការកែតម្រូវប្រព័ន្ធពិន្ទុនៃការប្រកួតពីរមុខវិជ្ជាផ្សេងគ្នា ដែលមុខវិជ្ជាមួយពិន្ទុពេញ១០ ឯមួយទៀតពេញ១០០០ ឱ្យមកស្ថិតក្នុងស្តង់ដារពិន្ទុពេញ១០០ដូចគ្នា ដើម្បីងាយស្រួលធ្វើការប្រៀបធៀប។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖