បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាដែលម៉ូដែល Deep Learning ធំៗមានភាពសុក្រឹតខ្ពស់តែមានរចនាសម្ព័ន្ធស្មុគស្មាញ និងដំណើរការយឺតសម្រាប់ការវិភាគពេលវេលាជាក់ស្តែង (Real-time) ខណៈដែលម៉ូដែលតូចស្រាល (Lightweight models) មានដំណើរការលឿនតែមិនមានភាពសុក្រឹតគ្រប់គ្រាន់សម្រាប់ការកំណត់អត្តសញ្ញាណជំងឺស្លឹកកាហ្វេ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវការរួមបញ្ចូលគ្នានៃការរៀនបន្ត (Transfer Learning) និងការចម្រាញ់ចំណេះដឹង (Knowledge Distillation) ដើម្បីបង្វឹកម៉ូដែលសិស្សដែលមានទំហំតូចដោយប្រើប្រាស់ចំណេះដឹងពីម៉ូដែលគ្រូដែលមានភាពស្មុគស្មាញ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Support Vector Machine (SVM) ក្បួនដោះស្រាយ SVM (Support Vector Machine) |
មានល្បឿនក្នុងការគណនាលឿនបំផុតក្នុងចំណោមម៉ូដែលដែលបានធ្វើតេស្ត។ ស័ក្តិសមសម្រាប់កិច្ចការងាររៀនម៉ាស៊ីន (Machine Learning) បែបសាមញ្ញ។ | អត្រាភាពសុក្រឹតនៅមានកម្រិតទាប មិនអាចធ្វើការទាញយកលក្ខណៈពិសេស (Feature extraction) ពីរូបភាពស្មុគស្មាញបានល្អនោះទេ។ | អត្រាភាពសុក្រឹត ៨៧.៩១% ជាមួយនឹងល្បឿនគណនា ០.០២៣ វិនាទី។ |
| VGG with pre-trained weights (Teacher Model) បណ្ដាញ VGG ដែលមានទម្ងន់ហ្វឹកហាត់ជាមុន (ម៉ូដែលគ្រូ) |
មានភាពសុក្រឹតខ្ពស់បំផុតក្នុងការកំណត់អត្តសញ្ញាណជំងឺ ដោយសារវាមានរចនាសម្ព័ន្ធជ្រៅ (Deep network) និងបានរៀនពីទិន្នន័យ ImageNet ដ៏ធំ។ | មានទំហំធំ និងចំនួនប៉ារ៉ាម៉ែត្ររហូតដល់ ១០០លាន ធ្វើឱ្យល្បឿននៃការគណនាយឺត ដែលមិនស័ក្តិសមសម្រាប់ការវិភាគក្នុងពេលវេលាជាក់ស្តែង (Real-time analysis)។ | អត្រាភាពសុក្រឹត ៩៧.៩៨% ជាមួយនឹងល្បឿនគណនា ១.២៩៧ វិនាទី។ |
| Directly Trained Lightweight Model ម៉ូដែលស្រាលបង្វឹកដោយផ្ទាល់ |
មានទំហំតូច និងល្បឿនក្នុងការគណនាលឿន ដែលងាយស្រួលក្នុងការដំណើរការលើឧបករណ៍ខ្នាតតូច។ | ដោយសារតែរចនាសម្ព័ន្ធតូច វាពិបាកក្នុងការចាប់យកលក្ខណៈពិសេសរបស់រូបភាពបានស៊ីជម្រៅ ដែលបណ្តាលឱ្យភាពសុក្រឹតធ្លាក់ចុះច្រើន។ | អត្រាភាពសុក្រឹត ៩២.៤៤% ជាមួយនឹងល្បឿនគណនា ០.០៦៥ វិនាទី។ |
| Proposed Model (Knowledge Distillation) ម៉ូដែលស្នើឡើង (តាមរយៈការចម្រាញ់ចំណេះដឹង) |
ទទួលយកបាននូវលក្ខណៈពិសេសដែលស្រង់ចេញពីម៉ូដែលគ្រូ ធ្វើឱ្យវាមានភាពសុក្រឹតខ្ពស់កៀកនឹងម៉ូដែល VGG ព្រមទាំងរក្សាបានល្បឿនលឿនក្នុងការគណនា។ | ទាមទារពេលវេលា និងកម្លាំងម៉ាស៊ីនដើម្បីហ្វឹកហាត់ម៉ូដែលគ្រូជាមុនសិន ទើបអាចផ្ទេរចំណេះដឹងមកម៉ូដែលសិស្សនេះបាន។ | អត្រាភាពសុក្រឹត ៩៦.៧៣% ជាមួយនឹងល្បឿនគណនា ០.០៦៩ វិនាទី។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រមធ្យមទៅខ្ពស់សម្រាប់វគ្គបង្វឹកម៉ូដែលគ្រូ (Teacher model) ដំបូង ប៉ុន្តែម៉ូដែលចុងក្រោយអាចដំណើរការបានយ៉ាងរលូនលើឧបករណ៍ដែលមានធនធានទាប។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យរូបភាពស្លឹកកាហ្វេដែលមាន ៥ លក្ខខណ្ឌ (មានសុខភាពល្អ, ពណ៌ត្នោត, ស្វិត, មានប្រហោង, មានស្នាមអុចៗ) ប៉ុន្តែមិនបានបញ្ជាក់ពីទីតាំងភូមិសាស្ត្រនៃការប្រមូលទិន្នន័យច្បាស់លាស់ទេ។ សម្រាប់ប្រទេសកម្ពុជា ការយកម៉ូដែលនេះមកប្រើប្រាស់ផ្ទាល់អាចប្រឈមនឹងបញ្ហាភាពខុសគ្នានៃប្រភេទពូជកាហ្វេ អាកាសធាតុ និងសំបុកមេរោគប្រចាំតំបន់ ដូច្នេះទាមទារការប្រមូលទិន្នន័យបន្ថែមនៅក្នុងស្រុកដើម្បីធ្វើការ Fine-tune ឱ្យត្រូវនឹងបរិបទកម្ពុជា។
វិធីសាស្ត្រ Knowledge Distillation ដែលផ្តល់នូវម៉ូដែលស្រាលនិងសុក្រឹតខ្ពស់នេះ មានសក្តានុពលខ្លាំងក្នុងការអភិវឌ្ឍកម្មវិធីទូរស័ព្ទដៃសម្រាប់វិស័យកសិកម្មនៅកម្ពុជា។
ជារួម ការផ្លាស់ប្តូរពីម៉ូដែលធំ និងស្មុគស្មាញ ទៅជាម៉ូដែលតូចស្រាល គឺជាគន្លឹះដ៏សំខាន់ដែលអនុញ្ញាតឱ្យបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត (AI) អាចជ្រៀតចូលទៅដល់ដៃកសិករខ្មែរនៅតំបន់ដាច់ស្រយាលតាមរយៈស្មាតហ្វូនធម្មតា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Transfer Learning | ជាវិធីសាស្ត្រមួយក្នុងបញ្ញាសិប្បនិម្មិត (AI) ដែលយកម៉ូដែលធ្លាប់បានហ្វឹកហាត់រួចនៅលើទិន្នន័យដ៏ធំ (ឧទាហរណ៍ ទិន្នន័យ ImageNet ដែលមានរូបភាពរាប់លាន) មកប្រើប្រាស់ និងកែសម្រួលបន្ថែមបន្តិចបន្តួច ដើម្បីដោះស្រាយបញ្ហាថ្មីមួយទៀតដែលមានទិន្នន័យតិចជាង (ឧទាហរណ៍ ការសម្គាល់ជំងឺស្លឹកកាហ្វេ)។ វាជួយសន្សំពេលវេលា និងធនធានកុំព្យូទ័រក្នុងការហ្វឹកហាត់តាំងពីចំណុចសូន្យមក។ | ដូចជាមនុស្សម្នាក់ដែលចេះជិះកង់រួចហើយ យកជំនាញរក្សាលំនឹងនោះទៅរៀនជិះម៉ូតូ ដែលធ្វើឱ្យគាត់ឆាប់ចេះជាងអ្នកមិនធ្លាប់មានមូលដ្ឋានជិះកង់សោះ។ |
| Knowledge distillation | ជាបច្ចេកទេសបង្រួមទំហំម៉ូដែល ដោយបង្ហាត់ម៉ូដែលតូចនិងស្រាល (Student network) ឱ្យរៀនយកតម្រាប់តាមរបៀបគិត និងការវាយតម្លៃរបស់ម៉ូដែលធំនិងស្មុគស្មាញ (Teacher network)។ លទ្ធផលគឺយើងទទួលបានម៉ូដែលខ្នាតតូចដែលមានល្បឿនលឿនសម្រាប់ការប្រើប្រាស់ជាក់ស្តែង តែនៅរក្សាភាពសុក្រឹតបានខ្ពស់កៀកនឹងម៉ូដែលធំ។ | ដូចជាសិស្សរៀនសង្ខេបមេរៀន និងស្រូបយកចំណេះដឹងពីសាស្ត្រាចារ្យដែលមានបទពិសោធន៍ច្រើនឆ្នាំ មកចងក្រងទុកក្នុងខួរក្បាលខ្លួនឯង ដើម្បីអាចដោះស្រាយលំហាត់បានលឿននិងត្រឹមត្រូវដោយមិនបាច់បើកសៀវភៅក្រាស់ៗ។ |
| Mean filtering | ជាបច្ចេកទេសកែច្នៃរូបភាពជាមុន (Preprocessing) ដោយយកតម្លៃមធ្យមនៃភីកសែល (Pixels) ដែលនៅជុំវិញភីកសែលគោលដៅ មកជំនួសតម្លៃដើមរបស់វា។ គោលបំណងគឺដើម្បីលុបបំបាត់ស្នាមអុចៗ ឬសំឡេងរំខាន (Noise) លើរូបភាពដើម ធ្វើឱ្យរូបភាពមានភាពរលោង និងងាយស្រួលក្នុងការទាញយកលក្ខណៈពិសេសជាងមុន។ | ដូចជាការយកក្រណាត់មកជូតសម្អាតកញ្ចក់ដែលមានស្នាមប្រឡាក់តូចៗ ដើម្បីឱ្យយើងអាចមើលឃើញទេសភាពខាងក្រៅបានច្បាស់ល្អ។ |
| convolution layer | ជាស្រទាប់គណនាសំខាន់នៅក្នុងប្រព័ន្ធបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (CNN) ដែលដើរតួជាអ្នកស្កេនរូបភាពទាំងមូលដើម្បីទាញយកលក្ខណៈពិសេសៗ (Features) ពីរូបភាព ដូចជា គែមបន្ទាត់, ពណ៌, ទម្រង់រាង, ឬស្នាមជំងឺតូចៗនៅលើស្លឹកឈើ សម្រាប់យកទៅវិភាគនៅស្រទាប់បន្ទាប់។ | ដូចជាការប្រើកែវពង្រីក (Magnifying glass) ដើម្បីឆ្លុះមើលរាល់ជ្រុងនៃផ្ទាំងគំនូរមួយ ដើម្បីស្វែងរកចំណុចលម្អិតប្លែកៗដែលភ្នែកធម្មតាមើលរំលង។ |
| overfitting | ជាបញ្ហាមួយនៅពេលដែលម៉ូដែល AI រៀនទន្ទេញចាំទិន្នន័យហ្វឹកហាត់ (Training data) ជ្រុលពេក រហូតដល់វាទទួលបានលទ្ធផលល្អឥតខ្ចោះលើទិន្នន័យចាស់ដែលវាធ្លាប់ឃើញ តែបែរជាមិនអាចទស្សន៍ទាយទិន្នន័យថ្មីៗបានត្រឹមត្រូវ។ នៅក្នុងឯកសារនេះ គេប្រើ Dropout layer ដើម្បីទប់ស្កាត់បញ្ហានេះមិនឱ្យកើតមាន។ | ដូចជាសិស្សដែលខំទន្ទេញចាំវិញ្ញាសាចាស់ៗដើម្បីប្រឡងបានពិន្ទុល្អ ប៉ុន្តែពេលប្រឡងពិតប្រាកដជួបលំហាត់ថ្មីដែលគ្រូគ្រាន់តែប្តូរលេខ បែរជាធ្វើមិនចេញទាល់តែសោះ។ |
| SoftMax function | ជាអនុគមន៍គណិតវិទ្យាដែលប្រើនៅស្រទាប់ចុងក្រោយបង្អស់របស់ម៉ូដែល ដើម្បីបំប្លែងលទ្ធផលលេខធម្មតា ទៅជាតម្លៃប្រូបាប៊ីលីតេ (Probability) ចន្លោះពី ០ ទៅ ១ សម្រាប់ចំណាត់ថ្នាក់នីមួយៗ (ឧទាហរណ៍ ភាគរយនៃជំងឺទាំង ៥ ប្រភេទ)។ តម្លៃសរុបនៃប្រូបាប៊ីលីតេទាំងអស់បូកចូលគ្នាគឺស្មើនឹង ១ (ឬ ១០០%)។ | ដូចជាការបែងចែកនំមួយដុំធំ (១០០%) ទៅឱ្យមនុស្ស ៥ នាក់ ដោយផ្អែកលើទំហំនៃការឃ្លានរបស់ពួកគេម្នាក់ៗ អ្នកឃ្លានខ្លាំងបានចំណែកធំជាងគេ។ |
| cross-entropy loss | ជាអនុគមន៍សម្រាប់គណនារង្វាស់នៃកំហុស (Error) រវាងលទ្ធផលដែលម៉ូដែលបានទស្សន៍ទាយ និងចម្លើយពិតប្រាកដ។ វាជួយឱ្យម៉ូដែលដឹងថាខ្លួនឯងទាយខុសកម្រិតណា ដើម្បីយកកំហុសនោះទៅកែតម្រូវទម្ងន់ប៉ារ៉ាម៉ែត្រក្នុងការរៀនសូត្រនៅជុំបន្ទាប់ឱ្យកាន់តែសុក្រឹតជាងមុន។ | ដូចជាការដាក់ពិន្ទុផាកពិន័យដល់អ្នកបាញ់ធ្នូ ប្រសិនបើគាត់បាញ់ខុសគោលដៅកាន់តែឆ្ងាយ គាត់នឹងត្រូវពិន័យកាន់តែធ្ងន់ ដើម្បីរំលឹកឱ្យគាត់ប្រយ័ត្ន និងកែតម្រូវដៃនៅពេលបាញ់លើកក្រោយ។ |
| T-SNE visualization | ជាក្បួនដោះស្រាយសម្រាប់កាត់បន្ថយវិមាត្រទិន្នន័យ (Dimensionality reduction) ពីកម្រិតខ្ពស់និងស្មុគស្មាញ មកនៅត្រឹម ២ ឬ ៣ វិមាត្រដែលអាចមើលឃើញនឹងភ្នែកបាន ដើម្បីគូរជាគំនូសតាងចំណុចសាច (Scatter plot) បង្ហាញពីរបៀបដែលម៉ូដែលបានញែកក្រុមទិន្នន័យនៃជំងឺផ្សេងៗគ្នាដាច់ពីគ្នាបានល្អកម្រិតណា។ | ដូចជាការថតរូបសំបុកសត្វស្លាបពីលើអាកាស (២ វិមាត្រ) ដើម្បីមើលពីទីតាំងនិងការប្រមូលផ្តុំរបស់ពួកវា ជាជាងការដើររាប់ពួកវានៅលើដើមឈើផ្ទាល់ (៣ វិមាត្រ) ដែលមានភាពស្មុគស្មាញក្នុងការសង្កេតជារួម។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖