បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការប្រើប្រាស់ប៉ារ៉ាម៉ែត្រនិងអង្គចងចាំច្រើនហួសហេតុនៃម៉ូដែល Convolutional Neural Network (CNN) ដែលធ្វើឱ្យពិបាកក្នុងការដាក់ពង្រាយកម្មវិធីសម្គាល់ជំងឺស្លឹកស្រូវដោយស្វ័យប្រវត្តិនៅលើឧបករណ៍ចល័ត។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវម៉ូដែលសម្គាល់ធុនស្រាល ដោយប្រើប្រាស់បណ្ដាញ VGG ជាមូលដ្ឋាន រួមបញ្ចូលជាមួយម៉ូឌុលកុងវ៉ុលពហុមាត្រដ្ឋាន ដើម្បីកាត់បន្ថយទំហំម៉ូដែល និងរក្សាភាពត្រឹមត្រូវកម្រិតខ្ពស់។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| VGG16 ម៉ូដែលបណ្ដាញសរសៃប្រសាទ VGG16 ជាមូលដ្ឋាន |
ជាម៉ូដែលស្តង់ដារដែលមានភាពល្បីល្បាញ និងងាយស្រួលក្នុងការទាញយកលក្ខណៈពិសេស (Feature extraction) ពីរូបភាព។ | ប្រើប្រាស់អង្គចងចាំធំខ្លាំង (១,៥១ GB) មានប៉ារ៉ាម៉ែត្រច្រើន និងត្រូវការពេលវេលាយូរក្នុងការបង្វឹកនិងសម្គាល់រូបភាព (២ វិនាទី)។ | ទទួលបានភាពត្រឹមត្រូវ ៩១,២៣% និងទំហំអង្គចងចាំ ១,៥១ GB។ |
| GoogLeNet ម៉ូដែល GoogLeNet (Inception v3) |
មានទំហំតូចជាង VGG16 ច្រើន (៨៩,៤ MB) និងមានភាពត្រឹមត្រូវល្អប្រសើរ។ | ល្បឿននៃការដំណើរការទស្សន៍ទាយ (AFT) នៅមានកម្រិតមធ្យម (៥៦៨ មីលីវិនាទី) បើធៀបនឹងម៉ូដែលធុនស្រាលដទៃទៀត។ | ទទួលបានភាពត្រឹមត្រូវ ៩៥,០៦% ជាមួយនឹងពេលវេលា AFT ៥៦៨ មីលីវិនាទី។ |
| MobileNet ម៉ូដែល MobileNet v1 សម្រាប់ឧបករណ៍ចល័ត |
មានទំហំតូចខ្លាំងបំផុត (១៤,៧ MB) និងត្រូវការពេលវេលាបង្វឹកខ្លី (១៨៤ វិនាទីក្នុងមួយជុំ) ដែលស័ក្តិសមសម្រាប់ទូរស័ព្ទដៃ។ | ភាពត្រឹមត្រូវនៃការសម្គាល់នៅទាបជាងម៉ូដែលដែលបានស្នើឡើងក្នុងឯកសារនេះ។ | ទទួលបានភាពត្រឹមត្រូវ ៩៥,៤៩% និងទំហំអង្គចងចាំ ១៤,៧ MB។ |
| Improved-ShuffleNet V1 ម៉ូដែល ShuffleNet V1 ដែលបានកែលម្អ |
ជាម៉ូដែលធុនស្រាលដែលមានទំហំតូច (១៥,៣ MB) ស័ក្តិសមសម្រាប់ឧបករណ៍ខ្នាតតូច។ | មានភាពត្រឹមត្រូវទាបជាងគេ (៩៤,៣៧%) ក្នុងចំណោមម៉ូដែលធុនស្រាលដែលបានធ្វើតេស្ត។ | ទទួលបានភាពត្រឹមត្រូវ ៩៤,៣៧%។ |
| Article model (Proposed) ម៉ូដែលដែលបានស្នើឡើង (VGG + Inception Module) |
ផ្ដល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុត មានល្បឿនសម្គាល់លឿនបំផុត (២៦១ មីលីវិនាទី) និងមានទំហំអង្គចងចាំតូចស័ក្តិសមសម្រាប់ការប្រើប្រាស់លើទូរស័ព្ទ។ | ត្រូវការពេលវេលាបង្វឹក (Training time) យូរជាង MobileNet ដោយសារមានរចនាសម្ព័ន្ធពហុមាត្រដ្ឋានស្មុគស្មាញបន្តិច។ | ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត ៩៧,១០% ទំហំត្រឹមតែ ២៦,១ MB និងល្បឿន AFT ២៦១ មីលីវិនាទី។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារកុំព្យូទ័រដែលមានសមត្ថភាពមធ្យម និងមានក្រាហ្វិកកាត (GPU) សម្រាប់ដំណើរការបង្វឹកម៉ូដែលឱ្យបានលឿន និងមានប្រសិទ្ធភាព។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់សំណុំទិន្នន័យរូបភាពពី Kaggle ដែលមានប្រភពទូទៅ និងមិនបានបញ្ជាក់ពីទីតាំងភូមិសាស្ត្រច្បាស់លាស់។ សម្រាប់ប្រទេសកម្ពុជា ទិន្នន័យនេះប្រហែលជាមិនតំណាងឱ្យពូជស្រូវ (ដូចជា ផ្ការំដួល សែនក្រអូប) ឬលក្ខខណ្ឌអាកាសធាតុ ក៏ដូចជាប្រភេទសត្វល្អិត និងជំងឺជាក់លាក់នៅក្នុងតំបន់នោះទេ។ ការខ្វះខាតទិន្នន័យក្នុងស្រុកអាចធ្វើឱ្យម៉ូដែលថយចុះភាពត្រឹមត្រូវនៅពេលយកមកប្រើប្រាស់ផ្ទាល់លើវាលស្រែនៅកម្ពុជា។
ម៉ូដែលធុនស្រាលនេះមានសក្ដានុពលខ្ពស់ណាស់ និងអាចយកមកអនុវត្តបានយ៉ាងល្អនៅក្នុងវិស័យកសិកម្មឌីជីថល (Digital Agriculture) នៅប្រទេសកម្ពុជា។
សរុបមក ការប្រើប្រាស់ម៉ូដែល AI ធុនស្រាលនេះ នឹងចូលរួមចំណែកយ៉ាងសំខាន់ក្នុងការកាត់បន្ថយការខាតបង់ទិន្នផលស្រូវ និងកាត់បន្ថយការពឹងផ្អែកលើអ្នកជំនាញដែលមានចំនួនកំណត់នៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Convolutional Neural Network (CNN) | ជាប្រភេទនៃបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (AI) ដែលត្រូវបានរចនាឡើងយ៉ាងពិសេសសម្រាប់ដំណើរការទិន្នន័យដែលមានរចនាសម្ព័ន្ធជាក្រឡាចត្រង្គ ដូចជារូបភាព ដោយប្រើប្រាស់ប្រតិបត្តិការគណិតវិទ្យាម្យ៉ាងហៅថា កុងវ៉ុល (Convolution) ដើម្បីទាញយកលក្ខណៈពិសេស (features) ពីរូបភាព។ | ដូចជាភ្នែក និងខួរក្បាលរបស់យើងដែលសម្លឹងមើលរូបភាពមួយ ហើយអាចចំណាំបានថាវាជាសត្វឆ្មា ឬសត្វឆ្កែ ដោយផ្អែកលើទម្រង់ត្រចៀក ឬពណ៌រោមរបស់វា។ |
| VGG | ជាស្ថាបត្យកម្មស្តង់ដារនៃ CNN មួយប្រភេទដែលប្រើប្រាស់ស្រទាប់កុងវ៉ុលតូចៗ (ទំហំ 3x3) តម្រួតលើគ្នាជាច្រើនជាន់ដើម្បីរៀនពីលក្ខណៈស្មុគស្មាញនៃរូបភាព ប៉ុន្តែវាទាមទារប៉ារ៉ាម៉ែត្រ និងអង្គចងចាំធំខ្លាំងណាស់ក្នុងការដំណើរការ។ | ដូចជាអ្នកស៊ើបអង្កេតដែលប្រើកែវពង្រីកតូចមួយឆ្លុះមើលគ្រប់ជ្រុងជ្រោយនៃផ្ទាំងគំនូរម្ដងបន្តិចៗរហូតដល់សព្វផ្ទៃ ដើម្បីស្វែងរកតម្រុយ ដែលនេះទាមទារពេលវេលា និងកម្លាំងច្រើន។ |
| Inception module | ជាបណ្តុំនៃស្រទាប់កុងវ៉ុលនៅក្នុងបណ្ដាញសរសៃប្រសាទ ដែលប្រើប្រាស់តម្រង (filters) មានទំហំខុសៗគ្នា (ឧទាហរណ៍ 1x1, 3x3, 5x5) ក្នុងពេលតែមួយ ដើម្បីចាប់យកលក្ខណៈពិសេសនៃរូបភាពក្នុងកម្រិតមាត្រដ្ឋានខុសៗគ្នា (multi-scale) រួចផ្គុំវាបញ្ចូលគ្នា។ | ដូចជាការថតរូបដោយប្រើឡេនកាមេរ៉ា ៣ ប្រភេទ (Zoom, ធម្មតា, និង Wide) ក្នុងពេលតែមួយ ដើម្បីចាប់យកទាំងទិដ្ឋភាពរួម និងព័ត៌មានលម្អិត រួចបូកបញ្ចូលគ្នាជារូបភាពតែមួយ។ |
| Global Average Pooling | ជាបច្ចេកទេសជំនួសស្រទាប់តភ្ជាប់ពេញលេញ (Fully connected layer) នៅចុងបញ្ចប់នៃ CNN ដោយធ្វើការគណនាតម្លៃមធ្យមនៃផែនទីលក្ខណៈនីមួយៗ (feature map) ដែលជួយកាត់បន្ថយចំនួនប៉ារ៉ាម៉ែត្រយ៉ាងច្រើនសន្ធឹកសន្ធាប់ និងការពារបញ្ហា Overfitting។ | ដូចជាការបូកសរុបពិន្ទុមុខវិជ្ជានីមួយៗរបស់សិស្សម្នាក់ ដើម្បីយកពិន្ទុមធ្យមភាគតែមួយ ជាជាងការរាយនាមពិន្ទុគ្រប់កិច្ចការតូចៗទាំងអស់ ដែលធ្វើឱ្យងាយស្រួលចងចាំនិងមិនស៊ីទំហំកត់ត្រា។ |
| Batch Normalization | ជាយន្តការមួយនៅក្នុងទម្រង់ Deep Learning ដែលជួយកែសម្រួលទិន្នន័យនៅតាមស្រទាប់នីមួយៗឱ្យមានស្ថិរភាព (មានមធ្យមភាគសូន្យ និងវ៉ារ្យង់មួយ) ដែលជួយដោះស្រាយបញ្ហាការផ្លាស់ប្តូររបាយទិន្នន័យ (Internal Covariate Shift) និងធ្វើឱ្យការបង្វឹកម៉ូដែលដើរលឿនជាងមុន។ | ដូចជាការកែសម្រួលកម្រិតសំឡេងភ្លេង និងមីក្រូហ្វូនឱ្យស្មើគ្នាមុនពេលចាក់បញ្ចាំង ដើម្បីកុំឱ្យសំឡេងរំខាន ឬបែកសម្លេង។ |
| Overfitting | ជាស្ថានភាពដែលម៉ូដែល AI ចងចាំទិន្នន័យបង្វឹក (Training Data) លម្អិតពេក រួមទាំងចំណុចដែលមិនសំខាន់ (Noise) រហូតដល់វាធ្លាក់ចុះសមត្ថភាពមិនអាចធ្វើការទស្សន៍ទាយ ឬសម្គាល់រូបភាពថ្មីៗដែលវាមិនធ្លាប់ឃើញពីមុនមក (Test Data) បានត្រឹមត្រូវ។ | ដូចជាសិស្សដែលទន្ទេញចាំមាត់នូវវិញ្ញាសាប្រឡងចាស់ៗគ្រប់សញ្ញាក្បៀស ប៉ុន្តែពេលប្រឡងពិតប្រាកដគ្រូគ្រាន់តែប្តូរលេខបន្តិចបន្តួច ក៏ធ្វើលែងចេះ។ |
| Multi-scale convolution | ជាប្រតិបត្តិការក្នុងបណ្ដាញ CNN ដែលប្រើប្រាស់តម្រង (Kernels) ទំហំខុសៗគ្នាស្របគ្នានៅក្នុងស្រទាប់តែមួយ ដើម្បីចាប់យកលក្ខណៈពិសេសរបស់វត្ថុ ដូចជាស្នាមជំងឺលើស្លឹកស្រូវ ដែលមានទំហំទាំងតូចនិងធំ ព្រោះជំងឺក្នុងដំណាក់កាលផ្សេងៗគ្នាមានទំហំស្នាមខុសៗគ្នា។ | ដូចជាការប្រើប្រាស់កែវពង្រីក កែវឆ្លុះ និងភ្នែកទទេ ក្នុងពេលតែមួយ ដើម្បីពិនិត្យមើលវត្ថុមួយទាំងកម្រិតល្អិតបំផុត និងកម្រិតជារូបរាងធំ។ |
| Transfer learning | ជាវិធីសាស្ត្រក្នុងការយកចំណេះដឹងពីម៉ូដែល AI ដែលត្រូវបានបង្វឹករួចជាស្រេចនៅលើទិន្នន័យធំៗ (Pre-trained model ដូចជា VGG លើសំណុំទិន្នន័យ ImageNet) មកបន្តបង្វឹក (Fine-tune) លើការងារថ្មីមួយទៀតដែលមានទិន្នន័យតិចតួច ដូចជាការសម្គាល់ជំងឺស្រូវជាដើម។ | ដូចជាការយកអ្នកពូកែគណិតវិទ្យាស្រាប់ ទៅបង្រៀនមុខវិជ្ជារូបវិទ្យាបន្ថែម នោះគាត់នឹងឆាប់ចេះ និងប្រើពេលតិចជាងអ្នកដែលមិនធ្លាប់រៀនសោះ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖