បញ្ហា (The Problem)៖ ឯកសារនេះពិនិត្យឡើងវិញនូវការវិវឌ្ឍ បញ្ហាប្រឈម និងកម្មវិធីប្រើប្រាស់នៃម៉ូដែលសិក្សាស៊ីជម្រៅ (Deep Learning Models) ក្នុងការដោះស្រាយបញ្ហាស្មុគស្មាញ និងទិន្នន័យទំហំធំនៅក្នុងវិស័យបញ្ញាសិប្បនិម្មិតទំនើប។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្ររំលឹកអក្សរសិល្ប៍ (Literature Review) ដោយធ្វើការវិភាគលើសមាសធាតុសំខាន់ៗចំនួនបីនៃម៉ូដែលសិក្សាស៊ីជម្រៅ៖ ស្ថាបត្យកម្ម វិធីសាស្ត្របណ្តុះបណ្តាល និងកម្មវិធីអនុវត្តន៍ជាក់ស្តែងឆ្លងវិស័យ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Convolutional Neural Networks (CNNs) បណ្តាញសរសៃប្រសាទបែប Convolutional (CNNs) |
មានសមត្ថភាពខ្ពស់ក្នុងការទាញយកលក្ខណៈពិសេសពីរូបភាព ដោយកាត់បន្ថយចំនួនប៉ារ៉ាម៉ែត្រតាមរយៈ weight sharing និង local connectivity។ មានប្រសិទ្ធភាពក្នុងការប្រើប្រាស់ធនធានកុំព្យូទ័រ និងងាយស្រួលពង្រីកទំហំ (Scale)។ | ត្រូវការទិន្នន័យដែលមានទម្រង់ជារូបភាព ឬប្លង់ច្បាស់លាស់ ហើយមិនសូវស័ក្តិសមសម្រាប់ទិន្នន័យដែលបន្តបន្ទាប់គ្នា (Sequential Data)។ | សម្រេចបានលទ្ធផលល្អឥតខ្ចោះ (State-of-the-art) សម្រាប់ការបែងចែករូបភាព (Image Classification) និងទទួលបានភាពសុក្រឹតជាង ៩៥% ក្នុងការកំណត់រោគសញ្ញាជំងឺលើដំណាំស្រូវ។ |
| Recurrent Neural Networks (RNNs) & LSTMs បណ្តាញសរសៃប្រសាទវិលជុំ (RNNs & LSTMs) |
រចនាឡើងយ៉ាងពិសេសសម្រាប់ទិន្នន័យដែលមានលក្ខណៈបន្តបន្ទាប់គ្នា (Sequential data) ដូចជាអត្ថបទ ឬសំឡេង ដោយអាចចងចាំព័ត៌មានពីមុនៗបាន។ LSTMs ដោះស្រាយបញ្ហា Vanishing gradients របស់ RNN ធម្មតា។ | RNN ធម្មតាជួបប្រទះបញ្ហា Vanishing និង Exploding gradients នៅពេលវិភាគទិន្នន័យវែងៗ ហើយដំណើរការហ្វឹកហាត់មានភាពយឺតយ៉ាវ។ | ត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយនិងមានប្រសិទ្ធភាពក្នុងការសម្គាល់សំឡេង (Speech recognition) ដំណើរការភាសាធម្មជាតិ (NLP) និងការទស្សន៍ទាយទិន្នន័យតាមពេលវេលា។ |
| Transformers ស្ថាបត្យកម្ម Transformers |
ប្រើប្រាស់យន្តការ Self-attention ដែលចាប់យកទំនាក់ទំនងទិន្នន័យក្នុងចម្ងាយឆ្ងាយបានល្អជាង RNNs និងគាំទ្រដល់ការសិក្សាពហុទម្រង់ (Multimodal learning)។ | ទាមទារសមត្ថភាពកុំព្យូទ័រ និងទិន្នន័យហ្វឹកហាត់ក្នុងទំហំដ៏ធំសម្បើម ដែលធ្វើឱ្យការប្រើប្រាស់មានកម្រិតសម្រាប់ស្ថាប័នតូចៗ។ | បានជំរុញការវិវឌ្ឍន៍នៃម៉ូដែលធំៗដូចជា BERT និង GPT ដែលបង្កើនប្រសិទ្ធភាពខ្ពស់លើការបកប្រែភាសា និងប្រព័ន្ធសំណួរ-ចម្លើយ។ |
| Generative Adversarial Networks (GANs) បណ្តាញបង្កើតទិន្នន័យប្រកួតប្រជែង (GANs) |
អាចបង្កើតទិន្នន័យថ្មី (ដូចជារូបភាព ឬសំឡេង) ដែលមានលក្ខណៈដូចទិន្នន័យពិតៗ ដែលល្អសម្រាប់ការបង្កើនទំហំទិន្នន័យ (Data augmentation)។ | មានភាពអស្ថិរភាពក្នុងអំឡុងពេលហ្វឹកហាត់ និងងាយប្រឈមនឹងបញ្ហា Mode collapse (បង្កើតទិន្នន័យដដែលៗ)។ | មានអត្ថប្រយោជន៍ខ្ពស់ក្នុងការងារច្នៃប្រឌិត និងការសំយោគរូបភាពដែលមានគុណភាពខ្ពស់ ប៉ុន្តែនៅតែស្ថិតក្រោមការស្រាវជ្រាវដើម្បីដោះស្រាយចំណុចខ្សោយ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ម៉ូដែលសិក្សាស៊ីជម្រៅ (Deep Learning) ទាមទារធនធានកុំព្យូទ័រខ្លាំង និងសំណុំទិន្នន័យខ្នាតធំដើម្បីដំណើរការហ្វឹកហាត់ប្រកបដោយប្រសិទ្ធភាព ទោះបីជាមានបច្ចេកទេសជួយសន្សំសំចៃដូចជា Transfer Learning ក៏ដោយ។
ការសិក្សានេះបង្ហាញថាម៉ូដែលភាគច្រើនត្រូវបានហ្វឹកហាត់លើសំណុំទិន្នន័យទូទៅខ្នាតធំ (ដូចជា CIFAR, MNIST, ImageNet) ដែលអាចបង្កប់នូវភាពលម្អៀងខាងភូមិសាស្ត្រ ឬបរិបទសង្គម។ សម្រាប់ប្រទេសកម្ពុជា ការយកម៉ូដែលទាំងនេះមកប្រើប្រាស់ដោយផ្ទាល់ (ជាពិសេសលើវិស័យគ្រប់គ្រងទឹកជំនន់ ឬកសិកម្ម) អាចប្រឈមនឹងការវិភាគខុស ដោយសារទិន្នន័យមិនឆ្លុះបញ្ចាំងពីស្ថានភាពជាក់ស្តែងក្នុងស្រុក ដែលទាមទារឱ្យមានការកែសម្រួលបន្ថែម (Fine-tuning)។
បច្ចេកវិទ្យា Deep Learning នៅក្នុងឯកសារនេះមានសក្តានុពលខ្ពស់ក្នុងការដោះស្រាយបញ្ហាប្រឈមធំៗនៅក្នុងបរិបទប្រទេសកម្ពុជា ប្រសិនបើត្រូវបានអនុវត្តយ៉ាងត្រឹមត្រូវ។
តាមរយៈការបន្សាំបច្ចេកទេសដូចជា Transfer Learning កម្ពុជាអាចទាញយកអត្ថប្រយោជន៍ពី AI ដើម្បីអភិវឌ្ឍវិស័យស្នូលរបស់ខ្លួនបានយ៉ាងឆាប់រហ័ស ដោយមិនចាំបាច់មានទិន្នន័យមូលដ្ឋានទំហំធំតាំងពីដំបូងឡើយ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Convolutional Neural Networks (CNNs) | ស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទដែលត្រូវបានរចនាឡើងពិសេសសម្រាប់ទាញយកលក្ខណៈពិសេសពីទិន្នន័យដែលមានរចនាសម្ព័ន្ធជាប្លង់ ដូចជារូបភាព ដោយប្រើប្រាស់យន្តការតម្រង (Filters) ដើម្បីសម្គាល់ទម្រង់ ពណ៌ ឬគែមនៃវត្ថុដោយស្វ័យប្រវត្តិ។ | ដូចជាការយកកែវពង្រីកមកឆ្លុះមើលរូបភាពមួយចំណែកៗ ដើម្បីស្វែងរកចំណុចសំខាន់ៗ រួចផ្គុំវាចូលគ្នាដើម្បីសម្គាល់ថារូបនោះជារូបអ្វី។ |
| Generative Adversarial Networks (GANs) | ប្រព័ន្ធកុំព្យូទ័រដែលផ្សំឡើងពីម៉ូដែលពីរប្រកួតប្រជែងគ្នា៖ មួយជាអ្នកបង្កើតទិន្នន័យក្លែងក្លាយ (Generator) និងមួយទៀតជាអ្នកចាប់កំហុស (Discriminator) រហូតដល់ទិន្នន័យដែលបង្កើតថ្មីនោះមានលក្ខណៈដូចទិន្នន័យពិតបេះបិទ។ | ដូចជាអ្នកផលិតលុយក្លែងក្លាយ (Generator) ព្យាយាមបោកប្រាស់ប៉ូលីស (Discriminator) រហូតដល់អ្នកក្លែងបន្លំកាន់តែពូកែ ធ្វើបានដូចពិតៗដែលប៉ូលីសលែងចំណាំបាន។ |
| Transformers | ស្ថាបត្យកម្មទំនើបដែលប្រើប្រាស់យន្តការ "Self-attention" ដើម្បីវាយតម្លៃសារៈសំខាន់នៃពាក្យ ឬចំណែកទិន្នន័យនីមួយៗនៅក្នុងបរិបទជារួម ដែលធ្វើឱ្យវាមានសមត្ថភាពខ្ពស់ក្នុងការយល់ដឹងពីទំនាក់ទំនងទិន្នន័យក្នុងចម្ងាយឆ្ងាយ។ | ដូចជាការអានសៀវភៅដោយមិនចាំបាច់អានតាមលំដាប់ពាក្យម្តងមួយៗ ប៉ុន្តែអាចក្រឡេកមើលពាក្យគន្លឹះសំខាន់ៗក្នុងប្រយោគព្រមគ្នា ដើម្បីយល់អត្ថន័យបានលឿននិងច្បាស់។ |
| Federated Learning | វិធីសាស្ត្រហ្វឹកហាត់ម៉ូដែល AI ដែលមិនតម្រូវឱ្យទាញយកទិន្នន័យផ្ទាល់ខ្លួនមកប្រមូលផ្តុំនៅកន្លែងតែមួយនោះទេ ប៉ុន្តែវាបញ្ជូនម៉ូដែលទៅរៀនដោយផ្ទាល់នៅលើឧបករណ៍ (ឬ Server ទូរស័ព្ទ) របស់អ្នកប្រើ រួចទើបបញ្ជូនតែចំណេះដឹងមកវិញ ដើម្បីរក្សាឯកជនភាពទិន្នន័យ។ | ដូចជាគ្រូឱ្យសិស្សរៀនធ្វើលំហាត់នៅផ្ទះរៀងៗខ្លួន រួចប្រមូលតែពិន្ទុសរុបមកវិញ ដោយមិនចាំបាច់សុំមើលសៀវភៅព្រាងដែលជារឿងឯកជនរបស់សិស្សម្នាក់ៗនោះទេ។ |
| Transfer Learning | វិធីសាស្ត្រយកម៉ូដែល AI ដែលត្រូវបានហ្វឹកហាត់រួចជាស្រេចលើទិន្នន័យដ៏ច្រើនសន្ធឹកសន្ធាប់ មកកែច្នៃបន្តិចបន្តួច (Fine-tune) ដើម្បីប្រើប្រាស់លើការងារថ្មីស្រដៀងគ្នាដែលមានទិន្នន័យតិចតួច។ | ដូចជាមនុស្សដែលចេះជិះកង់ស្ទាត់ជំនាញស្រាប់ យកចំណេះដឹងនៃការរក្សាលំនឹងនោះ ទៅរៀនជិះម៉ូតូដោយចំណាយពេលនិងការប្រឹងប្រែងតិចជាងអ្នកដែលមិនធ្លាប់ចេះជិះកង់សោះ។ |
| Autoencoders | បណ្តាញសរសៃប្រសាទដែលបង្រួញទិន្នន័យបញ្ចូលឱ្យទៅជាទម្រង់តូចបំផុត (Latent representation) រួចព្យាយាមពង្រីកវាត្រឡប់មកទម្រង់ដើមវិញ ដើម្បីរៀនពីលក្ខណៈសំខាន់ៗបំផុតរបស់ទិន្នន័យ និងលុបបំបាត់ព័ត៌មានរំខាន (Noise)។ | ដូចជាការបត់សម្លៀកបំពាក់ធំៗចូលក្នុងវ៉ាលីតូចមួយដោយរក្សាតែខោអាវសំខាន់ៗ និងបោះចោលរបស់មិនចាំបាច់ រួចយកវាចេញមកប្រើប្រាស់វិញនៅពេលទៅដល់គោលដៅ។ |
| Self-Supervised Learning | វិធីសាស្ត្រហ្វឹកហាត់ដែលម៉ូដែលបង្កើតសញ្ញាត្រួតពិនិត្យ (Supervisory signals) ដោយខ្លួនឯងពីទិន្នន័យដែលមិនមានស្លាក (Unlabeled data) ដូចជាការបិទបាំងពាក្យមួយចំនួនក្នុងប្រយោគ រួចឱ្យម៉ូដែលទស្សន៍ទាយពាក្យដែលបាត់នោះ។ | ដូចជាការរៀនតម្រៀបល្បែងផ្គុំរូប (Jigsaw puzzle) ដោយខ្លួនឯង ដោយគ្រាន់តែមើលទម្រង់នៃបំណែកនីមួយៗ មិនបាច់មានអ្នកប្រាប់ ឬមានរូបគំរូឱ្យមើលមុនឡើយ។ |
| Recurrent Neural Networks (RNNs) | បណ្តាញសរសៃប្រសាទដែលមានរចនាសម្ព័ន្ធវិលជុំ អនុញ្ញាតឱ្យវាចងចាំព័ត៌មានដែលបានកើតឡើងពីមុន ដើម្បីប្រើប្រាស់ក្នុងការវិភាគទិន្នន័យដែលបន្តបន្ទាប់គ្នា (Sequential data) ដូចជាអត្ថបទ ឬសំឡេង។ | ដូចជាមនុស្សកំពុងស្តាប់បទចម្រៀង ដោយយកសាច់ភ្លេងដែលទើបតែលឺមុននេះបន្តិច មកផ្សំជាមួយសាច់ភ្លេងដែលកំពុងលឺឥឡូវ ដើម្បីទាយដឹងថាបទនេះជាបទកំសត់ ឬសប្បាយ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖