Original Title: Deep Learning with Limited Data: A Comprehensive Survey of Few-Shot and Zero-Shot Learning Paradigms
Source: www.jsaer.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនស៊ីជម្រៅជាមួយទិន្នន័យមានកំណត់៖ ការស្ទង់មតិទូលំទូលាយនៃគំរូនៃការរៀនសូត្រ Few-Shot និង Zero-Shot

ចំណងជើងដើម៖ Deep Learning with Limited Data: A Comprehensive Survey of Few-Shot and Zero-Shot Learning Paradigms

អ្នកនិពន្ធ៖ Tharakesavulu Vangalapat (Broadridge, Austin, Texas, USA), Ravindar Reddy Gopireddy (Deloitte, Austin, Texas, USA)

ឆ្នាំបោះពុម្ព៖ Journal of Scientific and Engineering Research, 2022

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធបញ្ញាសិប្បនិម្មិត (AI) ទាមទារទិន្នន័យមានស្លាក (Labeled data) យ៉ាងច្រើនសន្ធឹកសន្ធាប់ ដែលបង្កជាបញ្ហាប្រឈមធំនៅពេលប្រឈមមុខនឹងស្ថានភាពដែលទិន្នន័យមានកម្រិត ពិបាកប្រមូល និងមានតម្លៃថ្លៃក្នុងការកត់ត្រា។

វិធីសាស្ត្រ (The Methodology)៖ ឯកសារនេះធ្វើការស្ទង់មតិ និងវិភាគស៊ីជម្រៅទៅលើទ្រឹស្តី ក្បួនដោះស្រាយ និងការអនុវត្តនៃគំរូរៀនសូត្រ Few-Shot និង Zero-Shot Learning។

ការរៀនសូត្រមេតាផ្អែកលើការបង្កើនប្រសិទ្ធភាព (Optimization-Based Meta-Learning)
ការរៀនសូត្រមេតាផ្អែកលើរង្វាស់ (Metric-Based Meta-Learning)
អភិក្រមផ្អែកលើការបង្កប់អត្ថន័យសម្រាប់ការរៀន Zero-Shot (Embedding-Based Approaches for ZSL)
វិធីសាស្ត្របង្កើតទិន្នន័យបន្ថែម (Generative Approaches and Data Augmentation)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រផ្អែកលើរង្វាស់ (Metric-based approaches) បង្ហាញពីប្រសិទ្ធភាពខ្ពស់ ដោយសម្រេចបានសមត្ថភាពក្នុងរង្វង់ 10-15% ធៀបនឹងម៉ូដែល AI ដែលប្រើទិន្នន័យច្រើនសន្ធឹកសន្ធាប់។
ការអនុវត្តក្នុងវិស័យវេជ្ជសាស្ត្របង្ហាញថា ប្រព័ន្ធនេះអាចកំណត់រោគវិនិច្ឆ័យជំងឺបាតភ្នែកទឹកនោមផ្អែមក្នុងអត្រាភាពត្រឹមត្រូវ 87.3% ដោយប្រើប្រាស់រូបភាពគំរូត្រឹមតែ 10 ប៉ុណ្ណោះ។
សម្រាប់ការត្រួតពិនិត្យគុណភាពផលិតកម្ម វិធីសាស្ត្រនេះទទួលបានភាពត្រឹមត្រូវរហូតដល់ 94.2% ដោយប្រើប្រាស់ទិន្នន័យឧទាហរណ៍ត្រឹមតែ 5 សម្រាប់ប្រភេទកំហុសឆ្គងនីមួយៗ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Fine-Tuning (Baseline) ការកែសម្រួលម៉ូដែលដើមជាមូលដ្ឋាន (Fine-Tuning)	ងាយស្រួលក្នុងការអនុវត្ត និងជានីតិវិធីស្តង់ដារសម្រាប់បន្តការហ្វឹកហាត់ម៉ូដែលដែលមានស្រាប់។	រងផលប៉ះពាល់យ៉ាងខ្លាំងពីបញ្ហា Overfitting និងមានដំណើរការខ្សោយនៅពេលមានទិន្នន័យតិចតួចបំផុត។	ទទួលបានភាពត្រឹមត្រូវ 48.24% (1-shot) និង 63.77% (5-shot) លើសំណុំទិន្នន័យ miniImageNet។
Prototypical Networks បណ្ដាញ Prototypical (ផ្អែកលើរង្វាស់)	មានប្រសិទ្ធភាពខ្ពស់ ប្រើប្រាស់ពេលវេលានិងទំហំផ្ទុកទិន្នន័យ (Memory) ទាបក្នុងការហ្វឹកហាត់ និងមានល្បឿនលឿនក្នុងការទស្សន៍ទាយ (Inference)។	ទាមទារការកំណត់ទំហំវិមាត្រ (Embedding dimension) ដែលស័ក្តិសម (ប្រហែល 512) បើពុំនោះទេអាចធ្លាក់ចុះគុណភាព។	សម្រេចបានភាពត្រឹមត្រូវ 49.42% (1-shot) និង 68.20% (5-shot) លើសំណុំទិន្នន័យ miniImageNet។
Model-Agnostic Meta-Learning (MAML) ការរៀនសូត្រមេតា MAML (ផ្អែកលើការបង្កើនប្រសិទ្ធភាព)	អាចប្រើប្រាស់បានទូលំទូលាយជាមួយគ្រប់ម៉ូដែលទាំងអស់ដែលប្រើវិធីសាស្ត្រ Gradient Descent។	ស៊ីទំហំ Memory ខ្ពស់ខ្លាំង ត្រូវការពេលវេលាហ្វឹកហាត់យូរ និងមានភាពលំបាកក្នុងការពង្រីកទំហំ (Poor Scalability)។	ទទួលបានភាពត្រឹមត្រូវ 48.70% (1-shot) និង 63.11% (5-shot) លើសំណុំទិន្នន័យ miniImageNet ប៉ុន្តែមានកម្រិតប្រែប្រួលខ្ពស់។
DeepEMD បណ្ដាញ DeepEMD (កម្រិតខ្ពស់)	មានភាពត្រឹមត្រូវ និងប្រសិទ្ធភាពខ្ពស់បំផុត ដោយយកឈ្នះវិធីសាស្ត្រផ្សេងៗទៀតលើសំណុំទិន្នន័យជាច្រើន។	មានភាពស្មុគស្មាញក្នុងការគណនា O(NK·Q2) ដែលទាមទារឱ្យប្រើប្រាស់ Memory កម្រិតខ្ពស់។	សម្រេចបានលទ្ធផលខ្ពស់បំផុតដល់ទៅ 65.91% (1-shot) និង 82.41% (5-shot) លើទិន្នន័យ miniImageNet។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីកម្រិតនៃការប្រើប្រាស់ធនធាន ដែលប្រែប្រួលទៅតាមប្រភេទនៃក្បួនដោះស្រាយ (Algorithm) ជាពិសេសលើពេលវេលាហ្វឹកហាត់ និងទំហំ Memory។

Hardware: ត្រូវការ GPU ដែលមានទំហំ Memory ខ្ពស់ និងល្បឿនលឿន សម្រាប់វិធីសាស្ត្រដូចជា MAML និង DeepEMD ចំណែកឯវិធីសាស្ត្រ Prototypical អាចដំណើរការលើកុំព្យូទ័រដែលមានកម្លាំងមធ្យមបានយ៉ាងរលូន។
Software: ទាមទារការប្រើប្រាស់បរិស្ថានអភិវឌ្ឍន៍ផ្នែក Deep Learning ដូចជា PyTorch ឬបណ្ណាល័យ AI ដទៃទៀតសម្រាប់ការសរសេរកូដ និងដំណើរការម៉ូដែល (ដូចមានបង្ហាញក្នុងកូដគំរូនៃឯកសារ)។
Dataset: ត្រូវការទិន្នន័យស្តង់ដារសម្រាប់ហ្វឹកហាត់ដូចជា Mini ImageNet ឫ CIFAR-FS និងទិន្នន័យឧទាហរណ៍ក្នុងបរិមាណតិចតួចបំផុត (1 ទៅ 20 សន្លឹក) សម្រាប់ការយកទៅអនុវត្តផ្ទាល់លើបញ្ហាថ្មីៗ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកខ្លាំងលើសំណុំទិន្នន័យស្តង់ដារសកល (ដូចជា ImageNet និង CIFAR) ដែលភាគច្រើនប្រមូលផ្តុំពីរូបភាពនៃប្រទេសលោកខាងលិច។ សម្រាប់កម្ពុជា ការអនុវត្តជាក់ស្តែងទាមទារឱ្យមានសំណុំទិន្នន័យក្នុងស្រុកបន្ថែម (Local contextual data) ដើម្បីជៀសវាងភាពលម្អៀង (Bias) ដូចជាទិដ្ឋភាពផ្លូវថ្នល់ជាក់ស្តែងក្នុងរាជធានី ឬទម្រង់ជំងឺដែលជួបប្រទះញឹកញាប់ក្នុងតំបន់អាស៊ីអាគ្នេយ៍។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ Few-Shot និង Zero-Shot Learning នេះមានសក្តានុពលខ្ពស់ខ្លាំងសម្រាប់ប្រទេសកម្ពុជា ជាពិសេសក្នុងវិស័យដែលខ្វះខាតទិន្នន័យឌីជីថល និងមិនមានធនធានឬមូលនិធិគ្រប់គ្រាន់ក្នុងការកត់ត្រាទិន្នន័យ។

វិស័យសុខាភិបាល (ឧទាហរណ៍៖ មន្ទីរពេទ្យបង្អែកកម្រិតស្រុកឬខេត្ត): ប្រព័ន្ធនេះអាចជួយគ្រូពេទ្យនៅតាមតំបន់ដាច់ស្រយាលក្នុងការវិភាគរោគវិនិច្ឆ័យជំងឺបាតភ្នែកទឹកនោមផ្អែម (Diabetic Retinopathy) និងជំងឺផ្សេងៗទៀតបានយ៉ាងឆាប់រហ័ស ដោយពឹងផ្អែកលើរូបភាពគំរូត្រឹមតែ ១០សន្លឹក ប៉ុណ្ណោះ។
វិស័យបរិស្ថាន និងការអភិរក្ស (ឧទាហរណ៍៖ ដែនជម្រកសត្វព្រៃកែវសីមា និងព្រែកទាល់): អាចត្រូវយកមកប្រើដើម្បីស្គាល់និងបែងចែកចំណាត់ថ្នាក់សត្វជិតផុតពូជ (Endangered species) ដោយប្រើប្រាស់ទិន្នន័យរូបភាពតិចតួចដែលប្រមូលបានពីកាមេរ៉ាសុវត្ថិភាពព្រៃឈើ (Camera traps) សម្រាប់ការតាមដាននិងអភិរក្ស។
វិស័យផលិតកម្ម (ឧទាហរណ៍៖ រោងចក្រក្នុងតំបន់សេដ្ឋកិច្ចពិសេស): រោងចក្រនានាអាចតម្លើងប្រព័ន្ធកាមេរ៉ាត្រួតពិនិត្យគុណភាព (Quality Control) ដើម្បីស្វែងរកកំហុសឆ្គងលើផលិតផលឬបន្ទះអេឡិចត្រូនិកថ្មីៗ ដែលតម្រូវឱ្យមានការបញ្ចុកទិន្នន័យគំរូត្រឹមតែ ៥ រូបភាពប៉ុណ្ណោះសម្រាប់ប្រភេទកំហុសឆ្គងនីមួយៗ។

សរុបមក បច្ចេកវិទ្យានេះគឺជាដំណោះស្រាយដ៏មានប្រសិទ្ធភាព និងចំណាយតិចបំផុត ដើម្បីជួយជំរុញការប្រើប្រាស់បញ្ញាសិប្បនិម្មិត (AI) នៅកម្ពុជា ទៅលើចំណុចដែលពិបាកក្នុងការទាញយកទិន្នន័យធំៗ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃមេតារៀនសូត្រ (Meta-Learning): និស្សិតគួរចាប់ផ្តើមស្វែងយល់អំពីទ្រឹស្តី 'Learning to learn' និងក្បួនដោះស្រាយទូទៅនៃការរៀនដោយប្រើទិន្នន័យមានកំណត់ តាមរយៈការអានទ្រឹស្តីក្នុងឯកសារស្រាវជ្រាវនេះ ឬចុះឈ្មោះរៀនវគ្គសិក្សាលើ Coursera។
អនុវត្តការសរសេរកូដជាមួយ Prototypical Networks: អនុវត្តផ្ទាល់ដោយប្រើប្រាស់ PyTorch ដើម្បីសរសេរ និងដំណើរការម៉ូដែល Prototypical Networks តាមរយៈកូដគំរូដែលមានក្នុងទំព័រទី១៧នៃឯកសារនេះ ដោយសាកល្បងជាមួយទិន្នន័យខ្នាតតូចដូចជា CIFAR-FS។
ប្រមូលនិងរៀបចំទិន្នន័យខ្នាតតូចក្នុងស្រុក (Local Dataset Collection): បង្កើតគម្រោងក្រុមដើម្បីប្រមូលទិន្នន័យរូបភាពខ្នាតតូចពាក់ព័ន្ធនឹងបរិបទកម្ពុជា (ឧទាហរណ៍៖ ប្រភេទសត្វស្លាប ឬស្លាកសញ្ញាចរាចរណ៍នៅកម្ពុជា) ក្នុងបរិមាណត្រឹមតែ ១០ ទៅ ២០ រូបភាពក្នុងមួយប្រភេទ ដើម្បីធ្វើតេស្តសាកល្បងជាមួយម៉ូដែលរបស់ខ្លួន។
អនុវត្តបច្ចេកទេសសន្សំសំចៃធនធាន Hardware (Memory Efficiency): ស្រាវជ្រាវ និងសាកល្បងបន្ថែមនូវបច្ចេកទេស Gradient Checkpointing និង LoRA (Low-Rank Adaptation) ដូចមានបង្ហាញក្នុងឯកសារ ដើម្បីឱ្យម៉ូដែលអាចដំណើរការបាននៅលើកុំព្យូទ័រយួរដៃធម្មតាដោយមិនតម្រូវឱ្យមាន GPU ថ្លៃៗ។
ធ្វើសមាហរណកម្មជាមួយ Foundation Models: ពង្រីកសមត្ថភាពស្រាវជ្រាវដោយទាញយកម៉ូដែលធំៗដែលបានហ្វឹកហាត់រួចជាស្រេច (Pre-trained models) ដូចជា CLIP ឬ Vision Transformers មកធ្វើជាមូលដ្ឋាន ដើម្បីបង្កើនភាពត្រឹមត្រូវខ្ពស់សម្រាប់ការងារ Zero-Shot Learning។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Few-shot learning (FSL)	ការបង្រៀនម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ឱ្យស្គាល់ និងធ្វើចំណាត់ថ្នាក់វត្ថុថ្មីៗ ដោយប្រើប្រាស់ទិន្នន័យគំរូឬរូបភាពត្រឹមតែមួយចំនួនតូចប៉ុណ្ណោះ (ជាទូទៅពី ១ ទៅ ២០ ឧទាហរណ៍)។	ដូចជាការបង្ហាញរូបថតសត្វចម្លែកមួយសន្លឹកទៅក្មេង ហើយក្មេងនោះអាចចំណាំនិងស្គាល់សត្វនោះនៅពេលជួបលើកក្រោយភ្លាមៗដោយមិនបាច់មើលរូបច្រើន។
Zero-shot learning (ZSL)	ការបង្រៀនម៉ូដែល AI ឱ្យមានសមត្ថភាពស្គាល់និងធ្វើចំណាត់ថ្នាក់វត្ថុដែលវាមិនធ្លាប់ឃើញទាល់តែសោះក្នុងពេលហ្វឹកហាត់ ដោយពឹងផ្អែកលើការពិពណ៌នាលក្ខណៈរូបរាង ឬអត្ថន័យពាក់ព័ន្ធជំនួសវិញ។	ដូចជាការប្រាប់នរណាម្នាក់ថា 'សត្វសេះបង្កង់ គឺដូចសត្វសេះ តែមានឆ្នូតសខ្មៅ' ទោះមិនធ្លាប់ឃើញផ្ទាល់ក៏គេអាចស្គាល់វានៅពេលជួបលើកដំបូង។
Meta-learning	ដំណើរការនៃ 'ការរៀនពីរបៀបរៀន' ដែលម៉ូដែល AI ត្រូវបានហ្វឹកហាត់លើកិច្ចការតូចៗជាច្រើនខុសៗគ្នា ដើម្បីឱ្យវាមានសមត្ថភាពចាប់យកចំណេះដឹងនិងបន្ស៊ាំខ្លួនទៅនឹងបញ្ហាថ្មីៗបានលឿនបំផុត។	ដូចជាសិស្សដែលពូកែរៀនពីរបៀបដោះស្រាយលំហាត់គណិតវិទ្យាច្រើនប្រភេទ ដែលធ្វើឱ្យគេឆាប់ចាប់បានរាល់ពេលគ្រូបង្រៀនមេរៀនថ្មី។
Prototypical Networks	ក្បួនដោះស្រាយក្នុង Few-Shot Learning ដែលបង្កើតចំណុចកណ្តាលតំណាង (Prototype) សម្រាប់ប្រភេទនីមួយៗ ហើយវិនិច្ឆ័យទិន្នន័យថ្មីដោយវាស់ចម្ងាយថាតើវានៅជិតចំណុចកណ្តាលណាមួយជាងគេ។	ដូចជាការចងចាំទម្រង់មុខមធ្យមរបស់ជនជាតិណាមួយ ហើយយកមុខមនុស្សថ្មីម្នាក់ទៅប្រៀបធៀបថាតើស្រដៀងនឹងទម្រង់មធ្យមនោះដែរឬទេ។
Catastrophic Forgetting	បញ្ហាដែលប្រព័ន្ធ AI បាត់បង់ឬភ្លេចចំណេះដឹងចាស់ៗដែលវាធ្លាប់ចេះទាំងស្រុង នៅពេលដែលវាត្រូវបានហ្វឹកហាត់បន្ថែមដើម្បីរៀនកិច្ចការថ្មីបន្ទាប់ពីនោះ។	ដូចជាមនុស្សដែលខំរៀនភាសាបារាំងទាល់តែចេះ តែពេលងាកមករៀនភាសាចិនស្រាប់តែភ្លេចភាសាបារាំងខ្ទេចគ្មានសល់។
Model-Agnostic Meta-Learning (MAML)	ក្បួនដោះស្រាយដែលស្វែងរកតម្លៃចាប់ផ្តើម (Initial weights) ដ៏ល្អឥតខ្ចោះមួយសម្រាប់ម៉ូដែល AI ដើម្បីឱ្យវាអាចកែតម្រូវខ្លួនឯងទៅកាន់កិច្ចការថ្មីបានយ៉ាងលឿន ដោយប្រើប្រាស់ការគណនា Gradient តិចតួចបំផុត។	ដូចជាការទៅឈររង់ចាំនៅចំណុចកណ្តាលនៃផ្លូវបំបែក ដែលធ្វើឱ្យអ្នកអាចរត់ទៅកាន់គោលដៅណាមួយក៏បានលឿនបំផុត។
Domain Shift	ភាពខុសគ្នានៃលក្ខណៈទិន្នន័យរវាងពេលហ្វឹកហាត់ម៉ូដែល និងពេលយកទៅប្រើប្រាស់ជាក់ស្តែង (ឧទាហរណ៍ ហ្វឹកហាត់លើរូបគំនូរ តែយកទៅអនុវត្តលើរូបថតពិត) ដែលធ្វើឱ្យសមត្ថភាពម៉ូដែលធ្លាក់ចុះ។	ដូចជាសិស្សដែលរៀនបើកឡានក្នុងទីធ្លាសាលាដ៏ទូលាយ តែពេលឱ្យទៅបើកលើផ្លូវជាតិដែលមានចរាចរណ៍កកស្ទះ បែរជាភ័យបើកមិនកើត។
Episodic Training	វិធីសាស្ត្ររៀបចំទិន្នន័យហ្វឹកហាត់ជាលក្ខណៈ 'វគ្គតូចៗ' (Episodes) ដោយក្លែងធ្វើស្ថានភាព Few-shot (សាកល្បងឱ្យទិន្នន័យតិចៗ) ដើម្បីឱ្យម៉ូដែលស៊ាំនឹងការទាយលទ្ធផលក្នុងស្ថានភាពខ្វះទិន្នន័យ។	ដូចជាការធ្វើតេស្តសាកល្បងមុនប្រឡងពិតប្រាកដ ដោយប្រើលក្ខខណ្ឌពេលវេលានិងសំណួរដូចបរិយាកាសប្រឡងមែនទែនដើម្បីឱ្យស៊ាំ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖