Original Title: Deep Learning with Limited Data: A Comprehensive Survey of Few-Shot and Zero-Shot Learning Paradigms
Source: www.jsaer.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរៀនស៊ីជម្រៅជាមួយទិន្នន័យមានកំណត់៖ ការស្ទង់មតិទូលំទូលាយនៃគំរូនៃការរៀនសូត្រ Few-Shot និង Zero-Shot

ចំណងជើងដើម៖ Deep Learning with Limited Data: A Comprehensive Survey of Few-Shot and Zero-Shot Learning Paradigms

អ្នកនិពន្ធ៖ Tharakesavulu Vangalapat (Broadridge, Austin, Texas, USA), Ravindar Reddy Gopireddy (Deloitte, Austin, Texas, USA)

ឆ្នាំបោះពុម្ព៖ Journal of Scientific and Engineering Research, 2022

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធបញ្ញាសិប្បនិម្មិត (AI) ទាមទារទិន្នន័យមានស្លាក (Labeled data) យ៉ាងច្រើនសន្ធឹកសន្ធាប់ ដែលបង្កជាបញ្ហាប្រឈមធំនៅពេលប្រឈមមុខនឹងស្ថានភាពដែលទិន្នន័យមានកម្រិត ពិបាកប្រមូល និងមានតម្លៃថ្លៃក្នុងការកត់ត្រា។

វិធីសាស្ត្រ (The Methodology)៖ ឯកសារនេះធ្វើការស្ទង់មតិ និងវិភាគស៊ីជម្រៅទៅលើទ្រឹស្តី ក្បួនដោះស្រាយ និងការអនុវត្តនៃគំរូរៀនសូត្រ Few-Shot និង Zero-Shot Learning។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Fine-Tuning (Baseline)
ការកែសម្រួលម៉ូដែលដើមជាមូលដ្ឋាន (Fine-Tuning)
ងាយស្រួលក្នុងការអនុវត្ត និងជានីតិវិធីស្តង់ដារសម្រាប់បន្តការហ្វឹកហាត់ម៉ូដែលដែលមានស្រាប់។ រងផលប៉ះពាល់យ៉ាងខ្លាំងពីបញ្ហា Overfitting និងមានដំណើរការខ្សោយនៅពេលមានទិន្នន័យតិចតួចបំផុត។ ទទួលបានភាពត្រឹមត្រូវ 48.24% (1-shot) និង 63.77% (5-shot) លើសំណុំទិន្នន័យ miniImageNet។
Prototypical Networks
បណ្ដាញ Prototypical (ផ្អែកលើរង្វាស់)
មានប្រសិទ្ធភាពខ្ពស់ ប្រើប្រាស់ពេលវេលានិងទំហំផ្ទុកទិន្នន័យ (Memory) ទាបក្នុងការហ្វឹកហាត់ និងមានល្បឿនលឿនក្នុងការទស្សន៍ទាយ (Inference)។ ទាមទារការកំណត់ទំហំវិមាត្រ (Embedding dimension) ដែលស័ក្តិសម (ប្រហែល 512) បើពុំនោះទេអាចធ្លាក់ចុះគុណភាព។ សម្រេចបានភាពត្រឹមត្រូវ 49.42% (1-shot) និង 68.20% (5-shot) លើសំណុំទិន្នន័យ miniImageNet។
Model-Agnostic Meta-Learning (MAML)
ការរៀនសូត្រមេតា MAML (ផ្អែកលើការបង្កើនប្រសិទ្ធភាព)
អាចប្រើប្រាស់បានទូលំទូលាយជាមួយគ្រប់ម៉ូដែលទាំងអស់ដែលប្រើវិធីសាស្ត្រ Gradient Descent។ ស៊ីទំហំ Memory ខ្ពស់ខ្លាំង ត្រូវការពេលវេលាហ្វឹកហាត់យូរ និងមានភាពលំបាកក្នុងការពង្រីកទំហំ (Poor Scalability)។ ទទួលបានភាពត្រឹមត្រូវ 48.70% (1-shot) និង 63.11% (5-shot) លើសំណុំទិន្នន័យ miniImageNet ប៉ុន្តែមានកម្រិតប្រែប្រួលខ្ពស់។
DeepEMD
បណ្ដាញ DeepEMD (កម្រិតខ្ពស់)
មានភាពត្រឹមត្រូវ និងប្រសិទ្ធភាពខ្ពស់បំផុត ដោយយកឈ្នះវិធីសាស្ត្រផ្សេងៗទៀតលើសំណុំទិន្នន័យជាច្រើន។ មានភាពស្មុគស្មាញក្នុងការគណនា O(NK·Q2) ដែលទាមទារឱ្យប្រើប្រាស់ Memory កម្រិតខ្ពស់។ សម្រេចបានលទ្ធផលខ្ពស់បំផុតដល់ទៅ 65.91% (1-shot) និង 82.41% (5-shot) លើទិន្នន័យ miniImageNet។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីកម្រិតនៃការប្រើប្រាស់ធនធាន ដែលប្រែប្រួលទៅតាមប្រភេទនៃក្បួនដោះស្រាយ (Algorithm) ជាពិសេសលើពេលវេលាហ្វឹកហាត់ និងទំហំ Memory។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកខ្លាំងលើសំណុំទិន្នន័យស្តង់ដារសកល (ដូចជា ImageNet និង CIFAR) ដែលភាគច្រើនប្រមូលផ្តុំពីរូបភាពនៃប្រទេសលោកខាងលិច។ សម្រាប់កម្ពុជា ការអនុវត្តជាក់ស្តែងទាមទារឱ្យមានសំណុំទិន្នន័យក្នុងស្រុកបន្ថែម (Local contextual data) ដើម្បីជៀសវាងភាពលម្អៀង (Bias) ដូចជាទិដ្ឋភាពផ្លូវថ្នល់ជាក់ស្តែងក្នុងរាជធានី ឬទម្រង់ជំងឺដែលជួបប្រទះញឹកញាប់ក្នុងតំបន់អាស៊ីអាគ្នេយ៍។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ Few-Shot និង Zero-Shot Learning នេះមានសក្តានុពលខ្ពស់ខ្លាំងសម្រាប់ប្រទេសកម្ពុជា ជាពិសេសក្នុងវិស័យដែលខ្វះខាតទិន្នន័យឌីជីថល និងមិនមានធនធានឬមូលនិធិគ្រប់គ្រាន់ក្នុងការកត់ត្រាទិន្នន័យ។

សរុបមក បច្ចេកវិទ្យានេះគឺជាដំណោះស្រាយដ៏មានប្រសិទ្ធភាព និងចំណាយតិចបំផុត ដើម្បីជួយជំរុញការប្រើប្រាស់បញ្ញាសិប្បនិម្មិត (AI) នៅកម្ពុជា ទៅលើចំណុចដែលពិបាកក្នុងការទាញយកទិន្នន័យធំៗ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃមេតារៀនសូត្រ (Meta-Learning): និស្សិតគួរចាប់ផ្តើមស្វែងយល់អំពីទ្រឹស្តី 'Learning to learn' និងក្បួនដោះស្រាយទូទៅនៃការរៀនដោយប្រើទិន្នន័យមានកំណត់ តាមរយៈការអានទ្រឹស្តីក្នុងឯកសារស្រាវជ្រាវនេះ ឬចុះឈ្មោះរៀនវគ្គសិក្សាលើ Coursera
  2. អនុវត្តការសរសេរកូដជាមួយ Prototypical Networks: អនុវត្តផ្ទាល់ដោយប្រើប្រាស់ PyTorch ដើម្បីសរសេរ និងដំណើរការម៉ូដែល Prototypical Networks តាមរយៈកូដគំរូដែលមានក្នុងទំព័រទី១៧នៃឯកសារនេះ ដោយសាកល្បងជាមួយទិន្នន័យខ្នាតតូចដូចជា CIFAR-FS
  3. ប្រមូលនិងរៀបចំទិន្នន័យខ្នាតតូចក្នុងស្រុក (Local Dataset Collection): បង្កើតគម្រោងក្រុមដើម្បីប្រមូលទិន្នន័យរូបភាពខ្នាតតូចពាក់ព័ន្ធនឹងបរិបទកម្ពុជា (ឧទាហរណ៍៖ ប្រភេទសត្វស្លាប ឬស្លាកសញ្ញាចរាចរណ៍នៅកម្ពុជា) ក្នុងបរិមាណត្រឹមតែ ១០ ទៅ ២០ រូបភាពក្នុងមួយប្រភេទ ដើម្បីធ្វើតេស្តសាកល្បងជាមួយម៉ូដែលរបស់ខ្លួន។
  4. អនុវត្តបច្ចេកទេសសន្សំសំចៃធនធាន Hardware (Memory Efficiency): ស្រាវជ្រាវ និងសាកល្បងបន្ថែមនូវបច្ចេកទេស Gradient Checkpointing និង LoRA (Low-Rank Adaptation) ដូចមានបង្ហាញក្នុងឯកសារ ដើម្បីឱ្យម៉ូដែលអាចដំណើរការបាននៅលើកុំព្យូទ័រយួរដៃធម្មតាដោយមិនតម្រូវឱ្យមាន GPU ថ្លៃៗ។
  5. ធ្វើសមាហរណកម្មជាមួយ Foundation Models: ពង្រីកសមត្ថភាពស្រាវជ្រាវដោយទាញយកម៉ូដែលធំៗដែលបានហ្វឹកហាត់រួចជាស្រេច (Pre-trained models) ដូចជា CLIPVision Transformers មកធ្វើជាមូលដ្ឋាន ដើម្បីបង្កើនភាពត្រឹមត្រូវខ្ពស់សម្រាប់ការងារ Zero-Shot Learning

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Few-shot learning (FSL) ការបង្រៀនម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ឱ្យស្គាល់ និងធ្វើចំណាត់ថ្នាក់វត្ថុថ្មីៗ ដោយប្រើប្រាស់ទិន្នន័យគំរូឬរូបភាពត្រឹមតែមួយចំនួនតូចប៉ុណ្ណោះ (ជាទូទៅពី ១ ទៅ ២០ ឧទាហរណ៍)។ ដូចជាការបង្ហាញរូបថតសត្វចម្លែកមួយសន្លឹកទៅក្មេង ហើយក្មេងនោះអាចចំណាំនិងស្គាល់សត្វនោះនៅពេលជួបលើកក្រោយភ្លាមៗដោយមិនបាច់មើលរូបច្រើន។
Zero-shot learning (ZSL) ការបង្រៀនម៉ូដែល AI ឱ្យមានសមត្ថភាពស្គាល់និងធ្វើចំណាត់ថ្នាក់វត្ថុដែលវាមិនធ្លាប់ឃើញទាល់តែសោះក្នុងពេលហ្វឹកហាត់ ដោយពឹងផ្អែកលើការពិពណ៌នាលក្ខណៈរូបរាង ឬអត្ថន័យពាក់ព័ន្ធជំនួសវិញ។ ដូចជាការប្រាប់នរណាម្នាក់ថា 'សត្វសេះបង្កង់ គឺដូចសត្វសេះ តែមានឆ្នូតសខ្មៅ' ទោះមិនធ្លាប់ឃើញផ្ទាល់ក៏គេអាចស្គាល់វានៅពេលជួបលើកដំបូង។
Meta-learning ដំណើរការនៃ 'ការរៀនពីរបៀបរៀន' ដែលម៉ូដែល AI ត្រូវបានហ្វឹកហាត់លើកិច្ចការតូចៗជាច្រើនខុសៗគ្នា ដើម្បីឱ្យវាមានសមត្ថភាពចាប់យកចំណេះដឹងនិងបន្ស៊ាំខ្លួនទៅនឹងបញ្ហាថ្មីៗបានលឿនបំផុត។ ដូចជាសិស្សដែលពូកែរៀនពីរបៀបដោះស្រាយលំហាត់គណិតវិទ្យាច្រើនប្រភេទ ដែលធ្វើឱ្យគេឆាប់ចាប់បានរាល់ពេលគ្រូបង្រៀនមេរៀនថ្មី។
Prototypical Networks ក្បួនដោះស្រាយក្នុង Few-Shot Learning ដែលបង្កើតចំណុចកណ្តាលតំណាង (Prototype) សម្រាប់ប្រភេទនីមួយៗ ហើយវិនិច្ឆ័យទិន្នន័យថ្មីដោយវាស់ចម្ងាយថាតើវានៅជិតចំណុចកណ្តាលណាមួយជាងគេ។ ដូចជាការចងចាំទម្រង់មុខមធ្យមរបស់ជនជាតិណាមួយ ហើយយកមុខមនុស្សថ្មីម្នាក់ទៅប្រៀបធៀបថាតើស្រដៀងនឹងទម្រង់មធ្យមនោះដែរឬទេ។
Catastrophic Forgetting បញ្ហាដែលប្រព័ន្ធ AI បាត់បង់ឬភ្លេចចំណេះដឹងចាស់ៗដែលវាធ្លាប់ចេះទាំងស្រុង នៅពេលដែលវាត្រូវបានហ្វឹកហាត់បន្ថែមដើម្បីរៀនកិច្ចការថ្មីបន្ទាប់ពីនោះ។ ដូចជាមនុស្សដែលខំរៀនភាសាបារាំងទាល់តែចេះ តែពេលងាកមករៀនភាសាចិនស្រាប់តែភ្លេចភាសាបារាំងខ្ទេចគ្មានសល់។
Model-Agnostic Meta-Learning (MAML) ក្បួនដោះស្រាយដែលស្វែងរកតម្លៃចាប់ផ្តើម (Initial weights) ដ៏ល្អឥតខ្ចោះមួយសម្រាប់ម៉ូដែល AI ដើម្បីឱ្យវាអាចកែតម្រូវខ្លួនឯងទៅកាន់កិច្ចការថ្មីបានយ៉ាងលឿន ដោយប្រើប្រាស់ការគណនា Gradient តិចតួចបំផុត។ ដូចជាការទៅឈររង់ចាំនៅចំណុចកណ្តាលនៃផ្លូវបំបែក ដែលធ្វើឱ្យអ្នកអាចរត់ទៅកាន់គោលដៅណាមួយក៏បានលឿនបំផុត។
Domain Shift ភាពខុសគ្នានៃលក្ខណៈទិន្នន័យរវាងពេលហ្វឹកហាត់ម៉ូដែល និងពេលយកទៅប្រើប្រាស់ជាក់ស្តែង (ឧទាហរណ៍ ហ្វឹកហាត់លើរូបគំនូរ តែយកទៅអនុវត្តលើរូបថតពិត) ដែលធ្វើឱ្យសមត្ថភាពម៉ូដែលធ្លាក់ចុះ។ ដូចជាសិស្សដែលរៀនបើកឡានក្នុងទីធ្លាសាលាដ៏ទូលាយ តែពេលឱ្យទៅបើកលើផ្លូវជាតិដែលមានចរាចរណ៍កកស្ទះ បែរជាភ័យបើកមិនកើត។
Episodic Training វិធីសាស្ត្ររៀបចំទិន្នន័យហ្វឹកហាត់ជាលក្ខណៈ 'វគ្គតូចៗ' (Episodes) ដោយក្លែងធ្វើស្ថានភាព Few-shot (សាកល្បងឱ្យទិន្នន័យតិចៗ) ដើម្បីឱ្យម៉ូដែលស៊ាំនឹងការទាយលទ្ធផលក្នុងស្ថានភាពខ្វះទិន្នន័យ។ ដូចជាការធ្វើតេស្តសាកល្បងមុនប្រឡងពិតប្រាកដ ដោយប្រើលក្ខខណ្ឌពេលវេលានិងសំណួរដូចបរិយាកាសប្រឡងមែនទែនដើម្បីឱ្យស៊ាំ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖