Original Title: GPT-4 对多模态大模型在多模态理解、生成、交互上的启发
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបំផុសគំនិតរបស់ GPT-4 លើគំរូមូលដ្ឋានពហុទម្រង់ (Multimodal Foundation Models) ក្នុងការយល់ដឹង ការបង្កើត និងអន្តរកម្មពហុទម្រង់

ចំណងជើងដើម៖ GPT-4 对多模态大模型在多模态理解、生成、交互上的启发

អ្នកនិពន្ធ៖ Jing Liu (Institute of Automation, Chinese Academy of Sciences), Longteng Guo (School of Artificial Intelligence, University of Chinese Academy of Sciences)

ឆ្នាំបោះពុម្ព៖ 2023, 中国科学基金 (Bulletin of National Natural Science Foundation of China)

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយពីបញ្ហានៃការផ្លាស់ប្តូរពីគំរូបញ្ញាសិប្បនិម្មិតឯកទម្រង់ (Unimodal AI) ទៅជាគំរូមូលដ្ឋានពហុទម្រង់ (Multimodal Foundation Models) ដោយផ្តោតលើរបៀបដែល GPT-4 ជះឥទ្ធិពលដល់ការយល់ដឹង ការបង្កើត និងអន្តរកម្ម។

វិធីសាស្ត្រ (The Methodology)៖ អត្ថបទនេះធ្វើការវិភាគនិងពិនិត្យឡើងវិញលើបច្ចេកវិទ្យាគន្លឹះ ព្រមទាំងវឌ្ឍនភាពនាពេលថ្មីៗនេះនៃគំរូពហុទម្រង់ (Multimodal Models) ដោយផ្អែកលើលក្ខណៈពិសេសរបស់ GPT-4 ។

ការវិភាគបច្ចេកទេសរបស់ GPT-4 (Technical Analysis of GPT-4): ការវាយតម្លៃលើសមត្ថភាពគ្រប់គ្រងអត្ថបទវែង (Long context window) និងកាត់បន្ថយការយល់ច្រឡំ (Hallucination mitigation)។
ការយល់ដឹងពហុទម្រង់ (Multimodal Understanding): ការរួមបញ្ចូលអត្ថបទ រូបភាព និងវីដេអូ ដើម្បីយល់ដឹងពីពិភពលោក។
ការបង្កើតមាតិកាពហុទម្រង់ (Multimodal Generation): ការប្រើប្រាស់ភាសាជាមូលដ្ឋានដើម្បីបង្កើតរូបភាព វីដេអូ និងសំឡេង ដូចជាគំរូ Diffusion ជាដើម។
អន្តរកម្មពហុទម្រង់ (Multimodal Interaction): ការសិក្សាពីរបៀបដែលគំរូអាចធ្វើអន្តរកម្មជាមួយមនុស្ស និងបរិស្ថាន រួមទាំងបញ្ញាដែលមានរូបរាង (Embodied AI) ដូចជា PaLM-E និង RT-2។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

GPT-4 បង្ហាញពីសមត្ថភាពដ៏អស្ចារ្យក្នុងការបញ្ចូលទិន្នន័យពហុទម្រង់ (អត្ថបទ និងរូបភាព) ដែលជួយបង្កើនសមត្ថភាពយល់ដឹង និងបង្កើតមាតិកាបានយ៉ាងល្អប្រសើរ លើសពីការធ្វើអន្តរកម្មតែអត្ថបទ។
ការរួមបញ្ចូលសមត្ថភាពយល់ដឹងពីភាសាធម្មជាតិ (Natural Language Understanding) ទៅក្នុងគំរូពហុទម្រង់ អាចពង្រឹងការវែកញែកតក្កវិជ្ជា និងសមត្ថភាពធ្វើអន្តរកម្មកាន់តែស៊ីជម្រៅ ស្របតាមប្រព័ន្ធការយល់ដឹងរបស់មនុស្ស។
គំរូភាសាខ្នាតធំ (Large Language Models) ដូចជា GPT-4 នឹងដើរតួនាទីជាខួរក្បាលកណ្តាល ដើម្បីសម្របសម្រួលទៅនឹងបរិស្ថាន ឈុតឆាក និងកិច្ចការដែលកាន់តែស្មុគស្មាញនាពេលអនាគត។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
GPT-4 (Zero-shot Multimodal) GPT-4 (គំរូពហុទម្រង់មិនបាច់ហ្វឹកហាត់ជាមុនលើកិច្ចការជាក់លាក់)	មានសមត្ថភាពខ្ពស់ក្នុងការយល់ដឹងទិន្នន័យចម្រុះ (អត្ថបទ និងរូបភាព) និងអាចដោះស្រាយកិច្ចការស្មុគស្មាញបានដោយមិនចាំបាច់ធ្វើការហ្វឹកហាត់បន្ថែម (Fine-tuning)។	នៅតែមានបញ្ហាភាន់ច្រឡំ (Hallucination) ខ្លះៗ ដំណើរការយឺតជាងម៉ូដែលតូចៗ និងមិនសូវមានប្រសិទ្ធភាពខ្ពស់លើការយល់ដឹងពីវីដេអូបើធៀបនឹងម៉ូដែលឯកទេស។	ទទួលបានលទ្ធផលល្អប្រសើរខ្លាំង ដោយយកឈ្នះម៉ូដែលឯកទេសលើកិច្ចការ TextVQA (78.0%), AI2 Diagram (78.2%), និង InfographicVQA (75.1%)។
Dedicated Fine-tuned Models (e.g., PaLI-17B, MERLOT) ម៉ូដែលឯកទេសដែលបានហ្វឹកហាត់បន្ថែម (ឧ. PaLI-17B, MERLOT)	មានភាពសុក្រឹតខ្ពស់លើកិច្ចការជាក់លាក់ដែលវាត្រូវបានបង្វឹក (ឧទាហរណ៍ ការយល់ដឹងពីវីដេអូ ឬសំណួរចម្លើយលើរូបភាព)។	ខ្វះភាពបត់បែន ពោលគឺអាចដោះស្រាយបានតែកិច្ចការមួយ ឬទម្រង់ទិន្នន័យតែមួយប៉ុណ្ណោះ និងមិនអាចធ្វើការវែកញែកតក្កវិជ្ជាទូទៅបានល្អដូច GPT-4 ទេ។	ទទួលបានលទ្ធផលល្អជាង GPT-4 លើកិច្ចការ VQAv2 (84.3%) និងការយល់ដឹងពីវីដេអូ LSMDC (52.9%)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍនិងបង្វឹកគំរូមូលដ្ឋានពហុទម្រង់ (Multimodal Foundation Models) ខ្នាតធំ ទាមទារការវិនិយោគយ៉ាងសន្ធឹកសន្ធាប់លើធនធានកុំព្យូទ័រ និងទិន្នន័យ។

Hardware: ត្រូវការម៉ាស៊ីនមេ (Servers) ដែលបំពាក់ដោយ GPU កម្រិតខ្ពស់រាប់ពាន់គ្រឿង (ដូចជា NVIDIA A100/H100) ដើម្បីដំណើរការហ្វឹកហាត់ម៉ូដែលដែលមានប៉ារ៉ាម៉ែត្ររាប់ពាន់លាន (ឧទាហរណ៍ GPT-3 មាន 175 ពាន់លានប៉ារ៉ាម៉ែត្រ)។
Dataset: ទាមទារសំណុំទិន្នន័យចម្រុះដ៏មហិមា (អត្ថបទ រូបភាព វីដេអូ សំឡេង) ក្នុងកម្រិតរាប់រយលានទៅរាប់ពាន់លានទិន្នន័យ (TB/PB level) ដែលទាញយកនិងសម្អាតពីអ៊ីនធឺណិត (ឧ. MSCOCO ឬ LAION)។
Expertise: ត្រូវការក្រុមការងារជំនាញជាន់ខ្ពស់រួមមាន អ្នកស្រាវជ្រាវ AI, វិស្វករទិន្នន័យ (Data Engineers), និងអ្នកជំនាញខាងវាយតម្លៃម៉ូដែល (RLHF Evaluators) ដើម្បីកាត់បន្ថយភាពលម្អៀងនិងបញ្ហា Hallucination។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ឯកសារនេះផ្ដោតលើការវិភាគម៉ូដែលដែលត្រូវបានអភិវឌ្ឍន៍ដោយក្រុមហ៊ុនបច្ចេកវិទ្យាធំៗនៅសហរដ្ឋអាមេរិក (OpenAI, Google) និងប្រទេសចិន ដោយប្រើប្រាស់សំណុំទិន្នន័យភាគច្រើនជាភាសាអង់គ្លេស និងភាសាចិន។ នេះជាបញ្ហាប្រឈមសម្រាប់ប្រទេសកម្ពុជា ដោយសារម៉ូដែលទាំងនេះខ្វះការយល់ដឹងស៊ីជម្រៅពីវប្បធម៌ ភាសាខ្មែរ និងបរិបទសង្គមក្នុងស្រុក ដែលអាចបណ្តាលឱ្យមានភាពលម្អៀង (Bias) ឬផ្តល់ព័ត៌មានមិនត្រឹមត្រូវនៅពេលយកមកអនុវត្តផ្ទាល់នៅកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យាគំរូពហុទម្រង់ (Multimodal Models) នេះមានសក្តានុពលដ៏ធំធេងក្នុងការជំរុញនវានុវត្តន៍ និងប្រសិទ្ធភាពការងារក្នុងវិស័យសំខាន់ៗនៅប្រទេសកម្ពុជា។

វិស័យសុខាភិបាល (ឧ. មន្ទីរពេទ្យកាល់ម៉ែត): អាចប្រើប្រាស់ម៉ូដែលពហុទម្រង់ដើម្បីវិភាគរូបភាពវេជ្ជសាស្ត្រ (X-ray, MRI) រួមផ្សំជាមួយកំណត់ត្រាប្រវត្តិអ្នកជំងឺ (អត្ថបទ) ដើម្បីជួយគ្រូពេទ្យក្នុងការធ្វើរោគវិនិច្ឆ័យបានកាន់តែរហ័សនិងសុក្រឹត។
វិស័យអប់រំ (ក្រសួងអប់រំ យុវជន និងកីឡា): ការបង្កើតប្រព័ន្ធជំនួយការសិក្សាឆ្លាតវៃ (Smart Tutors) ដែលអាចអានសំណួរជាអក្សរ និងវិភាគលើរូបភាពកិច្ចការផ្ទះរបស់សិស្ស ដើម្បីពន្យល់មេរៀនប្រកបដោយអន្តរកម្ម។
វិស័យកសិកម្ម និងសហគ្រាសធុនតូចនិងមធ្យម (SMEs): អាចប្រើប្រាស់សម្រាប់ការវាយតម្លៃគុណភាពកសិផលតាមរយៈរូបភាព (Vision) ឬបង្កើតមាតិកាផ្សព្វផ្សាយទីផ្សារដោយស្វ័យប្រវត្តិ (អត្ថបទនិងរូបភាព) ដើម្បីជួយដល់អាជីវកម្មក្នុងស្រុក។

សរុបមក ការស្វែងយល់និងសម្របយកបច្ចេកវិទ្យាពហុទម្រង់នេះមកប្រើប្រាស់ នឹងជួយលើកកម្ពស់ប្រសិទ្ធភាពការងារក្នុងវិស័យអាទិភាពរបស់កម្ពុជា ទោះបីជាយើងត្រូវខិតខំកសាងសំណុំទិន្នន័យភាសាខ្មែរបន្ថែមក៏ដោយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃគំរូភាសាខ្នាតធំ និងពហុទម្រង់: ចាប់ផ្តើមសិក្សាពីស្ថាបត្យកម្ម Transformer និងយន្តការ Attention តាមរយៈវគ្គសិក្សានៅលើ Coursera ឬ DeepLearning.AI ដោយផ្តោតលើការរួមបញ្ចូលគ្នារវាងការប្រមวลផលភាសាធម្មជាតិ (NLP) និងការមើលឃើញរបស់កុំព្យូទ័រ (Computer Vision)។
អនុវត្តការប្រើប្រាស់ API របស់ម៉ូដែលដែលមានស្រាប់: សាកល្បងប្រើប្រាស់ OpenAI GPT-4V API ឬ Google Gemini API ដើម្បីបង្កើតគម្រោងតូចៗ (Mini-projects) ដូចជា ប្រព័ន្ធឆ្លើយសំណួរផ្អែកលើរូបភាពផ្តោតលើទេសចរណ៍កម្ពុជា ឬកម្មវិធីបំប្លែងអត្ថបទទៅជារូបភាពដោយប្រើ Stable Diffusion។
ប្រមូលនិងរៀបចំទិន្នន័យពហុទម្រង់ជាភាសាខ្មែរ: ចាប់ផ្តើមប្រមូលទិន្នន័យរូបភាពដែលមានភ្ជាប់ការពន្យល់ជាភាសាខ្មែរ (Image-Text pairs) ពីប្រភពក្នុងស្រុក និងប្រើប្រាស់បច្ចេកទេស Data Augmentation ដើម្បីកសាងសំណុំទិន្នន័យមួយដែលអាចជួយឱ្យម៉ូដែលយល់ពីបរិបទវប្បធម៌កម្ពុជា។
សាកល្បងបង្វឹកម៉ូដែលខ្នាតតូចដោយប្រើ PEFT: ប្រើប្រាស់បច្ចេកទេស Parameter-Efficient Fine-Tuning ដូចជា LoRA ឬ Q-LoRA ដើម្បីធ្វើការ Fine-tune លើម៉ូដែល Open-source ដូចជា LLaVA ឬ BLIP-2 ដោយប្រើប្រាស់ទិន្នន័យភាសាខ្មែររបស់អ្នក ដែលវិធីនេះទាមទារធនធាន GPU តិចតួចប៉ុណ្ណោះ។
ចូលរួមសហគមន៍ស្រាវជ្រាវ AI: ចូលរួមយ៉ាងសកម្មក្នុងសហគមន៍ Hugging Face និងក្រុមអ្នកអភិវឌ្ឍន៍ AI ក្នុងស្រុក (ដូចជា BarCamp ឬ AI Cambodia) ដើម្បីចែករំលែកកូដ (Open Source) និងសហការបង្កើតកម្មវិធី AI ដែលដោះស្រាយបញ្ហាជាក់ស្តែងនៅកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Multimodal foundation models	គំរូបញ្ញាសិប្បនិម្មិតខ្នាតធំដែលអាចទទួលយក យល់ដឹង និងដំណើរការទិន្នន័យច្រើនទម្រង់ក្នុងពេលតែមួយ ដូចជាអត្ថបទ រូបភាព សំឡេង និងវីដេអូ ដើម្បីបង្កើតជាលទ្ធផល ឬធ្វើអន្តរកម្មឆ្លើយតបយ៉ាងមានន័យ។	ដូចជាមនុស្សដែលអាចមើលឃើញសៀវភៅ (រូបភាព) និងអានអក្សរ (អត្ថបទ) ក្នុងពេលតែមួយ ដើម្បីយល់ន័យនៃសាច់រឿងទាំងមូល។
Transformer	ជាស្ថាបត្យកម្មបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) មួយប្រភេទដែលពូកែខាងស្វែងយល់ពីទំនាក់ទំនងនៃពាក្យនៅក្នុងប្រយោគវែងៗ ដោយផ្ដល់ការយកចិត្តទុកដាក់ (Attention) ទៅលើផ្នែកសំខាន់ៗនៃទិន្នន័យ ទោះបីជាពាក្យទាំងនោះនៅឆ្ងាយពីគ្នាក៏ដោយ។	ដូចជាអ្នកអានសៀវភៅដែលចេះគូសបន្ទាត់ពីក្រោមពាក្យគន្លឹះសំខាន់ៗ ដើម្បីងាយស្រួលយល់ន័យប្រយោគទាំងមូលដោយមិនបាច់ទន្ទេញរាល់ពាក្យទាំងអស់។
Word Embedding	បច្ចេកទេសបំប្លែងពាក្យ ឬអត្ថបទ ទៅជាតួលេខ (វ៉ិចទ័រ) នៅក្នុងលំហគណិតវិទ្យា ដើម្បីឱ្យកុំព្យូទ័រអាចវាស់ស្ទង់ភាពស្រដៀងគ្នា និងយល់ពីអត្ថន័យទំនាក់ទំនងរវាងពាក្យទាំងនោះ។	ដូចជាការដាក់ឈ្មោះផ្លូវ និងលេខផ្ទះឱ្យពាក្យនីមួយៗក្នុងទីក្រុង ដើម្បីឱ្យកុំព្យូទ័រដឹងថាពាក្យ "ឆ្កែ" និង "ឆ្មា" មានផ្ទះនៅជិតគ្នា ព្រោះវាជាសត្វចិញ្ចឹមដូចគ្នា។
Tokenizer	កម្មវិធី ឬក្បួនដោះស្រាយដែលទទួលបន្ទុកកាត់បំបែកអត្ថបទវែងៗទៅជាចំណែកតូចៗ (Tokens) ដូចជាពាក្យ ឬព្យាង្គ ដើម្បីងាយស្រួលឱ្យម៉ូដែល AI យកទៅដំណើរការបន្ត។	ដូចជាការហាន់បន្លែជាដុំតូចៗ មុននឹងដាក់ចូលទៅក្នុងម៉ាស៊ីនក្រឡុក ដើម្បីឱ្យម៉ាស៊ីនងាយស្រួលកិន។
Diffusion Model	គំរូ AI សម្រាប់បង្កើតរូបភាព ដោយចាប់ផ្តើមពីការបន្ថែមសញ្ញារំខាន (Noise) ទៅលើរូបភាពរហូតដល់មើលលែងយល់ រួចរៀនពីរបៀបកាត់បន្ថយសញ្ញារំខាននោះវិញ (Denoising) មួយជំហានម្តងៗ ដើម្បីបង្កើតជារូបភាពថ្មីស្រឡាងដោយផ្អែកលើអត្ថបទបញ្ជា។	ដូចជាការចាក់ខ្សាច់ទៅលើរូបគំនូរមួយរហូតដល់បាត់រូបដើម រួចរៀនពីរបៀបបោសខ្សាច់ចេញវិញម្តងបន្តិចៗ ដើម្បីគូរចេញជារូបថ្មីមួយទៀតតាមការស្រមើស្រមៃ។
Zero-shot Learning	សមត្ថភាពរបស់ម៉ូដែល AI ក្នុងការដោះស្រាយកិច្ចការថ្មីៗដែលវាមិនធ្លាប់បានឃើញ ឬមិនធ្លាប់ត្រូវបានគេហ្វឹកហាត់ដោយផ្តល់ឧទាហរណ៍ជាមុន ដោយវាពឹងផ្អែកលើចំណេះដឹងទូទៅដែលវាមានស្រាប់ដើម្បីធ្វើការសន្និដ្ឋាន។	ដូចជាសិស្សដែលធ្លាប់រៀនតែពីរបៀបជិះកង់ ប៉ុន្តែអាចយកជំនាញតុល្យភាពនោះទៅសាកល្បងជិះម៉ូតូបានភ្លាមៗ ដោយមិនបាច់មានគេបង្រៀនពីមុនមក។
Hallucination	បាតុភូតដែលគំរូ AI បង្កើតនូវព័ត៌មាន ឬចម្លើយដែលមើលទៅហាក់ដូចជាសមហេតុសមផល និងគួរឱ្យជឿជាក់ ប៉ុន្តែការពិតវាជាព័ត៌មានខុស មិនពិត ឬមិនមានប្រភពច្បាស់លាស់ទាល់តែសោះ។	ដូចជាមនុស្សដែលពូកែនិយាយអួត ឬប្រឌិតរឿងភូតកុហកយ៉ាងរលូនរហូតធ្វើឱ្យអ្នកស្ដាប់ជឿជាក់ថាជារឿងពិត។
Embodied AI	បញ្ញាសិប្បនិម្មិតដែលមិនត្រឹមតែដំណើរការលើកុំព្យូទ័រប៉ុណ្ណោះទេ ប៉ុន្តែត្រូវបានបញ្ចូលទៅក្នុងរូបរាងរូបវន្ត (ដូចជាមនុស្សយន្ត) ដើម្បីអាចធ្វើអន្តរកម្ម មើលឃើញ និងធ្វើសកម្មភាពនៅក្នុងបរិស្ថាននៃពិភពពិតបាន។	ដូចជាការយកខួរក្បាលកុំព្យូទ័រដ៏ឆ្លាតវៃ ទៅបំពាក់ក្នុងខ្លួនរ៉ូបូត ដើម្បីឱ្យវាអាចដើរ កាន់វត្ថុ និងធ្វើការងារផ្ទះជំនួសមនុស្សបាន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖