Original Title: GPT-4 对多模态大模型在多模态理解、生成、交互上的启发
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបំផុសគំនិតរបស់ GPT-4 លើគំរូមូលដ្ឋានពហុទម្រង់ (Multimodal Foundation Models) ក្នុងការយល់ដឹង ការបង្កើត និងអន្តរកម្មពហុទម្រង់

ចំណងជើងដើម៖ GPT-4 对多模态大模型在多模态理解、生成、交互上的启发

អ្នកនិពន្ធ៖ Jing Liu (Institute of Automation, Chinese Academy of Sciences), Longteng Guo (School of Artificial Intelligence, University of Chinese Academy of Sciences)

ឆ្នាំបោះពុម្ព៖ 2023, 中国科学基金 (Bulletin of National Natural Science Foundation of China)

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយពីបញ្ហានៃការផ្លាស់ប្តូរពីគំរូបញ្ញាសិប្បនិម្មិតឯកទម្រង់ (Unimodal AI) ទៅជាគំរូមូលដ្ឋានពហុទម្រង់ (Multimodal Foundation Models) ដោយផ្តោតលើរបៀបដែល GPT-4 ជះឥទ្ធិពលដល់ការយល់ដឹង ការបង្កើត និងអន្តរកម្ម។

វិធីសាស្ត្រ (The Methodology)៖ អត្ថបទនេះធ្វើការវិភាគនិងពិនិត្យឡើងវិញលើបច្ចេកវិទ្យាគន្លឹះ ព្រមទាំងវឌ្ឍនភាពនាពេលថ្មីៗនេះនៃគំរូពហុទម្រង់ (Multimodal Models) ដោយផ្អែកលើលក្ខណៈពិសេសរបស់ GPT-4 ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
GPT-4 (Zero-shot Multimodal)
GPT-4 (គំរូពហុទម្រង់មិនបាច់ហ្វឹកហាត់ជាមុនលើកិច្ចការជាក់លាក់)
មានសមត្ថភាពខ្ពស់ក្នុងការយល់ដឹងទិន្នន័យចម្រុះ (អត្ថបទ និងរូបភាព) និងអាចដោះស្រាយកិច្ចការស្មុគស្មាញបានដោយមិនចាំបាច់ធ្វើការហ្វឹកហាត់បន្ថែម (Fine-tuning)។ នៅតែមានបញ្ហាភាន់ច្រឡំ (Hallucination) ខ្លះៗ ដំណើរការយឺតជាងម៉ូដែលតូចៗ និងមិនសូវមានប្រសិទ្ធភាពខ្ពស់លើការយល់ដឹងពីវីដេអូបើធៀបនឹងម៉ូដែលឯកទេស។ ទទួលបានលទ្ធផលល្អប្រសើរខ្លាំង ដោយយកឈ្នះម៉ូដែលឯកទេសលើកិច្ចការ TextVQA (78.0%), AI2 Diagram (78.2%), និង InfographicVQA (75.1%)។
Dedicated Fine-tuned Models (e.g., PaLI-17B, MERLOT)
ម៉ូដែលឯកទេសដែលបានហ្វឹកហាត់បន្ថែម (ឧ. PaLI-17B, MERLOT)
មានភាពសុក្រឹតខ្ពស់លើកិច្ចការជាក់លាក់ដែលវាត្រូវបានបង្វឹក (ឧទាហរណ៍ ការយល់ដឹងពីវីដេអូ ឬសំណួរចម្លើយលើរូបភាព)។ ខ្វះភាពបត់បែន ពោលគឺអាចដោះស្រាយបានតែកិច្ចការមួយ ឬទម្រង់ទិន្នន័យតែមួយប៉ុណ្ណោះ និងមិនអាចធ្វើការវែកញែកតក្កវិជ្ជាទូទៅបានល្អដូច GPT-4 ទេ។ ទទួលបានលទ្ធផលល្អជាង GPT-4 លើកិច្ចការ VQAv2 (84.3%) និងការយល់ដឹងពីវីដេអូ LSMDC (52.9%)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍនិងបង្វឹកគំរូមូលដ្ឋានពហុទម្រង់ (Multimodal Foundation Models) ខ្នាតធំ ទាមទារការវិនិយោគយ៉ាងសន្ធឹកសន្ធាប់លើធនធានកុំព្យូទ័រ និងទិន្នន័យ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ឯកសារនេះផ្ដោតលើការវិភាគម៉ូដែលដែលត្រូវបានអភិវឌ្ឍន៍ដោយក្រុមហ៊ុនបច្ចេកវិទ្យាធំៗនៅសហរដ្ឋអាមេរិក (OpenAI, Google) និងប្រទេសចិន ដោយប្រើប្រាស់សំណុំទិន្នន័យភាគច្រើនជាភាសាអង់គ្លេស និងភាសាចិន។ នេះជាបញ្ហាប្រឈមសម្រាប់ប្រទេសកម្ពុជា ដោយសារម៉ូដែលទាំងនេះខ្វះការយល់ដឹងស៊ីជម្រៅពីវប្បធម៌ ភាសាខ្មែរ និងបរិបទសង្គមក្នុងស្រុក ដែលអាចបណ្តាលឱ្យមានភាពលម្អៀង (Bias) ឬផ្តល់ព័ត៌មានមិនត្រឹមត្រូវនៅពេលយកមកអនុវត្តផ្ទាល់នៅកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យាគំរូពហុទម្រង់ (Multimodal Models) នេះមានសក្តានុពលដ៏ធំធេងក្នុងការជំរុញនវានុវត្តន៍ និងប្រសិទ្ធភាពការងារក្នុងវិស័យសំខាន់ៗនៅប្រទេសកម្ពុជា។

សរុបមក ការស្វែងយល់និងសម្របយកបច្ចេកវិទ្យាពហុទម្រង់នេះមកប្រើប្រាស់ នឹងជួយលើកកម្ពស់ប្រសិទ្ធភាពការងារក្នុងវិស័យអាទិភាពរបស់កម្ពុជា ទោះបីជាយើងត្រូវខិតខំកសាងសំណុំទិន្នន័យភាសាខ្មែរបន្ថែមក៏ដោយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃគំរូភាសាខ្នាតធំ និងពហុទម្រង់: ចាប់ផ្តើមសិក្សាពីស្ថាបត្យកម្ម Transformer និងយន្តការ Attention តាមរយៈវគ្គសិក្សានៅលើ CourseraDeepLearning.AI ដោយផ្តោតលើការរួមបញ្ចូលគ្នារវាងការប្រមวลផលភាសាធម្មជាតិ (NLP) និងការមើលឃើញរបស់កុំព្យូទ័រ (Computer Vision)។
  2. អនុវត្តការប្រើប្រាស់ API របស់ម៉ូដែលដែលមានស្រាប់: សាកល្បងប្រើប្រាស់ OpenAI GPT-4V APIGoogle Gemini API ដើម្បីបង្កើតគម្រោងតូចៗ (Mini-projects) ដូចជា ប្រព័ន្ធឆ្លើយសំណួរផ្អែកលើរូបភាពផ្តោតលើទេសចរណ៍កម្ពុជា ឬកម្មវិធីបំប្លែងអត្ថបទទៅជារូបភាពដោយប្រើ Stable Diffusion
  3. ប្រមូលនិងរៀបចំទិន្នន័យពហុទម្រង់ជាភាសាខ្មែរ: ចាប់ផ្តើមប្រមូលទិន្នន័យរូបភាពដែលមានភ្ជាប់ការពន្យល់ជាភាសាខ្មែរ (Image-Text pairs) ពីប្រភពក្នុងស្រុក និងប្រើប្រាស់បច្ចេកទេស Data Augmentation ដើម្បីកសាងសំណុំទិន្នន័យមួយដែលអាចជួយឱ្យម៉ូដែលយល់ពីបរិបទវប្បធម៌កម្ពុជា។
  4. សាកល្បងបង្វឹកម៉ូដែលខ្នាតតូចដោយប្រើ PEFT: ប្រើប្រាស់បច្ចេកទេស Parameter-Efficient Fine-Tuning ដូចជា LoRAQ-LoRA ដើម្បីធ្វើការ Fine-tune លើម៉ូដែល Open-source ដូចជា LLaVABLIP-2 ដោយប្រើប្រាស់ទិន្នន័យភាសាខ្មែររបស់អ្នក ដែលវិធីនេះទាមទារធនធាន GPU តិចតួចប៉ុណ្ណោះ។
  5. ចូលរួមសហគមន៍ស្រាវជ្រាវ AI: ចូលរួមយ៉ាងសកម្មក្នុងសហគមន៍ Hugging Face និងក្រុមអ្នកអភិវឌ្ឍន៍ AI ក្នុងស្រុក (ដូចជា BarCamp ឬ AI Cambodia) ដើម្បីចែករំលែកកូដ (Open Source) និងសហការបង្កើតកម្មវិធី AI ដែលដោះស្រាយបញ្ហាជាក់ស្តែងនៅកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Multimodal foundation models គំរូបញ្ញាសិប្បនិម្មិតខ្នាតធំដែលអាចទទួលយក យល់ដឹង និងដំណើរការទិន្នន័យច្រើនទម្រង់ក្នុងពេលតែមួយ ដូចជាអត្ថបទ រូបភាព សំឡេង និងវីដេអូ ដើម្បីបង្កើតជាលទ្ធផល ឬធ្វើអន្តរកម្មឆ្លើយតបយ៉ាងមានន័យ។ ដូចជាមនុស្សដែលអាចមើលឃើញសៀវភៅ (រូបភាព) និងអានអក្សរ (អត្ថបទ) ក្នុងពេលតែមួយ ដើម្បីយល់ន័យនៃសាច់រឿងទាំងមូល។
Transformer ជាស្ថាបត្យកម្មបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) មួយប្រភេទដែលពូកែខាងស្វែងយល់ពីទំនាក់ទំនងនៃពាក្យនៅក្នុងប្រយោគវែងៗ ដោយផ្ដល់ការយកចិត្តទុកដាក់ (Attention) ទៅលើផ្នែកសំខាន់ៗនៃទិន្នន័យ ទោះបីជាពាក្យទាំងនោះនៅឆ្ងាយពីគ្នាក៏ដោយ។ ដូចជាអ្នកអានសៀវភៅដែលចេះគូសបន្ទាត់ពីក្រោមពាក្យគន្លឹះសំខាន់ៗ ដើម្បីងាយស្រួលយល់ន័យប្រយោគទាំងមូលដោយមិនបាច់ទន្ទេញរាល់ពាក្យទាំងអស់។
Word Embedding បច្ចេកទេសបំប្លែងពាក្យ ឬអត្ថបទ ទៅជាតួលេខ (វ៉ិចទ័រ) នៅក្នុងលំហគណិតវិទ្យា ដើម្បីឱ្យកុំព្យូទ័រអាចវាស់ស្ទង់ភាពស្រដៀងគ្នា និងយល់ពីអត្ថន័យទំនាក់ទំនងរវាងពាក្យទាំងនោះ។ ដូចជាការដាក់ឈ្មោះផ្លូវ និងលេខផ្ទះឱ្យពាក្យនីមួយៗក្នុងទីក្រុង ដើម្បីឱ្យកុំព្យូទ័រដឹងថាពាក្យ "ឆ្កែ" និង "ឆ្មា" មានផ្ទះនៅជិតគ្នា ព្រោះវាជាសត្វចិញ្ចឹមដូចគ្នា។
Tokenizer កម្មវិធី ឬក្បួនដោះស្រាយដែលទទួលបន្ទុកកាត់បំបែកអត្ថបទវែងៗទៅជាចំណែកតូចៗ (Tokens) ដូចជាពាក្យ ឬព្យាង្គ ដើម្បីងាយស្រួលឱ្យម៉ូដែល AI យកទៅដំណើរការបន្ត។ ដូចជាការហាន់បន្លែជាដុំតូចៗ មុននឹងដាក់ចូលទៅក្នុងម៉ាស៊ីនក្រឡុក ដើម្បីឱ្យម៉ាស៊ីនងាយស្រួលកិន។
Diffusion Model គំរូ AI សម្រាប់បង្កើតរូបភាព ដោយចាប់ផ្តើមពីការបន្ថែមសញ្ញារំខាន (Noise) ទៅលើរូបភាពរហូតដល់មើលលែងយល់ រួចរៀនពីរបៀបកាត់បន្ថយសញ្ញារំខាននោះវិញ (Denoising) មួយជំហានម្តងៗ ដើម្បីបង្កើតជារូបភាពថ្មីស្រឡាងដោយផ្អែកលើអត្ថបទបញ្ជា។ ដូចជាការចាក់ខ្សាច់ទៅលើរូបគំនូរមួយរហូតដល់បាត់រូបដើម រួចរៀនពីរបៀបបោសខ្សាច់ចេញវិញម្តងបន្តិចៗ ដើម្បីគូរចេញជារូបថ្មីមួយទៀតតាមការស្រមើស្រមៃ។
Zero-shot Learning សមត្ថភាពរបស់ម៉ូដែល AI ក្នុងការដោះស្រាយកិច្ចការថ្មីៗដែលវាមិនធ្លាប់បានឃើញ ឬមិនធ្លាប់ត្រូវបានគេហ្វឹកហាត់ដោយផ្តល់ឧទាហរណ៍ជាមុន ដោយវាពឹងផ្អែកលើចំណេះដឹងទូទៅដែលវាមានស្រាប់ដើម្បីធ្វើការសន្និដ្ឋាន។ ដូចជាសិស្សដែលធ្លាប់រៀនតែពីរបៀបជិះកង់ ប៉ុន្តែអាចយកជំនាញតុល្យភាពនោះទៅសាកល្បងជិះម៉ូតូបានភ្លាមៗ ដោយមិនបាច់មានគេបង្រៀនពីមុនមក។
Hallucination បាតុភូតដែលគំរូ AI បង្កើតនូវព័ត៌មាន ឬចម្លើយដែលមើលទៅហាក់ដូចជាសមហេតុសមផល និងគួរឱ្យជឿជាក់ ប៉ុន្តែការពិតវាជាព័ត៌មានខុស មិនពិត ឬមិនមានប្រភពច្បាស់លាស់ទាល់តែសោះ។ ដូចជាមនុស្សដែលពូកែនិយាយអួត ឬប្រឌិតរឿងភូតកុហកយ៉ាងរលូនរហូតធ្វើឱ្យអ្នកស្ដាប់ជឿជាក់ថាជារឿងពិត។
Embodied AI បញ្ញាសិប្បនិម្មិតដែលមិនត្រឹមតែដំណើរការលើកុំព្យូទ័រប៉ុណ្ណោះទេ ប៉ុន្តែត្រូវបានបញ្ចូលទៅក្នុងរូបរាងរូបវន្ត (ដូចជាមនុស្សយន្ត) ដើម្បីអាចធ្វើអន្តរកម្ម មើលឃើញ និងធ្វើសកម្មភាពនៅក្នុងបរិស្ថាននៃពិភពពិតបាន។ ដូចជាការយកខួរក្បាលកុំព្យូទ័រដ៏ឆ្លាតវៃ ទៅបំពាក់ក្នុងខ្លួនរ៉ូបូត ដើម្បីឱ្យវាអាចដើរ កាន់វត្ថុ និងធ្វើការងារផ្ទះជំនួសមនុស្សបាន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖