Original Title: Foundation Models for Natural Language Processing: Pre-trained Language Models Integrating Media
Source: link.springer.com
Document Type: Textbook / Educational Material
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original material for complete content.

ម៉ូដែលមូលដ្ឋានសម្រាប់ដំណើរការភាសាធម្មជាតិ៖ ម៉ូដែលភាសាដែលបានបង្វឹកជាមុនរួមបញ្ចូលជាមួយប្រព័ន្ធផ្សព្វផ្សាយ

ចំណងជើងដើម៖ Foundation Models for Natural Language Processing: Pre-trained Language Models Integrating Media

អ្នកនិពន្ធ៖ Gerhard Paaß, Sven Giesselbach

ឆ្នាំបោះពុម្ព៖ 2023 Springer Nature

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេប (Overview)

ប្រធានបទ (Topic)៖ សៀវភៅនេះដោះស្រាយតម្រូវការនៃការយល់ដឹងអំពីការវិវត្តយ៉ាងឆាប់រហ័សនៃម៉ូដែលមូលដ្ឋាន (Foundation Models) និងរបៀបដែលម៉ូដែលទំហំធំទាំងនេះកំពុងផ្លាស់ប្តូរវិធីសាស្ត្រដែលម៉ាស៊ីនស្វែងយល់ បង្កើត និងបកប្រែភាសាព្រមទាំងទិន្នន័យចម្រុះ។

រចនាសម្ព័ន្ធ (Structure)៖ អត្ថបទនេះផ្តល់នូវការវិភាគយ៉ាងទូលំទូលាយលើស្ថាបត្យកម្មកម្រិតខ្ពស់ បច្ចេកទេសបង្វឹក និងការអនុវត្តជាក់ស្តែងនៃម៉ូដែលទាំងនេះ។

ស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទកម្រិតជ្រៅ (Deep Neural Networks) ដូចជា Autoencoders (BERT), Autoregressive models (GPT), និង Sequence-to-Sequence (Transformers)
យន្តការនៃការយកចិត្តទុកដាក់លើខ្លួនឯង (Self-attention mechanisms) និងការបង្វឹកដោយរៀនខ្លួនឯងលើទិន្នន័យធំៗ (Self-supervised pre-training)
ការទាញយកព័ត៌មាន (Information Extraction) និងការបង្កើតអត្ថបទ (Text Generation)
ដំណើរការប្រព័ន្ធផ្សព្វផ្សាយចម្រុះ (Multimodal processing) រួមមាន រូបភាព (Vision) វីដេអូ សំឡេង និងការគ្រប់គ្រង (Control)

ចំណុចសំខាន់ៗ (Key Takeaways)៖

ម៉ូដែលដែលមានប៉ារ៉ាម៉ែត្ររាប់ពាន់លាន (ដូចជា GPT-3 និង PaLM) អាចអនុវត្តកិច្ចការថ្មីៗបានយ៉ាងល្អតាមរយៈការណែនាំដោយប្រើឧទាហរណ៍តិចតួច (Few-shot prompting) ដោយមិនចាំបាច់ធ្វើការបង្វឹកឡើងវិញ (Fine-tuning) នោះទេ។
ស្ថាបត្យកម្ម Transformers អាចទាញយក និងបង្រួបបង្រួមចំណេះដឹងពីប្រភពទិន្នន័យចម្រុះ (អត្ថបទ រូបភាព សំឡេង) ទៅជាទម្រង់តំណាងរួមមួយដែលបង្កើនប្រសិទ្ធភាពជិតដល់កម្រិតសមត្ថភាពរបស់មនុស្សក្នងកិច្ចការជាច្រើន។
ទោះបីជាមានសក្តានុពលខ្ពស់ក៏ដោយ ការប្រើប្រាស់ Foundation Models ទាមទារឱ្យមានការប្រុងប្រយ័ត្ន និងច្បាប់គ្រប់គ្រងចំពោះហានិភ័យដូចជា ការរើសអើង (Bias) ការបង្កើតព័ត៌មានមិនពិត (Misinformation) និងផលប៉ះពាល់សង្គម។

២. គោលបំណងសិក្សា (Learning Objectives)

បន្ទាប់ពីអានឯកសារនេះ អ្នកគួរអាច៖

ស្វែងយល់ពីស្ថាបត្យកម្ម និងដំណើរការនៃម៉ូដែលមូលដ្ឋាន (Foundation Models) ដូចជាក្បួនវីធី Transformer, BERT, និង GPT។
អនុវត្តបច្ចេកទេសបង្វឹកម៉ូដែល (Pre-training និង Fine-tuning) សម្រាប់ការទាញយកព័ត៌មាន (Information Extraction) និងការបង្កើតអត្ថបទ (Text Generation)។
សិក្សាពីការរួមបញ្ចូលទិន្នន័យចម្រុះ (Multimodal AI) ដែលអាចដំណើរការអត្ថបទ រូបភាព សំឡេង និងវីដេអូក្នុងពេលតែមួយ។
វាយតម្លៃពីហានិភ័យ និងក្រមសីលធម៌នៃការប្រើប្រាស់ម៉ូដែលភាសា ដូចជាការរើសអើង (Bias) និងការបង្កើតព័ត៌មានក្លែងក្លាយ (Fake News)។

សៀវភៅនេះផ្តល់នូវការណែនាំស៊ីជម្រៅអំពីម៉ូដែលមូលដ្ឋាន (Foundation Models) ដែលប្រើប្រាស់ស្ថាបត្យកម្ម Transformer សម្រាប់ដំណើរការភាសាធម្មជាតិ (NLP) និងប្រព័ន្ធផ្សព្វផ្សាយចម្រុះ។ វាគ្របដណ្តប់លើបច្ចេកទេស Pre-training, Fine-tuning, ការទាញយកព័ត៌មាន, ការបង្កើតអត្ថបទ, និងបញ្ហាប្រឈមផ្នែកសីលធម៌នៅក្នុងការអភិវឌ្ឍបញ្ញាសិប្បនិម្មិតកម្រិតខ្ពស់។

៣. គោលគំនិតសំខាន់ៗ (Key Concepts)

គោលគំនិត (Concept)	ការពន្យល់ (Explanation)	ឧទាហរណ៍ (Example)
Transformer Architecture ស្ថាបត្យកម្ម Transformer	បណ្តាញសរសៃប្រសាទកម្រិតជ្រៅ (Deep Neural Network) ដែលប្រើប្រាស់យន្តការនៃការយកចិត្តទុកដាក់លើខ្លួនឯង (Self-Attention Mechanism) ដើម្បីស្វែងយល់ពីទំនាក់ទំនងនៃពាក្យនៅក្នុងប្រយោគ ឬអត្ថបទ ដោយមិនចាំបាច់អានតាមលំដាប់លំដោយ ធ្វើឱ្យការគណនាមានភាពលឿននិងមានប្រសិទ្ធភាពខ្ពស់។	ម៉ូដែល BERT ប្រើប្រាស់ Encoder នៃ Transformer ដើម្បីស្វែងយល់បរិបទពាក្យសងខាងក្នុងប្រយោគ ចំណែកឯ GPT ប្រើប្រាស់ Decoder សម្រាប់ទស្សន៍ទាយពាក្យបន្ទាប់។
Pre-training and Fine-tuning ការបង្វឹកជាមុន និងការកែសម្រួល	ជាដំណើរការដែលម៉ូដែលត្រូវបានបង្វឹកជាមុន (Pre-training) លើទិន្នន័យអត្ថបទដ៏ធំ (មិនទាន់រៀបចំចំណាត់ថ្នាក់) ដើម្បីរៀនពីរចនាសម្ព័ន្ធភាសា។ បន្ទាប់មក វាត្រូវបានកែសម្រួល (Fine-tuning) លើទិន្នន័យតូចជាងដែលមានការបិទស្លាកច្បាស់លាស់ ដើម្បីដោះស្រាយកិច្ចការជាក់លាក់ណាមួយ។	ម៉ូដែលមួយអាចត្រូវបានបង្វឹកជាមុន (Pre-train) ដោយទាយពាក្យដែលបាត់ក្នុងអត្ថបទវិគីភីឌា (Wikipedia) រួចយកវាមកកែសម្រួល (Fine-tune) ដើម្បីវាយតម្លៃអារម្មណ៍ (Sentiment Analysis) លើមតិយោបល់របស់អតិថិជន។
Multimodal AI បញ្ញាសិប្បនិម្មិតពហុប្រព័ន្ធ	ការប្រើប្រាស់ម៉ូដែលមូលដ្ឋានតែមួយដើម្បីដំណើរការ និងភ្ជាប់ទំនាក់ទំនងរវាងប្រភេទផ្ទុកទិន្នន័យ (Modality) ផ្សេងៗគ្នា ដូចជា អត្ថបទ រូបភាព សំឡេង និងវីដេអូ ទៅក្នុងលំហតំណាង (Embedding space) តែមួយ។	ម៉ូដែល DALL-E 2 និង CLIP អាចយល់អត្ថន័យនៃអត្ថបទ និងអាចបង្កើតរូបភាពថ្មីៗប្រកបដោយភាពច្នៃប្រឌិតដោយផ្អែកលើការពិពណ៌នាជាអត្ថបទ (Text-to-Image Generation)។
Prompt Engineering (Few-shot learning) ការរចនាបញ្ជា (ការរៀនពីឧទាហរណ៍តិចតួច)	ការណែនាំម៉ូដែលភាសាឱ្យអនុវត្តកិច្ចការថ្មីមួយតាមរយៈការផ្តល់ឧទាហរណ៍មួយចំនួនតូច (Few-shot) នៅក្នុងសំណួរ (Prompt) ដោយមិនចាំបាច់ផ្លាស់ប្តូរប៉ារ៉ាម៉ែត្រ (Parameters) របស់វាឡើយ។	ការសរសេរប្រយោគបញ្ចូលទៅក្នុង GPT-3 ថា 'បកប្រែពីអង់គ្លេសទៅខ្មែរ៖ Apple -> ប៉ោម, Book ->' ដើម្បីឱ្យម៉ូដែលយល់ពីគំរូនិងឆ្លើយថា 'សៀវភៅ'។
Information Extraction ការទាញយកព័ត៌មាន	ដំណើរការនៃការកំណត់អត្តសញ្ញាណអង្គភាព (Named Entity Recognition) និងការទាញយកទំនាក់ទំនង (Relation Extraction) ដោយស្វ័យប្រវត្តិពីអត្ថបទដែលគ្មានទម្រង់ច្បាស់លាស់ (Unstructured text) ទៅជាទិន្នន័យមានរចនាសម្ព័ន្ធ។	ការទាញយកឈ្មោះទីតាំង មន្ទីរពេទ្យ ឬប្រភេទថ្នាំ និងទំនាក់ទំនងរវាងពួកវាចេញពីឯកសារកំណត់ត្រាពេទ្យដ៏វែង។

៤. ភាពពាក់ព័ន្ធសម្រាប់កម្ពុជា (Cambodia Relevance)

ការយល់ដឹងអំពី Foundation Models គឺមានសារៈសំខាន់យ៉ាងខ្លាំងសម្រាប់ប្រទេសកម្ពុជាក្នុងការអភិវឌ្ឍប្រព័ន្ធបច្ចេកវិទ្យាភាសាខ្មែរ ការធ្វើស្វ័យប្រវត្តិកម្ម និងការចាប់យកឱកាសនៅក្នុងសេដ្ឋកិច្ចឌីជីថល។

ការអនុវត្ត (Applications)៖

ការអភិវឌ្ឍភាសាខ្មែរលើប្រព័ន្ធឌីជីថល (Khmer NLP Development): អ្នកអភិវឌ្ឍន៍អាចប្រមូលទិន្នន័យអត្ថបទភាសាខ្មែរដើម្បីធ្វើការបង្វឹកម៉ូដែលភាសាដូចជា mBERT ឬ XLM-R សម្រាប់បង្កើតកម្មវិធីពិនិត្យវេយ្យាករណ៍ ប្រព័ន្ធឆ្លើយសំណួរ ឬកម្មវិធីបកប្រែភាសាខ្មែរឱ្យកាន់តែសុក្រឹតនិងធម្មជាតិ។
សេវាកម្មអតិថិជន និងរដ្ឋបាល (Customer Service and E-Government): ស្ថាប័នរដ្ឋនិងឯកជនអាចប្រើប្រាស់ Chatbot ឆ្លាតវៃតាមរយៈការ Fine-tune ម៉ូដែលដូចជា GPT ឬ LaMDA ដើម្បីឆ្លើយតបសំណួររបស់ប្រជាពលរដ្ឋ ឬអតិថិជនដោយស្វ័យប្រវត្តិ និងមានភាពរហ័សទាន់ចិត្ត។
វិស័យអប់រំ និងការស្រាវជ្រាវ (Education and Research): ការប្រើប្រាស់ម៉ូដែលសង្ខេបអត្ថបទ (Text Summarization) និងប្រព័ន្ធទាញយកព័ត៌មាន (Information Retrieval) ជួយសន្សំពេលវេលាដល់និស្សិត និងអ្នកស្រាវជ្រាវកម្ពុជាក្នុងការអានឯកសារ ឬសៀវភៅក្រាស់ៗ។

ចំណេះដឹងពីសៀវភៅនេះនឹងជួយពង្រឹងសមត្ថភាពនិស្សិតកម្ពុជាឱ្យក្លាយជាអ្នកបង្កើតដំណោះស្រាយបញ្ញាសិប្បនិម្មិតដែលអាចប្រកួតប្រជែងថ្នាក់តំបន់ និងជួយជំរុញការផ្លាស់ប្តូរឌីជីថលនៅកម្ពុជាប្រកបដោយបរិយាបន្ន។

៥. មគ្គុទ្ទេសក៍សិក្សា (Study Guide)

លំហាត់ និងសកម្មភាពសិក្សាដើម្បីពង្រឹងការយល់ដឹង៖

លំហាត់អនុវត្តការសរសេរ Prompt (Prompt Engineering Practice): ប្រើប្រាស់ OpenAI API ឬ ChatGPT ដើម្បីសាកល្បងសរសេរ Prompt ផ្សេងៗគ្នា (Zero-shot និង Few-shot) សម្រាប់ការបកប្រែ ការវិភាគអារម្មណ៍ ឬការសង្ខេបអត្ថបទ ដើម្បីស្វែងយល់ពីរបៀបដែលម៉ូដែលឆ្លើយតប។
ការកែសម្រួលម៉ូដែល (Fine-Tuning BERT): ប្រើប្រាស់ Hugging Face Library ជាមួយភាសា Python នៅក្នុង Google Colab ដើម្បី Fine-tune ម៉ូដែល BERT ឬ mBERT លើទិន្នន័យងាយៗ ដូចជាការបែងចែកចំណាត់ថ្នាក់អត្ថបទ (Text Classification)។
ការទាញយកព័ត៌មានដោយស្វ័យប្រវត្តិ (Information Extraction): សរសេរកូដ Python ជាមួយបណ្ណាល័យ Spacy ឬប្រើប្រាស់ Transformer Pipeline ដើម្បីទាញយកឈ្មោះមនុស្ស ទីតាំង និងស្ថាប័ន (NER) ពីអត្ថបទព័ត៌មានភាសាអង់គ្លេស។
ស្វែងយល់ពី Multimodal AI (Text-to-Image): សាកល្បងប្រើប្រាស់កម្មវិធីបង្កើតរូបភាពពីអត្ថបទដូចជា DALL-E, Midjourney ឬ Stable Diffusion រួចវិភាគពីភាពត្រឹមត្រូវនៃលទ្ធផលរូបភាពដែលបានបង្កើតធៀបនឹងពាក្យបញ្ជារបស់អ្នក។
ការវាយតម្លៃហានិភ័យម៉ូដែល (AI Bias Assessment): ធ្វើការសាកល្បងបញ្ចូលប្រយោគដែលទាក់ទងនឹងយេនឌ័រ វិជ្ជាជីវៈ ឬជាតិសាសន៍ទៅក្នុងម៉ូដែលភាសា ដើម្បីសង្កេតមើលនិងកត់ត្រាពីការរើសអើង (Bias) និងភាពលម្អៀងដែលអាចកើតមាននៅក្នុងចម្លើយរបស់វា។

៦. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស (English)	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Transformer	ជាស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទកម្រិតជ្រៅ (Deep Neural Network architecture) ដែលប្រើប្រាស់យន្តការយកចិត្តទុកដាក់លើខ្លួនឯង (Self-attention) ដើម្បីស្វែងយល់បរិបទនៃពាក្យនីមួយៗក្នុងអត្ថបទព្រមៗគ្នាដោយមិនបាច់អានតាមលំដាប់លំដោយ។ វាជាមូលដ្ឋានគ្រឹះនៃម៉ូដែលធំៗដូចជា BERT និង GPT ដែលជួយឱ្យការគណនាមានភាពលឿននិងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការដោះស្រាយទិន្នន័យធំៗ។	ដូចជាក្រុមសិស្សដែលចែកគ្នាមើលអត្ថបទមួយទំព័រម្នាក់ៗព្រមៗគ្នា រួចពិភាក្សាគ្នាដើម្បីយល់អត្ថន័យរួម ជំនួសឱ្យការអានម្នាក់ឯងពីដើមដល់ចប់។
Self-Attention	ជាយន្តការគណនានៅក្នុងម៉ូដែល Transformer ដែលអនុញ្ញាតឱ្យម៉ូដែលវាយតម្លៃ និងផ្តល់ទម្ងន់ទៅលើពាក្យផ្សេងៗនៅក្នុងប្រយោគតែមួយ ដើម្បីស្វែងយល់ពីទំនាក់ទំនងនិងអត្ថន័យពិតប្រាកដនៃពាក្យគោលដៅនៅក្នុងបរិបទនោះ។	ដូចជាពេលយើងអានពាក្យ "ធនាគារ" យើងត្រូវសង្កេតមើលពាក្យជុំវិញដូចជា "លុយ" ឬ "ទន្លេ" ដើម្បីដឹងថាវាជាស្ថាប័នហិរញ្ញវត្ថុ ឬច្រាំងទន្លេ។
Fine-tuning	ជាដំណើរការយកម៉ូដែលភាសាដែលបានបង្វឹកជាមុនរួចហើយ (Pre-trained Model) មកបង្វឹកបន្ថែមលើទិន្នន័យតូចជាងដែលមានការបិទស្លាកច្បាស់លាស់ ដើម្បីសម្រួលប៉ារ៉ាម៉ែត្ររបស់វាឱ្យបំពេញកិច្ចការជាក់លាក់ណាមួយ ដូចជាការបែងចែកអារម្មណ៍អត្ថបទ ឬការឆ្លើយសំណួរជាដើម។	ដូចជាសិស្សដែលរៀនចេះចំណេះដឹងទូទៅចប់ថ្នាក់ទី១២ រួចទៅរៀនជំនាញឯកទេសបន្តនៅសាកលវិទ្យាល័យដើម្បីក្លាយជាគ្រូពេទ្យ ឬវិស្វករ។
Word Embedding	ជាការបំប្លែងពាក្យនីមួយៗទៅជាវ៉ិចទ័រនៃលេខ (Vectors of numbers) នៅក្នុងលំហវិមាត្រខ្ពស់ ដើម្បីឱ្យម៉ាស៊ីនកុំព្យូទ័រអាចវាស់ស្ទង់ភាពស្រដៀងគ្នានៃអត្ថន័យរបស់ពាក្យទាំងនោះ។ ម៉ូដែលទំនើបប្រើប្រាស់ Contextual embeddings ដែលតម្លៃវ៉ិចទ័រអាចផ្លាស់ប្តូរទៅតាមបរិបទប្រយោគជាក់ស្តែង។	ដូចជាការផ្តល់កូដទីតាំង (GPS) លើផែនទីដល់ពាក្យនីមួយៗ ដោយពាក្យមានអត្ថន័យស្រដៀងគ្នា (ដូចជា ឆ្កែ និង ឆ្មា) ត្រូវបានដាក់ឱ្យនៅជិតគ្នា។
Few-shot learning	ជាសមត្ថភាពរបស់ម៉ូដែលមូលដ្ឋាន (Foundation Models) ក្នុងការយល់ និងដោះស្រាយបញ្ហាថ្មីៗដោយគ្រាន់តែអ្នកប្រើប្រាស់ផ្តល់ឧទាហរណ៍គំរូតិចតួចនៅក្នុងពាក្យបញ្ជា (Prompt) ដោយមិនចាំបាច់ធ្វើការបង្វឹកផ្លាស់ប្តូររចនាសម្ព័ន្ធម៉ូដែលឡើងវិញនោះទេ។	ដូចជាការបង្រៀនក្មេងឱ្យចេះបត់ក្រដាសដោយគ្រាន់តែធ្វើគំរូឱ្យមើល២ទៅ៣ដង គេក៏អាចធ្វើតាមបានភ្លាមៗដោយមិនបាច់រៀនទ្រឹស្តីស្មុគស្មាញ។
Masked Language Model (MLM)	ជាវិធីសាស្ត្របង្វឹកម៉ូដែលភាសា (ឧទាហរណ៍ម៉ូដែល BERT) ដោយលាក់ពាក្យមួយចំនួនក្នុងប្រយោគ រួចតម្រូវឱ្យម៉ូដែលទស្សន៍ទាយពាក្យដែលបាត់នោះ ដោយផ្អែកលើការវិភាគបរិបទនៃពាក្យសងខាងក្នុងប្រយោគ (អានទៅមុខនិងថយក្រោយ)។	ដូចជាការធ្វើលំហាត់បំពេញចន្លោះនៅក្នុងថ្នាក់រៀនភាសាខ្មែរ ដែលសិស្សត្រូវទាយពាក្យដែលបាត់ដោយអានបរិបទប្រយោគទាំងមូល។
Autoregressive Language Model	ជាប្រភេទម៉ូដែលភាសា (ដូចជាម៉ូដែល GPT) ដែលដំណើរការដោយការទស្សន៍ទាយពាក្យបន្ទាប់ម្តងមួយៗ ដោយផ្អែកលើអត្ថបទឬពាក្យដែលវាបានបង្កើតរួចមកហើយនៅខាងដើម។ វាមានប្រសិទ្ធភាពខ្ពស់សម្រាប់ការបង្កើតអត្ថបទថ្មីៗដែលមានភាពរលូន និងវែង។	ដូចជាការលេងល្បែងតពាក្យ ដែលអ្នកត្រូវបង្កើតពាក្យថ្មីមួយដោយផ្អែកលើពាក្យដែលមិត្តភក្តិអ្នកទើបតែនិយាយរួចមក។
Multimodal AI	ជាប្រព័ន្ធបញ្ញាសិប្បនិម្មិតដែលអាចប្រមូល បកស្រាយ និងទាញយកទំនាក់ទំនងពីប្រភពទិន្នន័យច្រើនប្រភេទក្នុងពេលតែមួយ និងទៅវិញទៅមក ដូចជាការយល់អត្ថបទ រូបភាព សំឡេង និងវីដេអូបញ្ចូលគ្នានៅក្នុងលំហតំណាង (Embedding space) តែមួយ។	ដូចជាមនុស្សដែលអាចស្តាប់សំឡេង មើលរូបភាព និងអានអក្សរក្នុងពេលតែមួយ ដើម្បីយល់ពីខ្លឹមសារវីដេអូមួយកាន់តែច្បាស់ស៊ីជម្រៅ។

៧. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖