Original Title: Foundation Models for Natural Language Processing: Pre-trained Language Models Integrating Media
Source: link.springer.com
Document Type: Textbook / Educational Material
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original material for complete content.

ម៉ូដែលមូលដ្ឋានសម្រាប់ដំណើរការភាសាធម្មជាតិ៖ ម៉ូដែលភាសាដែលបានបង្វឹកជាមុនរួមបញ្ចូលជាមួយប្រព័ន្ធផ្សព្វផ្សាយ

ចំណងជើងដើម៖ Foundation Models for Natural Language Processing: Pre-trained Language Models Integrating Media

អ្នកនិពន្ធ៖ Gerhard Paaß, Sven Giesselbach

ឆ្នាំបោះពុម្ព៖ 2023 Springer Nature

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេប (Overview)

ប្រធានបទ (Topic)៖ សៀវភៅនេះដោះស្រាយតម្រូវការនៃការយល់ដឹងអំពីការវិវត្តយ៉ាងឆាប់រហ័សនៃម៉ូដែលមូលដ្ឋាន (Foundation Models) និងរបៀបដែលម៉ូដែលទំហំធំទាំងនេះកំពុងផ្លាស់ប្តូរវិធីសាស្ត្រដែលម៉ាស៊ីនស្វែងយល់ បង្កើត និងបកប្រែភាសាព្រមទាំងទិន្នន័យចម្រុះ។

រចនាសម្ព័ន្ធ (Structure)៖ អត្ថបទនេះផ្តល់នូវការវិភាគយ៉ាងទូលំទូលាយលើស្ថាបត្យកម្មកម្រិតខ្ពស់ បច្ចេកទេសបង្វឹក និងការអនុវត្តជាក់ស្តែងនៃម៉ូដែលទាំងនេះ។

ចំណុចសំខាន់ៗ (Key Takeaways)៖

២. គោលបំណងសិក្សា (Learning Objectives)

បន្ទាប់ពីអានឯកសារនេះ អ្នកគួរអាច៖

  1. ស្វែងយល់ពីស្ថាបត្យកម្ម និងដំណើរការនៃម៉ូដែលមូលដ្ឋាន (Foundation Models) ដូចជាក្បួនវីធី Transformer, BERT, និង GPT។
  2. អនុវត្តបច្ចេកទេសបង្វឹកម៉ូដែល (Pre-training និង Fine-tuning) សម្រាប់ការទាញយកព័ត៌មាន (Information Extraction) និងការបង្កើតអត្ថបទ (Text Generation)។
  3. សិក្សាពីការរួមបញ្ចូលទិន្នន័យចម្រុះ (Multimodal AI) ដែលអាចដំណើរការអត្ថបទ រូបភាព សំឡេង និងវីដេអូក្នុងពេលតែមួយ។
  4. វាយតម្លៃពីហានិភ័យ និងក្រមសីលធម៌នៃការប្រើប្រាស់ម៉ូដែលភាសា ដូចជាការរើសអើង (Bias) និងការបង្កើតព័ត៌មានក្លែងក្លាយ (Fake News)។

សៀវភៅនេះផ្តល់នូវការណែនាំស៊ីជម្រៅអំពីម៉ូដែលមូលដ្ឋាន (Foundation Models) ដែលប្រើប្រាស់ស្ថាបត្យកម្ម Transformer សម្រាប់ដំណើរការភាសាធម្មជាតិ (NLP) និងប្រព័ន្ធផ្សព្វផ្សាយចម្រុះ។ វាគ្របដណ្តប់លើបច្ចេកទេស Pre-training, Fine-tuning, ការទាញយកព័ត៌មាន, ការបង្កើតអត្ថបទ, និងបញ្ហាប្រឈមផ្នែកសីលធម៌នៅក្នុងការអភិវឌ្ឍបញ្ញាសិប្បនិម្មិតកម្រិតខ្ពស់។

៣. គោលគំនិតសំខាន់ៗ (Key Concepts)

គោលគំនិត (Concept) ការពន្យល់ (Explanation) ឧទាហរណ៍ (Example)
Transformer Architecture
ស្ថាបត្យកម្ម Transformer
បណ្តាញសរសៃប្រសាទកម្រិតជ្រៅ (Deep Neural Network) ដែលប្រើប្រាស់យន្តការនៃការយកចិត្តទុកដាក់លើខ្លួនឯង (Self-Attention Mechanism) ដើម្បីស្វែងយល់ពីទំនាក់ទំនងនៃពាក្យនៅក្នុងប្រយោគ ឬអត្ថបទ ដោយមិនចាំបាច់អានតាមលំដាប់លំដោយ ធ្វើឱ្យការគណនាមានភាពលឿននិងមានប្រសិទ្ធភាពខ្ពស់។ ម៉ូដែល BERT ប្រើប្រាស់ Encoder នៃ Transformer ដើម្បីស្វែងយល់បរិបទពាក្យសងខាងក្នុងប្រយោគ ចំណែកឯ GPT ប្រើប្រាស់ Decoder សម្រាប់ទស្សន៍ទាយពាក្យបន្ទាប់។
Pre-training and Fine-tuning
ការបង្វឹកជាមុន និងការកែសម្រួល
ជាដំណើរការដែលម៉ូដែលត្រូវបានបង្វឹកជាមុន (Pre-training) លើទិន្នន័យអត្ថបទដ៏ធំ (មិនទាន់រៀបចំចំណាត់ថ្នាក់) ដើម្បីរៀនពីរចនាសម្ព័ន្ធភាសា។ បន្ទាប់មក វាត្រូវបានកែសម្រួល (Fine-tuning) លើទិន្នន័យតូចជាងដែលមានការបិទស្លាកច្បាស់លាស់ ដើម្បីដោះស្រាយកិច្ចការជាក់លាក់ណាមួយ។ ម៉ូដែលមួយអាចត្រូវបានបង្វឹកជាមុន (Pre-train) ដោយទាយពាក្យដែលបាត់ក្នុងអត្ថបទវិគីភីឌា (Wikipedia) រួចយកវាមកកែសម្រួល (Fine-tune) ដើម្បីវាយតម្លៃអារម្មណ៍ (Sentiment Analysis) លើមតិយោបល់របស់អតិថិជន។
Multimodal AI
បញ្ញាសិប្បនិម្មិតពហុប្រព័ន្ធ
ការប្រើប្រាស់ម៉ូដែលមូលដ្ឋានតែមួយដើម្បីដំណើរការ និងភ្ជាប់ទំនាក់ទំនងរវាងប្រភេទផ្ទុកទិន្នន័យ (Modality) ផ្សេងៗគ្នា ដូចជា អត្ថបទ រូបភាព សំឡេង និងវីដេអូ ទៅក្នុងលំហតំណាង (Embedding space) តែមួយ។ ម៉ូដែល DALL-E 2 និង CLIP អាចយល់អត្ថន័យនៃអត្ថបទ និងអាចបង្កើតរូបភាពថ្មីៗប្រកបដោយភាពច្នៃប្រឌិតដោយផ្អែកលើការពិពណ៌នាជាអត្ថបទ (Text-to-Image Generation)។
Prompt Engineering (Few-shot learning)
ការរចនាបញ្ជា (ការរៀនពីឧទាហរណ៍តិចតួច)
ការណែនាំម៉ូដែលភាសាឱ្យអនុវត្តកិច្ចការថ្មីមួយតាមរយៈការផ្តល់ឧទាហរណ៍មួយចំនួនតូច (Few-shot) នៅក្នុងសំណួរ (Prompt) ដោយមិនចាំបាច់ផ្លាស់ប្តូរប៉ារ៉ាម៉ែត្រ (Parameters) របស់វាឡើយ។ ការសរសេរប្រយោគបញ្ចូលទៅក្នុង GPT-3 ថា 'បកប្រែពីអង់គ្លេសទៅខ្មែរ៖ Apple -> ប៉ោម, Book ->' ដើម្បីឱ្យម៉ូដែលយល់ពីគំរូនិងឆ្លើយថា 'សៀវភៅ'។
Information Extraction
ការទាញយកព័ត៌មាន
ដំណើរការនៃការកំណត់អត្តសញ្ញាណអង្គភាព (Named Entity Recognition) និងការទាញយកទំនាក់ទំនង (Relation Extraction) ដោយស្វ័យប្រវត្តិពីអត្ថបទដែលគ្មានទម្រង់ច្បាស់លាស់ (Unstructured text) ទៅជាទិន្នន័យមានរចនាសម្ព័ន្ធ។ ការទាញយកឈ្មោះទីតាំង មន្ទីរពេទ្យ ឬប្រភេទថ្នាំ និងទំនាក់ទំនងរវាងពួកវាចេញពីឯកសារកំណត់ត្រាពេទ្យដ៏វែង។

៤. ភាពពាក់ព័ន្ធសម្រាប់កម្ពុជា (Cambodia Relevance)

ការយល់ដឹងអំពី Foundation Models គឺមានសារៈសំខាន់យ៉ាងខ្លាំងសម្រាប់ប្រទេសកម្ពុជាក្នុងការអភិវឌ្ឍប្រព័ន្ធបច្ចេកវិទ្យាភាសាខ្មែរ ការធ្វើស្វ័យប្រវត្តិកម្ម និងការចាប់យកឱកាសនៅក្នុងសេដ្ឋកិច្ចឌីជីថល។

ការអនុវត្ត (Applications)៖

ចំណេះដឹងពីសៀវភៅនេះនឹងជួយពង្រឹងសមត្ថភាពនិស្សិតកម្ពុជាឱ្យក្លាយជាអ្នកបង្កើតដំណោះស្រាយបញ្ញាសិប្បនិម្មិតដែលអាចប្រកួតប្រជែងថ្នាក់តំបន់ និងជួយជំរុញការផ្លាស់ប្តូរឌីជីថលនៅកម្ពុជាប្រកបដោយបរិយាបន្ន។

៥. មគ្គុទ្ទេសក៍សិក្សា (Study Guide)

លំហាត់ និងសកម្មភាពសិក្សាដើម្បីពង្រឹងការយល់ដឹង៖

  1. លំហាត់អនុវត្តការសរសេរ Prompt (Prompt Engineering Practice): ប្រើប្រាស់ OpenAI API ឬ ChatGPT ដើម្បីសាកល្បងសរសេរ Prompt ផ្សេងៗគ្នា (Zero-shot និង Few-shot) សម្រាប់ការបកប្រែ ការវិភាគអារម្មណ៍ ឬការសង្ខេបអត្ថបទ ដើម្បីស្វែងយល់ពីរបៀបដែលម៉ូដែលឆ្លើយតប។
  2. ការកែសម្រួលម៉ូដែល (Fine-Tuning BERT): ប្រើប្រាស់ Hugging Face Library ជាមួយភាសា Python នៅក្នុង Google Colab ដើម្បី Fine-tune ម៉ូដែល BERT ឬ mBERT លើទិន្នន័យងាយៗ ដូចជាការបែងចែកចំណាត់ថ្នាក់អត្ថបទ (Text Classification)។
  3. ការទាញយកព័ត៌មានដោយស្វ័យប្រវត្តិ (Information Extraction): សរសេរកូដ Python ជាមួយបណ្ណាល័យ Spacy ឬប្រើប្រាស់ Transformer Pipeline ដើម្បីទាញយកឈ្មោះមនុស្ស ទីតាំង និងស្ថាប័ន (NER) ពីអត្ថបទព័ត៌មានភាសាអង់គ្លេស។
  4. ស្វែងយល់ពី Multimodal AI (Text-to-Image): សាកល្បងប្រើប្រាស់កម្មវិធីបង្កើតរូបភាពពីអត្ថបទដូចជា DALL-E, Midjourney ឬ Stable Diffusion រួចវិភាគពីភាពត្រឹមត្រូវនៃលទ្ធផលរូបភាពដែលបានបង្កើតធៀបនឹងពាក្យបញ្ជារបស់អ្នក។
  5. ការវាយតម្លៃហានិភ័យម៉ូដែល (AI Bias Assessment): ធ្វើការសាកល្បងបញ្ចូលប្រយោគដែលទាក់ទងនឹងយេនឌ័រ វិជ្ជាជីវៈ ឬជាតិសាសន៍ទៅក្នុងម៉ូដែលភាសា ដើម្បីសង្កេតមើលនិងកត់ត្រាពីការរើសអើង (Bias) និងភាពលម្អៀងដែលអាចកើតមាននៅក្នុងចម្លើយរបស់វា។

៦. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស (English) ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Transformer ជាស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទកម្រិតជ្រៅ (Deep Neural Network architecture) ដែលប្រើប្រាស់យន្តការយកចិត្តទុកដាក់លើខ្លួនឯង (Self-attention) ដើម្បីស្វែងយល់បរិបទនៃពាក្យនីមួយៗក្នុងអត្ថបទព្រមៗគ្នាដោយមិនបាច់អានតាមលំដាប់លំដោយ។ វាជាមូលដ្ឋានគ្រឹះនៃម៉ូដែលធំៗដូចជា BERT និង GPT ដែលជួយឱ្យការគណនាមានភាពលឿននិងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការដោះស្រាយទិន្នន័យធំៗ។ ដូចជាក្រុមសិស្សដែលចែកគ្នាមើលអត្ថបទមួយទំព័រម្នាក់ៗព្រមៗគ្នា រួចពិភាក្សាគ្នាដើម្បីយល់អត្ថន័យរួម ជំនួសឱ្យការអានម្នាក់ឯងពីដើមដល់ចប់។
Self-Attention ជាយន្តការគណនានៅក្នុងម៉ូដែល Transformer ដែលអនុញ្ញាតឱ្យម៉ូដែលវាយតម្លៃ និងផ្តល់ទម្ងន់ទៅលើពាក្យផ្សេងៗនៅក្នុងប្រយោគតែមួយ ដើម្បីស្វែងយល់ពីទំនាក់ទំនងនិងអត្ថន័យពិតប្រាកដនៃពាក្យគោលដៅនៅក្នុងបរិបទនោះ។ ដូចជាពេលយើងអានពាក្យ "ធនាគារ" យើងត្រូវសង្កេតមើលពាក្យជុំវិញដូចជា "លុយ" ឬ "ទន្លេ" ដើម្បីដឹងថាវាជាស្ថាប័នហិរញ្ញវត្ថុ ឬច្រាំងទន្លេ។
Fine-tuning ជាដំណើរការយកម៉ូដែលភាសាដែលបានបង្វឹកជាមុនរួចហើយ (Pre-trained Model) មកបង្វឹកបន្ថែមលើទិន្នន័យតូចជាងដែលមានការបិទស្លាកច្បាស់លាស់ ដើម្បីសម្រួលប៉ារ៉ាម៉ែត្ររបស់វាឱ្យបំពេញកិច្ចការជាក់លាក់ណាមួយ ដូចជាការបែងចែកអារម្មណ៍អត្ថបទ ឬការឆ្លើយសំណួរជាដើម។ ដូចជាសិស្សដែលរៀនចេះចំណេះដឹងទូទៅចប់ថ្នាក់ទី១២ រួចទៅរៀនជំនាញឯកទេសបន្តនៅសាកលវិទ្យាល័យដើម្បីក្លាយជាគ្រូពេទ្យ ឬវិស្វករ។
Word Embedding ជាការបំប្លែងពាក្យនីមួយៗទៅជាវ៉ិចទ័រនៃលេខ (Vectors of numbers) នៅក្នុងលំហវិមាត្រខ្ពស់ ដើម្បីឱ្យម៉ាស៊ីនកុំព្យូទ័រអាចវាស់ស្ទង់ភាពស្រដៀងគ្នានៃអត្ថន័យរបស់ពាក្យទាំងនោះ។ ម៉ូដែលទំនើបប្រើប្រាស់ Contextual embeddings ដែលតម្លៃវ៉ិចទ័រអាចផ្លាស់ប្តូរទៅតាមបរិបទប្រយោគជាក់ស្តែង។ ដូចជាការផ្តល់កូដទីតាំង (GPS) លើផែនទីដល់ពាក្យនីមួយៗ ដោយពាក្យមានអត្ថន័យស្រដៀងគ្នា (ដូចជា ឆ្កែ និង ឆ្មា) ត្រូវបានដាក់ឱ្យនៅជិតគ្នា។
Few-shot learning ជាសមត្ថភាពរបស់ម៉ូដែលមូលដ្ឋាន (Foundation Models) ក្នុងការយល់ និងដោះស្រាយបញ្ហាថ្មីៗដោយគ្រាន់តែអ្នកប្រើប្រាស់ផ្តល់ឧទាហរណ៍គំរូតិចតួចនៅក្នុងពាក្យបញ្ជា (Prompt) ដោយមិនចាំបាច់ធ្វើការបង្វឹកផ្លាស់ប្តូររចនាសម្ព័ន្ធម៉ូដែលឡើងវិញនោះទេ។ ដូចជាការបង្រៀនក្មេងឱ្យចេះបត់ក្រដាសដោយគ្រាន់តែធ្វើគំរូឱ្យមើល២ទៅ៣ដង គេក៏អាចធ្វើតាមបានភ្លាមៗដោយមិនបាច់រៀនទ្រឹស្តីស្មុគស្មាញ។
Masked Language Model (MLM) ជាវិធីសាស្ត្របង្វឹកម៉ូដែលភាសា (ឧទាហរណ៍ម៉ូដែល BERT) ដោយលាក់ពាក្យមួយចំនួនក្នុងប្រយោគ រួចតម្រូវឱ្យម៉ូដែលទស្សន៍ទាយពាក្យដែលបាត់នោះ ដោយផ្អែកលើការវិភាគបរិបទនៃពាក្យសងខាងក្នុងប្រយោគ (អានទៅមុខនិងថយក្រោយ)។ ដូចជាការធ្វើលំហាត់បំពេញចន្លោះនៅក្នុងថ្នាក់រៀនភាសាខ្មែរ ដែលសិស្សត្រូវទាយពាក្យដែលបាត់ដោយអានបរិបទប្រយោគទាំងមូល។
Autoregressive Language Model ជាប្រភេទម៉ូដែលភាសា (ដូចជាម៉ូដែល GPT) ដែលដំណើរការដោយការទស្សន៍ទាយពាក្យបន្ទាប់ម្តងមួយៗ ដោយផ្អែកលើអត្ថបទឬពាក្យដែលវាបានបង្កើតរួចមកហើយនៅខាងដើម។ វាមានប្រសិទ្ធភាពខ្ពស់សម្រាប់ការបង្កើតអត្ថបទថ្មីៗដែលមានភាពរលូន និងវែង។ ដូចជាការលេងល្បែងតពាក្យ ដែលអ្នកត្រូវបង្កើតពាក្យថ្មីមួយដោយផ្អែកលើពាក្យដែលមិត្តភក្តិអ្នកទើបតែនិយាយរួចមក។
Multimodal AI ជាប្រព័ន្ធបញ្ញាសិប្បនិម្មិតដែលអាចប្រមូល បកស្រាយ និងទាញយកទំនាក់ទំនងពីប្រភពទិន្នន័យច្រើនប្រភេទក្នុងពេលតែមួយ និងទៅវិញទៅមក ដូចជាការយល់អត្ថបទ រូបភាព សំឡេង និងវីដេអូបញ្ចូលគ្នានៅក្នុងលំហតំណាង (Embedding space) តែមួយ។ ដូចជាមនុស្សដែលអាចស្តាប់សំឡេង មើលរូបភាព និងអានអក្សរក្នុងពេលតែមួយ ដើម្បីយល់ពីខ្លឹមសារវីដេអូមួយកាន់តែច្បាស់ស៊ីជម្រៅ។

៧. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖