ប្រធានបទ (Topic)៖ សៀវភៅនេះដោះស្រាយតម្រូវការនៃការយល់ដឹងអំពីការវិវត្តយ៉ាងឆាប់រហ័សនៃម៉ូដែលមូលដ្ឋាន (Foundation Models) និងរបៀបដែលម៉ូដែលទំហំធំទាំងនេះកំពុងផ្លាស់ប្តូរវិធីសាស្ត្រដែលម៉ាស៊ីនស្វែងយល់ បង្កើត និងបកប្រែភាសាព្រមទាំងទិន្នន័យចម្រុះ។
រចនាសម្ព័ន្ធ (Structure)៖ អត្ថបទនេះផ្តល់នូវការវិភាគយ៉ាងទូលំទូលាយលើស្ថាបត្យកម្មកម្រិតខ្ពស់ បច្ចេកទេសបង្វឹក និងការអនុវត្តជាក់ស្តែងនៃម៉ូដែលទាំងនេះ។
ចំណុចសំខាន់ៗ (Key Takeaways)៖
បន្ទាប់ពីអានឯកសារនេះ អ្នកគួរអាច៖
សៀវភៅនេះផ្តល់នូវការណែនាំស៊ីជម្រៅអំពីម៉ូដែលមូលដ្ឋាន (Foundation Models) ដែលប្រើប្រាស់ស្ថាបត្យកម្ម Transformer សម្រាប់ដំណើរការភាសាធម្មជាតិ (NLP) និងប្រព័ន្ធផ្សព្វផ្សាយចម្រុះ។ វាគ្របដណ្តប់លើបច្ចេកទេស Pre-training, Fine-tuning, ការទាញយកព័ត៌មាន, ការបង្កើតអត្ថបទ, និងបញ្ហាប្រឈមផ្នែកសីលធម៌នៅក្នុងការអភិវឌ្ឍបញ្ញាសិប្បនិម្មិតកម្រិតខ្ពស់។
| គោលគំនិត (Concept) | ការពន្យល់ (Explanation) | ឧទាហរណ៍ (Example) |
|---|---|---|
| Transformer Architecture ស្ថាបត្យកម្ម Transformer |
បណ្តាញសរសៃប្រសាទកម្រិតជ្រៅ (Deep Neural Network) ដែលប្រើប្រាស់យន្តការនៃការយកចិត្តទុកដាក់លើខ្លួនឯង (Self-Attention Mechanism) ដើម្បីស្វែងយល់ពីទំនាក់ទំនងនៃពាក្យនៅក្នុងប្រយោគ ឬអត្ថបទ ដោយមិនចាំបាច់អានតាមលំដាប់លំដោយ ធ្វើឱ្យការគណនាមានភាពលឿននិងមានប្រសិទ្ធភាពខ្ពស់។ | ម៉ូដែល BERT ប្រើប្រាស់ Encoder នៃ Transformer ដើម្បីស្វែងយល់បរិបទពាក្យសងខាងក្នុងប្រយោគ ចំណែកឯ GPT ប្រើប្រាស់ Decoder សម្រាប់ទស្សន៍ទាយពាក្យបន្ទាប់។ |
| Pre-training and Fine-tuning ការបង្វឹកជាមុន និងការកែសម្រួល |
ជាដំណើរការដែលម៉ូដែលត្រូវបានបង្វឹកជាមុន (Pre-training) លើទិន្នន័យអត្ថបទដ៏ធំ (មិនទាន់រៀបចំចំណាត់ថ្នាក់) ដើម្បីរៀនពីរចនាសម្ព័ន្ធភាសា។ បន្ទាប់មក វាត្រូវបានកែសម្រួល (Fine-tuning) លើទិន្នន័យតូចជាងដែលមានការបិទស្លាកច្បាស់លាស់ ដើម្បីដោះស្រាយកិច្ចការជាក់លាក់ណាមួយ។ | ម៉ូដែលមួយអាចត្រូវបានបង្វឹកជាមុន (Pre-train) ដោយទាយពាក្យដែលបាត់ក្នុងអត្ថបទវិគីភីឌា (Wikipedia) រួចយកវាមកកែសម្រួល (Fine-tune) ដើម្បីវាយតម្លៃអារម្មណ៍ (Sentiment Analysis) លើមតិយោបល់របស់អតិថិជន។ |
| Multimodal AI បញ្ញាសិប្បនិម្មិតពហុប្រព័ន្ធ |
ការប្រើប្រាស់ម៉ូដែលមូលដ្ឋានតែមួយដើម្បីដំណើរការ និងភ្ជាប់ទំនាក់ទំនងរវាងប្រភេទផ្ទុកទិន្នន័យ (Modality) ផ្សេងៗគ្នា ដូចជា អត្ថបទ រូបភាព សំឡេង និងវីដេអូ ទៅក្នុងលំហតំណាង (Embedding space) តែមួយ។ | ម៉ូដែល DALL-E 2 និង CLIP អាចយល់អត្ថន័យនៃអត្ថបទ និងអាចបង្កើតរូបភាពថ្មីៗប្រកបដោយភាពច្នៃប្រឌិតដោយផ្អែកលើការពិពណ៌នាជាអត្ថបទ (Text-to-Image Generation)។ |
| Prompt Engineering (Few-shot learning) ការរចនាបញ្ជា (ការរៀនពីឧទាហរណ៍តិចតួច) |
ការណែនាំម៉ូដែលភាសាឱ្យអនុវត្តកិច្ចការថ្មីមួយតាមរយៈការផ្តល់ឧទាហរណ៍មួយចំនួនតូច (Few-shot) នៅក្នុងសំណួរ (Prompt) ដោយមិនចាំបាច់ផ្លាស់ប្តូរប៉ារ៉ាម៉ែត្រ (Parameters) របស់វាឡើយ។ | ការសរសេរប្រយោគបញ្ចូលទៅក្នុង GPT-3 ថា 'បកប្រែពីអង់គ្លេសទៅខ្មែរ៖ Apple -> ប៉ោម, Book ->' ដើម្បីឱ្យម៉ូដែលយល់ពីគំរូនិងឆ្លើយថា 'សៀវភៅ'។ |
| Information Extraction ការទាញយកព័ត៌មាន |
ដំណើរការនៃការកំណត់អត្តសញ្ញាណអង្គភាព (Named Entity Recognition) និងការទាញយកទំនាក់ទំនង (Relation Extraction) ដោយស្វ័យប្រវត្តិពីអត្ថបទដែលគ្មានទម្រង់ច្បាស់លាស់ (Unstructured text) ទៅជាទិន្នន័យមានរចនាសម្ព័ន្ធ។ | ការទាញយកឈ្មោះទីតាំង មន្ទីរពេទ្យ ឬប្រភេទថ្នាំ និងទំនាក់ទំនងរវាងពួកវាចេញពីឯកសារកំណត់ត្រាពេទ្យដ៏វែង។ |
ការយល់ដឹងអំពី Foundation Models គឺមានសារៈសំខាន់យ៉ាងខ្លាំងសម្រាប់ប្រទេសកម្ពុជាក្នុងការអភិវឌ្ឍប្រព័ន្ធបច្ចេកវិទ្យាភាសាខ្មែរ ការធ្វើស្វ័យប្រវត្តិកម្ម និងការចាប់យកឱកាសនៅក្នុងសេដ្ឋកិច្ចឌីជីថល។
ចំណេះដឹងពីសៀវភៅនេះនឹងជួយពង្រឹងសមត្ថភាពនិស្សិតកម្ពុជាឱ្យក្លាយជាអ្នកបង្កើតដំណោះស្រាយបញ្ញាសិប្បនិម្មិតដែលអាចប្រកួតប្រជែងថ្នាក់តំបន់ និងជួយជំរុញការផ្លាស់ប្តូរឌីជីថលនៅកម្ពុជាប្រកបដោយបរិយាបន្ន។
លំហាត់ និងសកម្មភាពសិក្សាដើម្បីពង្រឹងការយល់ដឹង៖
| ពាក្យបច្ចេកទេស (English) | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Transformer | ជាស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទកម្រិតជ្រៅ (Deep Neural Network architecture) ដែលប្រើប្រាស់យន្តការយកចិត្តទុកដាក់លើខ្លួនឯង (Self-attention) ដើម្បីស្វែងយល់បរិបទនៃពាក្យនីមួយៗក្នុងអត្ថបទព្រមៗគ្នាដោយមិនបាច់អានតាមលំដាប់លំដោយ។ វាជាមូលដ្ឋានគ្រឹះនៃម៉ូដែលធំៗដូចជា BERT និង GPT ដែលជួយឱ្យការគណនាមានភាពលឿននិងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការដោះស្រាយទិន្នន័យធំៗ។ | ដូចជាក្រុមសិស្សដែលចែកគ្នាមើលអត្ថបទមួយទំព័រម្នាក់ៗព្រមៗគ្នា រួចពិភាក្សាគ្នាដើម្បីយល់អត្ថន័យរួម ជំនួសឱ្យការអានម្នាក់ឯងពីដើមដល់ចប់។ |
| Self-Attention | ជាយន្តការគណនានៅក្នុងម៉ូដែល Transformer ដែលអនុញ្ញាតឱ្យម៉ូដែលវាយតម្លៃ និងផ្តល់ទម្ងន់ទៅលើពាក្យផ្សេងៗនៅក្នុងប្រយោគតែមួយ ដើម្បីស្វែងយល់ពីទំនាក់ទំនងនិងអត្ថន័យពិតប្រាកដនៃពាក្យគោលដៅនៅក្នុងបរិបទនោះ។ | ដូចជាពេលយើងអានពាក្យ "ធនាគារ" យើងត្រូវសង្កេតមើលពាក្យជុំវិញដូចជា "លុយ" ឬ "ទន្លេ" ដើម្បីដឹងថាវាជាស្ថាប័នហិរញ្ញវត្ថុ ឬច្រាំងទន្លេ។ |
| Fine-tuning | ជាដំណើរការយកម៉ូដែលភាសាដែលបានបង្វឹកជាមុនរួចហើយ (Pre-trained Model) មកបង្វឹកបន្ថែមលើទិន្នន័យតូចជាងដែលមានការបិទស្លាកច្បាស់លាស់ ដើម្បីសម្រួលប៉ារ៉ាម៉ែត្ររបស់វាឱ្យបំពេញកិច្ចការជាក់លាក់ណាមួយ ដូចជាការបែងចែកអារម្មណ៍អត្ថបទ ឬការឆ្លើយសំណួរជាដើម។ | ដូចជាសិស្សដែលរៀនចេះចំណេះដឹងទូទៅចប់ថ្នាក់ទី១២ រួចទៅរៀនជំនាញឯកទេសបន្តនៅសាកលវិទ្យាល័យដើម្បីក្លាយជាគ្រូពេទ្យ ឬវិស្វករ។ |
| Word Embedding | ជាការបំប្លែងពាក្យនីមួយៗទៅជាវ៉ិចទ័រនៃលេខ (Vectors of numbers) នៅក្នុងលំហវិមាត្រខ្ពស់ ដើម្បីឱ្យម៉ាស៊ីនកុំព្យូទ័រអាចវាស់ស្ទង់ភាពស្រដៀងគ្នានៃអត្ថន័យរបស់ពាក្យទាំងនោះ។ ម៉ូដែលទំនើបប្រើប្រាស់ Contextual embeddings ដែលតម្លៃវ៉ិចទ័រអាចផ្លាស់ប្តូរទៅតាមបរិបទប្រយោគជាក់ស្តែង។ | ដូចជាការផ្តល់កូដទីតាំង (GPS) លើផែនទីដល់ពាក្យនីមួយៗ ដោយពាក្យមានអត្ថន័យស្រដៀងគ្នា (ដូចជា ឆ្កែ និង ឆ្មា) ត្រូវបានដាក់ឱ្យនៅជិតគ្នា។ |
| Few-shot learning | ជាសមត្ថភាពរបស់ម៉ូដែលមូលដ្ឋាន (Foundation Models) ក្នុងការយល់ និងដោះស្រាយបញ្ហាថ្មីៗដោយគ្រាន់តែអ្នកប្រើប្រាស់ផ្តល់ឧទាហរណ៍គំរូតិចតួចនៅក្នុងពាក្យបញ្ជា (Prompt) ដោយមិនចាំបាច់ធ្វើការបង្វឹកផ្លាស់ប្តូររចនាសម្ព័ន្ធម៉ូដែលឡើងវិញនោះទេ។ | ដូចជាការបង្រៀនក្មេងឱ្យចេះបត់ក្រដាសដោយគ្រាន់តែធ្វើគំរូឱ្យមើល២ទៅ៣ដង គេក៏អាចធ្វើតាមបានភ្លាមៗដោយមិនបាច់រៀនទ្រឹស្តីស្មុគស្មាញ។ |
| Masked Language Model (MLM) | ជាវិធីសាស្ត្របង្វឹកម៉ូដែលភាសា (ឧទាហរណ៍ម៉ូដែល BERT) ដោយលាក់ពាក្យមួយចំនួនក្នុងប្រយោគ រួចតម្រូវឱ្យម៉ូដែលទស្សន៍ទាយពាក្យដែលបាត់នោះ ដោយផ្អែកលើការវិភាគបរិបទនៃពាក្យសងខាងក្នុងប្រយោគ (អានទៅមុខនិងថយក្រោយ)។ | ដូចជាការធ្វើលំហាត់បំពេញចន្លោះនៅក្នុងថ្នាក់រៀនភាសាខ្មែរ ដែលសិស្សត្រូវទាយពាក្យដែលបាត់ដោយអានបរិបទប្រយោគទាំងមូល។ |
| Autoregressive Language Model | ជាប្រភេទម៉ូដែលភាសា (ដូចជាម៉ូដែល GPT) ដែលដំណើរការដោយការទស្សន៍ទាយពាក្យបន្ទាប់ម្តងមួយៗ ដោយផ្អែកលើអត្ថបទឬពាក្យដែលវាបានបង្កើតរួចមកហើយនៅខាងដើម។ វាមានប្រសិទ្ធភាពខ្ពស់សម្រាប់ការបង្កើតអត្ថបទថ្មីៗដែលមានភាពរលូន និងវែង។ | ដូចជាការលេងល្បែងតពាក្យ ដែលអ្នកត្រូវបង្កើតពាក្យថ្មីមួយដោយផ្អែកលើពាក្យដែលមិត្តភក្តិអ្នកទើបតែនិយាយរួចមក។ |
| Multimodal AI | ជាប្រព័ន្ធបញ្ញាសិប្បនិម្មិតដែលអាចប្រមូល បកស្រាយ និងទាញយកទំនាក់ទំនងពីប្រភពទិន្នន័យច្រើនប្រភេទក្នុងពេលតែមួយ និងទៅវិញទៅមក ដូចជាការយល់អត្ថបទ រូបភាព សំឡេង និងវីដេអូបញ្ចូលគ្នានៅក្នុងលំហតំណាង (Embedding space) តែមួយ។ | ដូចជាមនុស្សដែលអាចស្តាប់សំឡេង មើលរូបភាព និងអានអក្សរក្នុងពេលតែមួយ ដើម្បីយល់ពីខ្លឹមសារវីដេអូមួយកាន់តែច្បាស់ស៊ីជម្រៅ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖