បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយអំពីការវិវត្ត កម្មវិធីប្រើប្រាស់ និងបញ្ហាប្រឈមនៃវិធីសាស្ត្របញ្ញាសិប្បនិម្មិត (AI) នៅក្នុងដំណើរការភាសាធម្មជាតិ (NLP) ដែលផ្លាស់ប្តូរពីប្រព័ន្ធផ្អែកលើច្បាប់ (Rule-based) ទៅជាម៉ូដែលដែលអាចបត់បែនបាន។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះគឺជាការពិនិត្យឡើងវិញយ៉ាងទូលំទូលាយ (Comprehensive Review) ទៅលើបច្ចេកទេស និងកម្មវិធីជាក់ស្តែងរបស់បញ្ញាសិប្បនិម្មិត (AI) នៅក្នុងការយល់ដឹង និងការបង្កើតភាសាមនុស្ស។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Rule-based Algorithms / Symbolic Reasoning ក្បួនដោះស្រាយផ្អែកលើច្បាប់ / ការវែកញែកជានិមិត្តសញ្ញា |
មានលក្ខណៈសាមញ្ញក្នុងការអនុវត្តសម្រាប់ប្រព័ន្ធដំបូងៗ និងងាយស្រួលយល់អំពីក្បួនច្បាប់ដែលបានកំណត់។ | មានកម្រិតកំណត់ខ្ពស់ មិនអាចសម្របខ្លួន និងមិនអាចយល់ពីភាពស្មុគស្មាញ សំនួនវោហារស័ព្ទ និងបរិបទនៃភាសាមនុស្សបានល្អនោះទេ។ | មិនអាចឆ្លើយតបទៅនឹងតម្រូវការភាសាជាក់ស្តែងបានល្អ ដែលនាំឱ្យមានការផ្លាស់ប្តូរទៅប្រើប្រាស់ Machine Learning វិញ។ |
| Deep Learning / Neural Machine Translation (NMT) ការរៀនស៊ីជម្រៅ / ការបកប្រែដោយបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត |
មានប្រសិទ្ធភាព និងភាពបត់បែនខ្ពស់ អាចចាប់យកអត្ថន័យ និងបរិបទបានល្អ ព្រមទាំងផ្តល់លទ្ធភាពបកប្រែភ្លាមៗ (Real-time)។ | ទាមទារទិន្នន័យបណ្តុះបណ្តាល (Labeled data) ដែលមានភាពសម្បូរបែបក្នុងបរិមាណដ៏ច្រើនសន្ធឹកសន្ធាប់ និងនៅមានបញ្ហាក្នុងការយល់បរិបទរាងស្មុគស្មាញ (សើចចំអកជាដើម)។ | បានផ្លាស់ប្តូរមុខមាត់វិស័យ NLP យ៉ាងខ្លាំង ដោយបង្កើតបាននូវ Chatbots ឆ្លាតវៃ និងប្រព័ន្ធបកប្រែដែលកាន់តែសុក្រឹតនិងលឿនជាងមុន។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាមិនបានបញ្ជាក់ពីតម្លៃជាតួលេខ ប៉ុន្តែឯកសារនេះបានសង្កត់ធ្ងន់ថាការអភិវឌ្ឍ AI នៅក្នុង NLP ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ និងទិន្នន័យខ្នាតធំ (Big Data)។
ឯកសារនេះបានលើកឡើងយ៉ាងច្បាស់អំពីកង្វះខាតទិន្នន័យបណ្តុះបណ្តាល និងបញ្ហាប្រឈមក្នុងការអនុវត្ត NLP ទៅលើភាសាដទៃក្រៅពីភាសាអង់គ្លេស។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាចំណុចសំខាន់បំផុត ដោយសារភាសាខ្មែរស្ថិតក្នុងក្រុមភាសាដែលមានធនធានតិចតួច (Low-resource language) ដែលអាចបណ្តាលឱ្យប្រព័ន្ធ AI បង្កើតឡើងដោយបរទេសមានភាពលម្អៀង និងមិនអាចដំណើរការបានល្អជាមួយភាសា និងវប្បធម៌ខ្មែរ។
វិធីសាស្ត្រ AI ក្នុងដំណើរការភាសាធម្មជាតិ (NLP) នេះពិតជាមានសក្តានុពលខ្លាំងក្នុងការជួយជំរុញនវានុវត្តន៍ឌីជីថលនៅក្នុងប្រទេសកម្ពុជា ថ្វីត្បិតតែត្រូវការការប្រែសម្រួលច្រើនក៏ដោយ។
ជារួម បច្ចេកវិទ្យាទាំងនេះអាចផ្តល់អត្ថប្រយោជន៍ដ៏ធំធេងដល់ស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជា ប៉ុន្តែលទ្ធផលជោគជ័យអាស្រ័យទាំងស្រុងទៅលើការវិនិយោគក្នុងការបង្កើតសំណុំទិន្នន័យ (Dataset) ភាសាខ្មែរដែលមានគុណភាពខ្ពស់។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Natural Language Processing (NLP) | ជាបច្ចេកវិទ្យាមួយនៃបញ្ញាសិប្បនិម្មិតដែលអនុញ្ញាតឱ្យកុំព្យូទ័រអាចយល់ បកស្រាយ និងបង្កើតភាសាមនុស្ស (ទាំងអត្ថបទ និងសំឡេង) ដើម្បីធ្វើអន្តរកម្មប្រកបដោយអត្ថន័យ។ | ដូចជាការបង្រៀនកុំព្យូទ័រឱ្យចេះអាន និងយល់ភាសាយើង ដើម្បីឱ្យវាអាចជួយឆ្លើយតបសារ ឬធ្វើជាអ្នកបកប្រែជំនួសយើងបាន។ |
| Deep learning | ជាផ្នែកមួយនៃការរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលប្រើប្រាស់បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតមានស្រទាប់ច្រើនតម្រួតគ្នា ដើម្បីវិភាគទិន្នន័យស្មុគស្មាញ និងរៀនស្វែងយល់លំនាំដោយខ្លួនឯង។ | ដូចជាការហ្វឹកហាត់ខួរក្បាលកុមារឱ្យស្គាល់សត្វឆ្កែ ដោយគ្រាន់តែបង្ហាញរូបភាពឆ្កែរាប់ពាន់សន្លឹក រហូតដល់គេអាចចំណាំលក្ខណៈពិសេសរបស់វាបានដោយខ្លួនឯង។ |
| Neural machine translation | ជាប្រព័ន្ធបកប្រែភាសាដោយស្វ័យប្រវត្តិដែលប្រើប្រាស់ Deep Learning ដើម្បីយល់ពីបរិបទ និងអត្ថន័យនៃប្រយោគទាំងមូល ជំនួសឱ្យការបកប្រែពាក្យមួយៗដាច់ពីគ្នា។ | ដូចជាអ្នកបកប្រែអាជីពដែលអាននិងយល់អត្ថន័យនៃឃ្លាទាំងមូលសិន ទើបបកប្រែឱ្យមានន័យរលូន មិនមែនបកតាមវចនានុក្រមមួយពាក្យម្តងៗឡើយ។ |
| Explainable AI | ជាប្រព័ន្ធបញ្ញាសិប្បនិម្មិតដែលមិនត្រឹមតែផ្តល់លទ្ធផលប៉ុណ្ណោះទេ តែមានសមត្ថភាពអាចពន្យល់ពីហេតុផល និងដំណើរការនៅពីក្រោយការសម្រេចចិត្តនោះឱ្យមនុស្សអាចយល់ និងទុកចិត្តបាន។ | ដូចជាសិស្សពូកែដែលមិនត្រឹមតែប្រាប់ចម្លើយត្រឹមត្រូវ តែថែមទាំងអាចបង្ហាញរូបមន្ត និងវិធីសាស្រ្តដែលនាំឱ្យឃើញចម្លើយនោះយ៉ាងច្បាស់លាស់។ |
| Few-shot and Zero-shot Learning | ជាបច្ចេកទេសបណ្តុះបណ្តាល AI ដែលអាចឱ្យម៉ូដែលរៀនកំណត់អត្តសញ្ញាណ ឬដោះស្រាយបញ្ហាថ្មីៗបាន ទោះបីជាមានទិន្នន័យបង្រៀនតិចតួចបំផុត (Few-shot) ឬគ្មានទិន្នន័យសោះ (Zero-shot) ក៏ដោយ។ | ដូចជាមនុស្សដែលស្គាល់សត្វសេះ ហើយពេលគេប្រាប់ថាសេះបង្កង់មានឆ្នូតខ្មៅស គេក៏អាចចំណាំសេះបង្កង់បានភ្លាមពេលឃើញវាលើកដំបូង ទោះមិនធ្លាប់ឃើញពីមុនមកក៏ដោយ។ |
| Sentiment analysis | ជាដំណើរការប្រើប្រាស់ក្បួនដោះស្រាយ NLP ដើម្បីវិភាគលើអត្ថបទ (ដូចជាមតិយោបល់របស់អតិថិជន) ក្នុងគោលបំណងកំណត់ថាតើអត្ថបទនោះមានអត្ថន័យជាវិជ្ជមាន អវិជ្ជមាន ឬអព្យាក្រឹត្យ។ | ដូចជាការអានទឹកមុខនិងកាយវិការរបស់មិត្តភក្តិពេលញ៉ាំម្ហូបថ្មី ដើម្បីដឹងថាគាត់ចូលចិត្ត មិនចូលចិត្ត ឬមានអារម្មណ៍ធម្មតា។ |
| Named Entity Recognition (NER) | ជាក្បួនដោះស្រាយដែលស្វែងរក និងចាត់ថ្នាក់ពាក្យជាក់លាក់នៅក្នុងអត្ថបទទៅជាប្រភេទផ្សេងៗដោយស្វ័យប្រវត្តិ ដូចជា ឈ្មោះមនុស្ស ឈ្មោះស្ថាប័ន ទីតាំង ឬពេលវេលា។ | ដូចជាការប្រើហ្វឺតពណ៌គូសចំណាំលើសៀវភៅ ដោយពណ៌ក្រហមសម្រាប់ឈ្មោះមនុស្ស និងពណ៌ខៀវសម្រាប់ទីកន្លែង ដើម្បីងាយស្រួលទាញយកព័ត៌មានលឿន។ |
| Multimodal data | ជាសំណុំទិន្នន័យដែលរួមបញ្ចូលគ្នានូវទម្រង់ច្រើនប្រភេទ ដូចជា អត្ថបទ រូបភាព វីដេអូ និងសំឡេង ដើម្បីឱ្យប្រព័ន្ធ AI អាចវិភាគ និងយល់បរិបទបានកាន់តែទូលំទូលាយនិងស៊ីជម្រៅ។ | ដូចជាការមើលទូរទស្សន៍ដែលយើងអាចយល់សាច់រឿងបានច្បាស់ជាងការអានសៀវភៅ ព្រោះយើងបានទាំងស្តាប់សំឡេង មើលរូបភាព និងអានអក្សរក្នុងពេលតែមួយ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖