Original Title: Artificial Intelligence Methods in Natural Language Processing: A Comprehensive Review
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្របញ្ញាសិប្បនិម្មិតក្នុងដំណើរការភាសាធម្មជាតិ៖ ការពិនិត្យឡើងវិញយ៉ាងទូលំទូលាយ

ចំណងជើងដើម៖ Artificial Intelligence Methods in Natural Language Processing: A Comprehensive Review

អ្នកនិពន្ធ៖ Yanhan Chen (Chengdu Foreign Languages School, Chengdu, China), Hanxuan Wang (The High School Affiliated to Renmin University International Curriculum Center, Beijing, China), Kaiwen Yu (Department of Mathematics, University College London, London, the United Kingdom), Ruoshui Zhou (The High School Affiliated to Renmin University International Curriculum Center, Beijing, China)

ឆ្នាំបោះពុម្ព៖ 2024, Highlights in Science, Engineering and Technology (CSIC 2023)

វិស័យសិក្សា៖ Artificial Intelligence / Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយអំពីការវិវត្ត កម្មវិធីប្រើប្រាស់ និងបញ្ហាប្រឈមនៃវិធីសាស្ត្របញ្ញាសិប្បនិម្មិត (AI) នៅក្នុងដំណើរការភាសាធម្មជាតិ (NLP) ដែលផ្លាស់ប្តូរពីប្រព័ន្ធផ្អែកលើច្បាប់ (Rule-based) ទៅជាម៉ូដែលដែលអាចបត់បែនបាន។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះគឺជាការពិនិត្យឡើងវិញយ៉ាងទូលំទូលាយ (Comprehensive Review) ទៅលើបច្ចេកទេស និងកម្មវិធីជាក់ស្តែងរបស់បញ្ញាសិប្បនិម្មិត (AI) នៅក្នុងការយល់ដឹង និងការបង្កើតភាសាមនុស្ស។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Rule-based Algorithms / Symbolic Reasoning
ក្បួនដោះស្រាយផ្អែកលើច្បាប់ / ការវែកញែកជានិមិត្តសញ្ញា
មានលក្ខណៈសាមញ្ញក្នុងការអនុវត្តសម្រាប់ប្រព័ន្ធដំបូងៗ និងងាយស្រួលយល់អំពីក្បួនច្បាប់ដែលបានកំណត់។ មានកម្រិតកំណត់ខ្ពស់ មិនអាចសម្របខ្លួន និងមិនអាចយល់ពីភាពស្មុគស្មាញ សំនួនវោហារស័ព្ទ និងបរិបទនៃភាសាមនុស្សបានល្អនោះទេ។ មិនអាចឆ្លើយតបទៅនឹងតម្រូវការភាសាជាក់ស្តែងបានល្អ ដែលនាំឱ្យមានការផ្លាស់ប្តូរទៅប្រើប្រាស់ Machine Learning វិញ។
Deep Learning / Neural Machine Translation (NMT)
ការរៀនស៊ីជម្រៅ / ការបកប្រែដោយបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត
មានប្រសិទ្ធភាព និងភាពបត់បែនខ្ពស់ អាចចាប់យកអត្ថន័យ និងបរិបទបានល្អ ព្រមទាំងផ្តល់លទ្ធភាពបកប្រែភ្លាមៗ (Real-time)។ ទាមទារទិន្នន័យបណ្តុះបណ្តាល (Labeled data) ដែលមានភាពសម្បូរបែបក្នុងបរិមាណដ៏ច្រើនសន្ធឹកសន្ធាប់ និងនៅមានបញ្ហាក្នុងការយល់បរិបទរាងស្មុគស្មាញ (សើចចំអកជាដើម)។ បានផ្លាស់ប្តូរមុខមាត់វិស័យ NLP យ៉ាងខ្លាំង ដោយបង្កើតបាននូវ Chatbots ឆ្លាតវៃ និងប្រព័ន្ធបកប្រែដែលកាន់តែសុក្រឹតនិងលឿនជាងមុន។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាមិនបានបញ្ជាក់ពីតម្លៃជាតួលេខ ប៉ុន្តែឯកសារនេះបានសង្កត់ធ្ងន់ថាការអភិវឌ្ឍ AI នៅក្នុង NLP ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ និងទិន្នន័យខ្នាតធំ (Big Data)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ឯកសារនេះបានលើកឡើងយ៉ាងច្បាស់អំពីកង្វះខាតទិន្នន័យបណ្តុះបណ្តាល និងបញ្ហាប្រឈមក្នុងការអនុវត្ត NLP ទៅលើភាសាដទៃក្រៅពីភាសាអង់គ្លេស។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាចំណុចសំខាន់បំផុត ដោយសារភាសាខ្មែរស្ថិតក្នុងក្រុមភាសាដែលមានធនធានតិចតួច (Low-resource language) ដែលអាចបណ្តាលឱ្យប្រព័ន្ធ AI បង្កើតឡើងដោយបរទេសមានភាពលម្អៀង និងមិនអាចដំណើរការបានល្អជាមួយភាសា និងវប្បធម៌ខ្មែរ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ AI ក្នុងដំណើរការភាសាធម្មជាតិ (NLP) នេះពិតជាមានសក្តានុពលខ្លាំងក្នុងការជួយជំរុញនវានុវត្តន៍ឌីជីថលនៅក្នុងប្រទេសកម្ពុជា ថ្វីត្បិតតែត្រូវការការប្រែសម្រួលច្រើនក៏ដោយ។

ជារួម បច្ចេកវិទ្យាទាំងនេះអាចផ្តល់អត្ថប្រយោជន៍ដ៏ធំធេងដល់ស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជា ប៉ុន្តែលទ្ធផលជោគជ័យអាស្រ័យទាំងស្រុងទៅលើការវិនិយោគក្នុងការបង្កើតសំណុំទិន្នន័យ (Dataset) ភាសាខ្មែរដែលមានគុណភាពខ្ពស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះឧបករណ៍អភិវឌ្ឍន៍ NLP: ចាប់ផ្តើមរៀនសរសេរកូដ និងប្រើប្រាស់បណ្ណាល័យ (Libraries) ដូចជា PyTorch និង AllenNLP ដើម្បីយល់ពីរបៀបដែលម៉ូដែល Deep Learning ដំណើរការលើទិន្នន័យអត្ថបទ។
  2. ផ្តួចផ្តើមការប្រមូល និងដាក់ស្លាកទិន្នន័យភាសាខ្មែរ: បង្កើតគម្រោងស្រាវជ្រាវដើម្បីប្រមូលទិន្នន័យអត្ថបទភាសាខ្មែរពីប្រភពផ្សេងៗ (ដូចជាអត្ថបទព័ត៌មាន ឬបណ្តាញសង្គម) រួចធ្វើការដាក់ស្លាក (Data Annotation) ដើម្បីបង្កើតជា Labeled Data សម្រាប់បណ្តុះបណ្តាលម៉ូដែល។
  3. អនុវត្តបច្ចេកទេស Few-shot និង Zero-shot Learning: ដោយសារទិន្នន័យភាសាខ្មែរមានកម្រិត និស្សិតគប្បីស្រាវជ្រាវសាកល្បងប្រើប្រាស់វិធីសាស្ត្រ Few-shot and Zero-shot Learning ដែលអនុញ្ញាតឱ្យ AI អាចរៀនយល់ភាសាខ្មែរបាន ទោះបីជាមានទិន្នន័យបង្រៀនតិចតួចក៏ដោយ។
  4. អភិវឌ្ឍប្រព័ន្ធវិភាគមនោសញ្ចេតនា (Sentiment Analysis): ប្រើប្រាស់ទិន្នន័យអត្ថបទពីបណ្តាញសង្គមក្នុងស្រុក ដើម្បីបង្កើតម៉ូដែលដែលអាចវិភាគ និងបែងចែកមតិយោបល់របស់ប្រជាជន (វិជ្ជមាន អវិជ្ជមាន ឬអព្យាក្រឹត្យ) ដែលជាគម្រោងមានតម្រូវការខ្ពស់ពីវិស័យឯកជន។
  5. ស្រាវជ្រាវលើ Explainable AI សម្រាប់សុវត្ថិភាពប្រព័ន្ធ: ផ្តោតលើការកសាងម៉ូដែលដែលមិនត្រឹមតែអាចទស្សន៍ទាយបានត្រឹមត្រូវ (ឧ. ការរកព័ត៌មានក្លែងក្លាយ) ប៉ុន្តែថែមទាំងអាចពន្យល់ពីហេតុផលនៅពីក្រោយការសម្រេចចិត្តនោះ (Explainable AI) ដើម្បីបង្កើនទំនុកចិត្តពីអ្នកប្រើប្រាស់។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Natural Language Processing (NLP) ជាបច្ចេកវិទ្យាមួយនៃបញ្ញាសិប្បនិម្មិតដែលអនុញ្ញាតឱ្យកុំព្យូទ័រអាចយល់ បកស្រាយ និងបង្កើតភាសាមនុស្ស (ទាំងអត្ថបទ និងសំឡេង) ដើម្បីធ្វើអន្តរកម្មប្រកបដោយអត្ថន័យ។ ដូចជាការបង្រៀនកុំព្យូទ័រឱ្យចេះអាន និងយល់ភាសាយើង ដើម្បីឱ្យវាអាចជួយឆ្លើយតបសារ ឬធ្វើជាអ្នកបកប្រែជំនួសយើងបាន។
Deep learning ជាផ្នែកមួយនៃការរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលប្រើប្រាស់បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតមានស្រទាប់ច្រើនតម្រួតគ្នា ដើម្បីវិភាគទិន្នន័យស្មុគស្មាញ និងរៀនស្វែងយល់លំនាំដោយខ្លួនឯង។ ដូចជាការហ្វឹកហាត់ខួរក្បាលកុមារឱ្យស្គាល់សត្វឆ្កែ ដោយគ្រាន់តែបង្ហាញរូបភាពឆ្កែរាប់ពាន់សន្លឹក រហូតដល់គេអាចចំណាំលក្ខណៈពិសេសរបស់វាបានដោយខ្លួនឯង។
Neural machine translation ជាប្រព័ន្ធបកប្រែភាសាដោយស្វ័យប្រវត្តិដែលប្រើប្រាស់ Deep Learning ដើម្បីយល់ពីបរិបទ និងអត្ថន័យនៃប្រយោគទាំងមូល ជំនួសឱ្យការបកប្រែពាក្យមួយៗដាច់ពីគ្នា។ ដូចជាអ្នកបកប្រែអាជីពដែលអាននិងយល់អត្ថន័យនៃឃ្លាទាំងមូលសិន ទើបបកប្រែឱ្យមានន័យរលូន មិនមែនបកតាមវចនានុក្រមមួយពាក្យម្តងៗឡើយ។
Explainable AI ជាប្រព័ន្ធបញ្ញាសិប្បនិម្មិតដែលមិនត្រឹមតែផ្តល់លទ្ធផលប៉ុណ្ណោះទេ តែមានសមត្ថភាពអាចពន្យល់ពីហេតុផល និងដំណើរការនៅពីក្រោយការសម្រេចចិត្តនោះឱ្យមនុស្សអាចយល់ និងទុកចិត្តបាន។ ដូចជាសិស្សពូកែដែលមិនត្រឹមតែប្រាប់ចម្លើយត្រឹមត្រូវ តែថែមទាំងអាចបង្ហាញរូបមន្ត និងវិធីសាស្រ្តដែលនាំឱ្យឃើញចម្លើយនោះយ៉ាងច្បាស់លាស់។
Few-shot and Zero-shot Learning ជាបច្ចេកទេសបណ្តុះបណ្តាល AI ដែលអាចឱ្យម៉ូដែលរៀនកំណត់អត្តសញ្ញាណ ឬដោះស្រាយបញ្ហាថ្មីៗបាន ទោះបីជាមានទិន្នន័យបង្រៀនតិចតួចបំផុត (Few-shot) ឬគ្មានទិន្នន័យសោះ (Zero-shot) ក៏ដោយ។ ដូចជាមនុស្សដែលស្គាល់សត្វសេះ ហើយពេលគេប្រាប់ថាសេះបង្កង់មានឆ្នូតខ្មៅស គេក៏អាចចំណាំសេះបង្កង់បានភ្លាមពេលឃើញវាលើកដំបូង ទោះមិនធ្លាប់ឃើញពីមុនមកក៏ដោយ។
Sentiment analysis ជាដំណើរការប្រើប្រាស់ក្បួនដោះស្រាយ NLP ដើម្បីវិភាគលើអត្ថបទ (ដូចជាមតិយោបល់របស់អតិថិជន) ក្នុងគោលបំណងកំណត់ថាតើអត្ថបទនោះមានអត្ថន័យជាវិជ្ជមាន អវិជ្ជមាន ឬអព្យាក្រឹត្យ។ ដូចជាការអានទឹកមុខនិងកាយវិការរបស់មិត្តភក្តិពេលញ៉ាំម្ហូបថ្មី ដើម្បីដឹងថាគាត់ចូលចិត្ត មិនចូលចិត្ត ឬមានអារម្មណ៍ធម្មតា។
Named Entity Recognition (NER) ជាក្បួនដោះស្រាយដែលស្វែងរក និងចាត់ថ្នាក់ពាក្យជាក់លាក់នៅក្នុងអត្ថបទទៅជាប្រភេទផ្សេងៗដោយស្វ័យប្រវត្តិ ដូចជា ឈ្មោះមនុស្ស ឈ្មោះស្ថាប័ន ទីតាំង ឬពេលវេលា។ ដូចជាការប្រើហ្វឺតពណ៌គូសចំណាំលើសៀវភៅ ដោយពណ៌ក្រហមសម្រាប់ឈ្មោះមនុស្ស និងពណ៌ខៀវសម្រាប់ទីកន្លែង ដើម្បីងាយស្រួលទាញយកព័ត៌មានលឿន។
Multimodal data ជាសំណុំទិន្នន័យដែលរួមបញ្ចូលគ្នានូវទម្រង់ច្រើនប្រភេទ ដូចជា អត្ថបទ រូបភាព វីដេអូ និងសំឡេង ដើម្បីឱ្យប្រព័ន្ធ AI អាចវិភាគ និងយល់បរិបទបានកាន់តែទូលំទូលាយនិងស៊ីជម្រៅ។ ដូចជាការមើលទូរទស្សន៍ដែលយើងអាចយល់សាច់រឿងបានច្បាស់ជាងការអានសៀវភៅ ព្រោះយើងបានទាំងស្តាប់សំឡេង មើលរូបភាព និងអានអក្សរក្នុងពេលតែមួយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖