Original Title: Artificial Intelligence Methods in Natural Language Processing: A Comprehensive Review
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្របញ្ញាសិប្បនិម្មិតក្នុងដំណើរការភាសាធម្មជាតិ៖ ការពិនិត្យឡើងវិញយ៉ាងទូលំទូលាយ

ចំណងជើងដើម៖ Artificial Intelligence Methods in Natural Language Processing: A Comprehensive Review

អ្នកនិពន្ធ៖ Yanhan Chen (Chengdu Foreign Languages School, Chengdu, China), Hanxuan Wang (The High School Affiliated to Renmin University International Curriculum Center, Beijing, China), Kaiwen Yu (Department of Mathematics, University College London, London, the United Kingdom), Ruoshui Zhou (The High School Affiliated to Renmin University International Curriculum Center, Beijing, China)

ឆ្នាំបោះពុម្ព៖ 2024, Highlights in Science, Engineering and Technology (CSIC 2023)

វិស័យសិក្សា៖ Artificial Intelligence / Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយអំពីការវិវត្ត កម្មវិធីប្រើប្រាស់ និងបញ្ហាប្រឈមនៃវិធីសាស្ត្របញ្ញាសិប្បនិម្មិត (AI) នៅក្នុងដំណើរការភាសាធម្មជាតិ (NLP) ដែលផ្លាស់ប្តូរពីប្រព័ន្ធផ្អែកលើច្បាប់ (Rule-based) ទៅជាម៉ូដែលដែលអាចបត់បែនបាន។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះគឺជាការពិនិត្យឡើងវិញយ៉ាងទូលំទូលាយ (Comprehensive Review) ទៅលើបច្ចេកទេស និងកម្មវិធីជាក់ស្តែងរបស់បញ្ញាសិប្បនិម្មិត (AI) នៅក្នុងការយល់ដឹង និងការបង្កើតភាសាមនុស្ស។

បច្ចេកទេសរៀនដោយម៉ាស៊ីន (Machine Learning) និងការរៀនស៊ីជម្រៅ (Deep Learning) ក្នុង NLP
ការបកប្រែដោយម៉ាស៊ីនតាមរយៈបណ្តាញសរសៃប្រសាទ (Neural Machine Translation)
ការអភិវឌ្ឍកម្មវិធីសន្ទនា និងជំនួយការនិម្មិត (Chatbots and Virtual Assistants)
ការសង្ខេបអត្ថបទ ការវិភាគមនោសញ្ចេតនា (Sentiment Analysis) និងការកំណត់អត្តសញ្ញាណអង្គភាព (Named Entity Recognition)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការរួមបញ្ចូលបញ្ញាសិប្បនិម្មិត (AI) បានផ្លាស់ប្តូរវិស័យ NLP យ៉ាងខ្លាំង ដោយបង្កើនប្រសិទ្ធភាព ភាពបត់បែន និងភាពត្រឹមត្រូវក្នុងការងារជាច្រើនដូចជាការបកប្រែ និងការវិភាគទិន្នន័យ។
ប្រព័ន្ធ NLP បច្ចុប្បន្ននៅតែជួបប្រទះបញ្ហាប្រឈមមួយចំនួន ដូចជាភាពមិនច្បាស់លាស់នៃអត្ថន័យភាសា (Language ambiguity) ការយល់ដឹងពីបរិបទ និងកង្វះខាតទិន្នន័យបណ្តុះបណ្តាលដែលសម្បូរបែប។
ការស្រាវជ្រាវនាពេលអនាគតនឹងផ្តោតសំខាន់លើបញ្ញាសិប្បនិម្មិតដែលអាចពន្យល់បាន (Explainable AI) ការរៀនប្រភេទ Few-shot និង Zero-shot និងការរួមបញ្ចូលទិន្នន័យពហុទម្រង់ (Multimodal data) ដើម្បីបង្កើតប្រព័ន្ធដែលគួរឱ្យទុកចិត្ត និងមានសុវត្ថិភាពខ្ពស់។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Rule-based Algorithms / Symbolic Reasoning ក្បួនដោះស្រាយផ្អែកលើច្បាប់ / ការវែកញែកជានិមិត្តសញ្ញា	មានលក្ខណៈសាមញ្ញក្នុងការអនុវត្តសម្រាប់ប្រព័ន្ធដំបូងៗ និងងាយស្រួលយល់អំពីក្បួនច្បាប់ដែលបានកំណត់។	មានកម្រិតកំណត់ខ្ពស់ មិនអាចសម្របខ្លួន និងមិនអាចយល់ពីភាពស្មុគស្មាញ សំនួនវោហារស័ព្ទ និងបរិបទនៃភាសាមនុស្សបានល្អនោះទេ។	មិនអាចឆ្លើយតបទៅនឹងតម្រូវការភាសាជាក់ស្តែងបានល្អ ដែលនាំឱ្យមានការផ្លាស់ប្តូរទៅប្រើប្រាស់ Machine Learning វិញ។
Deep Learning / Neural Machine Translation (NMT) ការរៀនស៊ីជម្រៅ / ការបកប្រែដោយបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត	មានប្រសិទ្ធភាព និងភាពបត់បែនខ្ពស់ អាចចាប់យកអត្ថន័យ និងបរិបទបានល្អ ព្រមទាំងផ្តល់លទ្ធភាពបកប្រែភ្លាមៗ (Real-time)។	ទាមទារទិន្នន័យបណ្តុះបណ្តាល (Labeled data) ដែលមានភាពសម្បូរបែបក្នុងបរិមាណដ៏ច្រើនសន្ធឹកសន្ធាប់ និងនៅមានបញ្ហាក្នុងការយល់បរិបទរាងស្មុគស្មាញ (សើចចំអកជាដើម)។	បានផ្លាស់ប្តូរមុខមាត់វិស័យ NLP យ៉ាងខ្លាំង ដោយបង្កើតបាននូវ Chatbots ឆ្លាតវៃ និងប្រព័ន្ធបកប្រែដែលកាន់តែសុក្រឹតនិងលឿនជាងមុន។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាមិនបានបញ្ជាក់ពីតម្លៃជាតួលេខ ប៉ុន្តែឯកសារនេះបានសង្កត់ធ្ងន់ថាការអភិវឌ្ឍ AI នៅក្នុង NLP ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ និងទិន្នន័យខ្នាតធំ (Big Data)។

Hardware: ត្រូវការថាមពលកុំព្យូទ័រ (Computational power) ខ្ពស់ខ្លាំង ដើម្បីគណនា និងដំណើរការបណ្តាញសរសៃប្រសាទ (Neural Networks) ដ៏ស្មុគស្មាញ។
Software/Libraries: តម្រូវឱ្យប្រើប្រាស់ក្របខណ្ឌកូដកម្រិតខ្ពស់ដូចជា PyTorch, AllenNLP, Tensor2Tensor សម្រាប់ការស្រាវជ្រាវ និងបង្កើតម៉ូដែល។
Dataset: ទាមទារការប្រមូលទិន្នន័យអត្ថបទដែលបានដាក់ស្លាក (Labeled data) យ៉ាងច្រើន និងតំណាងឱ្យភាពចម្រុះនៃភាសា ដែលជាបញ្ហាប្រឈមដ៏ធំបំផុតមួយ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ឯកសារនេះបានលើកឡើងយ៉ាងច្បាស់អំពីកង្វះខាតទិន្នន័យបណ្តុះបណ្តាល និងបញ្ហាប្រឈមក្នុងការអនុវត្ត NLP ទៅលើភាសាដទៃក្រៅពីភាសាអង់គ្លេស។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាចំណុចសំខាន់បំផុត ដោយសារភាសាខ្មែរស្ថិតក្នុងក្រុមភាសាដែលមានធនធានតិចតួច (Low-resource language) ដែលអាចបណ្តាលឱ្យប្រព័ន្ធ AI បង្កើតឡើងដោយបរទេសមានភាពលម្អៀង និងមិនអាចដំណើរការបានល្អជាមួយភាសា និងវប្បធម៌ខ្មែរ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ AI ក្នុងដំណើរការភាសាធម្មជាតិ (NLP) នេះពិតជាមានសក្តានុពលខ្លាំងក្នុងការជួយជំរុញនវានុវត្តន៍ឌីជីថលនៅក្នុងប្រទេសកម្ពុជា ថ្វីត្បិតតែត្រូវការការប្រែសម្រួលច្រើនក៏ដោយ។

វិស័យធនាគារ និងទូរគមនាគមន៍ (Banking & Telecom): ការប្រើប្រាស់ Virtual Assistants & Chatbots ដែលបំពាក់ដោយ AI អាចជួយក្រុមហ៊ុនដូចជា ធនាគារ ABA ឬ Smart Axiata ផ្តល់សេវាកម្មអតិថិជន ២៤ ម៉ោង/៧ថ្ងៃ ដោយយល់ពីសំណួរ និងមនោសញ្ចេតនារបស់អតិថិជនបានកាន់តែប្រសើរ។
ប្រព័ន្ធផ្សព្វផ្សាយ និងការគ្រប់គ្រងព័ត៌មាន (Media & Content Moderation): អាចប្រើប្រាស់ Sentiment Analysis និងការរកមើលព័ត៌មានក្លែងក្លាយ (Fake news detection) ដើម្បីត្រួតពិនិត្យមាតិកានៅលើបណ្តាញសង្គម (ឧ. Facebook) នៅក្នុងប្រទេសកម្ពុជា ដែលជួយទប់ស្កាត់ការផ្សព្វផ្សាយព័ត៌មានមិនពិត។
វិស័យទេសចរណ៍ និងរដ្ឋាភិបាល (Tourism & Government): ការអភិវឌ្ឍប្រព័ន្ធបកប្រែដោយម៉ាស៊ីន (Machine Translation) រវាងភាសាខ្មែរ និងភាសាបរទេសនានា អាចជួយសម្រួលដល់ការប្រាស្រ័យទាក់ទងរវាងស្ថាប័នរដ្ឋ និងភ្ញៀវទេសចរអន្តរជាតិបានយ៉ាងឆាប់រហ័ស។

ជារួម បច្ចេកវិទ្យាទាំងនេះអាចផ្តល់អត្ថប្រយោជន៍ដ៏ធំធេងដល់ស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជា ប៉ុន្តែលទ្ធផលជោគជ័យអាស្រ័យទាំងស្រុងទៅលើការវិនិយោគក្នុងការបង្កើតសំណុំទិន្នន័យ (Dataset) ភាសាខ្មែរដែលមានគុណភាពខ្ពស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះឧបករណ៍អភិវឌ្ឍន៍ NLP: ចាប់ផ្តើមរៀនសរសេរកូដ និងប្រើប្រាស់បណ្ណាល័យ (Libraries) ដូចជា PyTorch និង AllenNLP ដើម្បីយល់ពីរបៀបដែលម៉ូដែល Deep Learning ដំណើរការលើទិន្នន័យអត្ថបទ។
ផ្តួចផ្តើមការប្រមូល និងដាក់ស្លាកទិន្នន័យភាសាខ្មែរ: បង្កើតគម្រោងស្រាវជ្រាវដើម្បីប្រមូលទិន្នន័យអត្ថបទភាសាខ្មែរពីប្រភពផ្សេងៗ (ដូចជាអត្ថបទព័ត៌មាន ឬបណ្តាញសង្គម) រួចធ្វើការដាក់ស្លាក (Data Annotation) ដើម្បីបង្កើតជា Labeled Data សម្រាប់បណ្តុះបណ្តាលម៉ូដែល។
អនុវត្តបច្ចេកទេស Few-shot និង Zero-shot Learning: ដោយសារទិន្នន័យភាសាខ្មែរមានកម្រិត និស្សិតគប្បីស្រាវជ្រាវសាកល្បងប្រើប្រាស់វិធីសាស្ត្រ Few-shot and Zero-shot Learning ដែលអនុញ្ញាតឱ្យ AI អាចរៀនយល់ភាសាខ្មែរបាន ទោះបីជាមានទិន្នន័យបង្រៀនតិចតួចក៏ដោយ។
អភិវឌ្ឍប្រព័ន្ធវិភាគមនោសញ្ចេតនា (Sentiment Analysis): ប្រើប្រាស់ទិន្នន័យអត្ថបទពីបណ្តាញសង្គមក្នុងស្រុក ដើម្បីបង្កើតម៉ូដែលដែលអាចវិភាគ និងបែងចែកមតិយោបល់របស់ប្រជាជន (វិជ្ជមាន អវិជ្ជមាន ឬអព្យាក្រឹត្យ) ដែលជាគម្រោងមានតម្រូវការខ្ពស់ពីវិស័យឯកជន។
ស្រាវជ្រាវលើ Explainable AI សម្រាប់សុវត្ថិភាពប្រព័ន្ធ: ផ្តោតលើការកសាងម៉ូដែលដែលមិនត្រឹមតែអាចទស្សន៍ទាយបានត្រឹមត្រូវ (ឧ. ការរកព័ត៌មានក្លែងក្លាយ) ប៉ុន្តែថែមទាំងអាចពន្យល់ពីហេតុផលនៅពីក្រោយការសម្រេចចិត្តនោះ (Explainable AI) ដើម្បីបង្កើនទំនុកចិត្តពីអ្នកប្រើប្រាស់។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Natural Language Processing (NLP)	ជាបច្ចេកវិទ្យាមួយនៃបញ្ញាសិប្បនិម្មិតដែលអនុញ្ញាតឱ្យកុំព្យូទ័រអាចយល់ បកស្រាយ និងបង្កើតភាសាមនុស្ស (ទាំងអត្ថបទ និងសំឡេង) ដើម្បីធ្វើអន្តរកម្មប្រកបដោយអត្ថន័យ។	ដូចជាការបង្រៀនកុំព្យូទ័រឱ្យចេះអាន និងយល់ភាសាយើង ដើម្បីឱ្យវាអាចជួយឆ្លើយតបសារ ឬធ្វើជាអ្នកបកប្រែជំនួសយើងបាន។
Deep learning	ជាផ្នែកមួយនៃការរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលប្រើប្រាស់បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតមានស្រទាប់ច្រើនតម្រួតគ្នា ដើម្បីវិភាគទិន្នន័យស្មុគស្មាញ និងរៀនស្វែងយល់លំនាំដោយខ្លួនឯង។	ដូចជាការហ្វឹកហាត់ខួរក្បាលកុមារឱ្យស្គាល់សត្វឆ្កែ ដោយគ្រាន់តែបង្ហាញរូបភាពឆ្កែរាប់ពាន់សន្លឹក រហូតដល់គេអាចចំណាំលក្ខណៈពិសេសរបស់វាបានដោយខ្លួនឯង។
Neural machine translation	ជាប្រព័ន្ធបកប្រែភាសាដោយស្វ័យប្រវត្តិដែលប្រើប្រាស់ Deep Learning ដើម្បីយល់ពីបរិបទ និងអត្ថន័យនៃប្រយោគទាំងមូល ជំនួសឱ្យការបកប្រែពាក្យមួយៗដាច់ពីគ្នា។	ដូចជាអ្នកបកប្រែអាជីពដែលអាននិងយល់អត្ថន័យនៃឃ្លាទាំងមូលសិន ទើបបកប្រែឱ្យមានន័យរលូន មិនមែនបកតាមវចនានុក្រមមួយពាក្យម្តងៗឡើយ។
Explainable AI	ជាប្រព័ន្ធបញ្ញាសិប្បនិម្មិតដែលមិនត្រឹមតែផ្តល់លទ្ធផលប៉ុណ្ណោះទេ តែមានសមត្ថភាពអាចពន្យល់ពីហេតុផល និងដំណើរការនៅពីក្រោយការសម្រេចចិត្តនោះឱ្យមនុស្សអាចយល់ និងទុកចិត្តបាន។	ដូចជាសិស្សពូកែដែលមិនត្រឹមតែប្រាប់ចម្លើយត្រឹមត្រូវ តែថែមទាំងអាចបង្ហាញរូបមន្ត និងវិធីសាស្រ្តដែលនាំឱ្យឃើញចម្លើយនោះយ៉ាងច្បាស់លាស់។
Few-shot and Zero-shot Learning	ជាបច្ចេកទេសបណ្តុះបណ្តាល AI ដែលអាចឱ្យម៉ូដែលរៀនកំណត់អត្តសញ្ញាណ ឬដោះស្រាយបញ្ហាថ្មីៗបាន ទោះបីជាមានទិន្នន័យបង្រៀនតិចតួចបំផុត (Few-shot) ឬគ្មានទិន្នន័យសោះ (Zero-shot) ក៏ដោយ។	ដូចជាមនុស្សដែលស្គាល់សត្វសេះ ហើយពេលគេប្រាប់ថាសេះបង្កង់មានឆ្នូតខ្មៅស គេក៏អាចចំណាំសេះបង្កង់បានភ្លាមពេលឃើញវាលើកដំបូង ទោះមិនធ្លាប់ឃើញពីមុនមកក៏ដោយ។
Sentiment analysis	ជាដំណើរការប្រើប្រាស់ក្បួនដោះស្រាយ NLP ដើម្បីវិភាគលើអត្ថបទ (ដូចជាមតិយោបល់របស់អតិថិជន) ក្នុងគោលបំណងកំណត់ថាតើអត្ថបទនោះមានអត្ថន័យជាវិជ្ជមាន អវិជ្ជមាន ឬអព្យាក្រឹត្យ។	ដូចជាការអានទឹកមុខនិងកាយវិការរបស់មិត្តភក្តិពេលញ៉ាំម្ហូបថ្មី ដើម្បីដឹងថាគាត់ចូលចិត្ត មិនចូលចិត្ត ឬមានអារម្មណ៍ធម្មតា។
Named Entity Recognition (NER)	ជាក្បួនដោះស្រាយដែលស្វែងរក និងចាត់ថ្នាក់ពាក្យជាក់លាក់នៅក្នុងអត្ថបទទៅជាប្រភេទផ្សេងៗដោយស្វ័យប្រវត្តិ ដូចជា ឈ្មោះមនុស្ស ឈ្មោះស្ថាប័ន ទីតាំង ឬពេលវេលា។	ដូចជាការប្រើហ្វឺតពណ៌គូសចំណាំលើសៀវភៅ ដោយពណ៌ក្រហមសម្រាប់ឈ្មោះមនុស្ស និងពណ៌ខៀវសម្រាប់ទីកន្លែង ដើម្បីងាយស្រួលទាញយកព័ត៌មានលឿន។
Multimodal data	ជាសំណុំទិន្នន័យដែលរួមបញ្ចូលគ្នានូវទម្រង់ច្រើនប្រភេទ ដូចជា អត្ថបទ រូបភាព វីដេអូ និងសំឡេង ដើម្បីឱ្យប្រព័ន្ធ AI អាចវិភាគ និងយល់បរិបទបានកាន់តែទូលំទូលាយនិងស៊ីជម្រៅ។	ដូចជាការមើលទូរទស្សន៍ដែលយើងអាចយល់សាច់រឿងបានច្បាស់ជាងការអានសៀវភៅ ព្រោះយើងបានទាំងស្តាប់សំឡេង មើលរូបភាព និងអានអក្សរក្នុងពេលតែមួយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖