Original Title: Bridging Domains: Advances in Explainable, Automated, and Privacy-Preserving AI for Computer Science and Cybersecurity
Source: doi.org/10.3390/computers14090374
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការផ្សារភ្ជាប់វិស័យ៖ វឌ្ឍនភាពនៃបញ្ញាសិប្បនិម្មិតដែលអាចបកស្រាយបាន ស្វ័យប្រវត្តិកម្ម និងការពារឯកជនភាពសម្រាប់វិទ្យាសាស្ត្រកុំព្យូទ័រ និងសន្តិសុខបច្ចេកវិទ្យា

ចំណងជើងដើម៖ Bridging Domains: Advances in Explainable, Automated, and Privacy-Preserving AI for Computer Science and Cybersecurity

អ្នកនិពន្ធ៖ Youssef Harrath (Beacom College of Computer and Cyber Sciences, Dakota State University, USA), Oswald Adohinzin, Jihene Kaabi, Morgan Saathoff

ឆ្នាំបោះពុម្ព៖ 2025, Computers (MDPI)

វិស័យសិក្សា៖ Artificial Intelligence and Cybersecurity

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ បញ្ញាសិប្បនិម្មិត (AI) កំពុងផ្លាស់ប្តូរវិស័យវិទ្យាសាស្ត្រកុំព្យូទ័រ និងសន្តិសុខបច្ចេកវិទ្យា ប៉ុន្តែការស្រាវជ្រាវភាគច្រើនតែងតែចាត់ទុកវិស័យទាំងពីរនេះដាច់ដោយឡែកពីគ្នា ដែលធ្វើឱ្យខកខានក្នុងការដោះស្រាយបញ្ហារួម ដូចជាភាពលម្អៀងនៃក្បួនដោះស្រាយ (Algorithmic bias) ភាពពិបាកក្នុងការបកស្រាយលទ្ធផល និងការចំណាយខ្ពស់លើការគណនា។ ឯកសារនេះផ្តល់នូវការរំលឹកឡើងវិញនូវការសិក្សាស្រាវជ្រាវរួមមួយ ដើម្បីផ្សារភ្ជាប់គម្លាតនេះ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការរំលឹកឡើងវិញនូវអក្សរសិល្ប៍គ្រប់ជ្រុងជ្រោយ (Comprehensive Literature Review - CLR) ដោយធ្វើការវិភាគលើឯកសារបោះពុម្ពផ្សាយចំនួន ២៥៦ ដែលត្រូវបានត្រួតពិនិត្យដោយអ្នកជំនាញ (Peer-reviewed) ចាប់ពីឆ្នាំ ២០១១ ដល់ ២០២៥ ពីមូលដ្ឋានទិន្នន័យសិក្សាធំៗ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Classical Machine Learning (Random Forest, SVM, CART)
ម៉ាស៊ីនរៀនបែបបុរាណ (ម៉ូដែល Random Forest, SVM)
លឿន ស៊ីធនធានតិច និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការរកឃើញការគំរាមកំហែងលើទិន្នន័យមានរចនាសម្ព័ន្ធ (ឧ. ការវាយប្រហារបណ្តាញ)។ ពិបាកក្នុងការចាប់យកលំនាំស្មុគស្មាញពីទិន្នន័យគ្មានរចនាសម្ព័ន្ធ និងងាយរងគ្រោះដោយការវាយប្រហារបន្លំ (Adversarial attacks)។ សម្រេចបានភាពត្រឹមត្រូវ (Accuracy) រហូតដល់ជាង ៩៥% លើសំណុំទិន្នន័យស្រាវជ្រាវសន្តិសុខដូចជា CICIDS2017 ក៏ដូចជាកាត់បន្ថយការវាយប្រហារបានជោគជ័យរហូតដល់ ៣០%។
Deep Learning & Transformers (CNN, RNN, LLMs)
ការរៀនស៊ីជម្រៅ និងម៉ូដែលភាសាខ្នាតធំ (CNN, Transformers)
មានសមត្ថភាពខ្ពស់បំផុតក្នុងការវិភាគទិន្នន័យស្មុគស្មាញ ស្វ័យប្រវត្តិកម្មផ្នែកទន់ និងការយល់ដឹងភាសាធម្មជាតិ (NLP) ព្រមទាំងផ្តល់លទ្ធផលបកប្រែយ៉ាងល្អប្រសើរ។ ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ខ្លាំង ស៊ីភ្លើងខ្លាំង ត្រូវការទិន្នន័យច្រើនសន្ធឹកសន្ធាប់ និងខ្វះតម្លាភាព (បញ្ហា Black-box)។ សម្រេចបានលទ្ធផលអស្ចារ្យលើ NLP និងកាត់បន្ថយពេលវេលាអភិវឌ្ឍន៍កម្មវិធី (២0-៣៨%) តែស៊ីធនធានហួសហេតុក្នុងអំឡុងពេលបណ្តុះបណ្តាល (Training)។
Federated Learning (FL)
ការរៀនតាមបែបសហព័ន្ធ (Federated Learning)
ការពារឯកជនភាពទិន្នន័យបានយ៉ាងល្អ ដោយអនុញ្ញាតឱ្យម៉ូដែលរៀនពីឧបករណ៍ច្រើនដោយមិនបាច់បញ្ជូនទិន្នន័យផ្ទៃក្នុងទៅកន្លែងកណ្តាល។ មានបញ្ហាប្រឈមលើការចំណាយផ្នែកទំនាក់ទំនង (Communication overhead) រវាងឧបករណ៍ និងទាមទារការគ្រប់គ្រងស្មុគស្មាញលើបណ្តាញអ៊ិនធឺណិត។ បង្កើនសុវត្ថិភាពទិន្នន័យនិងសហប្រតិបត្តិការក្នុងវិស័យសុខាភិបាលនិង IoT ដោយមិនចែករំលែកទិន្នន័យរសើបរបស់អ្នកជំងឺ ឬអ្នកប្រើប្រាស់ឡើយ។
Explainable AI (XAI)
បញ្ញាសិប្បនិម្មិតដែលអាចបកស្រាយបាន (XAI - ឧ. SHAP, LIME)
បង្កើនទំនុកចិត្ត តម្លាភាព និងជួយអ្នកវិភាគសន្តិសុខឱ្យយល់ច្បាស់ពីមូលហេតុនៃការសម្រេចចិត្តរបស់ AI ជាពិសេសពេលជួបការវាយប្រហារស្មុគស្មាញ។ អាចបន្ថែមបន្ទុកនៃការគណនា និងភាពស្មុគស្មាញដល់ប្រព័ន្ធដំណើរការ ហើយជួនកាលកាត់បន្ថយល្បឿននៃការឆ្លើយតប។ បង្កើនតម្លាភាពនិងគណនេយ្យភាពនៃម៉ូដែលទប់ស្កាត់ការវាយប្រហារ (Intrusion Detection) កាត់បន្ថយការជូនដំណឹងខុស (False Positives) និងភាពលម្អៀង។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានគូសបញ្ជាក់យ៉ាងច្បាស់ថា ការបណ្តុះបណ្តាលម៉ូដែល AI ខ្នាតធំ (ដូចជា LLMs និង Deep Learning) ទាមទារថាមពលកុំព្យូទ័រ និងចរន្តអគ្គិសនីយ៉ាងច្រើនសន្ធឹកសន្ធាប់ ដែលបង្កជាក្តីបារម្ភផ្នែកនិរន្តរភាពបរិស្ថាននិងការចំណាយពិតប្រាកដ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកយ៉ាងខ្លាំងលើសំណុំទិន្នន័យអន្តរជាតិ (ឧទាហរណ៍ NSL-KDD, CICIDS2017) និងអត្ថបទភាសាបរទេស ដែលភាគច្រើនប្រមូលបានពីប្រទេសអភិវឌ្ឍន៍។ ការខ្វះខាតទិន្នន័យក្នុងស្រុក (ដូចជាអត្ថបទភាសាខ្មែរ សម្រាប់ NLP ឬទិន្នន័យប្រព័ន្ធបណ្តាញជាក់លាក់នៅកម្ពុជា) អាចបណ្តាលឱ្យ AI មានភាពលម្អៀង និងដំណើរការមិនសូវបានល្អប្រសិនបើខ្វះការកែសម្រួលបន្ថែម។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាកម្ពុជាមានកម្រិតធនធាន 컴퓨ទ័រ (Computing resources) នៅមានកម្រិតក៏ដោយ ក៏វិធីសាស្ត្រទំនើបៗមួយចំនួននៅក្នុងឯកសារនេះពិតជាមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តជាក់ស្តែងនៅកម្ពុជា។

សរុបមក ការជ្រើសរើសប្រើប្រាស់បច្ចេកវិទ្យា AI ខ្នាតតូច (Edge AI) វិធីសាស្ត្រការពារឯកជនភាព និងបច្ចេកទេស Transfer Learning នឹងជួយកម្ពុជាចាប់យកអត្ថប្រយោជន៍ពី AI ប្រកបដោយសុវត្ថិភាព ទោះស្ថិតក្នុងបរិបទខ្វះខាតធនធានក៏ដោយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. កសាងចំណេះដឹងមូលដ្ឋានផ្នែក Machine Learning និងសុវត្ថិភាពសាយប័រ: ចាប់ផ្តើមសិក្សាពីទ្រឹស្តី និងការសរសេរកូដមូលដ្ឋានដោយប្រើប្រាស់ភាសា Python និងបណ្ណាល័យ Scikit-Learn រួមទាំងស្វែងយល់ពីគោលការណ៍គ្រឹះនៃ Cybersecurity ដើម្បីស្គាល់ពីទម្រង់នៃការវាយប្រហារទូទៅ។
  2. អនុវត្តជាមួយទិន្នន័យសន្តិសុខជាក់ស្តែង (Open Datasets): ទាញយកសំណុំទិន្នន័យស្រាវជ្រាវបែបអន្តរជាតិដូចជា CICIDS2017NSL-KDD មកសាកល្បងបង្កើតម៉ូដែល Random ForestCNN ដើម្បីរៀនពីរបៀបចាប់យកលំនាំចរាចរណ៍បណ្តាញ (Network Traffic) និងការរកឃើញមេរោគ។
  3. សិក្សាឧបករណ៍ Explainable AI (XAI) ដើម្បីបង្កើនតម្លាភាព: សិក្សាប្រើប្រាស់ឧបករណ៍បកស្រាយម៉ូដែលដូចជា SHAPLIME ដើម្បីបកស្រាយលទ្ធផលនៃការទស្សន៍ទាយរបស់ AI។ នេះគឺជាជំនាញចាំបាច់ណាស់សម្រាប់យកទៅបម្រើការងារក្នុងវិស័យតម្រូវការច្បាប់តឹងរ៉ឹង ដូចជាធនាគារ និងសុខាភិបាល។
  4. ស្រាវជ្រាវលើបច្ចេកទេស Transfer Learning សម្រាប់ភាសាខ្មែរ: អនុវត្តគម្រោងស្រាវជ្រាវ NLP ដោយយកម៉ូដែលកូដបើកចំហរដូចជា mBERT មកធ្វើ Fine-tuning ជាមួយនឹងអត្ថបទភាសាខ្មែរ ដើម្បីបង្កើតប្រព័ន្ធស្វែងរកទិន្នន័យ (Information Retrieval) ឬការវិភាគមតិ (Sentiment Analysis)។
  5. អភិវឌ្ឍគម្រោង Edge AI សម្រាប់កសិកម្មឆ្លាតវៃ ឬ Smart City: សាកល្បងបង្ហាត់ម៉ូដែល AI ខ្នាតតូច (Lightweight models) ហើយដាក់ដំណើរការវាលើឧបករណ៍ខ្នាតតូចដូចជា Raspberry Pi ដើម្បីដោះស្រាយបញ្ហាក្នុងស្រុកជាក់ស្តែង ដូចជាការតាមដានចរាចរណ៍រថយន្ត ឬត្រួតពិនិត្យប្រព័ន្ធធារាសាស្ត្រកសិកម្មប្រកបដោយប្រសិទ្ធភាពខ្ពស់។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Explainable AI (XAI) វាជាបច្ចេកទេសឬវិធីសាស្ត្រនៅក្នុងបញ្ញាសិប្បនិម្មិតដែលជួយបកស្រាយប្រាប់មនុស្សឱ្យយល់ច្បាស់ពីមូលហេតុ និងដំណើរការដែលម៉ូដែល AI ធ្វើការសម្រេចចិត្ត ឬទស្សន៍ទាយលទ្ធផលណាមួយ ដើម្បីដោះស្រាយបញ្ហាប្រអប់ខ្មៅ (Black-box) ដែលមានភាពស្រពិចស្រពិល។ ដូចជាសិស្សដែលមិនត្រឹមតែអាចឆ្លើយសំនួរគណិតវិទ្យាបានត្រឹមត្រូវប៉ុណ្ណោះទេ ថែមទាំងអាចបង្ហាញពីរបៀបគណនាវគ្គនីមួយៗប្រាប់គ្រូទៀតផង។
Federated Learning ជាវិធីសាស្ត្របង្ហាត់ម៉ូដែល AI តាមបែបវិមជ្ឈការ ដោយមិនចាំបាច់ប្រមូលទិន្នន័យពីឧបករណ៍អ្នកប្រើប្រាស់មកផ្ទុកនៅកន្លែងកណ្តាលឡើយ។ ឧបករណ៍នីមួយៗរៀនពីទិន្នន័យផ្ទាល់ខ្លួន រួចបញ្ជូនតែចំណេះដឹង (Model updates) ទៅកាន់ម៉ាស៊ីនមេប៉ុណ្ណោះ ដែលជួយការពារឯកជនភាពយ៉ាងមានប្រសិទ្ធភាព។ ដូចជាសិស្សរៀនមេរៀនរៀងៗខ្លួននៅផ្ទះ ហើយយកតែសេចក្តីសង្ខេបមេរៀនមកចែករំលែកគ្នានៅសាលា ដោយមិនចាំបាច់ប្រាប់រឿងផ្ទាល់ខ្លួនរបស់ពួកគេឡើយ។
Adversarial attacks ជាការវាយប្រហារទៅលើប្រព័ន្ធ AI តាមរយៈការកែច្នៃទិន្នន័យបញ្ចូល (Input) បន្តិចបន្តួចដែលភ្នែកមនុស្សមើលមិនដឹង ប៉ុន្តែធ្វើឱ្យម៉ូដែល AI យល់ច្រឡំ និងសម្រេចចិត្តខុសស្រឡះ (ឧទាហរណ៍ ធ្វើឱ្យ AI មើលឃើញសញ្ញាឈប់ ទៅជាសញ្ញាអនុញ្ញាតឱ្យទៅមុខ)។ ដូចជាការបន្លំពាក់វ៉ែនតានិងពុកមាត់ក្លែងក្លាយ ដើម្បីបោកបញ្ឆោតកាមេរ៉ាសុវត្ថិភាពកុំឱ្យចំណាំមុខយើងបាន។
Differential Privacy គឺជាបច្ចេកទេសគណិតវិទ្យាក្នុងការការពារទិន្នន័យ ដោយបន្ថែមទិន្នន័យរំខាន (Noise) ចូលទៅក្នុងសំណុំទិន្នន័យដើម ដើម្បីកុំឱ្យគេអាចទាញយក ឬសម្គាល់អត្តសញ្ញាណបុគ្គលណាម្នាក់បាន ប៉ុន្តែនៅតែរក្សាបាននូវលក្ខណៈទូទៅនៃទិន្នន័យសម្រាប់ឱ្យ AI អាចរៀនសូត្របាន។ ដូចជាការលាយគ្រាប់សណ្តែកខូចមួយក្តាប់ចូលទៅក្នុងបាវសណ្តែកល្អ ដើម្បីកុំឱ្យគេដឹងថាគ្រាប់សណ្តែកល្អមួយណាជារបស់អ្នកណា តែគេនៅតែដឹងថាវាជាបាវសណ្តែក។
Zero-day threat ជាប្រភេទនៃការវាយប្រហារតាមប្រព័ន្ធសាយប័រ ឬប្រហោងសុវត្ថិភាពថ្មីស្រឡាងដែលមិនធ្លាប់មាននរណាស្គាល់ពីមុនមក ហើយអ្នកបង្កើតកម្មវិធីមិនទាន់មានពេល (សូន្យថ្ងៃ) ក្នុងការបង្កើតកូដការពារ (Patch) ដើម្បីទប់ទល់នៅឡើយ។ ដូចជាជំងឺឆ្លងប្រភេទថ្មីមួយដែលទើបតែផ្ទុះឡើង ហើយគ្រូពេទ្យមិនទាន់មានថ្នាំសង្កូវ ឬវ៉ាក់សាំងសម្រាប់ព្យាបាលវានៅឡើយ។
Large Language Models (LLMs) គឺជាប្រភេទម៉ូដែល AI ខ្នាតយក្ស ដែលត្រូវបានបង្ហាត់ដោយប្រើប្រាស់ទិន្នន័យអត្ថបទរាប់ពាន់លានពាក្យ ដើម្បីឱ្យវាមានសមត្ថភាពយល់ដឹង បកប្រែ សង្ខេប និងបង្កើតអត្ថបទភាសាធម្មជាតិបានយ៉ាងរលូនដូចមនុស្ស។ ដូចជាបណ្ណាល័យដ៏ធំមួយដែលមានសៀវភៅគ្រប់ប្រភេទ ហើយមានអ្នកបណ្ណាល័យដ៏ឆ្លាតវៃម្នាក់ដែលអាចអាន យល់ និងសរសេរសៀវភៅថ្មីៗចេញពីចំណេះដឹងទាំងនោះបាន។
False Positives នៅក្នុងប្រព័ន្ធសន្តិសុខសាយប័រ វាគឺជាការផ្តល់សញ្ញាអាសន្នខុស ពោលគឺប្រព័ន្ធ AI ចាត់ទុកសកម្មភាពធម្មតារបស់អ្នកប្រើប្រាស់ ឬកម្មវិធីសុវត្ថិភាព ថាជាការវាយប្រហារ ឬជាមេរោគ ដែលធ្វើឱ្យខាតពេលវេលាអ្នកគ្រប់គ្រងប្រព័ន្ធក្នុងការផ្ទៀងផ្ទាត់។ ដូចជាសំឡេងរោទិ៍ប្រឆាំងចោរលួចឡានស្រែកឡើងឡូឡា នៅពេលដែលមានត្រឹមតែសត្វឆ្មាលោតកាត់ពីលើឡាន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖