Original Title: DEVELOPING SCALABLE DATA PIPELINES FOR REAL-TIME ANOMALY DETECTION IN INDUSTRIAL IOT SENSOR NETWORKS
Source: ijetrm.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការអភិវឌ្ឍបណ្តាញទិន្នន័យដែលអាចពង្រីកបានសម្រាប់ការរកឃើញភាពមិនប្រក្រតីក្នុងពេលវេលាជាក់ស្តែងនៅក្នុងបណ្តាញសេនស័រ IOT ឧស្សាហកម្ម

ចំណងជើងដើម៖ DEVELOPING SCALABLE DATA PIPELINES FOR REAL-TIME ANOMALY DETECTION IN INDUSTRIAL IOT SENSOR NETWORKS

អ្នកនិពន្ធ៖ Jamiu Olamilekan Akande (Birmingham City University, UK), Joseph Chukwunweike (University of South Wales, UK)

ឆ្នាំបោះពុម្ព៖ 2023 International Journal of Engineering Technology Research & Management

វិស័យសិក្សា៖ Industrial IoT and Data Engineering

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ កំណើនយ៉ាងឆាប់រហ័សនៃទិន្នន័យពីអ៊ិនធឺណិតនៃវត្ថុឧស្សាហកម្ម (IIoT) ទាមទារឱ្យមានដំណើរការទិន្នន័យក្នុងពេលវេលាជាក់ស្តែង ដើម្បីធានាបាននូវនិរន្តរភាពប្រតិបត្តិការ ខណៈដែលប្រព័ន្ធដំណើរការជាបាច់ (Batch processing) និងប្រព័ន្ធ SCADA ចាស់ៗមិនមានសមត្ថភាពគ្រប់គ្រាន់ក្នុងការចាប់យកភាពមិនប្រក្រតីដែលវិវឌ្ឍលឿននោះទេ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវក្របខ័ណ្ឌបណ្តាញទិន្នន័យជាម៉ូឌុល (Modular pipeline framework) ដោយរួមបញ្ចូលនូវដំណើរការទិន្នន័យនៅគែម (Edge processing) ឧបករណ៍ស្រូបទាញទិន្នន័យ និងម៉ាស៊ីនវិភាគទិន្នន័យក្នុងពេលវេលាជាក់ស្តែង រួមជាមួយក្បួនដោះស្រាយការរកឃើញភាពមិនប្រក្រតីផ្សេងៗ។

ដំណើរការទិន្នន័យនៅគែម និងការស្រូបទាញតាមរយៈពិធីការ (Edge Processing and Ingestion via MQTT/Kafka)
ការវិភាគទិន្នន័យតាមលំហូរ (Stream Processing using Apache Flink and Spark)
ការប្រើប្រាស់ម៉ូដែលរៀនដោយម៉ាស៊ីន និងការរៀនស៊ីជម្រៅ (Machine Learning and Deep Learning Models e.g., Autoencoders, LSTM)
យន្តការផ្តល់ការព្រមាន និងផ្ទាំងគ្រប់គ្រងប្រតិបត្តិការ (Alerting Mechanisms and Operational Dashboards)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

បណ្តាញទិន្នន័យដែលបានស្នើឡើងសម្រេចបាននូវភាពយឺតយ៉ាវក្នុងការរកឃើញត្រឹមតែ ១១២ មីលីវិនាទី (112 ms latency) ដែលលឿនជាងការឆ្លើយតបជាមធ្យម ៣ វិនាទីរបស់ប្រព័ន្ធ SCADA ចាស់ៗ។
ប្រព័ន្ធនេះរក្សាបាននូវសមត្ថភាពដំណើរការទិន្នន័យកម្រិតខ្ពស់ (High throughput) ដោយអាចដំណើរការរហូតដល់ ១៣,០០០ ព្រឹត្តិការណ៍ក្នុងមួយវិនាទី (13,000 events/second) ដោយគ្មានបញ្ហាកកស្ទះអំឡុងពេលមានបន្ទុកទិន្នន័យខ្ពស់។
ការអនុវត្តនៅក្នុងរោងចក្រផលិតឆ្លាតវៃ (Smart manufacturing plant) បាននាំឱ្យមានការកាត់បន្ថយពេលវេលាផ្អាកដំណើរការដែលមិនបានគ្រោងទុកចំនួន ២៥% (25% reduction in unplanned downtime) និងបង្កើនប្រសិទ្ធភាពការងារថែទាំចំនួន ៤១%។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Legacy SCADA System ប្រព័ន្ធ SCADA ចាស់ៗផ្អែកលើច្បាប់កំណត់ជាមុន	មានភាពសាមញ្ញក្នុងការប្រើប្រាស់ និងស័ក្តិសមបំផុតសម្រាប់ការគ្រប់គ្រងបែបកំណត់ (Deterministic control) នៅក្នុងរោងចក្រ។	មានភាពយឺតយ៉ាវខ្ពស់ក្នុងការឆ្លើយតប និងងាយផ្តល់ការជូនដំណឹងខុស (False Positives) ដោយសារមិនអាចសម្របតាមការផ្លាស់ប្តូរបរិស្ថានបាន។	រយៈពេលរង់ចាំជាមធ្យម ៣,០០០ មីលីវិនាទី និងអាចដំណើរការព្រឹត្តិការណ៍បានត្រឹមតែ ២,៥០០ ក្នុងមួយវិនាទី។
Real-Time IIoT Pipeline (Proposed) បណ្តាញទិន្នន័យ IIoT ក្នុងពេលវេលាជាក់ស្តែង (ស្នើឡើង)	មានល្បឿនលឿនខ្លាំង អាចដំណើរការទិន្នន័យធំៗបានល្អ និងអាចកាត់បន្ថយការជូនដំណឹងខុសតាមរយៈការវិភាគបរិបទ និងកាត់បន្ថយពេលវេលាផ្អាកដំណើរការម៉ាស៊ីន។	ទាមទារការរៀបចំហេដ្ឋារចនាសម្ព័ន្ធស្មុគស្មាញ និងទាមទារអ្នកជំនាញដែលមានបទពិសោធន៍ខ្ពស់ក្នុងការគ្រប់គ្រងប្រព័ន្ធចែកចាយ (Distributed Systems)។	រយៈពេលរង់ចាំត្រឹមតែ ១១២ មីលីវិនាទី អាចដំណើរការបាន ១៣,០០០ ព្រឹត្តិការណ៍/វិនាទី និងកាត់បន្ថយការផ្អាកដំណើរការម៉ាស៊ីនមកត្រឹម ២.៦ ម៉ោង/ខែ។
Deep Learning Models (LSTM, Autoencoder) ម៉ូដែលរៀនស៊ីជម្រៅ (LSTM និង Autoencoder)	មានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកភាពមិនប្រក្រតីដែលស្មុគស្មាញ និងទិន្នន័យដែលមានលក្ខណៈមិនមែនលីនេអ៊ែរ (Non-linear) ពីសេនស័រជាច្រើនបញ្ចូលគ្នា។	ត្រូវការទិន្នន័យច្រើន និងថាមពលកុំព្យូទ័រខ្ពស់ក្នុងការបង្វឹកម៉ូដែល ដែលធ្វើឱ្យពិបាកក្នុងការដាក់ពង្រាយលើឧបករណ៍ខ្នាតតូច (Edge devices) បើគ្មានការបង្រួមទំហំ។	ផ្តល់នូវភាពសុក្រឹតខ្ពស់ (Accuracy: Very High) សម្រាប់ការវិភាគទិន្នន័យ Time-Series ដែលមានភាពស្មុគស្មាញ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការដាក់ពង្រាយប្រព័ន្ធនេះទាមទារការវិនិយោគគួរឱ្យកត់សម្គាល់លើហេដ្ឋារចនាសម្ព័ន្ធបណ្តាញ ឧបករណ៍ Edge Computing និងអ្នកជំនាញប្រព័ន្ធទិន្នន័យ។

Hardware: ត្រូវការឧបករណ៍ Edge ដូចជា Raspberry Pi, NVIDIA Jetson, ឬ ARM Cortex-M សម្រាប់ការវិភាគទិន្នន័យបឋម។
Software: ប្រើប្រាស់ឧបករណ៍ប្រភពបើកចំហ (Open-source) ដូចជា Apache Kafka, Apache Flink, MQTT Brokers ព្រមទាំងមូលដ្ឋានទិន្នន័យ Time-Series ដូចជា InfluxDB។
Expertise: ទាមទារអ្នកជំនាញ Data Engineering និងវិស្វករ Machine Learning ដែលចេះធ្វើការជាមួយ Distributed Systems និង Kubernetes។
Dataset: ត្រូវការទិន្នន័យ Time-Series ប្រេកង់ខ្ពស់ពីរោងចក្រផ្ទាល់ ដើម្បីយកមកបង្វឹកម៉ូដែលឱ្យស្គាល់ពីស្ថានភាពដំណើរការធម្មតា និងភាពមិនប្រក្រតី។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះផ្អែកលើការក្លែងធ្វើទិន្នន័យចេញពីរោងចក្រផលិតឧបករណ៍ឆ្លាតវៃខ្នាតមធ្យម ដែលមានសេនស័រជាង ២០០ ។ បរិបទនៃការសិក្សានេះឆ្លុះបញ្ចាំងពីបរិស្ថានឧស្សាហកម្មកម្រិតខ្ពស់ (Industry 4.0) ដែលអាចមានភាពខុសគ្នាពីស្ថានភាពជាក់ស្តែងនៅកម្ពុជា ដែលរោងចក្រភាគច្រើននៅពឹងផ្អែកលើបច្ចេកវិទ្យាចាស់ៗ និងមិនទាន់មានទិន្នន័យឌីជីថលគ្រប់គ្រាន់នៅឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះជាយ៉ាងណាក្តី បច្ចេកវិទ្យានេះមានសក្តានុពលខ្លាំងក្នុងការជួយទំនើបកម្មវិស័យឧស្សាហកម្មស្នូលរបស់កម្ពុជា ដើម្បីបង្កើនផលិតភាព និងកាត់បន្ថយថ្លៃដើម។

វិស័យកាត់ដេរ និងផលិតស្បែកជើង: អាចប្រើប្រាស់បណ្តាញ IIoT ដើម្បីតាមដានរំញ័រ និងសីតុណ្ហភាពរបស់ម៉ាស៊ីនដេរ ឬម៉ាស៊ីនកាត់ ដើម្បីទស្សន៍ទាយការខូចខាតទុកជាមុន ជៀសវាងការរាំងស្ទះខ្សែសង្វាក់ផលិតកម្ម។
ការគ្រប់គ្រងថាមពល (ឧ. អគ្គិសនីកម្ពុជា EDC): អាចបំពាក់សេនស័រនៅតាមស្ថានីយចែកចាយអគ្គិសនី ដើម្បីវិភាគទិន្នន័យតង់ស្យុងលំហូរ និងផ្តល់ការព្រមានមុនពេលមានការដាច់ចរន្តអគ្គិសនី។
រោងចក្រកែច្នៃកសិផល: តាមដានសីតុណ្ហភាព និងសំណើមក្នុងឃ្លាំងស្តុកទុកក្នុងពេលវេលាជាក់ស្តែង ដើម្បីការពារការខូចគុណភាពផលិតផលកសិកម្មដោយប្រើឧបករណ៍ Edge ស៊ីភ្លើងតិច។

បើទោះបីជាការចាប់ផ្តើមដំបូងទាមទារការចំណាយខ្ពស់លើការរៀបចំហេដ្ឋារចនាសម្ព័ន្ធ ក៏ប៉ុន្តែក្នុងរយៈពេលវែង វាអាចជួយក្រុមហ៊ុនក្នុងស្រុកកាត់បន្ថយការខាតបង់ពីការខូចម៉ាស៊ីន និងពន្លឿនការផ្លាស់ប្តូរទៅកាន់ឧស្សាហកម្ម ៤.០ ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

រៀនពីពិធីការបញ្ជូនទិន្នន័យ IoT: និស្សិតគួរសិក្សាពីរបៀបដំឡើង និងប្រើប្រាស់ MQTT broker (ឧទាហរណ៍ Mosquitto) សម្រាប់ការបញ្ជូនទិន្នន័យពីសេនស័រខ្នាតតូច ព្រោះវាមានទំហំស្រាល និងស័ក្តិសមសម្រាប់បណ្តាញអ៊ីនធឺណិតខ្សោយ។
អនុវត្តការសរសេរកូដរៀបចំលំហូរទិន្នន័យ (Stream Processing): ចាប់ផ្តើមអនុវត្តការបញ្ជូនទិន្នន័យជាមួយ Apache Kafka និងធ្វើការវិភាគទិន្នន័យបែប Real-time ដោយសរសេរកូដដោយប្រើប្រាស់ Apache Flink ឬ Spark Streaming។
អភិវឌ្ឍម៉ូដែល Machine Learning សម្រាប់ទិន្នន័យ Time-Series: ប្រើប្រាស់ Python ជាមួយ TensorFlow ឬ PyTorch ដើម្បីសាកល្បងបង្កើតម៉ូដែល Autoencoder ឬ Isolation Forest ដោយប្រើទិន្នន័យទាញយកពីវិបផតថលបើកចំហ (Open datasets)។
សាកល្បងដាក់ពង្រាយម៉ូដែលនៅគែម (Edge Computing): រៀនពីរបៀបបង្រួមទំហំម៉ូដែល (Quantization) ទៅជាទម្រង់ TensorFlow Lite ហើយដាក់ឱ្យដំណើរការលើ Raspberry Pi ដើម្បីសាកល្បងល្បឿនឆ្លើយតបជាក់ស្តែងដោយមិនបាច់ពឹងផ្អែកលើ Cloud ទាំងស្រុង។
រៀបចំប្រព័ន្ធគ្រប់គ្រង និងផ្តល់ការព្រមាន (Dashboarding): តភ្ជាប់ទិន្នន័យដែលដំណើរការរួចទៅកាន់ឃ្លាំងទិន្នន័យ InfluxDB និងរៀបចំផ្ទាំងបង្ហាញលទ្ធផលផ្ទាល់នៅលើ Grafana ដើម្បីតាមដានសកម្មភាពម៉ាស៊ីន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Edge Computing	ដំណើរការនៃការវិភាគទិន្នន័យនៅក្បែរប្រភពបង្កើតទិន្នន័យ (ដូចជាសេនស័រភ្ជាប់លើម៉ាស៊ីន) ជាជាងការបញ្ជូនទិន្នន័យទាំងអស់ទៅកាន់ប្រព័ន្ធ Cloud ដែលជួយកាត់បន្ថយភាពយឺតយ៉ាវ (Latency) និងសន្សំសំចៃកម្រិតបញ្ជូនបណ្តាញអ៊ីនធឺណិត។	ដូចជាការសម្រេចចិត្តដោយមេភូមិផ្ទាល់នៅមូលដ្ឋាន ដោយមិនចាំបាច់រង់ចាំការបញ្ជាពីថ្នាក់ខេត្ត ដើម្បីដោះស្រាយបញ្ហាបន្ទាន់បានភ្លាមៗ។
Stream Processing	បច្ចេកវិទ្យាក្នុងការទទួល និងវិភាគទិន្នន័យជាបន្តបន្ទាប់ឥតឈប់ឈរនៅពេលដែលទិន្នន័យនោះត្រូវបានបង្កើតឡើងភ្លាមៗ ដោយមិនចាំបាច់រង់ចាំប្រមូលទិន្នន័យទុកជាដុំ (Batch) សិននោះទេ។	ដូចជាការផឹកទឹកដែលកំពុងហូរចេញពីក្បាលរ៉ូមីណេភ្លាមៗ ជាជាងការរង់ចាំត្រងទឹកឱ្យពេញធុងទើបយកមកផឹក។
Data Pipeline	ប្រព័ន្ធស្វ័យប្រវត្តិដែលតភ្ជាប់ដំណាក់កាលផ្សេងៗគ្នានៃទិន្នន័យ ចាប់ពីការទាញយកពីសេនស័រ ការសម្អាត ការវិភាគ និងការបញ្ជូនទៅកាន់គោលដៅ ដើម្បីឱ្យលំហូរទិន្នន័យមានភាពរលូន និងអាចទុកចិត្តបាន។	ដូចជាប្រព័ន្ធទុយោរោងចក្រទឹកស្អាត ដែលបូមទឹកពីទន្លេ ឆ្លងកាត់ម៉ាស៊ីនចម្រោះជាច្រើនតំណាក់កាល រហូតក្លាយជាទឹកស្អាតចូលដល់ផ្ទះអ្នកប្រើប្រាស់។
Federated Learning	វិធីសាស្ត្របង្វឹកម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដោយឱ្យឧបករណ៍នីមួយៗរៀនពីទិន្នន័យផ្ទាល់ខ្លួន ហើយបញ្ជូនតែ "ចំណេះដឹង" ដែលរៀនបាន (Model parameters) ទៅម៉ាស៊ីនកណ្តាល ដោយមិនបញ្ជូនទិន្នន័យដើមឡើយ ដើម្បីការពារឯកជនភាព។	ដូចជាសិស្សរៀនមេរៀនរៀងៗខ្លួននៅផ្ទះ ហើយយកតែលទ្ធផលនៃការយល់ដឹងមកប្រាប់គ្រូ ដោយមិនចាំបាច់យកសៀវភៅសរសេរព្រាងរបស់ខ្លួនមកបង្ហាញគ្រូឡើយ។
Digital Twin	ការបង្កើតច្បាប់ចម្លងឌីជីថល (Virtual representation) នៃម៉ាស៊ីន ឬប្រព័ន្ធរូបវន្តពិតៗនៅក្នុងកុំព្យូទ័រ ដែលធ្វើបច្ចុប្បន្នភាពទិន្នន័យជានិច្ច ដើម្បីតាមដាន ក្លែងធ្វើការសាកល្បង និងបង្កើនប្រសិទ្ធភាពដោយមិនប៉ះពាល់ដល់ម៉ាស៊ីនពិត។	ដូចជាការលេងហ្គេមបើកបរយន្តហោះ (Flight Simulator) ដែលមានប៊ូតុង និងស្ថានភាពអាកាសធាតុដូចយន្តហោះពិតៗ ដើម្បីហ្វឹកហាត់មុនពេលហោះហើរពិត។
Time-Series Database (TSDB)	មូលដ្ឋានទិន្នន័យប្រភេទពិសេសដែលត្រូវបានរចនាឡើងសម្រាប់រក្សាទុក និងទាញយកទិន្នន័យដែលមានភ្ជាប់ជាមួយពេលវេលាច្បាស់លាស់ជាលំដាប់លំដោយ (Time-stamps) ឧទាហរណ៍ទិន្នន័យសីតុណ្ហភាពដែលកត់ត្រារៀងរាល់មួយវិនាទីម្តង។	ដូចជាសៀវភៅកំណត់ហេតុប្រចាំថ្ងៃ ដែលរាល់ការកត់ត្រាទាំងអស់ត្រូវតែសរសេរភ្ជាប់ជាមួយម៉ោងនិងថ្ងៃខែជានិច្ច ដើម្បីងាយស្រួលរកមើលថយក្រោយតាមពេលវេលា។
Anomaly Detection	ដំណើរការប្រើប្រាស់ក្បួនដោះស្រាយដើម្បីស្វែងរកទិន្នន័យ ឬសកម្មភាពណាដែលខុសប្រក្រតីពីទម្លាប់ធម្មតា ដែលការផ្លាស់ប្តូរទាំងនោះអាចជាសញ្ញាបញ្ជាក់ពីការខូចខាតម៉ាស៊ីន ឬការវាយប្រហារតាមប្រព័ន្ធអ៊ីនធឺណិត។	ដូចជាឆ្កែយាមផ្ទះដែលព្រុសតែពេលមានមនុស្សចម្លែកលួចចូលមក ប៉ុន្តែវាមិនព្រុសពេលឃើញម្ចាស់ផ្ទះដើរចូលធម្មតានោះទេ។
MQTT	ពិធីការបណ្តាញទំហំតូចនិងស្រាលបំផុត ដែលប្រើសម្រាប់បញ្ជូនសារ ឬទិន្នន័យរវាងឧបករណ៍កុំព្យូទ័រតូចៗ និងសេនស័រ (IoT) ជាពិសេសក្នុងស្ថានភាពដែលអ៊ីនធឺណិតដើរយឺត ឬមិនមានស្ថេរភាព។	ដូចជាការផ្ញើសារ SMS ខ្លីៗកាត់តាមទូរស័ព្ទចុចពិល ដែលនៅតែអាចផ្ញើចេញបាននិងប្រើទិន្នន័យតិចបំផុត ទោះបីជាសេវាទូរស័ព្ទខ្សោយខ្លាំងក៏ដោយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖