Original Title: DEVELOPING SCALABLE DATA PIPELINES FOR REAL-TIME ANOMALY DETECTION IN INDUSTRIAL IOT SENSOR NETWORKS
Source: ijetrm.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការអភិវឌ្ឍបណ្តាញទិន្នន័យដែលអាចពង្រីកបានសម្រាប់ការរកឃើញភាពមិនប្រក្រតីក្នុងពេលវេលាជាក់ស្តែងនៅក្នុងបណ្តាញសេនស័រ IOT ឧស្សាហកម្ម

ចំណងជើងដើម៖ DEVELOPING SCALABLE DATA PIPELINES FOR REAL-TIME ANOMALY DETECTION IN INDUSTRIAL IOT SENSOR NETWORKS

អ្នកនិពន្ធ៖ Jamiu Olamilekan Akande (Birmingham City University, UK), Joseph Chukwunweike (University of South Wales, UK)

ឆ្នាំបោះពុម្ព៖ 2023 International Journal of Engineering Technology Research & Management

វិស័យសិក្សា៖ Industrial IoT and Data Engineering

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ កំណើនយ៉ាងឆាប់រហ័សនៃទិន្នន័យពីអ៊ិនធឺណិតនៃវត្ថុឧស្សាហកម្ម (IIoT) ទាមទារឱ្យមានដំណើរការទិន្នន័យក្នុងពេលវេលាជាក់ស្តែង ដើម្បីធានាបាននូវនិរន្តរភាពប្រតិបត្តិការ ខណៈដែលប្រព័ន្ធដំណើរការជាបាច់ (Batch processing) និងប្រព័ន្ធ SCADA ចាស់ៗមិនមានសមត្ថភាពគ្រប់គ្រាន់ក្នុងការចាប់យកភាពមិនប្រក្រតីដែលវិវឌ្ឍលឿននោះទេ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវក្របខ័ណ្ឌបណ្តាញទិន្នន័យជាម៉ូឌុល (Modular pipeline framework) ដោយរួមបញ្ចូលនូវដំណើរការទិន្នន័យនៅគែម (Edge processing) ឧបករណ៍ស្រូបទាញទិន្នន័យ និងម៉ាស៊ីនវិភាគទិន្នន័យក្នុងពេលវេលាជាក់ស្តែង រួមជាមួយក្បួនដោះស្រាយការរកឃើញភាពមិនប្រក្រតីផ្សេងៗ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Legacy SCADA System
ប្រព័ន្ធ SCADA ចាស់ៗផ្អែកលើច្បាប់កំណត់ជាមុន
មានភាពសាមញ្ញក្នុងការប្រើប្រាស់ និងស័ក្តិសមបំផុតសម្រាប់ការគ្រប់គ្រងបែបកំណត់ (Deterministic control) នៅក្នុងរោងចក្រ។ មានភាពយឺតយ៉ាវខ្ពស់ក្នុងការឆ្លើយតប និងងាយផ្តល់ការជូនដំណឹងខុស (False Positives) ដោយសារមិនអាចសម្របតាមការផ្លាស់ប្តូរបរិស្ថានបាន។ រយៈពេលរង់ចាំជាមធ្យម ៣,០០០ មីលីវិនាទី និងអាចដំណើរការព្រឹត្តិការណ៍បានត្រឹមតែ ២,៥០០ ក្នុងមួយវិនាទី។
Real-Time IIoT Pipeline (Proposed)
បណ្តាញទិន្នន័យ IIoT ក្នុងពេលវេលាជាក់ស្តែង (ស្នើឡើង)
មានល្បឿនលឿនខ្លាំង អាចដំណើរការទិន្នន័យធំៗបានល្អ និងអាចកាត់បន្ថយការជូនដំណឹងខុសតាមរយៈការវិភាគបរិបទ និងកាត់បន្ថយពេលវេលាផ្អាកដំណើរការម៉ាស៊ីន។ ទាមទារការរៀបចំហេដ្ឋារចនាសម្ព័ន្ធស្មុគស្មាញ និងទាមទារអ្នកជំនាញដែលមានបទពិសោធន៍ខ្ពស់ក្នុងការគ្រប់គ្រងប្រព័ន្ធចែកចាយ (Distributed Systems)។ រយៈពេលរង់ចាំត្រឹមតែ ១១២ មីលីវិនាទី អាចដំណើរការបាន ១៣,០០០ ព្រឹត្តិការណ៍/វិនាទី និងកាត់បន្ថយការផ្អាកដំណើរការម៉ាស៊ីនមកត្រឹម ២.៦ ម៉ោង/ខែ។
Deep Learning Models (LSTM, Autoencoder)
ម៉ូដែលរៀនស៊ីជម្រៅ (LSTM និង Autoencoder)
មានសមត្ថភាពខ្ពស់ក្នុងការចាប់យកភាពមិនប្រក្រតីដែលស្មុគស្មាញ និងទិន្នន័យដែលមានលក្ខណៈមិនមែនលីនេអ៊ែរ (Non-linear) ពីសេនស័រជាច្រើនបញ្ចូលគ្នា។ ត្រូវការទិន្នន័យច្រើន និងថាមពលកុំព្យូទ័រខ្ពស់ក្នុងការបង្វឹកម៉ូដែល ដែលធ្វើឱ្យពិបាកក្នុងការដាក់ពង្រាយលើឧបករណ៍ខ្នាតតូច (Edge devices) បើគ្មានការបង្រួមទំហំ។ ផ្តល់នូវភាពសុក្រឹតខ្ពស់ (Accuracy: Very High) សម្រាប់ការវិភាគទិន្នន័យ Time-Series ដែលមានភាពស្មុគស្មាញ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការដាក់ពង្រាយប្រព័ន្ធនេះទាមទារការវិនិយោគគួរឱ្យកត់សម្គាល់លើហេដ្ឋារចនាសម្ព័ន្ធបណ្តាញ ឧបករណ៍ Edge Computing និងអ្នកជំនាញប្រព័ន្ធទិន្នន័យ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះផ្អែកលើការក្លែងធ្វើទិន្នន័យចេញពីរោងចក្រផលិតឧបករណ៍ឆ្លាតវៃខ្នាតមធ្យម ដែលមានសេនស័រជាង ២០០ ។ បរិបទនៃការសិក្សានេះឆ្លុះបញ្ចាំងពីបរិស្ថានឧស្សាហកម្មកម្រិតខ្ពស់ (Industry 4.0) ដែលអាចមានភាពខុសគ្នាពីស្ថានភាពជាក់ស្តែងនៅកម្ពុជា ដែលរោងចក្រភាគច្រើននៅពឹងផ្អែកលើបច្ចេកវិទ្យាចាស់ៗ និងមិនទាន់មានទិន្នន័យឌីជីថលគ្រប់គ្រាន់នៅឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះជាយ៉ាងណាក្តី បច្ចេកវិទ្យានេះមានសក្តានុពលខ្លាំងក្នុងការជួយទំនើបកម្មវិស័យឧស្សាហកម្មស្នូលរបស់កម្ពុជា ដើម្បីបង្កើនផលិតភាព និងកាត់បន្ថយថ្លៃដើម។

បើទោះបីជាការចាប់ផ្តើមដំបូងទាមទារការចំណាយខ្ពស់លើការរៀបចំហេដ្ឋារចនាសម្ព័ន្ធ ក៏ប៉ុន្តែក្នុងរយៈពេលវែង វាអាចជួយក្រុមហ៊ុនក្នុងស្រុកកាត់បន្ថយការខាតបង់ពីការខូចម៉ាស៊ីន និងពន្លឿនការផ្លាស់ប្តូរទៅកាន់ឧស្សាហកម្ម ៤.០ ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. រៀនពីពិធីការបញ្ជូនទិន្នន័យ IoT: និស្សិតគួរសិក្សាពីរបៀបដំឡើង និងប្រើប្រាស់ MQTT broker (ឧទាហរណ៍ Mosquitto) សម្រាប់ការបញ្ជូនទិន្នន័យពីសេនស័រខ្នាតតូច ព្រោះវាមានទំហំស្រាល និងស័ក្តិសមសម្រាប់បណ្តាញអ៊ីនធឺណិតខ្សោយ។
  2. អនុវត្តការសរសេរកូដរៀបចំលំហូរទិន្នន័យ (Stream Processing): ចាប់ផ្តើមអនុវត្តការបញ្ជូនទិន្នន័យជាមួយ Apache Kafka និងធ្វើការវិភាគទិន្នន័យបែប Real-time ដោយសរសេរកូដដោយប្រើប្រាស់ Apache FlinkSpark Streaming
  3. អភិវឌ្ឍម៉ូដែល Machine Learning សម្រាប់ទិន្នន័យ Time-Series: ប្រើប្រាស់ Python ជាមួយ TensorFlowPyTorch ដើម្បីសាកល្បងបង្កើតម៉ូដែល AutoencoderIsolation Forest ដោយប្រើទិន្នន័យទាញយកពីវិបផតថលបើកចំហ (Open datasets)។
  4. សាកល្បងដាក់ពង្រាយម៉ូដែលនៅគែម (Edge Computing): រៀនពីរបៀបបង្រួមទំហំម៉ូដែល (Quantization) ទៅជាទម្រង់ TensorFlow Lite ហើយដាក់ឱ្យដំណើរការលើ Raspberry Pi ដើម្បីសាកល្បងល្បឿនឆ្លើយតបជាក់ស្តែងដោយមិនបាច់ពឹងផ្អែកលើ Cloud ទាំងស្រុង។
  5. រៀបចំប្រព័ន្ធគ្រប់គ្រង និងផ្តល់ការព្រមាន (Dashboarding): តភ្ជាប់ទិន្នន័យដែលដំណើរការរួចទៅកាន់ឃ្លាំងទិន្នន័យ InfluxDB និងរៀបចំផ្ទាំងបង្ហាញលទ្ធផលផ្ទាល់នៅលើ Grafana ដើម្បីតាមដានសកម្មភាពម៉ាស៊ីន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Edge Computing ដំណើរការនៃការវិភាគទិន្នន័យនៅក្បែរប្រភពបង្កើតទិន្នន័យ (ដូចជាសេនស័រភ្ជាប់លើម៉ាស៊ីន) ជាជាងការបញ្ជូនទិន្នន័យទាំងអស់ទៅកាន់ប្រព័ន្ធ Cloud ដែលជួយកាត់បន្ថយភាពយឺតយ៉ាវ (Latency) និងសន្សំសំចៃកម្រិតបញ្ជូនបណ្តាញអ៊ីនធឺណិត។ ដូចជាការសម្រេចចិត្តដោយមេភូមិផ្ទាល់នៅមូលដ្ឋាន ដោយមិនចាំបាច់រង់ចាំការបញ្ជាពីថ្នាក់ខេត្ត ដើម្បីដោះស្រាយបញ្ហាបន្ទាន់បានភ្លាមៗ។
Stream Processing បច្ចេកវិទ្យាក្នុងការទទួល និងវិភាគទិន្នន័យជាបន្តបន្ទាប់ឥតឈប់ឈរនៅពេលដែលទិន្នន័យនោះត្រូវបានបង្កើតឡើងភ្លាមៗ ដោយមិនចាំបាច់រង់ចាំប្រមូលទិន្នន័យទុកជាដុំ (Batch) សិននោះទេ។ ដូចជាការផឹកទឹកដែលកំពុងហូរចេញពីក្បាលរ៉ូមីណេភ្លាមៗ ជាជាងការរង់ចាំត្រងទឹកឱ្យពេញធុងទើបយកមកផឹក។
Data Pipeline ប្រព័ន្ធស្វ័យប្រវត្តិដែលតភ្ជាប់ដំណាក់កាលផ្សេងៗគ្នានៃទិន្នន័យ ចាប់ពីការទាញយកពីសេនស័រ ការសម្អាត ការវិភាគ និងការបញ្ជូនទៅកាន់គោលដៅ ដើម្បីឱ្យលំហូរទិន្នន័យមានភាពរលូន និងអាចទុកចិត្តបាន។ ដូចជាប្រព័ន្ធទុយោរោងចក្រទឹកស្អាត ដែលបូមទឹកពីទន្លេ ឆ្លងកាត់ម៉ាស៊ីនចម្រោះជាច្រើនតំណាក់កាល រហូតក្លាយជាទឹកស្អាតចូលដល់ផ្ទះអ្នកប្រើប្រាស់។
Federated Learning វិធីសាស្ត្របង្វឹកម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដោយឱ្យឧបករណ៍នីមួយៗរៀនពីទិន្នន័យផ្ទាល់ខ្លួន ហើយបញ្ជូនតែ "ចំណេះដឹង" ដែលរៀនបាន (Model parameters) ទៅម៉ាស៊ីនកណ្តាល ដោយមិនបញ្ជូនទិន្នន័យដើមឡើយ ដើម្បីការពារឯកជនភាព។ ដូចជាសិស្សរៀនមេរៀនរៀងៗខ្លួននៅផ្ទះ ហើយយកតែលទ្ធផលនៃការយល់ដឹងមកប្រាប់គ្រូ ដោយមិនចាំបាច់យកសៀវភៅសរសេរព្រាងរបស់ខ្លួនមកបង្ហាញគ្រូឡើយ។
Digital Twin ការបង្កើតច្បាប់ចម្លងឌីជីថល (Virtual representation) នៃម៉ាស៊ីន ឬប្រព័ន្ធរូបវន្តពិតៗនៅក្នុងកុំព្យូទ័រ ដែលធ្វើបច្ចុប្បន្នភាពទិន្នន័យជានិច្ច ដើម្បីតាមដាន ក្លែងធ្វើការសាកល្បង និងបង្កើនប្រសិទ្ធភាពដោយមិនប៉ះពាល់ដល់ម៉ាស៊ីនពិត។ ដូចជាការលេងហ្គេមបើកបរយន្តហោះ (Flight Simulator) ដែលមានប៊ូតុង និងស្ថានភាពអាកាសធាតុដូចយន្តហោះពិតៗ ដើម្បីហ្វឹកហាត់មុនពេលហោះហើរពិត។
Time-Series Database (TSDB) មូលដ្ឋានទិន្នន័យប្រភេទពិសេសដែលត្រូវបានរចនាឡើងសម្រាប់រក្សាទុក និងទាញយកទិន្នន័យដែលមានភ្ជាប់ជាមួយពេលវេលាច្បាស់លាស់ជាលំដាប់លំដោយ (Time-stamps) ឧទាហរណ៍ទិន្នន័យសីតុណ្ហភាពដែលកត់ត្រារៀងរាល់មួយវិនាទីម្តង។ ដូចជាសៀវភៅកំណត់ហេតុប្រចាំថ្ងៃ ដែលរាល់ការកត់ត្រាទាំងអស់ត្រូវតែសរសេរភ្ជាប់ជាមួយម៉ោងនិងថ្ងៃខែជានិច្ច ដើម្បីងាយស្រួលរកមើលថយក្រោយតាមពេលវេលា។
Anomaly Detection ដំណើរការប្រើប្រាស់ក្បួនដោះស្រាយដើម្បីស្វែងរកទិន្នន័យ ឬសកម្មភាពណាដែលខុសប្រក្រតីពីទម្លាប់ធម្មតា ដែលការផ្លាស់ប្តូរទាំងនោះអាចជាសញ្ញាបញ្ជាក់ពីការខូចខាតម៉ាស៊ីន ឬការវាយប្រហារតាមប្រព័ន្ធអ៊ីនធឺណិត។ ដូចជាឆ្កែយាមផ្ទះដែលព្រុសតែពេលមានមនុស្សចម្លែកលួចចូលមក ប៉ុន្តែវាមិនព្រុសពេលឃើញម្ចាស់ផ្ទះដើរចូលធម្មតានោះទេ។
MQTT ពិធីការបណ្តាញទំហំតូចនិងស្រាលបំផុត ដែលប្រើសម្រាប់បញ្ជូនសារ ឬទិន្នន័យរវាងឧបករណ៍កុំព្យូទ័រតូចៗ និងសេនស័រ (IoT) ជាពិសេសក្នុងស្ថានភាពដែលអ៊ីនធឺណិតដើរយឺត ឬមិនមានស្ថេរភាព។ ដូចជាការផ្ញើសារ SMS ខ្លីៗកាត់តាមទូរស័ព្ទចុចពិល ដែលនៅតែអាចផ្ញើចេញបាននិងប្រើទិន្នន័យតិចបំផុត ទោះបីជាសេវាទូរស័ព្ទខ្សោយខ្លាំងក៏ដោយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖