Original Title: SPIDAR: System-level Physics-Informed Detection of Anomalies in Reactors
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

SPIDAR៖ ការរកឃើញភាពមិនប្រក្រតីនៅកម្រិតប្រព័ន្ធក្នុងរ៉េអាក់ទ័រនុយក្លេអ៊ែរដោយផ្អែកលើរូបវិទ្យា

ចំណងជើងដើម៖ SPIDAR: System-level Physics-Informed Detection of Anomalies in Reactors

អ្នកនិពន្ធ៖ Ezgi Gursel (University of Tennessee), Bhavya Reddy (San Jose State University), Benjamin Smith (University of Tennessee), Shahrbanoo Rezaei (University of Tennessee), Katy Daniels (University of Tennessee), Jamie Baalis Coble (University of Tennessee), Mahboubeh Madadi (San Jose State University), Vivek Agarwal (Idaho National Laboratory), Ronald Boring (Idaho National Laboratory), Vaidav Yadav (Idaho National Laboratory), Anahita Khojandi (University of Tennessee)

ឆ្នាំបោះពុម្ព៖ 2023

វិស័យសិក្សា៖ Nuclear Engineering and Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ រោងចក្រថាមពលនុយក្លេអ៊ែរ (NPPs) ពឹងផ្អែកលើបណ្ដាញសេនស័រដ៏ស្មុគស្មាញដែលអាចជួបប្រទះភាពមិនប្រក្រតី (ឧ. ទិន្នន័យគាំង ឬលម្អៀង) ដែលគំរាមកំហែងដល់សុវត្ថិភាព ខណៈដែលម៉ូដែលផ្អែកលើទិន្នន័យសុទ្ធសាធច្រើនតែមិនអាចរក្សាបាននូវសង្គតិភាពទៅនឹងច្បាប់រូបវិទ្យា។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវម៉ូដែល SPIDAR ដែលរួមបញ្ចូលគ្នារវាងបណ្ដាញ Generative Adversarial Networks (GANs) និងចំណេះដឹងផ្នែករូបវិទ្យា ដើម្បីស្វែងរកភាពមិនប្រក្រតីរបស់សេនស័រនៅក្នុងប្រព័ន្ធ។

ការប្រមូលទិន្នន័យសេនស័រពីប្រព័ន្ធសាកល្បងរំហូរដោយបង្ខំ (Forced-flow loop testbed) របស់សាកលវិទ្យាល័យ Tennessee
ការបញ្ចូលភាពមិនប្រក្រតីសិប្បនិម្មិតដូចជា ភាពលម្អៀង (Drift) ទិន្នន័យគាំង (Stuck data) និងសំឡេងរំខាន Gaussian (Gaussian noise) ទៅក្នុងទិន្នន័យធម្មតា ដើម្បីធ្វើតេស្តម៉ូដែល
ការប្រើប្រាស់បណ្ដាញ Generative Adversarial Networks (GANs) ជាមួយអនុគមន៍បាត់បង់ផ្នែករូបវិទ្យា (Physics-informed loss function) ដើម្បីផ្ដន្ទាទោសរាល់លទ្ធផលដែលមិនស្របតាមច្បាប់រូបវិទ្យា

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល SPIDAR អាចរកឃើញភាពមិនប្រក្រតីនៃសេនស័របានយ៉ាងមានប្រសិទ្ធភាព ដោយទទួលបានពិន្ទុ F1 (F1 Score) រហូតដល់ 0.965 សម្រាប់ករណីដែលមានសេនស័រច្រើនជួបបញ្ហាក្នុងពេលតែមួយ។
ការរួមបញ្ចូលចំណេះដឹងផ្នែករូបវិទ្យា (Physics loss) ជួយឱ្យ SPIDAR ដំណើរការបានល្អប្រសើរជាងម៉ូដែល GAN ធម្មតា (ដែលគ្មានមូលដ្ឋានរូបវិទ្យា) យ៉ាងខ្លាំង ដែលម៉ូដែល GAN ធម្មតាទទួលបានពិន្ទុ F1 ត្រឹមតែ 0.660 ប៉ុណ្ណោះសម្រាប់ករណីសេនស័រច្រើន។
SPIDAR បង្ហាញពីសមត្ថភាពខ្ពស់ក្នុងការវែកញែកយ៉ាងច្បាស់លាស់រវាងទិន្នន័យធម្មតា និងទិន្នន័យមិនប្រក្រតី ដែលស័ក្តិសមសម្រាប់ការយកទៅអនុវត្តក្នុងការតាមដានសុវត្ថិភាពរោងចក្រនុយក្លេអ៊ែរក្នុងពេលជាក់ស្តែង។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
SPIDAR (System-level Physics-Informed GAN) ម៉ូដែល SPIDAR (បណ្ដាញ GAN ផ្អែកលើរូបវិទ្យាកម្រិតប្រព័ន្ធ)	អាចបែងចែកដាច់ស្រឡះរវាងទិន្នន័យធម្មតា និងមិនប្រក្រតី សូម្បីតែពេលសេនស័រច្រើនមានបញ្ហាក្នុងពេលតែមួយ។ វាធានាថាលទ្ធផលទស្សន៍ទាយមានសង្គតិភាពទៅនឹងច្បាប់រូបវិទ្យា។	ទាមទារឱ្យមានការសិក្សានិងដឹងមុននូវសមីការរូបវិទ្យាដែលគ្រប់គ្រងប្រព័ន្ធ (ឧទាហរណ៍ សមីការកាឡូរីមេទ្រី)។ វាដំណើរការធ្លាក់ចុះបន្តិចបន្តួចនៅពេលមានសេនស័រតែមួយខូច បើធៀបនឹងសេនស័រច្រើន។	ទទួលបានពិន្ទុ F1 (F1 Score) រហូតដល់ 0.965 និង G-Mean 0.961 សម្រាប់ករណីសេនស័រច្រើនជួបភាពមិនប្រក្រតី។
GAN-based (Physics-uninformed) ម៉ូដែល GAN ធម្មតា (មិនផ្អែកលើរូបវិទ្យា)	ពឹងផ្អែកលើទិន្នន័យសុទ្ធសាធ (Data-driven) ដែលងាយស្រួលអនុវត្តដោយមិនចាំបាច់មានចំណេះដឹងស៊ីជម្រៅផ្នែករូបវិទ្យា ឬសមីការគណិតវិទ្យានៃប្រព័ន្ធ។	មិនអាចដោះស្រាយភាពស្មុគស្មាញបានល្អនៅពេលសេនស័រច្រើនមានបញ្ហាដំណាលគ្នា។ ពិន្ទុនៃភាពមិនប្រក្រតី (Anomaly scores) ច្រើនតែត្រួតស៊ីគ្នា ដែលពិបាកក្នុងការកាត់សេចក្តី។	ពិន្ទុ F1 ធ្លាក់ចុះមកត្រឹម 0.660 និង G-Mean ត្រឹម 0.637 ប៉ុណ្ណោះសម្រាប់ករណីសេនស័រច្រើនជួបភាពមិនប្រក្រតី។

ការចំណាយលើធនធាន (Resource Cost)៖ ការបណ្តុះបណ្តាលម៉ូដែល PIML និង GAN នេះតម្រូវឱ្យមានធនធានកុំព្យូទ័រ និងទិន្នន័យជាក់លាក់ ទោះបីជាមិនបានបញ្ជាក់លម្អិតពីផ្នែករឹងកុំព្យូទ័រនៅក្នុងឯកសារក៏ដោយ។

Dataset: ទិន្នន័យសេនស័រពីប្រព័ន្ធសាកល្បងរំហូរទឹក (Flow loop testbed) រយៈពេល ១ ម៉ោង (ប្រមូលរៀងរាល់ ៣ វិនាទី) និងត្រូវតម្រូវឱ្យមានការបង្កើតភាពមិនប្រក្រតីសិប្បនិម្មិតដើម្បីធ្វើតេស្ត។
Hardware: ត្រូវការម៉ាស៊ីនដែលមានអង្គគណនាត្រាប់ក្រាហ្វិក (GPU) កម្រិតខ្ពស់ដើម្បីដំណើរការបណ្តុះបណ្តាលបណ្តាញ GAN (Generator និង Discriminator) ឱ្យមានប្រសិទ្ធភាពនិងលឿន។
Expertise: ទាមទារចំណេះដឹងស៊ីជម្រៅលើផ្នែកបញ្ញាសិប្បនិម្មិត (Deep Learning/GANs) និងចំណេះដឹងផ្នែករូបវិទ្យាអនុវត្តន៍ (ទែម៉ូឌីណាមិក ឬរំហូរទឹក) ដើម្បីសរសេរអនុគមន៍បាត់បង់រូបវិទ្យា (Physics loss function)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យពីប្រព័ន្ធសាកល្បងម៉ាស៊ីននៅសាកលវិទ្យាល័យ Tennessee សហរដ្ឋអាមេរិក ដោយពុំមានទិន្នន័យមិនប្រក្រតីក្នុងពិភពពិតនោះទេ (អ្នកស្រាវជ្រាវត្រូវចាក់បញ្ចូលបញ្ហាសិប្បនិម្មិតចូលក្នុងទិន្នន័យ)។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យជាក់ស្តែងពីកំហុសម៉ាស៊ីនឧស្សាហកម្មគឺជាបញ្ហាប្រឈមធំ ដូច្នេះការចេះបង្កើតទិន្នន័យសាកល្បង (Synthetic data anomalies) គឺមានសារៈសំខាន់ណាស់ក្នុងការអភិវឌ្ឍម៉ូដែល។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាប្រទេសកម្ពុជាមិនមានរោងចក្រថាមពលនុយក្លេអ៊ែរក៏ដោយ វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកប្រើប្រាស់ជាមួយប្រព័ន្ធឧស្សាហកម្ម និងរចនាសម្ព័ន្ធធំៗផ្សេងទៀត។

ទំនប់វារីអគ្គិសនី (Hydropower Plants): អាចប្រើដើម្បីតាមដានសេនស័រសីតុណ្ហភាព សម្ពាធ និងរំហូរទឹកនៅទំនប់វារីអគ្គិសនី (ឧទាហរណ៍ ទំនប់សេសានក្រោម២) ដើម្បីទប់ស្កាត់ការខូចខាតធ្ងន់ធ្ងរ និងធានាសុវត្ថិភាពប្រតិបត្តិការ។
ប្រព័ន្ធផ្គត់ផ្គង់ទឹកស្អាត (Water Supply Systems): អាចអនុវត្តនៅរដ្ឋាករទឹកស្វយ័តក្រុងភ្នំពេញ (PPWSA) ដើម្បីស្វែងរកការលេចធ្លាយ ឬបញ្ហាសេនស័រនៅក្នុងបណ្តាញចែកចាយទឹក ដោយផ្អែកលើច្បាប់រូបវិទ្យានៃសម្ពាធទឹក។
រោងចក្រផលិតកម្ម (Manufacturing): ប្រើប្រាស់សម្រាប់តាមដានប្រព័ន្ធបញ្ចុះកម្ដៅ និងម៉ាស៊ីនបូមធំៗនៅតាមតំបន់សេដ្ឋកិច្ចពិសេស ដើម្បីកាត់បន្ថយពេលវេលាជួសជុលបន្ទាន់ (Downtime)។

ការរួមបញ្ចូលគ្នារវាងទិន្នន័យម៉ាស៊ីន និងចំណេះដឹងរូបវិទ្យា (PIML) អាចជួយឱ្យវិស្វករកម្ពុជាបង្កើតប្រព័ន្ធតាមដានដែលអាចជឿទុកចិត្តបាន ទោះបីជាមានទិន្នន័យប្រវត្តិបញ្ហាតិចតួចក៏ដោយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ PIML និង GANs: ចាប់ផ្តើមស្វែងយល់ពីបណ្តាញ Generative Adversarial Networks និងវិធីបញ្ចូលច្បាប់រូបវិទ្យាទៅក្នុង Machine Learning ដោយប្រើប្រាស់បណ្ណាល័យកូដដូចជា PyTorch ឬ TensorFlow។
កំណត់ប្រព័ន្ធឧស្សាហកម្មគោលដៅ និងច្បាប់រូបវិទ្យា: ជ្រើសរើសប្រព័ន្ធសាមញ្ញមួយ (ឧទាហរណ៍ ប្រព័ន្ធម៉ាស៊ីនបូមទឹកតូចមួយ) ហើយធ្វើការកំណត់សមីការរូបវិទ្យាដែលគ្រប់គ្រងវា (ដូចជាសមីការកាឡូរីមេទ្រី ឬសមីការរំហូរ) ដើម្បីត្រៀមធ្វើជា Physics Loss។
ប្រមូល និងរៀបចំទិន្នន័យ (Data Preprocessing): ប្រមូលទិន្នន័យសេនស័រ កែសម្រួលទិន្នន័យដែលបាត់បង់ដោយប្រើសមីការរូបវិទ្យា ធ្វើការធ្វើកាណូម៉ាលីសកម្ម (Min-Max Normalization) និងបែងចែកទិន្នន័យជា Time-windows តូចៗ (ឧទាហរណ៍ Window size = 11)។
អភិវឌ្ឍម៉ូដែល SPIDAR ខ្នាតតូច: សរសេរកូដបង្កើតបណ្តាញ Generator និង Discriminator រួចបញ្ចូល Physics Loss Function (គណនាគម្លាតរវាងលទ្ធផលទស្សន៍ទាយនិងច្បាប់រូបវិទ្យា) ទៅក្នុងគោលដៅបណ្តុះបណ្តាលរបស់ Generator។
ចាក់បញ្ចូលបញ្ហាសិប្បនិម្មិត និងវាយតម្លៃ: ចាក់បញ្ចូលបញ្ហាដូចជា Drift, Stuck Data, និង Gaussian Noise ទៅក្នុងទិន្នន័យសាកល្បង រួចវាយតម្លៃប្រសិទ្ធភាពម៉ូដែលដោយប្រើរង្វាស់ F1-Score និង G-Mean មុននឹងយកទៅសាកល្បងក្នុងបរិស្ថានពិត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Physics-Informed Machine Learning (PIML)	វិធីសាស្ត្របង្រៀនកុំព្យូទ័រ (Machine Learning) ដែលមិនត្រឹមតែពឹងផ្អែកលើការរៀនពីទិន្នន័យចាស់ៗប៉ុណ្ណោះទេ តែថែមទាំងបញ្ចូលច្បាប់រូបវិទ្យា (ដូចជាច្បាប់រក្សាថាមពល ឬម៉ាស) ចូលទៅក្នុងប្រព័ន្ធកុំព្យូទ័រ ដើម្បីធានាថាលទ្ធផលដែលវាទស្សន៍ទាយមិនខុសពីច្បាប់ធម្មជាតិ។	ដូចជាការបង្រៀនក្មេងឱ្យចេះគូររូបឡាន ដោយប្រាប់គេពីច្បាប់ទំនាញផែនដីជាមុន ដើម្បីកុំឱ្យគេគូរឡានអណ្តែតលើអាកាស។
Generative Adversarial Networks (GANs)	ប្រព័ន្ធបញ្ញាសិប្បនិម្មិតដែលមានបណ្ដាញប្រសាទពីរប្រកួតប្រជែងគ្នាគឺ ទី១ អ្នកបង្កើតទិន្នន័យ (Generator) និងទី២ អ្នកពិនិត្យចាប់កំហុស (Discriminator)។ វារៀនពីទិន្នន័យម៉ាស៊ីនដើរធម្មតា ដើម្បីឱ្យដឹងច្បាស់ពីសភាពប្រក្រតី ដែលធ្វើឱ្យវាងាយស្រួលចាប់បាននៅពេលមានទិន្នន័យចម្លែកចូលមក។	ដូចជាល្បែងចាប់ចោរ ដែលចោរខិតខំក្លែងបន្លំលុយឱ្យដូចពិតៗ ចំណែកប៉ូលិសខិតខំពិនិត្យរកលុយក្លែងក្លាយ រហូតដល់ទាំងសងខាងក្លាយជាអ្នកជំនាញ។
Physics loss	ផ្នែកមួយនៃអនុគមន៍បាត់បង់ (Loss function) នៅក្នុងម៉ូដែល ដែលមានតួនាទីដាក់ពិន័យទៅលើម៉ូដែលកុំព្យូទ័រ នៅពេលដែលវាបញ្ចេញលទ្ធផលទស្សន៍ទាយដែលផ្ទុយនឹងច្បាប់រូបវិទ្យា (ឧទាហរណ៍ សីតុណ្ហភាពដែលទាយខុសពីសមីការកាឡូរីមេទ្រី)។	ដូចជាការពិន័យសិស្សកាត់ពិន្ទុនៅពេលដែលគេធ្វើលំហាត់គណិតវិទ្យាខុសរូបមន្ត ទោះបីជាចម្លើយចុងក្រោយមើលទៅសឹងតែត្រូវក៏ដោយ។
Sensor Drift	ប្រភេទនៃភាពមិនប្រក្រតីដែលការវាស់ស្ទង់របស់សេនស័រមានការកើនឡើង ឬថយចុះបន្តិចម្តងៗដោយឯកឯង ទោះបីជាស្ថានភាពជាក់ស្តែងនៃម៉ាស៊ីនមិនមានការប្រែប្រួលក៏ដោយ ដែលជាទូទៅបណ្តាលមកពីភាពចាស់ទ្រុឌទ្រោមរបស់សេនស័រ។	ដូចជានាឡិកាដៃដែលដើរលឿនជាងម៉ោងពិត ១ វិនាទីជារៀងរាល់ថ្ងៃ ដែលយូរៗទៅវានឹងដើរខុសម៉ោងទាំងស្រុងបើមិនសារ៉េវា។
Calorimetric Equation	សមីការរូបវិទ្យាដែលពិពណ៌នាអំពីទំនាក់ទំនងរវាងសីតុណ្ហភាព និងរំហូរទឹករបស់ប្រព័ន្ធ ដើម្បីគណនាថាមពលកម្ដៅដែលត្រូវបានផ្ទេរ។ ក្នុងឯកសារនេះ វាត្រូវបានប្រើជាគោលដើម្បីផ្ទៀងផ្ទាត់ថាតើសេនស័រណាមួយកំពុងផ្តល់ទិន្នន័យខុស។	ដូចជារូបមន្តគណនាចំនួនទឹកដែលត្រូវចាក់ចូលអាង ដែលយើងដឹងច្បាស់ថាវាអាស្រ័យលើទំហំបំពង់ និងល្បឿនទឹកដែលហូរចូល។
G-Mean	រង្វាស់វាយតម្លៃមួយសម្រាប់ចំណាត់ថ្នាក់ទិន្នន័យដែលមិនមានតុល្យភាព (Imbalanced datasets) ដោយវាគណនាមធ្យមធរណីមាត្ររវាងសមត្ថភាពរកឃើញភាពមិនប្រក្រតី (Sensitivity) និងសមត្ថភាពស្គាល់ភាពប្រក្រតី (Specificity) ដើម្បីឱ្យប្រាកដថាម៉ូដែលពូកែទាំងពីរផ្នែក។	ដូចជាការវាយតម្លៃសិស្សម្នាក់ថាសមត្ថភាពស្មើគ្នាដែរឬទេរវាងមុខវិជ្ជាគណិតវិទ្យា និងអក្សរសាស្ត្រ ជាជាងគ្រាន់តែមើលពិន្ទុសរុបតែមួយមុខ។
Anomaly Detection	ដំណើរការតាមដានទិន្នន័យក្នុងប្រព័ន្ធជាប្រចាំ ដើម្បីស្វែងរកទិន្នន័យ ឬសកម្មភាពណាមួយដែលខុសប្លែកពីទម្រង់ដើមធម្មតា ដែលការខុសប្លែកនេះអាចបញ្ជាក់ពីកំហុសប្រព័ន្ធ ការខូចសេនស័រ ឬបញ្ហាសុវត្ថិភាព។	ដូចជាការរកឃើញសិស្សម្នាក់ដែលស្លៀកពាក់ខោអាវពណ៌ក្រហម ក្នុងចំណោមសិស្សរាប់រយនាក់ដែលស្លៀកពាក់ឯកសណ្ឋានពណ៌សខៀវ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖