Original Title: Physics-Regularized Self-Supervised Anomaly Detection for Semiconductor Tools with Digital Twin Guidance
Source: doi.org/10.54254/2755-2721/2025.28669
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរកឃើញភាពមិនប្រក្រតីដោយការរៀនដោយខ្លួនឯងដែលមាននិយតកម្មរូបវិទ្យាសម្រាប់ឧបករណ៍ពាក់កណ្តាលចម្លងជាមួយការណែនាំពីកូនភ្លោះឌីជីថល

ចំណងជើងដើម៖ Physics-Regularized Self-Supervised Anomaly Detection for Semiconductor Tools with Digital Twin Guidance

អ្នកនិពន្ធ៖ Min Yin (University of California, Berkeley, USA)

ឆ្នាំបោះពុម្ព៖ 2025 Proceedings of the 3rd International Conference on Machine Learning and Automation

វិស័យសិក្សា៖ Machine Learning and Automation

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការឈប់ដំណើរការដោយមិនបានគ្រោងទុកនៅក្នុងឧបករណ៍ពាក់កណ្តាលចម្លង (Semiconductor tools) ជាបញ្ហារារាំងដល់ទិន្នផល ខណៈពេលដែលប្រព័ន្ធតាមដានបច្ចុប្បន្នពឹងផ្អែកលើទិន្នន័យដែលមានស្លាកសញ្ញាច្រើន ឬវិធានតឹងរ៉ឹងដែលពិបាកបន្សាំទៅនឹងការផ្លាស់ប្តូរទម្រង់ការងារ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវក្របខ័ណ្ឌដែលជំរុញដោយកូនភ្លោះឌីជីថល (Digital Twin) ដោយប្រើប្រាស់ការរៀនដោយខ្លួនឯង (Self-supervised learning) និងត្រូវបានធ្វើនិយតកម្មដោយគោលការណ៍រូបវិទ្យា ព្រមទាំងរួមបញ្ចូលទិន្នន័យកំណត់ហេតុប្រតិបត្តិការ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Physics-Regularized SSL with Twin Guidance (Proposed)
ការរៀនដោយខ្លួនឯងដែលមាននិយតកម្មរូបវិទ្យា និងមានការណែនាំពីកូនភ្លោះឌីជីថល
មានសមត្ថភាពខ្ពស់ក្នុងការកាត់បន្ថយការផ្តល់សញ្ញាព្រមានខុស (False alarms) ដោយប្រើចំណេះដឹងរូបវិទ្យា។ ផ្តល់បរិបទច្បាស់លាស់សម្រាប់ប្រតិបត្តិករតាមរយៈការច្របាច់បញ្ចូលកំណត់ហេតុ (Log fusion)។ ទាមទារការរៀបចំប្រព័ន្ធស្មុគស្មាញ (Orchestration) និងការយល់ដឹងស៊ីជម្រៅអំពីគំរូរូបវិទ្យានៃម៉ាស៊ីន (Physics modeling)។ ទទួលបានភាពសុក្រឹតខ្ពស់នៅកម្រិតប្រកាសអាសន្នថេរ និងបង្កើនពេលវេលាដោះស្រាយទុកជាមុន (Lead time) រាប់ម៉ោង ដែលជួយកែលម្អ MTBF។
Temporal Autoencoders (Conv. AE & Recurrent AE)
អូតូអ៊ិនកូដឌ័រប្រភេទពេលវេលា (ប្រភេទ Convolutional និង Recurrent)
ពូកែក្នុងការរៀនពីលំនាំសកម្មភាពធម្មតាពីទិន្នន័យ (Temporal patterns) ដោយមិនចាំបាច់មានស្លាកទិន្នន័យច្រើន។ ងាយនឹងផ្តល់សញ្ញាព្រមានខុសនៅពេលមានការផ្លាស់ប្តូររូបមន្តការងារ (Recipe shifts) ដោយសារខ្វះច្បាប់រូបវិទ្យាដើម្បីគ្រប់គ្រង។ មានអត្រាប្រកាសអាសន្នខុសខ្ពស់ (High false positive rate) នៅពេលម៉ាស៊ីនដំណើរការក្នុងរបៀបផ្សេងៗគ្នាទោះបីជាគ្មានការខូចខាតក៏ដោយ។
Multivariate SPC & FDC Profiles
ការត្រួតពិនិត្យដំណើរការស្ថិតិពហុអថេរ និងការចាត់ថ្នាក់កំហុស (FDC)
ងាយស្រួលយល់ និងជាស្តង់ដារដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយនៅក្នុងរោងចក្របច្ចុប្បន្ន។ ធ្លាក់ចុះប្រសិទ្ធភាពនៅពេលប៉ារ៉ាម៉ែត្រម៉ាស៊ីនប្រែប្រួលបន្តិចម្តងៗ (Parameter drift) ដែលស្ថិតក្រៅព្រំដែនកំណត់របស់ម៉ូដែល។ កម្រិតគោល (Thresholds) ងាយនឹងផុយស្រួយក្រោមការផ្លាស់ប្តូរប្រជាសាស្ត្រទិន្នន័យ (Population shift) លើទិន្នន័យជាក់ស្តែង។
Twin Residuals alone
ការប្រើប្រាស់តែសំណល់ពីកូនភ្លោះឌីជីថល (Physics residuals)
ប្រើប្រាស់គោលការណ៍រូបវិទ្យាសុទ្ធសាធ ដែលធ្វើឱ្យការវិភាគមានលក្ខណៈសមហេតុផលនិងអាចបកស្រាយបាន។ ខ្វះសមត្ថភាពរៀនលក្ខណៈពិសេស (Feature representations) ពីទិន្នន័យ និងគ្មានការរួមបញ្ចូលកំណត់ហេតុ (Log-aware) ដើម្បីផ្តល់បរិបទ។ ខ្វះសមត្ថភាពចង្អុលបង្ហាញសម្មតិកម្មប្រតិបត្តិការច្បាស់លាស់ (Hypothesis ranking) ដែលធ្វើឱ្យចំណាយពេលយូរក្នុងការត្រួតពិនិត្យ។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារមិនបានបញ្ជាក់ពីទំហំផ្នែករឹងជាក់លាក់ទេ ប៉ុន្តែការអនុវត្តប្រព័ន្ធនេះទាមទារហេដ្ឋារចនាសម្ព័ន្ធទិន្នន័យនិងកុំព្យូទ័រធំគួរសម ដោយសារវាដំណើរការទិន្នន័យប្រេកង់ខ្ពស់តាមពេលវេលាជាក់ស្តែង។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យពីឧបករណ៍ផលិតសឺមីកុងឌុចទ័រ (Semiconductor fabrication tools) នៅសហរដ្ឋអាមេរិក ដែលមានកម្រិតបច្ចេកវិទ្យាខ្ពស់ និងការប្រមូលទិន្នន័យស្មុគស្មាញ។ សម្រាប់បរិបទប្រទេសកម្ពុជា ការទាញយកទិន្នន័យម៉ាស៊ីនកម្រិតខ្ពស់បែបនេះនៅមានកម្រិតនៅឡើយ ដែលធ្វើឱ្យការអនុវត្តផ្ទាល់ជួបបញ្ហាប្រឈមនៃ 'ភាពក្រីក្រនៃទិន្នន័យ' (Data sparsity)។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាកម្ពុជាមិនទាន់មានរោងចក្រផលិតបន្ទះឈីបកម្រិតខ្ពស់ ប៉ុន្តែគោលគំនិតនៃការតភ្ជាប់រូបវិទ្យានិង AI នេះមានតម្លៃខ្ពស់សម្រាប់ការធ្វើទំនើបកម្មរោងចក្រ។

ជារួម ក្របខ័ណ្ឌនេះផ្តល់នូវផែនទីបង្ហាញផ្លូវដ៏ល្អមួយសម្រាប់ឧស្សាហកម្មកម្ពុជា ក្នុងការផ្លាស់ប្តូរពីការថែទាំពេលខូច (Reactive) ទៅកាន់ការថែទាំឆ្លាតវៃ ទោះបីជាត្រូវចាប់ផ្តើមពីម៉ូដែលសាមញ្ញតូចៗមុនក៏ដោយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះការវិភាគទិន្នន័យពេលវេលា (Time-Series Analysis): និស្សិតគួរសិក្សាពីរបៀបគ្រប់គ្រងទិន្នន័យឧបករណ៍ចាប់សញ្ញា និងសាងសង់គំរូ Autoencoder តាមរយៈការប្រើប្រាស់បណ្ណាល័យ PyTorch ឬ TensorFlow ដោយប្រើទិន្នន័យសាកល្បងពី Kaggle (ឧ. ទិន្នន័យថែទាំម៉ាស៊ីន)។
  2. ស្វែងយល់ពីគោលការណ៍រូបវិទ្យា និង Digital Twin: ចាប់ផ្តើមអនុវត្តការសរសេរកូដក្លែងធ្វើដំណើរការម៉ាស៊ីន (Simulation) ជាលក្ខណៈប្រអប់ប្រផេះ (Grey-box) ដោយប្រើ MATLAB/Simulink រួចភ្ជាប់វាទៅនឹង Python តាមរយៈ APIs ដើម្បីបង្កើតជាសំណល់រូបវិទ្យា (Physics residuals)។
  3. អនុវត្តការរៀបចំលំហូរទិន្នន័យស្វ័យប្រវត្តិ (Data Pipeline Orchestration): រៀនបង្កើតលំហូរការងារទាញយកនិងសំអាតទិន្នន័យតាមកាលវិភាគដោយប្រើប្រាស់ឧបករណ៍ពិតប្រាកដដូចជា Apache Airflow ព្រោះវាជាជំនាញចាំបាច់សម្រាប់វិស្វករទិន្នន័យនៅក្នុងរោងចក្រទំនើប។
  4. ស្រាវជ្រាវលើការកែតម្រូវភាពប្រាកដប្រជា (Conformal Prediction): សិក្សាពីក្បួនអនុលោមភាព (Conformal calibration) ក្នុង Python (ឧ. កញ្ចប់ MAPIE) ដើម្បីបំប្លែងលទ្ធផលរបស់ AI ទៅជាតម្លៃប្រូបាប (p-values) ដែលអាចជួយប្រតិបត្តិករកំណត់កម្រិតនៃការប្រកាសអាសន្នបានត្រឹមត្រូវនិងកាត់បន្ថយរំខាន។
  5. អនុវត្តគម្រោងខ្នាតតូចជាមួយ IoT (Mini IoT Project): ប្រើប្រាស់ Arduino ឬ Raspberry Pi ដើម្បីប្រមូលទិន្នន័យកម្ដៅ ឬរំញ័រពីម៉ាស៊ីននៅក្នុងបន្ទប់ពិសោធន៍សាកលវិទ្យាល័យ រួចអនុវត្តក្បួន Isolation Forest ឬ OCSVM ដើម្បីស្វែងរកភាពមិនប្រក្រតី។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Digital Twin វាគឺជាគំរូនិម្មិត (Virtual Model) នៃម៉ាស៊ីនពិតប្រាកដដែលដំណើរការស្របគ្នា។ នៅក្នុងការសិក្សានេះ គេប្រើកូនភ្លោះឌីជីថលប្រភេទប្រអប់ប្រផេះ (Grey-box) ដើម្បីក្លែងធ្វើគោលការណ៍រូបវិទ្យា (ដូចជាសម្ពាធ កម្ដៅ) ដើម្បីផ្ទៀងផ្ទាត់ថាតើទិន្នន័យពីម៉ាស៊ីនពិតកំពុងដើរខុសប្រក្រតីឬទេ។ ដូចជាការមានស្រមោលឆ្លាតវៃមួយរបស់ម៉ាស៊ីននៅក្នុងកុំព្យូទ័រ ដែលចម្លងអាកប្បកិរិយារបស់ម៉ាស៊ីនពិត ដើម្បីឱ្យយើងអាចតាមដានសុខភាពរបស់វាដោយមិនចាំបាច់រុះរើមើលខាងក្នុង។
Self-Supervised Learning ជាវិធីសាស្ត្របង្រៀនបញ្ញាសិប្បនិម្មិត (AI) ឱ្យរៀនស្វែងយល់ពីរចនាសម្ព័ន្ធទិន្នន័យដោយខ្លួនឯង ដោយមិនចាំបាច់មានមនុស្សរៀបចំស្លាកទិន្នន័យ (Labels) ប្រាប់វាជាមុននោះទេ តាមរយៈការបង្កើតកិច្ចការតូចៗដូចជាការទាយទិន្នន័យដែលបាត់ ឬបិទបាំង។ ដូចជាសិស្សរៀនបំពេញល្បែងផ្គុំពាក្យ (Crossword puzzle) ដោយខ្លួនឯង ដោយផ្អែកលើបរិបទអក្សរជុំវិញ ដោយមិនបាច់មានគ្រូប្រាប់ចម្លើយ។
Physics-Regularized គឺជាការដាក់កំហិតលើម៉ូដែល AI ដោយប្រើច្បាប់រូបវិទ្យាពិត (ដូចជាច្បាប់រក្សាម៉ាស់ ឬតុល្យភាពកម្ដៅ) ដើម្បីការពារកុំឱ្យ AI ទាញសេចក្តីសន្និដ្ឋានដែលផ្ទុយនឹងធម្មជាតិ ឬចាប់យកលំនាំខុសឆ្គងពីទិន្នន័យ។ ដូចជាការបង្រៀនក្មេងឱ្យគូររូបមនុស្ស ដោយដាក់ច្បាប់ថាមនុស្សត្រូវតែមានជើងនៅលើដី ដើម្បីកុំឱ្យគេគូរមនុស្សអណ្តែតលើអាកាសខុសពីការពិតច្បាប់ទំនាញ។
Conformal Prediction ជាបច្ចេកទេសស្ថិតិមួយដែលប្រើដើម្បីវាស់ស្ទង់ភាពមិនប្រាកដប្រជារបស់ម៉ូដែល AI។ វាផ្តល់ជាតម្លៃប្រូបាប (p-values) ដើម្បីបញ្ជាក់ថាការព្រមានអំពីភាពមិនប្រក្រតីនោះមានភាពត្រឹមត្រូវកម្រិតណា ដែលជួយគ្រប់គ្រងអត្រាប្រកាសអាសន្នខុស និងផ្តល់ទំនុកចិត្តដល់ប្រតិបត្តិករ។ ដូចជាអ្នកព្យាករណ៍អាកាសធាតុមិនត្រឹមតែប្រាប់ថា "នឹងមានភ្លៀង" នោះទេ តែប្រាប់បន្ថែមថា "យើងមានទំនុកចិត្ត ៩៥% ថានឹងមានភ្លៀង" ដើម្បីឱ្យយើងងាយស្រួលសម្រេចចិត្ត។
Masked Forecasting ជាបច្ចេកទេសរៀនដែលកាត់ផ្តាច់ ឬបិទបាំងផ្នែកខ្លះនៃទិន្នន័យពេលវេលា (Time-series) រួចតម្រូវឱ្យម៉ូដែល AI ទស្សន៍ទាយបំពេញផ្នែកដែលបាត់នោះ ដើម្បីបង្រៀនឱ្យវាយល់ពីទំនាក់ទំនងអថេរនៃម៉ាស៊ីននិងការវិវឌ្ឍតាមពេលវេលា។ ដូចជាការស្តាប់បទចម្រៀងដែលគេកាត់បំបាត់សំឡេងមួយវិនាទី ហើយយើងត្រូវទាយថាតន្ត្រីបន្ទាប់ជានោតអ្វី ដោយផ្អែកលើចង្វាក់ដែលយើងបានស្តាប់ពីមុន។
Cycle-aware Alignment គឺជាការរៀបចំទិន្នន័យម៉ាស៊ីនឱ្យស្របគ្នាតាមវដ្តនៃប្រតិបត្តិការ (ឧទាហរណ៍ ដំណាក់កាលបញ្ចេញឧស្ម័ន ឬដំណាក់កាលបង្កើតកម្ដៅ) ដើម្បីធានាថាការផ្លាស់ប្តូរធម្មតារបស់ម៉ាស៊ីនពីវគ្គមួយទៅវគ្គមួយមិនត្រូវបានម៉ូដែលចាត់ទុកថាជាកំហុស (Anomalies) នោះទេ។ ដូចជាការប្រៀបធៀបសិស្សពីរនាក់ក្នុងការប្រឡងមុខវិជ្ជាគណិតវិទ្យាដូចគ្នា ជាជាងយកពិន្ទុគណិតវិទ្យារបស់សិស្សម្នាក់ទៅប្រៀបធៀបនឹងពិន្ទុគីមីវិទ្យារបស់សិស្សម្នាក់ទៀត។
Log-aware Fusion ជាការច្របាច់បញ្ចូលគ្នានូវសញ្ញាព្រមានពីទិន្នន័យឧបករណ៍ចាប់សញ្ញា (Sensors) ជាមួយនឹងទិន្នន័យកំណត់ហេតុជាអក្សរ (ដូចជាការផ្លាស់ប្តូរគ្រឿងបន្លាស់ ការប្តូររូបមន្តការងារ ឬសកម្មភាពប្រតិបត្តិករ) ដើម្បីបង្កើតជាសម្មតិកម្មជាក់លាក់ប្រាប់ពីមូលហេតុនៃការខូចខាត។ ដូចជាគ្រូពេទ្យពិនិត្យមើលលទ្ធផលឈាម (ទិន្នន័យម៉ាស៊ីន) រួមផ្សំជាមួយសៀវភៅប្រវត្តិជំងឺ និងថ្នាំដែលកំពុងប្រើប្រាស់ (កំណត់ហេតុ) ដើម្បីធ្វើរោគវិនិច្ឆ័យបានត្រឹមត្រូវបំផុត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖