Original Title: Automatically Evading Classifiers: A Case Study on PDF Malware Classifiers
Source: dx.doi.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការគេចវេះដោយស្វ័យប្រវត្តិពីប្រព័ន្ធធ្វើចំណាត់ថ្នាក់៖ ករណីសិក្សាលើប្រព័ន្ធធ្វើចំណាត់ថ្នាក់មេរោគ PDF

ចំណងជើងដើម៖ Automatically Evading Classifiers: A Case Study on PDF Malware Classifiers

អ្នកនិពន្ធ៖ Weilin Xu (University of Virginia), Yanjun Qi (University of Virginia), David Evans (University of Virginia)

ឆ្នាំបោះពុម្ព៖ 2016 (NDSS Symposium)

វិស័យសិក្សា៖ Computer Security / Adversarial Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃភាពមិនប្រាកដប្រជានៃភាពរឹងមាំរបស់ប្រព័ន្ធរៀនរបស់ម៉ាស៊ីន (Machine Learning Classifiers) ក្នុងការងារសុវត្ថិភាព ជាពិសេសនៅពេលប្រឈមមុខនឹងការវាយប្រហារដែលមានបំណងគេចវេះពីការរកឃើញ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានស្នើឡើងនូវវិធីសាស្ត្រទូទៅមួយ ដោយប្រើប្រាស់ការកែប្រែតាមបែបសេនេទិច ដើម្បីស្វែងរកវ៉ារ្យ៉ង់នៃមេរោគដែលអាចគេចផុតពីការចាប់បានដោយស្វ័យប្រវត្តិ។

ការប្រើប្រាស់ កម្មវិធីសេនេទិច (Genetic Programming) ដើម្បីធ្វើការកែប្រែឯកសារ PDF ដោយចៃដន្យ (Stochastic manipulations) ក្នុងគោលបំណងស្វែងរកគំរូដែលម៉ាស៊ីនចាត់ទុកថាមិនមែនជាមេរោគ។
ការប្រើប្រាស់ ប្រអប់ខ្សាច់ Cuckoo (Cuckoo Sandbox) ជា Oracle ដើម្បីផ្ទៀងផ្ទាត់ថាវ៉ារ្យ៉ង់ថ្មីនៅតែរក្សាឥរិយាបថមេរោគដដែល បើទោះបីជាមានការកែប្រែកូដក៏ដោយ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

សម្រេចបានអត្រាគេចវេះ ១០០% (100% evasion rate) ប្រឆាំងនឹងប្រព័ន្ធធ្វើចំណាត់ថ្នាក់ចំនួនពីរគឺ PDFrate និង Hidost សម្រាប់សំណាកមេរោគទាំង ៥០០ ដែលបានយកមកធ្វើតេស្ត។
បានរកឃើញថាប្រព័ន្ធធ្វើចំណាត់ថ្នាក់ទាំងនោះពឹងផ្អែកខ្លាំងលើលក្ខណៈសម្បត្តិខាងក្រៅ (Superficial features) ដែលមិនរឹងមាំ និងអាចត្រូវបានគេកែប្រែបានយ៉ាងងាយដោយមិនប៉ះពាល់ដល់ប្រសិទ្ធភាពមេរោគ។
ការសិក្សានេះបង្ហាញថា ប្រព័ន្ធសុវត្ថិភាពដែលពឹងផ្អែកលើការរៀនរបស់ម៉ាស៊ីនបច្ចុប្បន្ន មានភាពងាយរងគ្រោះខ្លាំងចំពោះការវាយប្រហារបែបបន្សាំ (Adaptive adversaries)។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Genetic Programming Evasion (Proposed Method) ការគេចវេះដោយប្រើកម្មវិធីសេនេទិច (វិធីសាស្ត្រស្នើឡើង)	មានសមត្ថភាពស្វ័យប្រវត្តិកម្មខ្ពស់ អាចរកឃើញចំណុចខ្សោយនៃម៉ូដែលដោយមិនចាំបាច់ដឹងពីទិន្នន័យខាងក្នុង (Black-box access) និងសម្រេចបានជោគជ័យ ១០០%។	ទាមទារធនធានកុំព្យូទ័រច្រើនសម្រាប់ដំណើរការ Sandbox និងប្រើពេលយូរជាងការវាយប្រហារដោយដៃបន្តិច (ប្រហែល ៦ ថ្ងៃសម្រាប់សំណាក ៥០០)។	អត្រាគេចវេះ ១០០% (100% Evasion Rate) លើទាំងម៉ូដែល PDFrate និង Hidost។
Manual/Ad-hoc Evasion (Traditional Approach) ការគេចវេះដោយដៃ ឬតាមការស្មាន (វិធីសាស្ត្របុរាណ)	អាចធ្វើទៅបានលឿនប្រសិនបើអ្នកវាយប្រហារមានចំណេះដឹងស៊ីជម្រៅអំពីរបៀបដែលប្រព័ន្ធដំណើរការ។	ត្រូវការអ្នកជំនាញកម្រិតខ្ពស់ ហើយជារឿយៗមិនអាចអនុវត្តបានលើចំនួនមេរោគច្រើនដោយស្វ័យប្រវត្តិ ឬមិនអាចទាយដឹងពីលក្ខណៈវិនិច្ឆ័យរបស់ AI។	មិនមានប្រសិទ្ធភាពគ្រប់គ្រាន់ក្នុងការវាយតម្លៃភាពរឹងមាំរបស់ម៉ូដែល AI ទាំងមូលនោះទេ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការពិសោធន៍នេះទាមទារធនធានកុំព្យូទ័រមធ្យម ប៉ុន្តែត្រូវការបរិស្ថានពិសោធន៍ដែលស្មុគស្មាញ (Virtualization)។

Hardware: កុំព្យូទ័រលើតុដែលមាន CPU Intel Core i7 និង RAM 32GB គឺគ្រប់គ្រាន់សម្រាប់ការដំណើរការ។
Software Infrastructure: ត្រូវការដំឡើង Cuckoo Sandbox ដែលមានម៉ាស៊ីននិម្មិត (Virtual Machines) ចំនួន ១៦ ដំណើរការ Windows XP និង Adobe Reader ។
Time: ចំណាយពេលប្រហែល ១ សប្តាហ៍ដើម្បីស្វែងរកវ៉ារ្យ៉ង់សម្រាប់មេរោគចំនួន ៥០០ (ជាមធ្យម ១៦ នាទីក្នុងមួយសំណាកសម្រាប់ PDFrate)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណាកមេរោគពី Contagio archive ដែលជាទិន្នន័យសាធារណៈ។ ទោះបីជាវាល្អសម្រាប់ការស្រាវជ្រាវ ប៉ុន្តែសម្រាប់បរិបទកម្ពុជា មេរោគដែលវាយប្រហារជាក់ស្តែងអាចមានលក្ខណៈខុសប្លែកគ្នា (ដូចជាការប្រើប្រាស់ពុម្ពអក្សរខ្មែរ ឬឯកសាររដ្ឋបាល) ដែលមិនមាននៅក្នុងទិន្នន័យនេះ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសារៈសំខាន់ខ្លាំងសម្រាប់វិស័យសន្តិសុខសាយប័រនៅកម្ពុជា ដើម្បីត្រៀមខ្លួនទប់ទល់នឹងការវាយប្រហារដោយប្រើ AI។

វិស័យធនាគារ និងហិរញ្ញវត្ថុ (Banking Sector): ធនាគារនៅកម្ពុជាដែលប្រើប្រាស់ប្រព័ន្ធស្កេនឯកសារស្វ័យប្រវត្តិ អាចប្រើវិធីសាស្ត្រនេះដើម្បីធ្វើតេស្តសុវត្ថិភាព (Penetration Testing) លើប្រព័ន្ធរបស់ខ្លួន។
CamCERT និងស្ថាប័នសន្តិសុខជាតិ: អាចប្រើបច្ចេកទេសនេះដើម្បីវាយតម្លៃ និងកែលម្អប្រព័ន្ធការពារមេរោគថ្នាក់ជាតិ មុនពេលដាក់ឱ្យប្រើប្រាស់ជាផ្លូវការ។
ការអប់រំផ្នែកវិទ្យាសាស្ត្រកុំព្យូទ័រ (Higher Education): សាកលវិទ្យាល័យដូចជា RUPP ឬ ITC អាចយកឯកសារនេះជាមូលដ្ឋានក្នុងការបង្រៀនអំពី Adversarial Machine Learning។

លទ្ធផលនៃការសិក្សានេះគឺជាការដាស់តឿនមួយថា ស្ថាប័ននៅកម្ពុជាមិនគួរពឹងផ្អែកទាំងស្រុងលើ AI ក្នុងការចាប់មេរោគនោះទេ ព្រោះវាអាចត្រូវបានគេបន្លំបានយ៉ាងងាយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃឯកសារ PDF: និស្សិតត្រូវស្វែងយល់ពីរចនាសម្ព័ន្ធរបស់ឯកសារ PDF (Objects, Body, Trailer) និងរបៀបដែលបណ្ណាល័យ Python ដូចជា 'pdfrw' ដំណើរការ។
រៀបចំប្រព័ន្ធពិសោធន៍ Cuckoo Sandbox: ដំឡើង និងកំណត់រចនាសម្ព័ន្ធ 'Cuckoo Sandbox' លើកុំព្យូទ័រដែលមាន RAM យ៉ាងតិច 16GB ដើម្បីអាចធ្វើការវិភាគមេរោគដោយសុវត្ថិភាព។
ទាញយក និងសាកល្បងកូដ EvadeML: ទាញយកកូដពីគម្រោង 'EvadeML' (ដែលបានបញ្ជាក់ក្នុងឯកសារ) ហើយសាកល្បងដំណើរការជាមួយសំណាកមេរោគ PDF ចំនួនតូច (១០-២០ ឯកសារ) ជាមុនសិន។
វិភាគលក្ខណៈសម្បត្តិ (Feature Analysis): ធ្វើការប្រៀបធៀបឯកសារដើម និងឯកសារដែលបានកែប្រែ ដើម្បីយល់ថាហេតុអ្វីបានជាម៉ូដែល AI បរាជ័យក្នុងការចាប់ (ឧទាហរណ៍៖ ការបន្ថែម Object ក្លែងក្លាយ)។
អភិវឌ្ឍយុទ្ធសាស្ត្រការពារ: បន្ទាប់ពីយល់ពីចំណុចខ្សោយ និស្សិតគួរព្យាយាមស្នើវិធីសាស្ត្របណ្តុះបណ្តាលម៉ូដែលឡើងវិញ (Retraining) ដោយបញ្ចូលទិន្នន័យដែលបានកែប្រែទាំងនោះ ដើម្បីធ្វើឱ្យ AI កាន់តែឆ្លាតវៃ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Genetic Programming (GP)	ជាបច្ចេកទេសមួយនៃបញ្ញាសិប្បនិម្មិតដែលយកគំរូតាមដំណើរវិវត្តន៍នៃធម្មជាតិ (Natural Selection)។ នៅក្នុងអត្ថបទនេះ វាត្រូវបានប្រើដើម្បីកែប្រែកូដមេរោគដោយចៃដន្យ (ដូចជាការផ្លាស់ប្តូរហ្សែន) រហូតដល់រកឃើញទម្រង់មួយដែលអាចគេចផុតពីការចាប់បានរបស់ប្រព័ន្ធសុវត្ថិភាព។	ដូចជាការបង្កាត់ពូជដំណាំជាច្រើនជំនាន់ ដើម្បីទទួលបានផ្លែឈើដែលមានរសជាតិឆ្ងាញ់ និងធន់នឹងសត្វល្អិតបំផុត។
Evasion Attack	គឺជាការប៉ុនប៉ងរបស់អ្នកវាយប្រហារក្នុងការកែប្រែទិន្នន័យ (ដូចជាឯកសារ PDF មេរោគ) ក្នុងគោលបំណងបោកបញ្ឆោតប្រព័ន្ធ AI ឱ្យយល់ច្រឡំថាវាជាឯកសារសុវត្ថិភាព ខណៈដែលវានៅតែមានសមត្ថភាពបង្កគ្រោះថ្នាក់ដដែល។	ប្រៀបដូចជាចោរដែលពាក់ឯកសណ្ឋានប៉ូលិស ដើម្បីដើរកាត់ប៉ុស្តិ៍ត្រួតពិនិត្យដោយមិនឱ្យគេចាប់បាន។
Oracle	នៅក្នុងបរិបទនៃការស្រាវជ្រាវនេះ Oracle គឺជាប្រព័ន្ធ ឬយន្តការមួយដែលផ្តល់នូវ «ចម្លើយដ៏ត្រឹមត្រូវ» ថាតើឯកសារមួយពិតជាមេរោគ ឬអត់ ដោយមិនពឹងផ្អែកលើការទស្សន៍ទាយរបស់ AI ឡើយ (ជាធម្មតាប្រើ Sandbox ដើម្បីពិនិត្យជាក់ស្តែង)។	ដូចជាសន្លឹកចម្លើយវិញ្ញាសាប្រឡង ដែលគ្រូប្រើដើម្បីផ្ទៀងផ្ទាត់ថាចម្លើយរបស់សិស្សត្រូវ ឬខុស។
Feature Space	ជាលំហគណិតវិទ្យាដែលតំណាងឱ្យលក្ខណៈសម្បត្តិផ្សេងៗនៃទិន្នន័យ។ ប្រព័ន្ធ AI មើលឯកសារមិនមែនជាអក្សរទេ ប៉ុន្តែជាចំណុចនៅក្នុងលំហនេះ។ ការវាយប្រហារគឺព្យាយាមផ្លាស់ទីចំណុចតំណាងមេរោគ ទៅក្នុងតំបន់ដែល AI ស្គាល់ថាជា «ឯកសារល្អ»។	ដូចជាការកំណត់អត្តសញ្ញាណមនុស្សដោយប្រើ កម្ពស់ ទម្ងន់ និងពណ៌ភ្នែក (Features) ជំនួសឱ្យការប្រើឈ្មោះ ឬរូបថត។
Sandbox	ជាបរិស្ថានកុំព្យូទ័រដាច់ដោយឡែក និងមានសុវត្ថិភាព ដែលត្រូវបានប្រើដើម្បីដំណើរការកូដដែលគួរឱ្យសង្ស័យ។ វាអនុញ្ញាតឱ្យអ្នកស្រាវជ្រាវមើលឃើញពីឥរិយាបថពិតប្រាកដរបស់មេរោគ ដោយមិនធ្វើឱ្យប៉ះពាល់ដល់ប្រព័ន្ធកុំព្យូទ័រទាំងមូល។	ដូចជាបន្ទប់ពិសោធន៍ដែលមានកញ្ចក់ការពារ ដែលអ្នកវិទ្យាសាស្ត្រអាចសិក្សាពីមេរោគកាចសាហាវដោយមិនខ្លាចឆ្លង។
Structural Paths	គឺជាវិធីសាស្ត្រនៃការវិភាគឯកសារ PDF ដោយមើលទៅលើរចនាសម្ព័ន្ធដើមឈើ (Tree structure) នៃឯកសារនោះ ថាតើវត្ថុ (Object) នីមួយៗតភ្ជាប់គ្នាដូចម្តេច។ ម៉ូដែល Hidost ប្រើប្រាស់វិធីនេះដើម្បីចាប់មេរោគ។	ដូចជាការមើលប្លង់ផ្ទះដើម្បីដឹងថាបន្ទប់ណាជាប់បន្ទប់ណា ជាជាងការមើលតែគ្រឿងសង្ហារិមនៅក្នុងផ្ទះនោះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ការបោះឆ្នោតផ្អែកលើការរៀនពង្រឹងសម្រាប់ការរកឃើញការឈ្លានពានដែលដឹងអំពីការផ្លាស់ប្តូរលក្ខណៈពិសេស៖ ក្របខ័ណ្ឌនៃការរៀនបន្ថែម
Reinforcement Learning-Based Voting for Feature Drift-Aware Intrusion Detection: An Incremental Learning Framework

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖