Original Title: Automatically Evading Classifiers: A Case Study on PDF Malware Classifiers
Source: dx.doi.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការគេចវេះដោយស្វ័យប្រវត្តិពីប្រព័ន្ធធ្វើចំណាត់ថ្នាក់៖ ករណីសិក្សាលើប្រព័ន្ធធ្វើចំណាត់ថ្នាក់មេរោគ PDF

ចំណងជើងដើម៖ Automatically Evading Classifiers: A Case Study on PDF Malware Classifiers

អ្នកនិពន្ធ៖ Weilin Xu (University of Virginia), Yanjun Qi (University of Virginia), David Evans (University of Virginia)

ឆ្នាំបោះពុម្ព៖ 2016 (NDSS Symposium)

វិស័យសិក្សា៖ Computer Security / Adversarial Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃភាពមិនប្រាកដប្រជានៃភាពរឹងមាំរបស់ប្រព័ន្ធរៀនរបស់ម៉ាស៊ីន (Machine Learning Classifiers) ក្នុងការងារសុវត្ថិភាព ជាពិសេសនៅពេលប្រឈមមុខនឹងការវាយប្រហារដែលមានបំណងគេចវេះពីការរកឃើញ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានស្នើឡើងនូវវិធីសាស្ត្រទូទៅមួយ ដោយប្រើប្រាស់ការកែប្រែតាមបែបសេនេទិច ដើម្បីស្វែងរកវ៉ារ្យ៉ង់នៃមេរោគដែលអាចគេចផុតពីការចាប់បានដោយស្វ័យប្រវត្តិ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Genetic Programming Evasion (Proposed Method)
ការគេចវេះដោយប្រើកម្មវិធីសេនេទិច (វិធីសាស្ត្រស្នើឡើង)
មានសមត្ថភាពស្វ័យប្រវត្តិកម្មខ្ពស់ អាចរកឃើញចំណុចខ្សោយនៃម៉ូដែលដោយមិនចាំបាច់ដឹងពីទិន្នន័យខាងក្នុង (Black-box access) និងសម្រេចបានជោគជ័យ ១០០%។ ទាមទារធនធានកុំព្យូទ័រច្រើនសម្រាប់ដំណើរការ Sandbox និងប្រើពេលយូរជាងការវាយប្រហារដោយដៃបន្តិច (ប្រហែល ៦ ថ្ងៃសម្រាប់សំណាក ៥០០)។ អត្រាគេចវេះ ១០០% (100% Evasion Rate) លើទាំងម៉ូដែល PDFrate និង Hidost។
Manual/Ad-hoc Evasion (Traditional Approach)
ការគេចវេះដោយដៃ ឬតាមការស្មាន (វិធីសាស្ត្របុរាណ)
អាចធ្វើទៅបានលឿនប្រសិនបើអ្នកវាយប្រហារមានចំណេះដឹងស៊ីជម្រៅអំពីរបៀបដែលប្រព័ន្ធដំណើរការ។ ត្រូវការអ្នកជំនាញកម្រិតខ្ពស់ ហើយជារឿយៗមិនអាចអនុវត្តបានលើចំនួនមេរោគច្រើនដោយស្វ័យប្រវត្តិ ឬមិនអាចទាយដឹងពីលក្ខណៈវិនិច្ឆ័យរបស់ AI។ មិនមានប្រសិទ្ធភាពគ្រប់គ្រាន់ក្នុងការវាយតម្លៃភាពរឹងមាំរបស់ម៉ូដែល AI ទាំងមូលនោះទេ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការពិសោធន៍នេះទាមទារធនធានកុំព្យូទ័រមធ្យម ប៉ុន្តែត្រូវការបរិស្ថានពិសោធន៍ដែលស្មុគស្មាញ (Virtualization)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណាកមេរោគពី Contagio archive ដែលជាទិន្នន័យសាធារណៈ។ ទោះបីជាវាល្អសម្រាប់ការស្រាវជ្រាវ ប៉ុន្តែសម្រាប់បរិបទកម្ពុជា មេរោគដែលវាយប្រហារជាក់ស្តែងអាចមានលក្ខណៈខុសប្លែកគ្នា (ដូចជាការប្រើប្រាស់ពុម្ពអក្សរខ្មែរ ឬឯកសាររដ្ឋបាល) ដែលមិនមាននៅក្នុងទិន្នន័យនេះ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសារៈសំខាន់ខ្លាំងសម្រាប់វិស័យសន្តិសុខសាយប័រនៅកម្ពុជា ដើម្បីត្រៀមខ្លួនទប់ទល់នឹងការវាយប្រហារដោយប្រើ AI។

លទ្ធផលនៃការសិក្សានេះគឺជាការដាស់តឿនមួយថា ស្ថាប័ននៅកម្ពុជាមិនគួរពឹងផ្អែកទាំងស្រុងលើ AI ក្នុងការចាប់មេរោគនោះទេ ព្រោះវាអាចត្រូវបានគេបន្លំបានយ៉ាងងាយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃឯកសារ PDF: និស្សិតត្រូវស្វែងយល់ពីរចនាសម្ព័ន្ធរបស់ឯកសារ PDF (Objects, Body, Trailer) និងរបៀបដែលបណ្ណាល័យ Python ដូចជា 'pdfrw' ដំណើរការ។
  2. រៀបចំប្រព័ន្ធពិសោធន៍ Cuckoo Sandbox: ដំឡើង និងកំណត់រចនាសម្ព័ន្ធ 'Cuckoo Sandbox' លើកុំព្យូទ័រដែលមាន RAM យ៉ាងតិច 16GB ដើម្បីអាចធ្វើការវិភាគមេរោគដោយសុវត្ថិភាព។
  3. ទាញយក និងសាកល្បងកូដ EvadeML: ទាញយកកូដពីគម្រោង 'EvadeML' (ដែលបានបញ្ជាក់ក្នុងឯកសារ) ហើយសាកល្បងដំណើរការជាមួយសំណាកមេរោគ PDF ចំនួនតូច (១០-២០ ឯកសារ) ជាមុនសិន។
  4. វិភាគលក្ខណៈសម្បត្តិ (Feature Analysis): ធ្វើការប្រៀបធៀបឯកសារដើម និងឯកសារដែលបានកែប្រែ ដើម្បីយល់ថាហេតុអ្វីបានជាម៉ូដែល AI បរាជ័យក្នុងការចាប់ (ឧទាហរណ៍៖ ការបន្ថែម Object ក្លែងក្លាយ)។
  5. អភិវឌ្ឍយុទ្ធសាស្ត្រការពារ: បន្ទាប់ពីយល់ពីចំណុចខ្សោយ និស្សិតគួរព្យាយាមស្នើវិធីសាស្ត្របណ្តុះបណ្តាលម៉ូដែលឡើងវិញ (Retraining) ដោយបញ្ចូលទិន្នន័យដែលបានកែប្រែទាំងនោះ ដើម្បីធ្វើឱ្យ AI កាន់តែឆ្លាតវៃ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Genetic Programming (GP) ជាបច្ចេកទេសមួយនៃបញ្ញាសិប្បនិម្មិតដែលយកគំរូតាមដំណើរវិវត្តន៍នៃធម្មជាតិ (Natural Selection)។ នៅក្នុងអត្ថបទនេះ វាត្រូវបានប្រើដើម្បីកែប្រែកូដមេរោគដោយចៃដន្យ (ដូចជាការផ្លាស់ប្តូរហ្សែន) រហូតដល់រកឃើញទម្រង់មួយដែលអាចគេចផុតពីការចាប់បានរបស់ប្រព័ន្ធសុវត្ថិភាព។ ដូចជាការបង្កាត់ពូជដំណាំជាច្រើនជំនាន់ ដើម្បីទទួលបានផ្លែឈើដែលមានរសជាតិឆ្ងាញ់ និងធន់នឹងសត្វល្អិតបំផុត។
Evasion Attack គឺជាការប៉ុនប៉ងរបស់អ្នកវាយប្រហារក្នុងការកែប្រែទិន្នន័យ (ដូចជាឯកសារ PDF មេរោគ) ក្នុងគោលបំណងបោកបញ្ឆោតប្រព័ន្ធ AI ឱ្យយល់ច្រឡំថាវាជាឯកសារសុវត្ថិភាព ខណៈដែលវានៅតែមានសមត្ថភាពបង្កគ្រោះថ្នាក់ដដែល។ ប្រៀបដូចជាចោរដែលពាក់ឯកសណ្ឋានប៉ូលិស ដើម្បីដើរកាត់ប៉ុស្តិ៍ត្រួតពិនិត្យដោយមិនឱ្យគេចាប់បាន។
Oracle នៅក្នុងបរិបទនៃការស្រាវជ្រាវនេះ Oracle គឺជាប្រព័ន្ធ ឬយន្តការមួយដែលផ្តល់នូវ «ចម្លើយដ៏ត្រឹមត្រូវ» ថាតើឯកសារមួយពិតជាមេរោគ ឬអត់ ដោយមិនពឹងផ្អែកលើការទស្សន៍ទាយរបស់ AI ឡើយ (ជាធម្មតាប្រើ Sandbox ដើម្បីពិនិត្យជាក់ស្តែង)។ ដូចជាសន្លឹកចម្លើយវិញ្ញាសាប្រឡង ដែលគ្រូប្រើដើម្បីផ្ទៀងផ្ទាត់ថាចម្លើយរបស់សិស្សត្រូវ ឬខុស។
Feature Space ជាលំហគណិតវិទ្យាដែលតំណាងឱ្យលក្ខណៈសម្បត្តិផ្សេងៗនៃទិន្នន័យ។ ប្រព័ន្ធ AI មើលឯកសារមិនមែនជាអក្សរទេ ប៉ុន្តែជាចំណុចនៅក្នុងលំហនេះ។ ការវាយប្រហារគឺព្យាយាមផ្លាស់ទីចំណុចតំណាងមេរោគ ទៅក្នុងតំបន់ដែល AI ស្គាល់ថាជា «ឯកសារល្អ»។ ដូចជាការកំណត់អត្តសញ្ញាណមនុស្សដោយប្រើ កម្ពស់ ទម្ងន់ និងពណ៌ភ្នែក (Features) ជំនួសឱ្យការប្រើឈ្មោះ ឬរូបថត។
Sandbox ជាបរិស្ថានកុំព្យូទ័រដាច់ដោយឡែក និងមានសុវត្ថិភាព ដែលត្រូវបានប្រើដើម្បីដំណើរការកូដដែលគួរឱ្យសង្ស័យ។ វាអនុញ្ញាតឱ្យអ្នកស្រាវជ្រាវមើលឃើញពីឥរិយាបថពិតប្រាកដរបស់មេរោគ ដោយមិនធ្វើឱ្យប៉ះពាល់ដល់ប្រព័ន្ធកុំព្យូទ័រទាំងមូល។ ដូចជាបន្ទប់ពិសោធន៍ដែលមានកញ្ចក់ការពារ ដែលអ្នកវិទ្យាសាស្ត្រអាចសិក្សាពីមេរោគកាចសាហាវដោយមិនខ្លាចឆ្លង។
Structural Paths គឺជាវិធីសាស្ត្រនៃការវិភាគឯកសារ PDF ដោយមើលទៅលើរចនាសម្ព័ន្ធដើមឈើ (Tree structure) នៃឯកសារនោះ ថាតើវត្ថុ (Object) នីមួយៗតភ្ជាប់គ្នាដូចម្តេច។ ម៉ូដែល Hidost ប្រើប្រាស់វិធីនេះដើម្បីចាប់មេរោគ។ ដូចជាការមើលប្លង់ផ្ទះដើម្បីដឹងថាបន្ទប់ណាជាប់បន្ទប់ណា ជាជាងការមើលតែគ្រឿងសង្ហារិមនៅក្នុងផ្ទះនោះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖