Original Title: Modeling Phishing Decisions using Instance Based Learning and Natural Language Processing
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើម៉ូដែលលើការសម្រេចចិត្តទាក់ទងនឹងការបោកបញ្ឆោត (Phishing) ដោយប្រើការរៀនសូត្រផ្អែកលើករណីជាក់ស្តែង (Instance Based Learning) និងដំណើរការភាសាធម្មជាតិ (Natural Language Processing)

ចំណងជើងដើម៖ Modeling Phishing Decisions using Instance Based Learning and Natural Language Processing

អ្នកនិពន្ធ៖ Tianhao Xu (University of Washington), Kuldeep Singh (Carnegie Mellon University), Prashanth Rajivan (University of Washington)

ឆ្នាំបោះពុម្ព៖ N/A

វិស័យសិក្សា៖ Cybersecurity and Cognitive Modeling

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយលើបញ្ហាកង្វះខាតម៉ូដែលទ្រឹស្តី ដែលអាចពន្យល់ និងទស្សន៍ទាយពីសក្ដានុពលនៃការគិតរបស់អ្នកប្រើប្រាស់ (Cognitive dynamics) នៅពេលប្រឈមមុខនឹងអ៊ីមែលបោកបញ្ឆោត (Phishing emails)។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានបង្កើតម៉ូដែលការយល់ដឹង (Cognitive model) ដោយផ្អែកលើទ្រឹស្តីការរៀនសូត្រពីករណីជាក់ស្តែង (Instance-Based Learning Theory) រួមបញ្ចូលជាមួយវិធីសាស្ត្រដំណើរការភាសាធម្មជាតិ (NLP) ដើម្បីស្វែងយល់ពីរបៀបដែលមនុស្សវាយតម្លៃអ៊ីមែល។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
LSA and GloVe (Traditional NLP)
LSA និង GloVe (វិធីសាស្ត្រ NLP បែបប្រពៃណី)
មានសមត្ថភាពល្អក្នុងការចាប់យកភាពស្រដៀងគ្នានៃអត្ថន័យដោយផ្អែកលើប្រេកង់ និងស្ថិតិនៃពាក្យ (Word frequencies)។ មិនអាចតំណាងឱ្យរបៀបដែលមនុស្សអាន និងយល់ន័យពិតប្រាកដនៃអត្ថបទឡើយ ដែលធ្វើឱ្យវាចាត់ទុកអ៊ីមែលខុសគ្នាថាជាអ៊ីមែលស្រដៀងគ្នា។ ទទួលបានភាពត្រឹមត្រូវតិចជាង ៦០% (<60% accuracy) ក្នុងការទស្សន៍ទាយការសម្រេចចិត្តរបស់មនុស្ស។
Canonical BERT
Canonical BERT (ម៉ូដែល BERT ស្តង់ដារ)
មានសមត្ថភាពយល់ដឹងពីបរិបទនៃប្រយោគទាំងមូល (Bi-directional) និងទំនាក់ទំនងរវាងពាក្យបានល្អជាងវិធីសាស្ត្រមុនៗ។ ទោះបីជាវាឆ្លាតវៃក្នុងការយល់ភាសា ប៉ុន្តែវានៅតែបរាជ័យក្នុងការចាប់យកបរិបទជ្រៅៗដែលមនុស្សចាត់ទុកថាជាចំណុចខុសគ្នានៃការបោកបញ្ឆោត។ ទទួលបានភាពត្រឹមត្រូវតិចជាង ៦០% (<60% accuracy) មិនខុសពី LSA និង GloVe ប៉ុន្មានទេ។
User Perception
User Perception (ការប្រើប្រាស់ការយល់ឃើញរបស់អ្នកប្រើប្រាស់ផ្ទាល់)
ឆ្លុះបញ្ចាំងយ៉ាងច្បាស់លាស់ពីរបៀបដែលមនុស្សម្នាក់ៗវាយតម្លៃ និងចងចាំអំពីលក្ខណៈនៃសារអ៊ីមែល (Cognitive processing)។ មិនមានភាពជាក់ស្តែងសម្រាប់ការប្រើប្រាស់ក្នុងប្រព័ន្ធស្វ័យប្រវត្តិ ព្រោះវាទាមទារឱ្យមនុស្សជាអ្នករាយការណ៍ និងដាក់ស្លាក (Label) ទិន្នន័យដោយផ្ទាល់។ ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុតរហូតដល់ ៧៩.៧% (79.7% accuracy)។
Perception BERT
Perception BERT (ការបង្ហាត់ BERT ផ្អែកលើការយល់ឃើញរបស់មនុស្ស)
ជាស្ពានផ្សារភ្ជាប់រវាងភាពស្វ័យប្រវត្តិនៃ NLP និងការគិតរបស់មនុស្ស ដោយវាអាចរៀនពីរបៀបដែលមនុស្សចាត់ថ្នាក់ភាពស្រដៀងគ្នានៃអ៊ីមែល។ ត្រូវការសំណុំទិន្នន័យដែលបានវាយតម្លៃដោយមនុស្សរួចជាស្រេច ដើម្បីយកមកបង្ហាត់ម៉ូដែលបន្ថែម (Fine-tuning)។ ទទួលបានភាពត្រឹមត្រូវ ៧១.៧% (71.7% accuracy) ដែលជាលទ្ធផលល្អប្រសើរបំផុតសម្រាប់ប្រព័ន្ធស្វ័យប្រវត្តិ។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីតម្រូវការធនធានកម្រិតមធ្យម ដែលសាកសមសម្រាប់អ្នកស្រាវជ្រាវដែលមានម៉ាស៊ីនផ្ទាល់ខ្លួនធម្មតា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកលើទិន្នន័យដែលប្រមូលបានពីអ្នកចូលរួមត្រឹមតែ ៨៤ នាក់នៅក្នុងមន្ទីរពិសោធន៍ក្នុងសហរដ្ឋអាមេរិក ជាមួយនឹងអ៊ីមែលជាភាសាអង់គ្លេសសុទ្ធ (ឧទាហរណ៍ ទិន្នន័យ Enron)។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាដែនកំណត់ដ៏ធំមួយ ព្រោះទម្រង់នៃការបោកបញ្ឆោត (Phishing) នៅកម្ពុជាច្រើនតែពាក់ព័ន្ធនឹងសារតាមតេឡេក្រាម (Telegram) សារ SMS ជាភាសាខ្មែរ ឬការលាយបញ្ចូលគ្នា (Khlish) រួមទាំងមានកម្រិតចំណេះដឹងផ្នែកឌីជីថល (Digital Literacy) ខុសគ្នាស្រឡះពីអ្នកចូលរួមក្នុងតំបន់អឺរ៉ុប។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានភាពខុសគ្នានៃទិន្នន័យក៏ដោយ វិធីសាស្ត្រនៃការបូកបញ្ចូល Cognitive Model ជាមួយ NLP នេះគឺមានតម្លៃខ្ពស់ណាស់សម្រាប់យកមកអនុវត្តនៅកម្ពុជា។

សរុបមក ការអនុវត្តទ្រឹស្តីនេះនឹងជួយឱ្យកម្ពុជាផ្លាស់ប្តូរពីការផ្តល់ការអប់រំផ្នែកសន្តិសុខសាយប័រជាទូទៅ ទៅជាការបណ្តុះបណ្តាលដែលអាចបត់បែនបានតាមបុគ្គលម្នាក់ៗ (Personalized Training)។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាពីមូលដ្ឋានគ្រឹះនៃម៉ូដែល IBL: និស្សិតត្រូវចាប់ផ្តើមដោយការរៀនប្រើប្រាស់បណ្ណាល័យ PyIBL នៅក្នុងភាសា Python ដើម្បីយល់ពីរបៀបដែលកូដបង្កើតយន្តការចងចាំរបស់មនុស្ស (ACT-R theory) សម្រាប់ការសម្រេចចិត្ត។
  2. អនុវត្តផ្ទាល់ជាមួយ NLP និង Sentence-BERT: ស្វែងយល់ពីរបៀបតំណាងទិន្នន័យអត្ថបទទៅជាវ៉ិចទ័រ ដោយប្រើប្រាស់ Sentence-Transformers package និងសាកល្បងគណនាភាពស្រដៀងគ្នាដោយប្រើក្បួន Cosine Distance លើទិន្នន័យអត្ថបទសាមញ្ញ។
  3. ប្រមូល និងបង្កើតសំណុំទិន្នន័យបោកបញ្ឆោតបរិបទកម្ពុជា: បង្កើតសំណុំទិន្នន័យថ្មីមួយដែលផ្តោតលើសារបោកបញ្ឆោតដែលកើតមានញឹកញាប់នៅកម្ពុជា (ឧទាហរណ៍៖ សារក្លែងបន្លំឈ្នះរង្វាន់ ឬសារពីធនាគារក្លែងក្លាយ) ហើយឱ្យក្រុមអ្នកស្ម័គ្រចិត្តវាយតម្លៃសារទាំងនោះ។
  4. បង្ហាត់ម៉ូដែល Perception BERT ជាភាសាខ្មែរ: ប្រើប្រាស់សំណុំទិន្នន័យដែលប្រមូលបាន មកធ្វើការ Fine-tune ម៉ូដែលភាសាដូចជា mBERTXLM-RoBERTa ដើម្បីឱ្យវាអាចយល់ពីភាពស្រដៀងគ្នានៃអត្ថន័យបោកបញ្ឆោតតាមការគិតរបស់ប្រជាជនខ្មែរ។
  5. អភិវឌ្ឍប្រព័ន្ធសាកល្បង (Prototype): រួមបញ្ចូល Perception BERT ទៅក្នុងភ្នាក់ងារ IBL ដើម្បីបង្កើតជាកម្មវិធីតូចមួយ ដែលអាចធ្វើតេស្តសាកល្បងជាមួយនិស្សិតក្នុងសាកលវិទ្យាល័យ ដើម្បីទស្សន៍ទាយថាតើនរណាងាយរងគ្រោះជាងគេពីការបោកបញ្ឆោត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Instance-Based Learning (IBL) ជាវិធីសាស្ត្រនៃការធ្វើម៉ូដែលមួយដែលសន្មតថា ការសម្រេចចិត្តរបស់មនុស្សគឺធ្វើឡើងដោយការទាញយកបទពិសោធន៍ ឬព្រឹត្តិការណ៍ស្រដៀងគ្នា (Instances) ពីអតីតកាលដែលបានរក្សាទុកក្នុងអង្គចងចាំមកថ្លឹងថ្លែង។ ដូចជាពេលយើងសម្រេចចិត្តទិញទំនិញមួយ ដោយនឹកឃើញដល់បទពិសោធន៍ដែលធ្លាប់ទិញរបស់ស្រដៀងគ្នានេះកាលពីមុនយកមកធ្វើជាគោល។
ACT-R (Adaptive Control of Thought-Rational) ជាស្ថាបត្យកម្មនៃការយល់ដឹង (Cognitive architecture) ដែលព្យាយាមយកតម្រាប់តាមយន្តការខួរក្បាលរបស់មនុស្ស ក្នុងការរៀបចំចំណេះដឹង និងរបៀបដែលមនុស្សចងចាំ ឬភ្លេចព័ត៌មានដោយផ្អែកលើពេលវេលា និងភាពញឹកញាប់។ ដូចជាប្រព័ន្ធបណ្ណាល័យខួរក្បាល ដែលសៀវភៅណាដែលឧស្សាហ៍អាន ឬទើបតែអានថ្មីៗ ត្រូវបានដាក់នៅជិតដៃងាយស្រួលទាញយកមកប្រើជាងសៀវភៅចាស់ៗ។
Latent Semantic Analysis (LSA) ជាក្បួនវិភាគភាសាបែបប្រពៃណីមួយ ដែលវាស់ស្ទង់ភាពស្រដៀងគ្នានៃអត្ថបទដោយរាប់ចំនួនប្រេកង់នៃពាក្យដែលប្រើ (Bag-of-words) ដោយមិនបានខ្វល់ពីលំដាប់លំដោយ ឬអត្ថន័យជ្រៅនៃបរិបទប្រយោគឡើយ។ ដូចជាការចាត់ថ្នាក់សៀវភៅចូលទូតែមួយ ដោយគ្រាន់តែរាប់មើលថាតើសៀវភៅទាំងនោះមានពាក្យ "ធនាគារ" ប៉ុន្មានដង ដោយមិនខ្វល់ពីអត្ថន័យនៃសាច់រឿងទាំងមូល។
GloVe (Global Vectors) ជាក្បួនអភិវឌ្ឍន៍ដោយម៉ាស៊ីន (Machine-learned algorithm) សម្រាប់បំប្លែងពាក្យទៅជាតួលេខ (Vectors) ដោយចាប់យកទំនាក់ទំនងរបស់ពាក្យផ្អែកលើស្ថិតិដែលពាក្យទាំងនោះឧស្សាហ៍កើតឡើងជាមួយគ្នានៅក្នុងទិន្នន័យអត្ថបទធំៗ។ ដូចជាការគូសផែនទីពាក្យ ដែលពាក្យ "ពេទ្យ" និង "ថ្នាំ" ត្រូវបានដាក់នៅទីតាំងជិតគ្នា ព្រោះវាឧស្សាហ៍លេចឡើងជាមួយគ្នានៅក្នុងអត្ថបទ។
Bi-directional Encoder Representation (BERT) ជាម៉ូដែល AI ដ៏ឆ្លាតវៃសម្រាប់យល់ភាសា ដែលមានសមត្ថភាពអានអត្ថបទទាំងទៅមុខ និងថយក្រោយក្នុងពេលតែមួយ ដើម្បីចាប់យកបរិបទ និងអត្ថន័យពិតប្រាកដនៃពាក្យនីមួយៗនៅក្នុងប្រយោគ។ ដូចជាមនុស្សដែលអានប្រយោគទាំងមូលឱ្យចប់សិន ទើបអាចយល់ន័យពិតប្រាកដនៃពាក្យនីមួយៗ មិនមែនប្រែត្រង់ៗតាមពាក្យមួយៗពីមុខទៅក្រោយឡើយ។
Cosine Distance ជារូបមន្តគណិតវិទ្យាដែលត្រូវបានប្រើដើម្បីវាស់ស្ទង់ភាពស្រដៀងគ្នា (Similarity) រវាងសំណុំទិន្នន័យពីរ (Vectors) ដោយគណនាមុំរវាងពួកវា ទោះបីជាសំណុំទិន្នន័យទាំងនោះមានទំហំខុសគ្នាក៏ដោយ។ ដូចជាការវាស់ស្ទង់មើលថាតើឡានពីរតម្រង់ក្បាលទៅទិសដៅតែមួយឬអត់ ទោះបីជាឡានមួយបើកលឿនជាងឡានមួយទៀតក៏ដោយ។
Mismatch Penalty គឺជាប៉ារ៉ាម៉ែត្រមួយនៅក្នុងម៉ូដែល IBL ដែលដើរតួនាទីកាត់បន្ថយពិន្ទុ ឬដាក់ពិន័យនៅពេលដែលលក្ខណៈនៃព្រឹត្តិការណ៍បច្ចុប្បន្ន មិនស៊ីគ្នាទាំងស្រុងជាមួយនឹងបទពិសោធន៍ដែលធ្លាប់មាននៅក្នុងការចងចាំ។ ដូចជាការកាត់ពិន្ទុការទុកចិត្តរបស់អ្នក នៅពេលដែលអ្នកឃើញសារមួយមានទម្រង់ស្រដៀងធនាគាររបស់អ្នក តែមានអក្ខរាវិរុទ្ធខុសខុសពីធម្មតា។
Activation នៅក្នុងទ្រឹស្តីការចងចាំ វាគឺជារង្វាស់ដែលកំណត់ថាតើព័ត៌មានណាមួយងាយស្រួលទាញយកចេញពីខួរក្បាលកម្រិតណា ដោយព័ត៌មានដែលទើបតែជួបប្រទះ ឬជួបញឹកញាប់ មានកម្រិត Activation ខ្ពស់។ ដូចជាការដាក់កម្មវិធី (Apps) ដែលប្រើញឹកញាប់នៅលើអេក្រង់ទូរស័ព្ទខាងមុខគេ ដើម្បីឱ្យយើងអាចងាយស្រួលចុចបើកប្រើបានលឿនជាងកម្មវិធីផ្សេងៗ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖