Original Title: Modeling Phishing Decisions using Instance Based Learning and Natural Language Processing
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើម៉ូដែលលើការសម្រេចចិត្តទាក់ទងនឹងការបោកបញ្ឆោត (Phishing) ដោយប្រើការរៀនសូត្រផ្អែកលើករណីជាក់ស្តែង (Instance Based Learning) និងដំណើរការភាសាធម្មជាតិ (Natural Language Processing)

ចំណងជើងដើម៖ Modeling Phishing Decisions using Instance Based Learning and Natural Language Processing

អ្នកនិពន្ធ៖ Tianhao Xu (University of Washington), Kuldeep Singh (Carnegie Mellon University), Prashanth Rajivan (University of Washington)

ឆ្នាំបោះពុម្ព៖ N/A

វិស័យសិក្សា៖ Cybersecurity and Cognitive Modeling

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយលើបញ្ហាកង្វះខាតម៉ូដែលទ្រឹស្តី ដែលអាចពន្យល់ និងទស្សន៍ទាយពីសក្ដានុពលនៃការគិតរបស់អ្នកប្រើប្រាស់ (Cognitive dynamics) នៅពេលប្រឈមមុខនឹងអ៊ីមែលបោកបញ្ឆោត (Phishing emails)។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានបង្កើតម៉ូដែលការយល់ដឹង (Cognitive model) ដោយផ្អែកលើទ្រឹស្តីការរៀនសូត្រពីករណីជាក់ស្តែង (Instance-Based Learning Theory) រួមបញ្ចូលជាមួយវិធីសាស្ត្រដំណើរការភាសាធម្មជាតិ (NLP) ដើម្បីស្វែងយល់ពីរបៀបដែលមនុស្សវាយតម្លៃអ៊ីមែល។

ការប្រមូលទិន្នន័យពីការពិសោធន៍ (Laboratory Experiment): ការប្រមូលការឆ្លើយតបរបស់អ្នកចូលរួមចំនួន ៨៤នាក់ ទៅលើអ៊ីមែលចំនួន ៥២៩ ផ្សេងៗគ្នា រួមមានទាំងអ៊ីមែលធម្មតា និងអ៊ីមែលបោកបញ្ឆោត។
ការធ្វើម៉ូដែល IBL (IBL Cognitive Modeling): ការប្រើប្រាស់ភាសា Python (PyIBL) ដើម្បីបង្កើតម៉ូដែលយកតម្រាប់តាមប្រព័ន្ធចងចាំរបស់មនុស្សផ្អែកលើស្ថាបត្យកម្ម ACT-R។
ការវាស់ស្ទង់ភាពស្រដៀងគ្នានៃអត្ថបទដោយប្រើ NLP (Text Similarity Measurement): ការប្រើប្រាស់វិធីសាស្ត្រ LSA, GloVe, និង BERT (Sentence-BERT) ដើម្បីវិភាគអត្ថន័យ និងភាពស្រដៀងគ្នានៃអ៊ីមែល។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការប្រើប្រាស់ទិន្នន័យដែលឆ្លុះបញ្ចាំងពីការយល់ឃើញរបស់មនុស្ស (User perception) ធ្វើឱ្យភ្នាក់ងារ IBL អាចទស្សន៍ទាយការឆ្លើយតបរបស់មនុស្សចំពោះអ៊ីមែលបោកបញ្ឆោតបានយ៉ាងត្រឹមត្រូវរហូតដល់ ៧៩.៧%។
ម៉ូដែល Perception BERT ដែលត្រូវបានបង្ហាត់បន្ថែម (Fine-tuned) ទទួលបានភាពត្រឹមត្រូវ ៧១.៧% ក្នុងការទស្សន៍ទាយការសម្រេចចិត្ត ដោយវាមានសមត្ថភាពរៀនសូត្រពីភាពស្រដៀងគ្នានៃអ៊ីមែល។
វិធីសាស្ត្រ NLP បែបប្រពៃណី (ដូចជា LSA និង GloVe) ទទួលបានភាពត្រឹមត្រូវតិចជាង ៦០% ដែលបង្ហាញថាវាអាចមិនសូវមានប្រសិទ្ធភាពក្នុងការតំណាងឱ្យរបៀបដែលមនុស្សចងចាំ និងដំណើរការសារអ៊ីមែលនោះទេ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
LSA and GloVe (Traditional NLP) LSA និង GloVe (វិធីសាស្ត្រ NLP បែបប្រពៃណី)	មានសមត្ថភាពល្អក្នុងការចាប់យកភាពស្រដៀងគ្នានៃអត្ថន័យដោយផ្អែកលើប្រេកង់ និងស្ថិតិនៃពាក្យ (Word frequencies)។	មិនអាចតំណាងឱ្យរបៀបដែលមនុស្សអាន និងយល់ន័យពិតប្រាកដនៃអត្ថបទឡើយ ដែលធ្វើឱ្យវាចាត់ទុកអ៊ីមែលខុសគ្នាថាជាអ៊ីមែលស្រដៀងគ្នា។	ទទួលបានភាពត្រឹមត្រូវតិចជាង ៦០% (<60% accuracy) ក្នុងការទស្សន៍ទាយការសម្រេចចិត្តរបស់មនុស្ស។
Canonical BERT Canonical BERT (ម៉ូដែល BERT ស្តង់ដារ)	មានសមត្ថភាពយល់ដឹងពីបរិបទនៃប្រយោគទាំងមូល (Bi-directional) និងទំនាក់ទំនងរវាងពាក្យបានល្អជាងវិធីសាស្ត្រមុនៗ។	ទោះបីជាវាឆ្លាតវៃក្នុងការយល់ភាសា ប៉ុន្តែវានៅតែបរាជ័យក្នុងការចាប់យកបរិបទជ្រៅៗដែលមនុស្សចាត់ទុកថាជាចំណុចខុសគ្នានៃការបោកបញ្ឆោត។	ទទួលបានភាពត្រឹមត្រូវតិចជាង ៦០% (<60% accuracy) មិនខុសពី LSA និង GloVe ប៉ុន្មានទេ។
User Perception User Perception (ការប្រើប្រាស់ការយល់ឃើញរបស់អ្នកប្រើប្រាស់ផ្ទាល់)	ឆ្លុះបញ្ចាំងយ៉ាងច្បាស់លាស់ពីរបៀបដែលមនុស្សម្នាក់ៗវាយតម្លៃ និងចងចាំអំពីលក្ខណៈនៃសារអ៊ីមែល (Cognitive processing)។	មិនមានភាពជាក់ស្តែងសម្រាប់ការប្រើប្រាស់ក្នុងប្រព័ន្ធស្វ័យប្រវត្តិ ព្រោះវាទាមទារឱ្យមនុស្សជាអ្នករាយការណ៍ និងដាក់ស្លាក (Label) ទិន្នន័យដោយផ្ទាល់។	ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុតរហូតដល់ ៧៩.៧% (79.7% accuracy)។
Perception BERT Perception BERT (ការបង្ហាត់ BERT ផ្អែកលើការយល់ឃើញរបស់មនុស្ស)	ជាស្ពានផ្សារភ្ជាប់រវាងភាពស្វ័យប្រវត្តិនៃ NLP និងការគិតរបស់មនុស្ស ដោយវាអាចរៀនពីរបៀបដែលមនុស្សចាត់ថ្នាក់ភាពស្រដៀងគ្នានៃអ៊ីមែល។	ត្រូវការសំណុំទិន្នន័យដែលបានវាយតម្លៃដោយមនុស្សរួចជាស្រេច ដើម្បីយកមកបង្ហាត់ម៉ូដែលបន្ថែម (Fine-tuning)។	ទទួលបានភាពត្រឹមត្រូវ ៧១.៧% (71.7% accuracy) ដែលជាលទ្ធផលល្អប្រសើរបំផុតសម្រាប់ប្រព័ន្ធស្វ័យប្រវត្តិ។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីតម្រូវការធនធានកម្រិតមធ្យម ដែលសាកសមសម្រាប់អ្នកស្រាវជ្រាវដែលមានម៉ាស៊ីនផ្ទាល់ខ្លួនធម្មតា។

Hardware: ត្រូវការកុំព្យូទ័រលើតុ (Desktop) ដែលមានក្រាហ្វិកកាត (GPU) ប្រភេទ RTX 2060 សម្រាប់ការគណនា និងបង្ហាត់ម៉ូដែល BERT។
Software: ប្រើប្រាស់ភាសា Python ជាមួយកញ្ចប់កូដ PyIBL សម្រាប់ការធ្វើម៉ូដែល Cognitive និងបណ្ណាល័យ Sentence-Transformers សម្រាប់ BERT។
Dataset: សំណុំទិន្នន័យពីការពិសោធន៍ដែលមានអ្នកចូលរួម ៨៤ នាក់, សារអ៊ីមែលចំនួន ៥២៩, ការឆ្លើយតប ៦៧១២ ដង និងសំណុំទិន្នន័យ SNLI សម្រាប់ Pre-training។
Expertise: ទាមទារចំណេះដឹងផ្នែក Cognitive Architecture (ACT-R/IBLT) និងជំនាញ Deep Learning/NLP ក្នុងការធ្វើ Fine-tuning លើម៉ូដែល BERT។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកលើទិន្នន័យដែលប្រមូលបានពីអ្នកចូលរួមត្រឹមតែ ៨៤ នាក់នៅក្នុងមន្ទីរពិសោធន៍ក្នុងសហរដ្ឋអាមេរិក ជាមួយនឹងអ៊ីមែលជាភាសាអង់គ្លេសសុទ្ធ (ឧទាហរណ៍ ទិន្នន័យ Enron)។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាដែនកំណត់ដ៏ធំមួយ ព្រោះទម្រង់នៃការបោកបញ្ឆោត (Phishing) នៅកម្ពុជាច្រើនតែពាក់ព័ន្ធនឹងសារតាមតេឡេក្រាម (Telegram) សារ SMS ជាភាសាខ្មែរ ឬការលាយបញ្ចូលគ្នា (Khlish) រួមទាំងមានកម្រិតចំណេះដឹងផ្នែកឌីជីថល (Digital Literacy) ខុសគ្នាស្រឡះពីអ្នកចូលរួមក្នុងតំបន់អឺរ៉ុប។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានភាពខុសគ្នានៃទិន្នន័យក៏ដោយ វិធីសាស្ត្រនៃការបូកបញ្ចូល Cognitive Model ជាមួយ NLP នេះគឺមានតម្លៃខ្ពស់ណាស់សម្រាប់យកមកអនុវត្តនៅកម្ពុជា។

វិស័យធនាគារ និងហិរញ្ញវត្ថុ (Banking & Finance Sector): ធនាគារដូចជា ABA ឬ ACLEDA អាចប្រើប្រាស់គំរូនេះដើម្បីបង្កើតកម្មវិធីវាយតម្លៃហានិភ័យ និងបណ្តុះបណ្តាលបុគ្គលិក ដោយផ្អែកលើភាពទន់ខ្សោយផ្ទាល់ខ្លួនរបស់ពួកគេចំពោះសារបោកបញ្ឆោត។
ក្រសួង និងស្ថាប័នរដ្ឋ (Government Ministries): ក្រសួងប្រៃសណីយ៍ និងទូរគមនាគមន៍ (MPTC) អាចយកវិធីសាស្ត្រនេះទៅអភិវឌ្ឍប្រព័ន្ធចម្រោះអ៊ីមែលបោកបញ្ឆោតដែលតម្រូវតាមបរិបទមន្ត្រីរាជការ ដើម្បីការពារការលេចធ្លាយព័ត៌មានរដ្ឋ។
អង្គការក្រៅរដ្ឋាភិបាលផ្នែកសុវត្ថិភាពឌីជីថល (Digital Security NGOs): ស្ថាប័នអប់រំអាចប្រើប្រាស់ IBL Models ដើម្បីសិក្សាពីអាកប្បកិរិយារបស់ប្រជាជនកម្ពុជាចំពោះសារក្លែងបន្លំ និងបង្កើតជាយុទ្ធនាការអប់រំដែលចំគោលដៅជាងមុន។

សរុបមក ការអនុវត្តទ្រឹស្តីនេះនឹងជួយឱ្យកម្ពុជាផ្លាស់ប្តូរពីការផ្តល់ការអប់រំផ្នែកសន្តិសុខសាយប័រជាទូទៅ ទៅជាការបណ្តុះបណ្តាលដែលអាចបត់បែនបានតាមបុគ្គលម្នាក់ៗ (Personalized Training)។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីមូលដ្ឋានគ្រឹះនៃម៉ូដែល IBL: និស្សិតត្រូវចាប់ផ្តើមដោយការរៀនប្រើប្រាស់បណ្ណាល័យ PyIBL នៅក្នុងភាសា Python ដើម្បីយល់ពីរបៀបដែលកូដបង្កើតយន្តការចងចាំរបស់មនុស្ស (ACT-R theory) សម្រាប់ការសម្រេចចិត្ត។
អនុវត្តផ្ទាល់ជាមួយ NLP និង Sentence-BERT: ស្វែងយល់ពីរបៀបតំណាងទិន្នន័យអត្ថបទទៅជាវ៉ិចទ័រ ដោយប្រើប្រាស់ Sentence-Transformers package និងសាកល្បងគណនាភាពស្រដៀងគ្នាដោយប្រើក្បួន Cosine Distance លើទិន្នន័យអត្ថបទសាមញ្ញ។
ប្រមូល និងបង្កើតសំណុំទិន្នន័យបោកបញ្ឆោតបរិបទកម្ពុជា: បង្កើតសំណុំទិន្នន័យថ្មីមួយដែលផ្តោតលើសារបោកបញ្ឆោតដែលកើតមានញឹកញាប់នៅកម្ពុជា (ឧទាហរណ៍៖ សារក្លែងបន្លំឈ្នះរង្វាន់ ឬសារពីធនាគារក្លែងក្លាយ) ហើយឱ្យក្រុមអ្នកស្ម័គ្រចិត្តវាយតម្លៃសារទាំងនោះ។
បង្ហាត់ម៉ូដែល Perception BERT ជាភាសាខ្មែរ: ប្រើប្រាស់សំណុំទិន្នន័យដែលប្រមូលបាន មកធ្វើការ Fine-tune ម៉ូដែលភាសាដូចជា mBERT ឬ XLM-RoBERTa ដើម្បីឱ្យវាអាចយល់ពីភាពស្រដៀងគ្នានៃអត្ថន័យបោកបញ្ឆោតតាមការគិតរបស់ប្រជាជនខ្មែរ។
អភិវឌ្ឍប្រព័ន្ធសាកល្បង (Prototype): រួមបញ្ចូល Perception BERT ទៅក្នុងភ្នាក់ងារ IBL ដើម្បីបង្កើតជាកម្មវិធីតូចមួយ ដែលអាចធ្វើតេស្តសាកល្បងជាមួយនិស្សិតក្នុងសាកលវិទ្យាល័យ ដើម្បីទស្សន៍ទាយថាតើនរណាងាយរងគ្រោះជាងគេពីការបោកបញ្ឆោត។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Instance-Based Learning (IBL)	ជាវិធីសាស្ត្រនៃការធ្វើម៉ូដែលមួយដែលសន្មតថា ការសម្រេចចិត្តរបស់មនុស្សគឺធ្វើឡើងដោយការទាញយកបទពិសោធន៍ ឬព្រឹត្តិការណ៍ស្រដៀងគ្នា (Instances) ពីអតីតកាលដែលបានរក្សាទុកក្នុងអង្គចងចាំមកថ្លឹងថ្លែង។	ដូចជាពេលយើងសម្រេចចិត្តទិញទំនិញមួយ ដោយនឹកឃើញដល់បទពិសោធន៍ដែលធ្លាប់ទិញរបស់ស្រដៀងគ្នានេះកាលពីមុនយកមកធ្វើជាគោល។
ACT-R (Adaptive Control of Thought-Rational)	ជាស្ថាបត្យកម្មនៃការយល់ដឹង (Cognitive architecture) ដែលព្យាយាមយកតម្រាប់តាមយន្តការខួរក្បាលរបស់មនុស្ស ក្នុងការរៀបចំចំណេះដឹង និងរបៀបដែលមនុស្សចងចាំ ឬភ្លេចព័ត៌មានដោយផ្អែកលើពេលវេលា និងភាពញឹកញាប់។	ដូចជាប្រព័ន្ធបណ្ណាល័យខួរក្បាល ដែលសៀវភៅណាដែលឧស្សាហ៍អាន ឬទើបតែអានថ្មីៗ ត្រូវបានដាក់នៅជិតដៃងាយស្រួលទាញយកមកប្រើជាងសៀវភៅចាស់ៗ។
Latent Semantic Analysis (LSA)	ជាក្បួនវិភាគភាសាបែបប្រពៃណីមួយ ដែលវាស់ស្ទង់ភាពស្រដៀងគ្នានៃអត្ថបទដោយរាប់ចំនួនប្រេកង់នៃពាក្យដែលប្រើ (Bag-of-words) ដោយមិនបានខ្វល់ពីលំដាប់លំដោយ ឬអត្ថន័យជ្រៅនៃបរិបទប្រយោគឡើយ។	ដូចជាការចាត់ថ្នាក់សៀវភៅចូលទូតែមួយ ដោយគ្រាន់តែរាប់មើលថាតើសៀវភៅទាំងនោះមានពាក្យ "ធនាគារ" ប៉ុន្មានដង ដោយមិនខ្វល់ពីអត្ថន័យនៃសាច់រឿងទាំងមូល។
GloVe (Global Vectors)	ជាក្បួនអភិវឌ្ឍន៍ដោយម៉ាស៊ីន (Machine-learned algorithm) សម្រាប់បំប្លែងពាក្យទៅជាតួលេខ (Vectors) ដោយចាប់យកទំនាក់ទំនងរបស់ពាក្យផ្អែកលើស្ថិតិដែលពាក្យទាំងនោះឧស្សាហ៍កើតឡើងជាមួយគ្នានៅក្នុងទិន្នន័យអត្ថបទធំៗ។	ដូចជាការគូសផែនទីពាក្យ ដែលពាក្យ "ពេទ្យ" និង "ថ្នាំ" ត្រូវបានដាក់នៅទីតាំងជិតគ្នា ព្រោះវាឧស្សាហ៍លេចឡើងជាមួយគ្នានៅក្នុងអត្ថបទ។
Bi-directional Encoder Representation (BERT)	ជាម៉ូដែល AI ដ៏ឆ្លាតវៃសម្រាប់យល់ភាសា ដែលមានសមត្ថភាពអានអត្ថបទទាំងទៅមុខ និងថយក្រោយក្នុងពេលតែមួយ ដើម្បីចាប់យកបរិបទ និងអត្ថន័យពិតប្រាកដនៃពាក្យនីមួយៗនៅក្នុងប្រយោគ។	ដូចជាមនុស្សដែលអានប្រយោគទាំងមូលឱ្យចប់សិន ទើបអាចយល់ន័យពិតប្រាកដនៃពាក្យនីមួយៗ មិនមែនប្រែត្រង់ៗតាមពាក្យមួយៗពីមុខទៅក្រោយឡើយ។
Cosine Distance	ជារូបមន្តគណិតវិទ្យាដែលត្រូវបានប្រើដើម្បីវាស់ស្ទង់ភាពស្រដៀងគ្នា (Similarity) រវាងសំណុំទិន្នន័យពីរ (Vectors) ដោយគណនាមុំរវាងពួកវា ទោះបីជាសំណុំទិន្នន័យទាំងនោះមានទំហំខុសគ្នាក៏ដោយ។	ដូចជាការវាស់ស្ទង់មើលថាតើឡានពីរតម្រង់ក្បាលទៅទិសដៅតែមួយឬអត់ ទោះបីជាឡានមួយបើកលឿនជាងឡានមួយទៀតក៏ដោយ។
Mismatch Penalty	គឺជាប៉ារ៉ាម៉ែត្រមួយនៅក្នុងម៉ូដែល IBL ដែលដើរតួនាទីកាត់បន្ថយពិន្ទុ ឬដាក់ពិន័យនៅពេលដែលលក្ខណៈនៃព្រឹត្តិការណ៍បច្ចុប្បន្ន មិនស៊ីគ្នាទាំងស្រុងជាមួយនឹងបទពិសោធន៍ដែលធ្លាប់មាននៅក្នុងការចងចាំ។	ដូចជាការកាត់ពិន្ទុការទុកចិត្តរបស់អ្នក នៅពេលដែលអ្នកឃើញសារមួយមានទម្រង់ស្រដៀងធនាគាររបស់អ្នក តែមានអក្ខរាវិរុទ្ធខុសខុសពីធម្មតា។
Activation	នៅក្នុងទ្រឹស្តីការចងចាំ វាគឺជារង្វាស់ដែលកំណត់ថាតើព័ត៌មានណាមួយងាយស្រួលទាញយកចេញពីខួរក្បាលកម្រិតណា ដោយព័ត៌មានដែលទើបតែជួបប្រទះ ឬជួបញឹកញាប់ មានកម្រិត Activation ខ្ពស់។	ដូចជាការដាក់កម្មវិធី (Apps) ដែលប្រើញឹកញាប់នៅលើអេក្រង់ទូរស័ព្ទខាងមុខគេ ដើម្បីឱ្យយើងអាចងាយស្រួលចុចបើកប្រើបានលឿនជាងកម្មវិធីផ្សេងៗ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖