បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយលើបញ្ហាកង្វះខាតម៉ូដែលទ្រឹស្តី ដែលអាចពន្យល់ និងទស្សន៍ទាយពីសក្ដានុពលនៃការគិតរបស់អ្នកប្រើប្រាស់ (Cognitive dynamics) នៅពេលប្រឈមមុខនឹងអ៊ីមែលបោកបញ្ឆោត (Phishing emails)។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានបង្កើតម៉ូដែលការយល់ដឹង (Cognitive model) ដោយផ្អែកលើទ្រឹស្តីការរៀនសូត្រពីករណីជាក់ស្តែង (Instance-Based Learning Theory) រួមបញ្ចូលជាមួយវិធីសាស្ត្រដំណើរការភាសាធម្មជាតិ (NLP) ដើម្បីស្វែងយល់ពីរបៀបដែលមនុស្សវាយតម្លៃអ៊ីមែល។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| LSA and GloVe (Traditional NLP) LSA និង GloVe (វិធីសាស្ត្រ NLP បែបប្រពៃណី) |
មានសមត្ថភាពល្អក្នុងការចាប់យកភាពស្រដៀងគ្នានៃអត្ថន័យដោយផ្អែកលើប្រេកង់ និងស្ថិតិនៃពាក្យ (Word frequencies)។ | មិនអាចតំណាងឱ្យរបៀបដែលមនុស្សអាន និងយល់ន័យពិតប្រាកដនៃអត្ថបទឡើយ ដែលធ្វើឱ្យវាចាត់ទុកអ៊ីមែលខុសគ្នាថាជាអ៊ីមែលស្រដៀងគ្នា។ | ទទួលបានភាពត្រឹមត្រូវតិចជាង ៦០% (<60% accuracy) ក្នុងការទស្សន៍ទាយការសម្រេចចិត្តរបស់មនុស្ស។ |
| Canonical BERT Canonical BERT (ម៉ូដែល BERT ស្តង់ដារ) |
មានសមត្ថភាពយល់ដឹងពីបរិបទនៃប្រយោគទាំងមូល (Bi-directional) និងទំនាក់ទំនងរវាងពាក្យបានល្អជាងវិធីសាស្ត្រមុនៗ។ | ទោះបីជាវាឆ្លាតវៃក្នុងការយល់ភាសា ប៉ុន្តែវានៅតែបរាជ័យក្នុងការចាប់យកបរិបទជ្រៅៗដែលមនុស្សចាត់ទុកថាជាចំណុចខុសគ្នានៃការបោកបញ្ឆោត។ | ទទួលបានភាពត្រឹមត្រូវតិចជាង ៦០% (<60% accuracy) មិនខុសពី LSA និង GloVe ប៉ុន្មានទេ។ |
| User Perception User Perception (ការប្រើប្រាស់ការយល់ឃើញរបស់អ្នកប្រើប្រាស់ផ្ទាល់) |
ឆ្លុះបញ្ចាំងយ៉ាងច្បាស់លាស់ពីរបៀបដែលមនុស្សម្នាក់ៗវាយតម្លៃ និងចងចាំអំពីលក្ខណៈនៃសារអ៊ីមែល (Cognitive processing)។ | មិនមានភាពជាក់ស្តែងសម្រាប់ការប្រើប្រាស់ក្នុងប្រព័ន្ធស្វ័យប្រវត្តិ ព្រោះវាទាមទារឱ្យមនុស្សជាអ្នករាយការណ៍ និងដាក់ស្លាក (Label) ទិន្នន័យដោយផ្ទាល់។ | ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុតរហូតដល់ ៧៩.៧% (79.7% accuracy)។ |
| Perception BERT Perception BERT (ការបង្ហាត់ BERT ផ្អែកលើការយល់ឃើញរបស់មនុស្ស) |
ជាស្ពានផ្សារភ្ជាប់រវាងភាពស្វ័យប្រវត្តិនៃ NLP និងការគិតរបស់មនុស្ស ដោយវាអាចរៀនពីរបៀបដែលមនុស្សចាត់ថ្នាក់ភាពស្រដៀងគ្នានៃអ៊ីមែល។ | ត្រូវការសំណុំទិន្នន័យដែលបានវាយតម្លៃដោយមនុស្សរួចជាស្រេច ដើម្បីយកមកបង្ហាត់ម៉ូដែលបន្ថែម (Fine-tuning)។ | ទទួលបានភាពត្រឹមត្រូវ ៧១.៧% (71.7% accuracy) ដែលជាលទ្ធផលល្អប្រសើរបំផុតសម្រាប់ប្រព័ន្ធស្វ័យប្រវត្តិ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីតម្រូវការធនធានកម្រិតមធ្យម ដែលសាកសមសម្រាប់អ្នកស្រាវជ្រាវដែលមានម៉ាស៊ីនផ្ទាល់ខ្លួនធម្មតា។
ការសិក្សានេះពឹងផ្អែកលើទិន្នន័យដែលប្រមូលបានពីអ្នកចូលរួមត្រឹមតែ ៨៤ នាក់នៅក្នុងមន្ទីរពិសោធន៍ក្នុងសហរដ្ឋអាមេរិក ជាមួយនឹងអ៊ីមែលជាភាសាអង់គ្លេសសុទ្ធ (ឧទាហរណ៍ ទិន្នន័យ Enron)។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាដែនកំណត់ដ៏ធំមួយ ព្រោះទម្រង់នៃការបោកបញ្ឆោត (Phishing) នៅកម្ពុជាច្រើនតែពាក់ព័ន្ធនឹងសារតាមតេឡេក្រាម (Telegram) សារ SMS ជាភាសាខ្មែរ ឬការលាយបញ្ចូលគ្នា (Khlish) រួមទាំងមានកម្រិតចំណេះដឹងផ្នែកឌីជីថល (Digital Literacy) ខុសគ្នាស្រឡះពីអ្នកចូលរួមក្នុងតំបន់អឺរ៉ុប។
ទោះបីជាមានភាពខុសគ្នានៃទិន្នន័យក៏ដោយ វិធីសាស្ត្រនៃការបូកបញ្ចូល Cognitive Model ជាមួយ NLP នេះគឺមានតម្លៃខ្ពស់ណាស់សម្រាប់យកមកអនុវត្តនៅកម្ពុជា។
សរុបមក ការអនុវត្តទ្រឹស្តីនេះនឹងជួយឱ្យកម្ពុជាផ្លាស់ប្តូរពីការផ្តល់ការអប់រំផ្នែកសន្តិសុខសាយប័រជាទូទៅ ទៅជាការបណ្តុះបណ្តាលដែលអាចបត់បែនបានតាមបុគ្គលម្នាក់ៗ (Personalized Training)។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Instance-Based Learning (IBL) | ជាវិធីសាស្ត្រនៃការធ្វើម៉ូដែលមួយដែលសន្មតថា ការសម្រេចចិត្តរបស់មនុស្សគឺធ្វើឡើងដោយការទាញយកបទពិសោធន៍ ឬព្រឹត្តិការណ៍ស្រដៀងគ្នា (Instances) ពីអតីតកាលដែលបានរក្សាទុកក្នុងអង្គចងចាំមកថ្លឹងថ្លែង។ | ដូចជាពេលយើងសម្រេចចិត្តទិញទំនិញមួយ ដោយនឹកឃើញដល់បទពិសោធន៍ដែលធ្លាប់ទិញរបស់ស្រដៀងគ្នានេះកាលពីមុនយកមកធ្វើជាគោល។ |
| ACT-R (Adaptive Control of Thought-Rational) | ជាស្ថាបត្យកម្មនៃការយល់ដឹង (Cognitive architecture) ដែលព្យាយាមយកតម្រាប់តាមយន្តការខួរក្បាលរបស់មនុស្ស ក្នុងការរៀបចំចំណេះដឹង និងរបៀបដែលមនុស្សចងចាំ ឬភ្លេចព័ត៌មានដោយផ្អែកលើពេលវេលា និងភាពញឹកញាប់។ | ដូចជាប្រព័ន្ធបណ្ណាល័យខួរក្បាល ដែលសៀវភៅណាដែលឧស្សាហ៍អាន ឬទើបតែអានថ្មីៗ ត្រូវបានដាក់នៅជិតដៃងាយស្រួលទាញយកមកប្រើជាងសៀវភៅចាស់ៗ។ |
| Latent Semantic Analysis (LSA) | ជាក្បួនវិភាគភាសាបែបប្រពៃណីមួយ ដែលវាស់ស្ទង់ភាពស្រដៀងគ្នានៃអត្ថបទដោយរាប់ចំនួនប្រេកង់នៃពាក្យដែលប្រើ (Bag-of-words) ដោយមិនបានខ្វល់ពីលំដាប់លំដោយ ឬអត្ថន័យជ្រៅនៃបរិបទប្រយោគឡើយ។ | ដូចជាការចាត់ថ្នាក់សៀវភៅចូលទូតែមួយ ដោយគ្រាន់តែរាប់មើលថាតើសៀវភៅទាំងនោះមានពាក្យ "ធនាគារ" ប៉ុន្មានដង ដោយមិនខ្វល់ពីអត្ថន័យនៃសាច់រឿងទាំងមូល។ |
| GloVe (Global Vectors) | ជាក្បួនអភិវឌ្ឍន៍ដោយម៉ាស៊ីន (Machine-learned algorithm) សម្រាប់បំប្លែងពាក្យទៅជាតួលេខ (Vectors) ដោយចាប់យកទំនាក់ទំនងរបស់ពាក្យផ្អែកលើស្ថិតិដែលពាក្យទាំងនោះឧស្សាហ៍កើតឡើងជាមួយគ្នានៅក្នុងទិន្នន័យអត្ថបទធំៗ។ | ដូចជាការគូសផែនទីពាក្យ ដែលពាក្យ "ពេទ្យ" និង "ថ្នាំ" ត្រូវបានដាក់នៅទីតាំងជិតគ្នា ព្រោះវាឧស្សាហ៍លេចឡើងជាមួយគ្នានៅក្នុងអត្ថបទ។ |
| Bi-directional Encoder Representation (BERT) | ជាម៉ូដែល AI ដ៏ឆ្លាតវៃសម្រាប់យល់ភាសា ដែលមានសមត្ថភាពអានអត្ថបទទាំងទៅមុខ និងថយក្រោយក្នុងពេលតែមួយ ដើម្បីចាប់យកបរិបទ និងអត្ថន័យពិតប្រាកដនៃពាក្យនីមួយៗនៅក្នុងប្រយោគ។ | ដូចជាមនុស្សដែលអានប្រយោគទាំងមូលឱ្យចប់សិន ទើបអាចយល់ន័យពិតប្រាកដនៃពាក្យនីមួយៗ មិនមែនប្រែត្រង់ៗតាមពាក្យមួយៗពីមុខទៅក្រោយឡើយ។ |
| Cosine Distance | ជារូបមន្តគណិតវិទ្យាដែលត្រូវបានប្រើដើម្បីវាស់ស្ទង់ភាពស្រដៀងគ្នា (Similarity) រវាងសំណុំទិន្នន័យពីរ (Vectors) ដោយគណនាមុំរវាងពួកវា ទោះបីជាសំណុំទិន្នន័យទាំងនោះមានទំហំខុសគ្នាក៏ដោយ។ | ដូចជាការវាស់ស្ទង់មើលថាតើឡានពីរតម្រង់ក្បាលទៅទិសដៅតែមួយឬអត់ ទោះបីជាឡានមួយបើកលឿនជាងឡានមួយទៀតក៏ដោយ។ |
| Mismatch Penalty | គឺជាប៉ារ៉ាម៉ែត្រមួយនៅក្នុងម៉ូដែល IBL ដែលដើរតួនាទីកាត់បន្ថយពិន្ទុ ឬដាក់ពិន័យនៅពេលដែលលក្ខណៈនៃព្រឹត្តិការណ៍បច្ចុប្បន្ន មិនស៊ីគ្នាទាំងស្រុងជាមួយនឹងបទពិសោធន៍ដែលធ្លាប់មាននៅក្នុងការចងចាំ។ | ដូចជាការកាត់ពិន្ទុការទុកចិត្តរបស់អ្នក នៅពេលដែលអ្នកឃើញសារមួយមានទម្រង់ស្រដៀងធនាគាររបស់អ្នក តែមានអក្ខរាវិរុទ្ធខុសខុសពីធម្មតា។ |
| Activation | នៅក្នុងទ្រឹស្តីការចងចាំ វាគឺជារង្វាស់ដែលកំណត់ថាតើព័ត៌មានណាមួយងាយស្រួលទាញយកចេញពីខួរក្បាលកម្រិតណា ដោយព័ត៌មានដែលទើបតែជួបប្រទះ ឬជួបញឹកញាប់ មានកម្រិត Activation ខ្ពស់។ | ដូចជាការដាក់កម្មវិធី (Apps) ដែលប្រើញឹកញាប់នៅលើអេក្រង់ទូរស័ព្ទខាងមុខគេ ដើម្បីឱ្យយើងអាចងាយស្រួលចុចបើកប្រើបានលឿនជាងកម្មវិធីផ្សេងៗ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖