Original Title: A MACHINE LEARNING TECHNIQUE USED FOR SOCIAL MEDIA FAKE PROFILE DETECTION
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

បច្ចេកទេសម៉ាស៊ីនរៀនដែលត្រូវបានប្រើប្រាស់សម្រាប់ការរកឃើញគណនីក្លែងក្លាយនៅលើបណ្តាញសង្គម

ចំណងជើងដើម៖ A MACHINE LEARNING TECHNIQUE USED FOR SOCIAL MEDIA FAKE PROFILE DETECTION

អ្នកនិពន្ធ៖ Abhimanyu Nayak (PhD Scholar B.I.T Sindri Dhanbad), Prof(Dr) D.K Singh (Guide, V.C J.U.T Ranchi Jharkhand)

ឆ្នាំបោះពុម្ព៖ 2025 (Synergy 2025: 1st International Conference)

វិស័យសិក្សា៖ Computer Science, Cybersecurity

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការពង្រីកយ៉ាងឆាប់រហ័សនៃបណ្តាញសង្គមបាននាំឱ្យមានការកើនឡើងនូវគណនីក្លែងក្លាយ ដែលគំរាមកំហែងដល់ភាពឯកជន សុវត្ថិភាព និងសុចរិតភាពរបស់អ្នកប្រើប្រាស់នៅលើអ៊ីនធឺណិត ព្រមទាំងបង្កឱ្យមានបញ្ហាដូចជាការឆបោកទិន្នន័យ និងព័ត៌មានមិនពិត។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់ការរចនាការស្រាវជ្រាវបែបបរិមាណ (Quantitative design) និងវិធីសាស្ត្រម៉ាស៊ីនរៀនមានការត្រួតពិនិត្យ (Supervised machine learning) ដើម្បីចាត់ថ្នាក់គណនីបណ្តាញសង្គមថាជាគណនីពិត ឬក្លែងក្លាយ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Extreme Gradient Boosting (XGBoost)
ក្បួនដោះស្រាយ XGBoost ផ្អែកលើបច្ចេកទេស Boosting
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុត កាត់បន្ថយកំហុសឆ្គង (False Positives/Negatives) បានយ៉ាងល្អ និងគាំទ្រការបាត់ទិន្នន័យ (Missing data)។ អាចទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameter tuning) ច្រើន និងប្រើប្រាស់ធនធានកុំព្យូទ័រច្រើនជាងម៉ូដែលសាមញ្ញ។ ទទួលបានភាពត្រឹមត្រូវ ៩៨.៧%, Precision ៩៧.៨%, Recall ៩៩.០%, F1-score ៩៨.៤% និងពិន្ទុ AUC ០.៩៩១។
Random Forest
ក្បួនដោះស្រាយ Random Forest ផ្អែកលើបច្ចេកទេស Ensemble នៃមែកធាងការសម្រេចចិត្ត
ងាយស្រួលក្នុងការប្រើប្រាស់ មានស្ថេរភាពខ្ពស់ និងមិនងាយជួបបញ្ហា Overfitting ដោយសារការប្រើប្រាស់មែកធាងច្រើន។ មានភាពត្រឹមត្រូវទាបជាង XGBoost បន្តិចនៅក្នុងការវិភាគទិន្នន័យនេះ។ ទទួលបានភាពត្រឹមត្រូវ ៩៣.៣%, Precision ៩១.៧%, Recall ៩៤.៧%, F1-score ៩៣.២% និងពិន្ទុ AUC ០.៩៦៥។
Long Short-Term Memory (LSTM)
បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) សម្រាប់ការវិភាគទិន្នន័យតាមលំដាប់លំដោយ
មានសមត្ថភាពក្នុងការចងចាំទិន្នន័យរយៈពេលយូរ និងល្អសម្រាប់ការវិភាគទិន្នន័យដែលមានលំដាប់លំដោយ (Sequential data) ដូចជាសកម្មភាពអ្នកប្រើប្រាស់។ ទទួលបានលទ្ធផលខ្សោយជាងគេក្នុងចំណោមម៉ូដែលទាំងបីសម្រាប់ការវិភាគទិន្នន័យទម្រង់ Tabular នេះ និងត្រូវការពេលវេលាបង្វឹកយូរ។ ទទួលបានភាពត្រឹមត្រូវទាបជាងគេត្រឹម ៨៩.៣%, Precision ៨៨.២%, Recall ៩០.៥%, F1-score ៨៩.៣% និងពិន្ទុ AUC ០.៩១០។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់លម្អិតអំពីការចំណាយធនធានក៏ដោយ ការអភិវឌ្ឍម៉ូដែល Machine Learning និង Deep Learning (ដូចជា LSTM) ជាទូទៅទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យជាក់លាក់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណាកទិន្នន័យតូចខ្លាំង (ត្រឹមតែ ១៥០ គណនីប៉ុណ្ណោះ គឺពិត ៧៥ និងក្លែងក្លាយ ៧៥) ពីសំណុំទិន្នន័យ MIB ដែលអាចមិនតំណាងឱ្យភាពចម្រុះនៃគណនីក្លែងក្លាយទាំងអស់នៅលើបណ្តាញសង្គមផ្សេងៗ។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកលើទិន្នន័យបរទេសនេះអាចនឹងមិនឆ្លុះបញ្ចាំងពីលក្ខណៈ ឬទម្រង់នៃការឆបោកជាក់លាក់នៅលើបណ្តាញសង្គមក្នុងស្រុក (ដូចជា Facebook, Telegram ឬ TikTok) ដែលប្រើប្រាស់ភាសាខ្មែរឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាទិន្នន័យមានកម្រិតក៏ដោយ វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅប្រទេសកម្ពុជា ដើម្បីពង្រឹងសន្តិសុខតាមប្រព័ន្ធអ៊ីនធឺណិត។

សរុបមក ការអនុវត្តបច្ចេកទេស Machine Learning នេះទាមទារឱ្យមានការប្រមូលទិន្នន័យគណនីក្លែងក្លាយក្នុងស្រុកដើម្បីជួយឱ្យម៉ូដែលដំណើរការបានច្បាស់លាស់ និងមានប្រសិទ្ធភាពឆ្លើយតបទៅនឹងបរិបទកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ Machine Learning: និស្សិតគួរសិក្សាពីភាសា Python និងបណ្ណាល័យវិភាគទិន្នន័យសំខាន់ៗដូចជា Pandas សម្រាប់ការរៀបចំទិន្នន័យ និង Numpy សម្រាប់ការគណនាបែបគណិតវិទ្យា។
  2. ស្វែងយល់អំពីម៉ូដែល Classification: អនុវត្តការសរសេរកូដជាមួយ Scikit-learn និង XGBoost ដោយចាប់ផ្តើមពីទិន្នន័យសាមញ្ញ ដើម្បីយល់ពីរបៀបវាយតម្លៃម៉ូដែលតាមរយៈ Accuracy, Precision, Recall និង F1-Score។
  3. ប្រមូល និងសម្អាតទិន្នន័យក្នុងស្រុក: ប្រើប្រាស់ Web Scraping ឬ APIs (ឧ. Facebook Graph API) ដើម្បីប្រមូលទិន្នន័យទម្រង់គណនី (Profile features) នៅក្នុងបរិបទកម្ពុជា រួចធ្វើការសម្អាតទិន្នន័យដោយដោះស្រាយបញ្ហា Missing values។
  4. អភិវឌ្ឍ និងសាកល្បងម៉ូដែល: ប្រើប្រាស់ Google ColabJupyter Notebook ដើម្បីបង្វឹកម៉ូដែល XGBoost និងកែតម្រូវ Hyperparameters ដើម្បីទទួលបានលទ្ធផលប្រសើរបំផុតលើសំណុំទិន្នន័យក្នុងស្រុក។
  5. ដាក់ដំណើរការជាប្រព័ន្ធស្វែងរកជាក់ស្តែង (Deployment): ប្រើប្រាស់ FlaskStreamlit ដើម្បីបង្កើតជា Web API សាមញ្ញមួយដែលអាចទទួលយកតំណភ្ជាប់គណនី (Profile URL) និងទស្សន៍ទាយថាវាជាគណនីពិត ឬក្លែងក្លាយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Extreme Gradient Boosting (XGBoost) ជាក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) កម្រិតខ្ពស់ដែលបង្កើតមែកធាងការសម្រេចចិត្តជាបន្តបន្ទាប់ ដោយមែកធាងនីមួយៗផ្តោតលើការកែតម្រូវកំហុសដែលបានបង្កើតដោយមែកធាងមុនៗ ដើម្បីបង្កើនភាពជាក់លាក់ក្នុងការទស្សន៍ទាយលទ្ធផលចុងក្រោយ។ ដូចជាសិស្សមួយក្រុមដែលធ្វើការរួមគ្នា ពេលសិស្សទីមួយធ្វើខុស សិស្សទីពីររៀនពីកំហុសនោះហើយកែតម្រូវរហូតដល់ទទួលបានចម្លើយល្អឥតខ្ចោះ។
Random Forest ជាបច្ចេកទេសម៉ាស៊ីនរៀនដែលបង្កើតមែកធាងការសម្រេចចិត្តជាច្រើនដាច់ដោយឡែកពីគ្នានៅពេលបង្វឹក ហើយយកលទ្ធផលរបស់មែកធាងទាំងអស់នោះមកបោះឆ្នោតជ្រើសរើសចម្លើយដែលមានសំឡេងគាំទ្រច្រើនជាងគេ ដើម្បីកំណត់ថាគណនីមួយពិត ឬក្លែងក្លាយ។ ដូចជាការសួរយោបល់ពីគ្រូពេទ្យ១០០នាក់ផ្សេងៗគ្នាពីជំងឺមួយ ហើយយកចម្លើយណាដែលគ្រូពេទ្យភាគច្រើនយល់ស្របគ្នាមកធ្វើជាការសម្រេចចិត្តចុងក្រោយ។
Long Short-Term Memory (LSTM) ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) ដែលត្រូវបានរចនាឡើងដើម្បីចងចាំព័ត៌មានពីមុនៗក្នុងរយៈពេលយូរ ដែលស័ក្តិសមបំផុតសម្រាប់ការវិភាគទិន្នន័យដែលមានលំដាប់លំដោយ ដូចជាការវិភាគលើប្រវត្តិសកម្មភាពរបស់អ្នកប្រើប្រាស់។ ដូចជាមនុស្សម្នាក់ដែលកំពុងអានសៀវភៅរឿង ដោយអាចចងចាំសាច់រឿងពីជំពូកទីមួយយ៉ាងច្បាស់ ដើម្បីយល់ពីហេតុការណ៍ដែលកើតឡើងនៅជំពូកចុងក្រោយ។
ROC Curve ជាក្រាហ្វិកសម្រាប់វាស់ស្ទង់និងបង្ហាញពីសមត្ថភាពរបស់ម៉ូដែលក្នុងការបែងចែករវាងទិន្នន័យពិត និងទិន្នន័យក្លែងក្លាយ តាមរយៈការប្រៀបធៀបអត្រានៃការទាយត្រូវ (True Positive Rate) និងការទាយខុស (False Positive Rate)។ ដូចជាតារាងពិន្ទុដែលបង្ហាញពីកម្រិតសមត្ថភាពរបស់ឆ្មាយាមផ្ទះ ថាតើវាចាប់កណ្តុរបានប៉ុន្មានក្បាល ហើយច្រឡំខាំមាន់ស្រុកអស់ប៉ុន្មានក្បាល។
Confusion Matrix ជាតារាងសង្ខេបលទ្ធផលដែលបង្ហាញពីចំនួនដងដែលម៉ូដែលទស្សន៍ទាយត្រូវ និងទស្សន៍ទាយខុសយ៉ាងលម្អិត ដោយបែងចែកជាទិន្នន័យពិតដែលទាយថាពិត និងទិន្នន័យពិតដែលទាយខុសថាជាក្លែងក្លាយ។ ដូចជាបញ្ជីរាយនាមសិស្សប្រឡង ដែលបង្ហាញច្បាស់ថាសិស្សណាខ្លះប្រឡងជាប់ពិតមែន សិស្សណាធ្លាក់ពិតមែន និងសិស្សណាដែលគ្រូច្រឡំដាក់ពិន្ទុឱ្យធ្លាក់។
F1-Score ជារង្វាស់នៃភាពត្រឹមត្រូវរបស់ម៉ូដែលដែលគណនាដោយយកមធ្យមភាគរវាង Precision (ភាពច្បាស់លាស់) និង Recall (សមត្ថភាពស្វែងរកទិន្នន័យគោលដៅ) ដើម្បីធានាថាម៉ូដែលមិនលម្អៀងទៅរកភាពត្រឹមត្រូវក្លែងបន្លំពេលទិន្នន័យមិនស្មើគ្នា។ ដូចជាការវាយតម្លៃអ្នកបាញ់ធ្នូ ដែលមិនត្រឹមតែមើលថាតើគាត់បាញ់ចំគោលដៅប៉ុន្មានដងទេ តែថែមទាំងពិនិត្យមើលថាគាត់បាញ់ខុសគោលដៅអស់ប៉ុន្មានព្រួញដែរ។
Data Pre-processing ជាដំណាក់កាលនៃការរៀបចំ សម្អាត និងបំលែងទិន្នន័យឆៅ (ដូចជាការបំពេញតម្លៃដែលបាត់ ឬលុបទិន្នន័យមិនពាក់ព័ន្ធ) ឱ្យទៅជាទម្រង់ស្តង់ដារមួយដែលក្បួនដោះស្រាយម៉ាស៊ីនរៀនអាចយកទៅដំណើរការបានដោយរលូន និងមានប្រសិទ្ធភាព។ ដូចជាការលាងសម្អាត បកសំបក និងហាន់បន្លែសាច់ជាមុនសិន មុននឹងដាក់ចូលទៅក្នុងឆ្នាំងដើម្បីចម្អិនជាម្ហូប។
Phishing ជាទម្រង់នៃការវាយប្រហារតាមប្រព័ន្ធអ៊ីនធឺណិត ដោយជនខិលខូចប្រើប្រាស់គណនី ឬតំណភ្ជាប់ក្លែងក្លាយ (ជាញឹកញាប់នៅលើបណ្តាញសង្គម) ដើម្បីបញ្ឆោតអ្នកប្រើប្រាស់ឱ្យផ្តល់ព័ត៌មានផ្ទាល់ខ្លួនដូចជា លេខសម្ងាត់ ឬទិន្នន័យធនាគារ។ ដូចជាការដាក់នុយបន្លំនៅលើផ្លែសន្ទូច ដើម្បីទាក់ទាញត្រីឱ្យមកស៊ីនុយនោះអញ្ចឹងដែរ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖