Original Title: A MACHINE LEARNING TECHNIQUE USED FOR SOCIAL MEDIA FAKE PROFILE DETECTION
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

បច្ចេកទេសម៉ាស៊ីនរៀនដែលត្រូវបានប្រើប្រាស់សម្រាប់ការរកឃើញគណនីក្លែងក្លាយនៅលើបណ្តាញសង្គម

ចំណងជើងដើម៖ A MACHINE LEARNING TECHNIQUE USED FOR SOCIAL MEDIA FAKE PROFILE DETECTION

អ្នកនិពន្ធ៖ Abhimanyu Nayak (PhD Scholar B.I.T Sindri Dhanbad), Prof(Dr) D.K Singh (Guide, V.C J.U.T Ranchi Jharkhand)

ឆ្នាំបោះពុម្ព៖ 2025 (Synergy 2025: 1st International Conference)

វិស័យសិក្សា៖ Computer Science, Cybersecurity

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការពង្រីកយ៉ាងឆាប់រហ័សនៃបណ្តាញសង្គមបាននាំឱ្យមានការកើនឡើងនូវគណនីក្លែងក្លាយ ដែលគំរាមកំហែងដល់ភាពឯកជន សុវត្ថិភាព និងសុចរិតភាពរបស់អ្នកប្រើប្រាស់នៅលើអ៊ីនធឺណិត ព្រមទាំងបង្កឱ្យមានបញ្ហាដូចជាការឆបោកទិន្នន័យ និងព័ត៌មានមិនពិត។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រើប្រាស់ការរចនាការស្រាវជ្រាវបែបបរិមាណ (Quantitative design) និងវិធីសាស្ត្រម៉ាស៊ីនរៀនមានការត្រួតពិនិត្យ (Supervised machine learning) ដើម្បីចាត់ថ្នាក់គណនីបណ្តាញសង្គមថាជាគណនីពិត ឬក្លែងក្លាយ។

ការជ្រើសរើសសំណាកទិន្នន័យ (Data Sampling): ការប្រើប្រាស់ទិន្នន័យចំនួន ១៥០ គណនីពីសំណុំទិន្នន័យ MIB (គណនីពិត ៧៥ និងគណនីក្លែងក្លាយ ៧៥)។
ការដំណើរការទិន្នន័យជាមុន (Data Pre-processing): ការជំនួសតម្លៃដែលបាត់ និងការធ្វើប្រក្រតីភាពទិន្នន័យ (Normalization) សម្រាប់ដំណើរការម៉ូដែល។
ការបណ្តុះបណ្តាលម៉ូដែល (Model Training): ការប្រើប្រាស់ក្បួនដោះស្រាយចំនួនបីរួមមាន Random Forest, XGBoost និង Long Short-Term Memory (LSTM)។
ការវាយតម្លៃម៉ូដែល (Model Evaluation): ការវាស់ស្ទង់សមត្ថភាពម៉ូដែលដោយប្រើប្រាស់ Accuracy, Precision, Recall, F1-score និងខ្សែខ្សែកោង ROC (ROC Curve)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល XGBoost ទទួលបានលទ្ធផលល្អប្រសើរបំផុតដោយមានភាពត្រឹមត្រូវ (Accuracy) ៩៨.៧%, Precision ៩៧.៨%, Recall ៩៩.០% និង F1-score ៩៨.៤%។
ម៉ូដែល Random Forest ទទួលបានភាពត្រឹមត្រូវ ៩៣.៣% ខណៈពេលដែលម៉ូដែល LSTM មានសមត្ថភាពខ្សោយជាងគេ ដោយទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៨៩.៣% ប៉ុណ្ណោះ។
ម៉ូដែល XGBoost ក៏បានបង្ហាញពីប្រសិទ្ធភាពខ្ពស់ក្នុងការកាត់បន្ថយអត្រាវិជ្ជមានមិនពិត (False Positive Rate) និងបង្កើនអត្រាវិជ្ជមានពិត (True Positive Rate) ដែលធ្វើឱ្យវាក្លាយជាម៉ូដែលដែលអាចទុកចិត្តបានបំផុតសម្រាប់ការស្វែងរកគណនីក្លែងក្លាយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Extreme Gradient Boosting (XGBoost) ក្បួនដោះស្រាយ XGBoost ផ្អែកលើបច្ចេកទេស Boosting	ផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុត កាត់បន្ថយកំហុសឆ្គង (False Positives/Negatives) បានយ៉ាងល្អ និងគាំទ្រការបាត់ទិន្នន័យ (Missing data)។	អាចទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រ (Hyperparameter tuning) ច្រើន និងប្រើប្រាស់ធនធានកុំព្យូទ័រច្រើនជាងម៉ូដែលសាមញ្ញ។	ទទួលបានភាពត្រឹមត្រូវ ៩៨.៧%, Precision ៩៧.៨%, Recall ៩៩.០%, F1-score ៩៨.៤% និងពិន្ទុ AUC ០.៩៩១។
Random Forest ក្បួនដោះស្រាយ Random Forest ផ្អែកលើបច្ចេកទេស Ensemble នៃមែកធាងការសម្រេចចិត្ត	ងាយស្រួលក្នុងការប្រើប្រាស់ មានស្ថេរភាពខ្ពស់ និងមិនងាយជួបបញ្ហា Overfitting ដោយសារការប្រើប្រាស់មែកធាងច្រើន។	មានភាពត្រឹមត្រូវទាបជាង XGBoost បន្តិចនៅក្នុងការវិភាគទិន្នន័យនេះ។	ទទួលបានភាពត្រឹមត្រូវ ៩៣.៣%, Precision ៩១.៧%, Recall ៩៤.៧%, F1-score ៩៣.២% និងពិន្ទុ AUC ០.៩៦៥។
Long Short-Term Memory (LSTM) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) សម្រាប់ការវិភាគទិន្នន័យតាមលំដាប់លំដោយ	មានសមត្ថភាពក្នុងការចងចាំទិន្នន័យរយៈពេលយូរ និងល្អសម្រាប់ការវិភាគទិន្នន័យដែលមានលំដាប់លំដោយ (Sequential data) ដូចជាសកម្មភាពអ្នកប្រើប្រាស់។	ទទួលបានលទ្ធផលខ្សោយជាងគេក្នុងចំណោមម៉ូដែលទាំងបីសម្រាប់ការវិភាគទិន្នន័យទម្រង់ Tabular នេះ និងត្រូវការពេលវេលាបង្វឹកយូរ។	ទទួលបានភាពត្រឹមត្រូវទាបជាងគេត្រឹម ៨៩.៣%, Precision ៨៨.២%, Recall ៩០.៥%, F1-score ៨៩.៣% និងពិន្ទុ AUC ០.៩១០។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់លម្អិតអំពីការចំណាយធនធានក៏ដោយ ការអភិវឌ្ឍម៉ូដែល Machine Learning និង Deep Learning (ដូចជា LSTM) ជាទូទៅទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យជាក់លាក់។

Dataset: ទាមទារសំណុំទិន្នន័យ MIB (ចម្រាញ់យក ១៥០ គណនី) ជាទម្រង់ CSV ដែលទាមទារការសម្អាត និងការធ្វើប្រក្រតីភាព (Pre-processing/Normalization)។
Software: ត្រូវការភាសាបញ្ជា Python និងបណ្ណាល័យសំខាន់ៗដូចជា Sklearn, Numpy, និង Pandas សម្រាប់ការរៀបចំទិន្នន័យ និងការបង្វឹកម៉ូដែល។
Hardware: សម្រាប់ម៉ូដែលសាមញ្ញ (Random Forest/XGBoost) ត្រូវការ CPU ស្តង់ដារ ប៉ុន្តែសម្រាប់ LSTM គួរតែមាន GPU ដើម្បីបង្កើនល្បឿននៃការបង្វឹក (Training speed)។
Expertise: ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងផ្នែកវិទ្យាសាស្ត្រទិន្នន័យ (Data Science) ការវាយតម្លៃម៉ូដែល (Model Evaluation) និងចំណេះដឹងផ្នែកសន្តិសុខបច្ចេកវិទ្យា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណាកទិន្នន័យតូចខ្លាំង (ត្រឹមតែ ១៥០ គណនីប៉ុណ្ណោះ គឺពិត ៧៥ និងក្លែងក្លាយ ៧៥) ពីសំណុំទិន្នន័យ MIB ដែលអាចមិនតំណាងឱ្យភាពចម្រុះនៃគណនីក្លែងក្លាយទាំងអស់នៅលើបណ្តាញសង្គមផ្សេងៗ។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកលើទិន្នន័យបរទេសនេះអាចនឹងមិនឆ្លុះបញ្ចាំងពីលក្ខណៈ ឬទម្រង់នៃការឆបោកជាក់លាក់នៅលើបណ្តាញសង្គមក្នុងស្រុក (ដូចជា Facebook, Telegram ឬ TikTok) ដែលប្រើប្រាស់ភាសាខ្មែរឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាទិន្នន័យមានកម្រិតក៏ដោយ វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅប្រទេសកម្ពុជា ដើម្បីពង្រឹងសន្តិសុខតាមប្រព័ន្ធអ៊ីនធឺណិត។

នាយកដ្ឋានប្រឆាំងបទល្មើសបច្ចេកវិទ្យា (Anti-Cybercrime Department): អាចប្រើប្រាស់ម៉ូដែល XGBoost ដើម្បីអភិវឌ្ឍប្រព័ន្ធវាយតម្លៃ និងទប់ស្កាត់គណនីក្លែងក្លាយដែលឆបោកប្រាក់ ឬចែកចាយព័ត៌មានមិនពិត (Fake News) នៅក្នុងប្រទេសកម្ពុជា។
ស្ថាប័នហិរញ្ញវត្ថុ និងធនាគារ (Financial Institutions): អាចអនុវត្តប្រព័ន្ធនេះក្នុងការត្រួតពិនិត្យគណនីបណ្តាញសង្គម ដើម្បីការពារអតិថិជនពីការក្លែងបន្លំអត្តសញ្ញាណ (Identity Theft) និងការឆបោក (Phishing)។
អ្នកស្រាវជ្រាវ និងអង្គការសង្គមស៊ីវិល (Researchers & NGOs): អាចប្រើប្រាស់វិធីសាស្ត្រនេះដើម្បីតាមដាន និងវិភាគប្រភពនៃយុទ្ធនាការផ្សព្វផ្សាយព័ត៌មានមិនពិតក្នុងទម្រង់ជាបណ្តាញ Bot (Bot networks) ក្នុងអំឡុងពេលព្រឹត្តិការណ៍សង្គមសំខាន់ៗ។

សរុបមក ការអនុវត្តបច្ចេកទេស Machine Learning នេះទាមទារឱ្យមានការប្រមូលទិន្នន័យគណនីក្លែងក្លាយក្នុងស្រុកដើម្បីជួយឱ្យម៉ូដែលដំណើរការបានច្បាស់លាស់ និងមានប្រសិទ្ធភាពឆ្លើយតបទៅនឹងបរិបទកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Machine Learning: និស្សិតគួរសិក្សាពីភាសា Python និងបណ្ណាល័យវិភាគទិន្នន័យសំខាន់ៗដូចជា Pandas សម្រាប់ការរៀបចំទិន្នន័យ និង Numpy សម្រាប់ការគណនាបែបគណិតវិទ្យា។
ស្វែងយល់អំពីម៉ូដែល Classification: អនុវត្តការសរសេរកូដជាមួយ Scikit-learn និង XGBoost ដោយចាប់ផ្តើមពីទិន្នន័យសាមញ្ញ ដើម្បីយល់ពីរបៀបវាយតម្លៃម៉ូដែលតាមរយៈ Accuracy, Precision, Recall និង F1-Score។
ប្រមូល និងសម្អាតទិន្នន័យក្នុងស្រុក: ប្រើប្រាស់ Web Scraping ឬ APIs (ឧ. Facebook Graph API) ដើម្បីប្រមូលទិន្នន័យទម្រង់គណនី (Profile features) នៅក្នុងបរិបទកម្ពុជា រួចធ្វើការសម្អាតទិន្នន័យដោយដោះស្រាយបញ្ហា Missing values។
អភិវឌ្ឍ និងសាកល្បងម៉ូដែល: ប្រើប្រាស់ Google Colab ឬ Jupyter Notebook ដើម្បីបង្វឹកម៉ូដែល XGBoost និងកែតម្រូវ Hyperparameters ដើម្បីទទួលបានលទ្ធផលប្រសើរបំផុតលើសំណុំទិន្នន័យក្នុងស្រុក។
ដាក់ដំណើរការជាប្រព័ន្ធស្វែងរកជាក់ស្តែង (Deployment): ប្រើប្រាស់ Flask ឬ Streamlit ដើម្បីបង្កើតជា Web API សាមញ្ញមួយដែលអាចទទួលយកតំណភ្ជាប់គណនី (Profile URL) និងទស្សន៍ទាយថាវាជាគណនីពិត ឬក្លែងក្លាយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Extreme Gradient Boosting (XGBoost)	ជាក្បួនដោះស្រាយម៉ាស៊ីនរៀន (Machine Learning) កម្រិតខ្ពស់ដែលបង្កើតមែកធាងការសម្រេចចិត្តជាបន្តបន្ទាប់ ដោយមែកធាងនីមួយៗផ្តោតលើការកែតម្រូវកំហុសដែលបានបង្កើតដោយមែកធាងមុនៗ ដើម្បីបង្កើនភាពជាក់លាក់ក្នុងការទស្សន៍ទាយលទ្ធផលចុងក្រោយ។	ដូចជាសិស្សមួយក្រុមដែលធ្វើការរួមគ្នា ពេលសិស្សទីមួយធ្វើខុស សិស្សទីពីររៀនពីកំហុសនោះហើយកែតម្រូវរហូតដល់ទទួលបានចម្លើយល្អឥតខ្ចោះ។
Random Forest	ជាបច្ចេកទេសម៉ាស៊ីនរៀនដែលបង្កើតមែកធាងការសម្រេចចិត្តជាច្រើនដាច់ដោយឡែកពីគ្នានៅពេលបង្វឹក ហើយយកលទ្ធផលរបស់មែកធាងទាំងអស់នោះមកបោះឆ្នោតជ្រើសរើសចម្លើយដែលមានសំឡេងគាំទ្រច្រើនជាងគេ ដើម្បីកំណត់ថាគណនីមួយពិត ឬក្លែងក្លាយ។	ដូចជាការសួរយោបល់ពីគ្រូពេទ្យ១០០នាក់ផ្សេងៗគ្នាពីជំងឺមួយ ហើយយកចម្លើយណាដែលគ្រូពេទ្យភាគច្រើនយល់ស្របគ្នាមកធ្វើជាការសម្រេចចិត្តចុងក្រោយ។
Long Short-Term Memory (LSTM)	ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) ដែលត្រូវបានរចនាឡើងដើម្បីចងចាំព័ត៌មានពីមុនៗក្នុងរយៈពេលយូរ ដែលស័ក្តិសមបំផុតសម្រាប់ការវិភាគទិន្នន័យដែលមានលំដាប់លំដោយ ដូចជាការវិភាគលើប្រវត្តិសកម្មភាពរបស់អ្នកប្រើប្រាស់។	ដូចជាមនុស្សម្នាក់ដែលកំពុងអានសៀវភៅរឿង ដោយអាចចងចាំសាច់រឿងពីជំពូកទីមួយយ៉ាងច្បាស់ ដើម្បីយល់ពីហេតុការណ៍ដែលកើតឡើងនៅជំពូកចុងក្រោយ។
ROC Curve	ជាក្រាហ្វិកសម្រាប់វាស់ស្ទង់និងបង្ហាញពីសមត្ថភាពរបស់ម៉ូដែលក្នុងការបែងចែករវាងទិន្នន័យពិត និងទិន្នន័យក្លែងក្លាយ តាមរយៈការប្រៀបធៀបអត្រានៃការទាយត្រូវ (True Positive Rate) និងការទាយខុស (False Positive Rate)។	ដូចជាតារាងពិន្ទុដែលបង្ហាញពីកម្រិតសមត្ថភាពរបស់ឆ្មាយាមផ្ទះ ថាតើវាចាប់កណ្តុរបានប៉ុន្មានក្បាល ហើយច្រឡំខាំមាន់ស្រុកអស់ប៉ុន្មានក្បាល។
Confusion Matrix	ជាតារាងសង្ខេបលទ្ធផលដែលបង្ហាញពីចំនួនដងដែលម៉ូដែលទស្សន៍ទាយត្រូវ និងទស្សន៍ទាយខុសយ៉ាងលម្អិត ដោយបែងចែកជាទិន្នន័យពិតដែលទាយថាពិត និងទិន្នន័យពិតដែលទាយខុសថាជាក្លែងក្លាយ។	ដូចជាបញ្ជីរាយនាមសិស្សប្រឡង ដែលបង្ហាញច្បាស់ថាសិស្សណាខ្លះប្រឡងជាប់ពិតមែន សិស្សណាធ្លាក់ពិតមែន និងសិស្សណាដែលគ្រូច្រឡំដាក់ពិន្ទុឱ្យធ្លាក់។
F1-Score	ជារង្វាស់នៃភាពត្រឹមត្រូវរបស់ម៉ូដែលដែលគណនាដោយយកមធ្យមភាគរវាង Precision (ភាពច្បាស់លាស់) និង Recall (សមត្ថភាពស្វែងរកទិន្នន័យគោលដៅ) ដើម្បីធានាថាម៉ូដែលមិនលម្អៀងទៅរកភាពត្រឹមត្រូវក្លែងបន្លំពេលទិន្នន័យមិនស្មើគ្នា។	ដូចជាការវាយតម្លៃអ្នកបាញ់ធ្នូ ដែលមិនត្រឹមតែមើលថាតើគាត់បាញ់ចំគោលដៅប៉ុន្មានដងទេ តែថែមទាំងពិនិត្យមើលថាគាត់បាញ់ខុសគោលដៅអស់ប៉ុន្មានព្រួញដែរ។
Data Pre-processing	ជាដំណាក់កាលនៃការរៀបចំ សម្អាត និងបំលែងទិន្នន័យឆៅ (ដូចជាការបំពេញតម្លៃដែលបាត់ ឬលុបទិន្នន័យមិនពាក់ព័ន្ធ) ឱ្យទៅជាទម្រង់ស្តង់ដារមួយដែលក្បួនដោះស្រាយម៉ាស៊ីនរៀនអាចយកទៅដំណើរការបានដោយរលូន និងមានប្រសិទ្ធភាព។	ដូចជាការលាងសម្អាត បកសំបក និងហាន់បន្លែសាច់ជាមុនសិន មុននឹងដាក់ចូលទៅក្នុងឆ្នាំងដើម្បីចម្អិនជាម្ហូប។
Phishing	ជាទម្រង់នៃការវាយប្រហារតាមប្រព័ន្ធអ៊ីនធឺណិត ដោយជនខិលខូចប្រើប្រាស់គណនី ឬតំណភ្ជាប់ក្លែងក្លាយ (ជាញឹកញាប់នៅលើបណ្តាញសង្គម) ដើម្បីបញ្ឆោតអ្នកប្រើប្រាស់ឱ្យផ្តល់ព័ត៌មានផ្ទាល់ខ្លួនដូចជា លេខសម្ងាត់ ឬទិន្នន័យធនាគារ។	ដូចជាការដាក់នុយបន្លំនៅលើផ្លែសន្ទូច ដើម្បីទាក់ទាញត្រីឱ្យមកស៊ីនុយនោះអញ្ចឹងដែរ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖