Original Title: Deep Ensemble Fake News Detection Model Using Sequential Deep Learning Technique
Source: doi.org/10.3390/s22186970
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ម៉ូដែលការរកឃើញព័ត៌មានក្លែងក្លាយរួមគ្នាស៊ីជម្រៅដោយប្រើប្រាស់បច្ចេកទេសសិក្សាស៊ីជម្រៅតាមលំដាប់លំដោយ

ចំណងជើងដើម៖ Deep Ensemble Fake News Detection Model Using Sequential Deep Learning Technique

អ្នកនិពន្ធ៖ Abdullah Marish Ali (King Abdulaziz University), Fuad A. Ghaleb (Universiti Teknologi Malaysia), Bander Ali Saleh Al-Rimy (Universiti Teknologi Malaysia), Fawaz Jaber Alsolami (King Abdulaziz University), Asif Irshad Khan (King Abdulaziz University)

ឆ្នាំបោះពុម្ព៖ 2022, Sensors (MDPI)

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការរកឃើញព័ត៌មានក្លែងក្លាយ (Fake news detection) ជួបប្រទះនឹងបញ្ហាប្រឈមធំៗ ដោយសារការប្រើប្រាស់ភាសាស្រដៀងគ្នារវាងព័ត៌មានពិតនិងក្លែងក្លាយ ព្រមទាំងបញ្ហាប្រយោគខ្លីៗនៅលើបណ្តាញសង្គមដែលធ្វើឱ្យបច្ចេកទេសតំណាងអត្ថបទបច្ចុប្បន្នមិនសូវមានប្រសិទ្ធភាព។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវម៉ូដែលរួមគ្នាស៊ីជម្រៅ (Deep ensemble model) ដែលដំណើរការជា ៣ ដំណាក់កាល ដើម្បីពង្រឹងភាពសុក្រឹតនៃការទស្សន៍ទាយចំណាត់ថ្នាក់ព័ត៌មាន។

ការទាញយកនិងតំណាងលក្ខណៈពិសេស (Feature Extraction and Representation) ពីអត្ថបទព័ត៌មានដោយប្រើប្រាស់បច្ចេកទេស n-gram និង TF-IDF។
ការបង្កើតបណ្ដាញសិក្សាស៊ីជម្រៅតាមលំដាប់ (Sequential Deep Learning) ដើម្បីទាញយកលក្ខណៈពិសេសដែលលាក់កំបាំង (Hidden Features) ដោយផ្អែកលើកម្រិតនៃភាពត្រឹមត្រូវផ្សេងៗគ្នារបស់ព័ត៌មាន។
ការចាត់ថ្នាក់ចុងក្រោយដោយប្រើបណ្តាញពហុស្រទាប់ (Multilayer Perceptron - MLP) ដែលទទួលយកលទ្ធផលពីបណ្តាញចំណាត់ថ្នាក់គោលពីរ (Binary classifiers) មកធ្វើការសម្រេចចិត្តពហុចំណាត់ថ្នាក់ (Multi-class decision)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលដែលបានស្នើសម្រេចបានភាពត្រឹមត្រូវ (Accuracy) ១០០% ទាំងស្រុងសម្រាប់ការសាកល្បងលើសំណុំទិន្នន័យ ISOT ដែលមានអត្ថបទវែងៗ។
សម្រាប់សំណុំទិន្នន័យ LIAR ដែលមានភាពស្មុគស្មាញនិងប្រយោគខ្លីៗ ម៉ូដែលនេះទទួលបានពិន្ទុ F1-Score ៥១.០៥% ពោលគឺកើនឡើងប្រមាណ ២.៤១% បើធៀបនឹងម៉ូដែលទំនើបៗមុនៗ។
លទ្ធផលបង្ហាញយ៉ាងច្បាស់ថា ការប្រើប្រាស់លក្ខណៈពិសេសដាច់ដោយឡែកពីអត្ថបទ (Content-based features) បូករួមនឹងការរចនាម៉ូដែលបានត្រឹមត្រូវ មានប្រសិទ្ធភាពខ្ពស់ជាងការប្រើប្រាស់បច្ចេកទេសបង្កប់អត្ថបទ (Text embedding techniques) ដូចជា Word2Vec ឬ BERT សម្រាប់ការកំណត់អត្តសញ្ញាណព័ត៌មានក្លែងក្លាយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Proposed Model (TF-IDF-IG + SDL-MLP) ម៉ូដែលស្នើឡើង (ការប្រើប្រាស់ TF-IDF ជាមួយបណ្តាញសិក្សាស៊ីជម្រៅតាមលំដាប់លំដោយ)	មានប្រសិទ្ធភាពខ្ពស់ក្នុងការកំណត់អត្តសញ្ញាណអត្ថបទខ្លីៗ ស៊ីទំហំអង្គចងចាំតិច (Memory efficient) និងមិនទាមទារកម្លាំងម៉ាស៊ីនធំដុំ។	ពឹងផ្អែកតែលើលក្ខណៈពិសេសនៃខ្លឹមសារអត្ថបទប៉ុណ្ណោះ ដោយមិនបានវិភាគលើបរិបទ ឬប្រភពដើមនៃព័ត៌មាន។	ទទួលបានពិន្ទុ F1-Score ៥១.០៥% លើសំណុំទិន្នន័យ LIAR (អត្ថបទខ្លី) និង ១០០% លើសំណុំទិន្នន័យ ISOT (អត្ថបទវែង)។
Samadi et al. (Funnel + CNN) ម៉ូដែលប្រើប្រាស់ Contextualized Embeddings (Funnel) បូកជាមួយបណ្តាញ CNN	មានសមត្ថភាពចាប់យកអត្ថន័យ និងបរិបទនៃពាក្យបានល្អតាមរយៈបច្ចេកទេសបង្កប់ពាក្យទំនើប (Word Embeddings)។	មានភាពស្មុគស្មាញ តម្រូវការកម្លាំងកុំព្យូទ័រខ្ពស់ និងមិនសូវមានប្រសិទ្ធភាពចំពោះអត្ថបទដែលខ្លីពេក។	ទទួលបានពិន្ទុ F1-Score ៤៨.៦៤% លើសំណុំទិន្នន័យ LIAR និង ៩៩.៩៦% លើសំណុំទិន្នន័យ ISOT។
Hakak et al. (Statistical + Random Forest) ម៉ូដែលប្រើប្រាស់លក្ខណៈស្ថិតិបូកជាមួយក្បួនដោះស្រាយ Random Forest	ដំណើរការបានយ៉ាងល្អឥតខ្ចោះចំពោះសំណុំទិន្នន័យដែលមានអត្ថបទវែងៗ និងងាយស្រួលក្នុងការបកស្រាយលទ្ធផល។	ជួបប្រទះបញ្ហា Overfitting និងមានសមត្ថភាពទាបបំផុតក្នុងការទស្សន៍ទាយចំណាត់ថ្នាក់អត្ថបទខ្លីៗ (Generalization ខ្សោយ)។	ទទួលបានពិន្ទុ F1-Score ១០០% លើសំណុំទិន្នន័យ ISOT តែទទួលបានត្រឹម ៤៤.១៥% ប៉ុណ្ណោះលើទិន្នន័យ LIAR។
Wang (Word2Vec + Hybrid CNN) ម៉ូដែលកូនកាត់ប្រើប្រាស់ Word2Vec បូកជាមួយ Hybrid CNN	ជាម៉ូដែលមូលដ្ឋានដ៏ល្អសម្រាប់ការស្រាវជ្រាវដំបូងៗស្តីពីការប្រើប្រាស់ Deep Learning លើការរកឃើញព័ត៌មានក្លែងក្លាយ។	ប្រឈមនឹងបញ្ហា Sparse tensors ដែលធ្វើឱ្យភាពត្រឹមត្រូវធ្លាក់ចុះយ៉ាងខ្លាំងនៅពេលជួបប្រយោគខ្លីៗ ឬព័ត៌មានថ្មីៗ។	ទទួលបានពិន្ទុ F1-Score ទាបត្រឹមតែ ២៧.០១% ប៉ុណ្ណោះលើសំណុំទិន្នន័យ LIAR។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីធនធានកុំព្យូទ័រដែលបានប្រើប្រាស់សម្រាប់ការពិសោធន៍ ដែលបង្ហាញថាម៉ូដែលនេះមិនទាមទារកម្លាំងម៉ាស៊ីនធំដុំ (ដូចជា GPU) នោះទេ ដោយសារការប្រើប្រាស់ទិន្នន័យប្រភេទ n-gram និង TF-IDF ជួយកាត់បន្ថយទំហំទិន្នន័យបានច្រើន។

Hardware: ប្រើប្រាស់កុំព្យូទ័រធម្មតាដែលមាន CPU ចំនួន ៤ គ្រាប់ (Intel Core i7 2.5 GHz) និងអង្គចងចាំ (RAM) ទំហំ 8 GB។
Software: ភាសាសរសេរកូដ Python 3.7 និងបណ្ណាល័យសម្រាប់សិក្សាស៊ីជម្រៅ (Deep Learning Frameworks)។
Dataset: សំណុំទិន្នន័យសាធារណៈ LIAR (១២,៨៣៦ ឃ្លាខ្លីៗ) និង ISOT (៤៤,៨៩៨ អត្ថបទព័ត៌មានវែងៗ)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យជាភាសាអង់គ្លេសដែលផ្តោតជាចម្បងលើបរិបទនយោបាយនៅសហរដ្ឋអាមេរិក (Politifact) និងព័ត៌មានអន្តរជាតិ (Reuters)។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកលើលទ្ធផលនេះមិនអាចយកមកអនុវត្តផ្ទាល់ដោយគ្មានការកែច្នៃបានទេ ដោយសារព័ត៌មានក្លែងក្លាយនៅកម្ពុជាភាគច្រើនសរសេរជាភាសាខ្មែរ មានទម្រង់ខុសគ្នា និងជារឿយៗត្រូវបានចែកចាយតាមរយៈបណ្តាញសង្គមដោយមានលាយឡំរូបភាព ឬវីដេអូ។ ទោះជាយ៉ាងណាក៏ដោយ វិធីសាស្ត្រនៃការប្រើអត្ថបទខ្លីៗគឺស្រដៀងទៅនឹងទម្លាប់ប្រើប្រាស់បណ្តាញសង្គមរបស់ពលរដ្ឋខ្មែរ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់និងស័ក្តិសមក្នុងការយកមកអនុវត្តនៅកម្ពុជា ដោយសារវាមានប្រសិទ្ធភាពខ្ពស់ក្នុងការវិភាគអត្ថបទខ្លីៗ (ដូចជាការបង្ហោះលើ Facebook) ដោយមិនតម្រូវឱ្យមានហេដ្ឋារចនាសម្ព័ន្ធកុំព្យូទ័រថ្លៃៗ។

គណៈកម្មាធិការប្រយុទ្ធប្រឆាំងព័ត៌មានក្លែងក្លាយ (Anti-Fake News Committee): អាចប្រើប្រាស់ម៉ូដែលនេះដើម្បីតាមដាន និងផ្តល់សញ្ញាព្រមានស្វ័យប្រវត្តិទៅលើការបង្ហោះខ្លីៗតាមទំព័រ Facebook ឬក្រុម Telegram ដែលមាននិន្នាការជាព័ត៌មានញុះញង់ ឬបំផ្លើសការពិត។
វិស័យសុខាភិបាល (ក្រសួងសុខាភិបាល): ត្រងនិងវាយតម្លៃព័ត៌មានមិនពិតទាក់ទងនឹងសុខភាព ឱសថក្លែងក្លាយ ឬការផ្ទុះជំងឺរាតត្បាត ដែលតែងតែត្រូវបានចែកចាយយ៉ាងលឿនក្នុងទម្រង់ជាអត្ថបទខ្លីៗក្នុងចំណោមប្រជាជនកម្ពុជា។
អង្គការផ្ទៀងផ្ទាត់ការពិត (Fact-checking NGOs ដូចជា Fact-Check Cambodia): អាចអភិវឌ្ឍប្រព័ន្ធនេះជាជំនួយការ AI ក្នុងការសម្រាំងអត្ថបទរាប់ពាន់ប្រចាំថ្ងៃ ទុកឱ្យក្រុមការងារមនុស្សចុះធ្វើការស៊ើបអង្កេតបន្តតែលើអត្ថបទដែលមានហានិភ័យខ្ពស់។

សរុបមក ប្រសិនបើមានការស្រាវជ្រាវបន្ថែមក្នុងការកាត់ពាក្យខ្មែរ និងចងក្រងសំណុំទិន្នន័យជាភាសាខ្មែរបានត្រឹមត្រូវ ម៉ូដែលនេះនឹងក្លាយជាឧបករណ៍ដ៏មុតស្រួចមួយក្នុងការទប់ស្កាត់ព័ត៌មានក្លែងក្លាយនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីការរៀបចំទិន្នន័យអត្ថបទភាសាខ្មែរ (Text Preprocessing): ចាប់ផ្តើមរៀនពីរបៀបសម្អាតអត្ថបទនិងការកាត់ពាក្យ (Word Tokenization) សម្រាប់ភាសាខ្មែរ ដោយប្រើប្រាស់ឧបករណ៍ដែលមានស្រាប់ដូចជា Khmer Natural Language Processing (KhmerNLP) ឬ sekhmer។
អនុវត្តបច្ចេកទេសទាញយកលក្ខណៈពិសេសអត្ថបទ (Feature Extraction): រៀនបំប្លែងអត្ថបទទៅជាទិន្នន័យលេខដោយប្រើប្រាស់បច្ចេកទេស TF-IDF និងការចងក្រងពាក្យ n-gram (ឧ. bi-gram) តាមរយៈបណ្ណាល័យ Scikit-Learn នៅក្នុង Python។
រៀបចំសំណុំទិន្នន័យព័ត៌មានពិតនិងក្លែងក្លាយជាភាសាខ្មែរ: ប្រមូលអត្ថបទព័ត៌មានខ្លីៗពីទំព័រផ្លូវការ (ព័ត៌មានពិត) និងប្រភពដែលគ្មានប្រភពច្បាស់លាស់ (អាចជាព័ត៌មានក្លែងក្លាយ) រួចធ្វើការបិទស្លាក (Labeling) ជាថ្នាក់ផ្សេងៗគ្នា (ពិតប្រាកដ ពាក់កណ្តាលពិត ឬក្លែងក្លាយទាំងស្រុង)។
សាងសង់បណ្តាញសិក្សាស៊ីជម្រៅតាមលំដាប់ (Sequential Deep Learning): ប្រើប្រាស់ TensorFlow ឬ Keras ដើម្បីបង្កើតម៉ូដែល AI ដែលមាន Dense Layers និងប្រើប្រាស់ Dropout layers ដើម្បីការពារបញ្ហាការចងចាំទិន្នន័យហួសកម្រិត (Overfitting)។
បង្កើតម៉ូដែលរួមបញ្ចូលគ្នា (Ensemble Model) និងវាយតម្លៃ: ហ្វឹកហាត់បញ្ញាសិប្បនិម្មិតជាច្រើន (Binary classifiers) ទៅលើសំណុំទិន្នន័យរបស់អ្នក រួចយកលទ្ធផលរបស់វាបញ្ចូលទៅក្នុងបណ្តាញ Multilayer Perceptron (MLP) ដើម្បីធ្វើការសម្រេចចិត្តចុងក្រោយ និងវាស់ស្ទង់ភាពត្រឹមត្រូវដោយប្រើប្រាស់ F1-Score។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Deep Ensemble Model	ជាទម្រង់នៃការសាងសង់ម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដែលយកម៉ូដែលតូចៗជាច្រើនមកធ្វើការរួមគ្នា ដើម្បីធ្វើការសម្រេចចិត្តរួមមួយដែលមានភាពសុក្រឹតនិងត្រឹមត្រូវជាងការប្រើប្រាស់ម៉ូដែលតែមួយឯកឯង។	ដូចជាការសួរសំណួរមួយទៅកាន់ក្រុមអ្នកប្រាជ្ញជាច្រើននាក់ រួចយកចម្លើយអ្នកទាំងអស់នោះមកបូកបញ្ចូលគ្នាដើម្បីរកចម្លើយដែលត្រឹមត្រូវបំផុត ជាជាងការជឿលើមនុស្សតែម្នាក់។
TF-IDF	ជាបច្ចេកទេសបំប្លែងអត្ថបទទៅជាតួលេខ ដោយវាស់ស្ទង់ភាពញឹកញាប់នៃពាក្យមួយនៅក្នុងអត្ថបទមួយ ធៀបនឹងចំនួនដងដែលពាក្យនោះលេចឡើងក្នុងអត្ថបទទាំងអស់។ វាជួយទម្លាក់តម្លៃពាក្យទូទៅ (ដូចជា "និង", "ឬ") និងលើកតម្លៃពាក្យសំខាន់ៗដែលសម្គាល់អត្ថបទនោះ។	ដូចជាការរកមើលគ្រឿងផ្សំពិសេសប្រចាំហាងនីមួយៗ ដោយមិនខ្វល់ពីអំបិលឬស្ករដែលមាននៅគ្រប់ហាងនោះទេ។
n-gram	ជាវិធីសាស្ត្រកាត់អត្ថបទជាបំណែកៗដោយចាប់យកពាក្យជាប់គ្នាជាក្រុម (ឧទាហរណ៍ bi-gram គឺចាប់យក ២ ពាក្យជាប់គ្នា) ដើម្បីរក្សាអត្ថន័យនៃឃ្លា ជាជាងការមើលតែពាក្យមួយៗដាច់ពីគ្នា។	ដូចជាការអានពាក្យ "ក្តៅ" និង "ស៊ី" ជាប់គ្នាជា "ក្តៅស៊ី" (ខឹង) ដែលមានន័យខុសស្រឡះពីការអានពាក្យ "ក្តៅ" និង "ស៊ី" ដាច់ដោយឡែកពីគ្នា។
Multilayer Perceptron (MLP)	ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Artificial Neural Network) បុរាណដែលមានស្រទាប់ជាច្រើន (Input, Hidden, Output)។ នៅក្នុងការសិក្សានេះ វាត្រូវបានប្រើនៅដំណាក់កាលចុងក្រោយដើម្បីយកលទ្ធផលពីម៉ូដែលមុនៗមកធ្វើការវាយតម្លៃនិងកាត់ក្តីជាចំណាត់ថ្នាក់ចុងក្រោយ។	ដូចជាចៅក្រមតុលាការកំពូលដែលស្តាប់សក្ខីកម្មពីសាក្សីជាច្រើន (ស្រទាប់មុនៗ) មុននឹងសម្រេចក្តីចុងក្រោយថាតើព័ត៌មាននោះពិត ឬក្លែងក្លាយ។
Sequential Deep Learning	ជាទម្រង់នៃបណ្តាញសិក្សាស៊ីជម្រៅដែលស្រទាប់នីមួយៗ (Layers) ត្រូវបានតម្រៀបបន្តបន្ទាប់គ្នាជាលំដាប់លំដោយ។ ទិន្នន័យរត់ពីស្រទាប់មួយទៅស្រទាប់មួយទៀតដើម្បីទាញយកលក្ខណៈពិសេសដែលលាក់កំបាំងកាន់តែស៊ីជម្រៅទៅៗ។	ដូចជារោងចក្រដំឡើងរថយន្ត ដែលគ្រឿងបន្លាស់ត្រូវឆ្លងកាត់ពីផ្នែកមួយទៅផ្នែកមួយទៀតតាមលំដាប់លំដោយរហូតចេញជារថយន្តពេញលេញមួយ។
Sparse tensor	ជាទម្រង់ផ្ទុកទិន្នន័យ (ម៉ាទ្រីសពហុវិមាត្រ) ដែលពោរពេញទៅដោយតម្លៃសូន្យច្រើនជាងតម្លៃពិតប្រាកដ។ ក្នុងដំណើរការវិភាគអត្ថបទខ្លីៗ វាធ្វើឱ្យម៉ូដែល AI ពិបាករៀនសូត្រ ដោយសារតែខ្វះព័ត៌មាន (Features) គ្រប់គ្រាន់សម្រាប់ចាប់យកលំនាំ (Patterns)។	ដូចជាសៀវភៅមួយក្បាលធំដែលមានអក្សរតែពីរបីទំព័រ ចំណែកទំព័រផ្សេងទៀតទទេ។ វាធ្វើឱ្យអ្នកអានពិបាកយល់សាច់រឿងទាំងមូល។
Contextualized text representation	ជាបច្ចេកទេសទំនើបដែលបំប្លែងពាក្យទៅជាតួលេខដោយពិចារណាលើបរិបទ ឬពាក្យដែលនៅជុំវិញវា (ដូចជា BERT ឬ Word2Vec)។ ទោះបីជាទំនើប ប៉ុន្តែការសិក្សានេះរកឃើញថាវាមិនសូវមានប្រសិទ្ធភាពសម្រាប់អត្ថបទខ្លីៗពេកនោះទេ។	ដូចជាមនុស្សដែលពូកែស្តាប់និងយល់ន័យធៀបនៃពាក្យសម្តីតាមកាលៈទេសៈ ប៉ុន្តែអាចនឹងគិតស្មុគស្មាញពេកនៅពេលឮពាក្យលេងសើចខ្លីៗធម្មតា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖