បញ្ហា (The Problem)៖ ការរកឃើញព័ត៌មានក្លែងក្លាយ (Fake news detection) ជួបប្រទះនឹងបញ្ហាប្រឈមធំៗ ដោយសារការប្រើប្រាស់ភាសាស្រដៀងគ្នារវាងព័ត៌មានពិតនិងក្លែងក្លាយ ព្រមទាំងបញ្ហាប្រយោគខ្លីៗនៅលើបណ្តាញសង្គមដែលធ្វើឱ្យបច្ចេកទេសតំណាងអត្ថបទបច្ចុប្បន្នមិនសូវមានប្រសិទ្ធភាព។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវម៉ូដែលរួមគ្នាស៊ីជម្រៅ (Deep ensemble model) ដែលដំណើរការជា ៣ ដំណាក់កាល ដើម្បីពង្រឹងភាពសុក្រឹតនៃការទស្សន៍ទាយចំណាត់ថ្នាក់ព័ត៌មាន។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Proposed Model (TF-IDF-IG + SDL-MLP) ម៉ូដែលស្នើឡើង (ការប្រើប្រាស់ TF-IDF ជាមួយបណ្តាញសិក្សាស៊ីជម្រៅតាមលំដាប់លំដោយ) |
មានប្រសិទ្ធភាពខ្ពស់ក្នុងការកំណត់អត្តសញ្ញាណអត្ថបទខ្លីៗ ស៊ីទំហំអង្គចងចាំតិច (Memory efficient) និងមិនទាមទារកម្លាំងម៉ាស៊ីនធំដុំ។ | ពឹងផ្អែកតែលើលក្ខណៈពិសេសនៃខ្លឹមសារអត្ថបទប៉ុណ្ណោះ ដោយមិនបានវិភាគលើបរិបទ ឬប្រភពដើមនៃព័ត៌មាន។ | ទទួលបានពិន្ទុ F1-Score ៥១.០៥% លើសំណុំទិន្នន័យ LIAR (អត្ថបទខ្លី) និង ១០០% លើសំណុំទិន្នន័យ ISOT (អត្ថបទវែង)។ |
| Samadi et al. (Funnel + CNN) ម៉ូដែលប្រើប្រាស់ Contextualized Embeddings (Funnel) បូកជាមួយបណ្តាញ CNN |
មានសមត្ថភាពចាប់យកអត្ថន័យ និងបរិបទនៃពាក្យបានល្អតាមរយៈបច្ចេកទេសបង្កប់ពាក្យទំនើប (Word Embeddings)។ | មានភាពស្មុគស្មាញ តម្រូវការកម្លាំងកុំព្យូទ័រខ្ពស់ និងមិនសូវមានប្រសិទ្ធភាពចំពោះអត្ថបទដែលខ្លីពេក។ | ទទួលបានពិន្ទុ F1-Score ៤៨.៦៤% លើសំណុំទិន្នន័យ LIAR និង ៩៩.៩៦% លើសំណុំទិន្នន័យ ISOT។ |
| Hakak et al. (Statistical + Random Forest) ម៉ូដែលប្រើប្រាស់លក្ខណៈស្ថិតិបូកជាមួយក្បួនដោះស្រាយ Random Forest |
ដំណើរការបានយ៉ាងល្អឥតខ្ចោះចំពោះសំណុំទិន្នន័យដែលមានអត្ថបទវែងៗ និងងាយស្រួលក្នុងការបកស្រាយលទ្ធផល។ | ជួបប្រទះបញ្ហា Overfitting និងមានសមត្ថភាពទាបបំផុតក្នុងការទស្សន៍ទាយចំណាត់ថ្នាក់អត្ថបទខ្លីៗ (Generalization ខ្សោយ)។ | ទទួលបានពិន្ទុ F1-Score ១០០% លើសំណុំទិន្នន័យ ISOT តែទទួលបានត្រឹម ៤៤.១៥% ប៉ុណ្ណោះលើទិន្នន័យ LIAR។ |
| Wang (Word2Vec + Hybrid CNN) ម៉ូដែលកូនកាត់ប្រើប្រាស់ Word2Vec បូកជាមួយ Hybrid CNN |
ជាម៉ូដែលមូលដ្ឋានដ៏ល្អសម្រាប់ការស្រាវជ្រាវដំបូងៗស្តីពីការប្រើប្រាស់ Deep Learning លើការរកឃើញព័ត៌មានក្លែងក្លាយ។ | ប្រឈមនឹងបញ្ហា Sparse tensors ដែលធ្វើឱ្យភាពត្រឹមត្រូវធ្លាក់ចុះយ៉ាងខ្លាំងនៅពេលជួបប្រយោគខ្លីៗ ឬព័ត៌មានថ្មីៗ។ | ទទួលបានពិន្ទុ F1-Score ទាបត្រឹមតែ ២៧.០១% ប៉ុណ្ណោះលើសំណុំទិន្នន័យ LIAR។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីធនធានកុំព្យូទ័រដែលបានប្រើប្រាស់សម្រាប់ការពិសោធន៍ ដែលបង្ហាញថាម៉ូដែលនេះមិនទាមទារកម្លាំងម៉ាស៊ីនធំដុំ (ដូចជា GPU) នោះទេ ដោយសារការប្រើប្រាស់ទិន្នន័យប្រភេទ n-gram និង TF-IDF ជួយកាត់បន្ថយទំហំទិន្នន័យបានច្រើន។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យជាភាសាអង់គ្លេសដែលផ្តោតជាចម្បងលើបរិបទនយោបាយនៅសហរដ្ឋអាមេរិក (Politifact) និងព័ត៌មានអន្តរជាតិ (Reuters)។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកលើលទ្ធផលនេះមិនអាចយកមកអនុវត្តផ្ទាល់ដោយគ្មានការកែច្នៃបានទេ ដោយសារព័ត៌មានក្លែងក្លាយនៅកម្ពុជាភាគច្រើនសរសេរជាភាសាខ្មែរ មានទម្រង់ខុសគ្នា និងជារឿយៗត្រូវបានចែកចាយតាមរយៈបណ្តាញសង្គមដោយមានលាយឡំរូបភាព ឬវីដេអូ។ ទោះជាយ៉ាងណាក៏ដោយ វិធីសាស្ត្រនៃការប្រើអត្ថបទខ្លីៗគឺស្រដៀងទៅនឹងទម្លាប់ប្រើប្រាស់បណ្តាញសង្គមរបស់ពលរដ្ឋខ្មែរ។
វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់និងស័ក្តិសមក្នុងការយកមកអនុវត្តនៅកម្ពុជា ដោយសារវាមានប្រសិទ្ធភាពខ្ពស់ក្នុងការវិភាគអត្ថបទខ្លីៗ (ដូចជាការបង្ហោះលើ Facebook) ដោយមិនតម្រូវឱ្យមានហេដ្ឋារចនាសម្ព័ន្ធកុំព្យូទ័រថ្លៃៗ។
សរុបមក ប្រសិនបើមានការស្រាវជ្រាវបន្ថែមក្នុងការកាត់ពាក្យខ្មែរ និងចងក្រងសំណុំទិន្នន័យជាភាសាខ្មែរបានត្រឹមត្រូវ ម៉ូដែលនេះនឹងក្លាយជាឧបករណ៍ដ៏មុតស្រួចមួយក្នុងការទប់ស្កាត់ព័ត៌មានក្លែងក្លាយនៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Deep Ensemble Model | ជាទម្រង់នៃការសាងសង់ម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI) ដែលយកម៉ូដែលតូចៗជាច្រើនមកធ្វើការរួមគ្នា ដើម្បីធ្វើការសម្រេចចិត្តរួមមួយដែលមានភាពសុក្រឹតនិងត្រឹមត្រូវជាងការប្រើប្រាស់ម៉ូដែលតែមួយឯកឯង។ | ដូចជាការសួរសំណួរមួយទៅកាន់ក្រុមអ្នកប្រាជ្ញជាច្រើននាក់ រួចយកចម្លើយអ្នកទាំងអស់នោះមកបូកបញ្ចូលគ្នាដើម្បីរកចម្លើយដែលត្រឹមត្រូវបំផុត ជាជាងការជឿលើមនុស្សតែម្នាក់។ |
| TF-IDF | ជាបច្ចេកទេសបំប្លែងអត្ថបទទៅជាតួលេខ ដោយវាស់ស្ទង់ភាពញឹកញាប់នៃពាក្យមួយនៅក្នុងអត្ថបទមួយ ធៀបនឹងចំនួនដងដែលពាក្យនោះលេចឡើងក្នុងអត្ថបទទាំងអស់។ វាជួយទម្លាក់តម្លៃពាក្យទូទៅ (ដូចជា "និង", "ឬ") និងលើកតម្លៃពាក្យសំខាន់ៗដែលសម្គាល់អត្ថបទនោះ។ | ដូចជាការរកមើលគ្រឿងផ្សំពិសេសប្រចាំហាងនីមួយៗ ដោយមិនខ្វល់ពីអំបិលឬស្ករដែលមាននៅគ្រប់ហាងនោះទេ។ |
| n-gram | ជាវិធីសាស្ត្រកាត់អត្ថបទជាបំណែកៗដោយចាប់យកពាក្យជាប់គ្នាជាក្រុម (ឧទាហរណ៍ bi-gram គឺចាប់យក ២ ពាក្យជាប់គ្នា) ដើម្បីរក្សាអត្ថន័យនៃឃ្លា ជាជាងការមើលតែពាក្យមួយៗដាច់ពីគ្នា។ | ដូចជាការអានពាក្យ "ក្តៅ" និង "ស៊ី" ជាប់គ្នាជា "ក្តៅស៊ី" (ខឹង) ដែលមានន័យខុសស្រឡះពីការអានពាក្យ "ក្តៅ" និង "ស៊ី" ដាច់ដោយឡែកពីគ្នា។ |
| Multilayer Perceptron (MLP) | ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Artificial Neural Network) បុរាណដែលមានស្រទាប់ជាច្រើន (Input, Hidden, Output)។ នៅក្នុងការសិក្សានេះ វាត្រូវបានប្រើនៅដំណាក់កាលចុងក្រោយដើម្បីយកលទ្ធផលពីម៉ូដែលមុនៗមកធ្វើការវាយតម្លៃនិងកាត់ក្តីជាចំណាត់ថ្នាក់ចុងក្រោយ។ | ដូចជាចៅក្រមតុលាការកំពូលដែលស្តាប់សក្ខីកម្មពីសាក្សីជាច្រើន (ស្រទាប់មុនៗ) មុននឹងសម្រេចក្តីចុងក្រោយថាតើព័ត៌មាននោះពិត ឬក្លែងក្លាយ។ |
| Sequential Deep Learning | ជាទម្រង់នៃបណ្តាញសិក្សាស៊ីជម្រៅដែលស្រទាប់នីមួយៗ (Layers) ត្រូវបានតម្រៀបបន្តបន្ទាប់គ្នាជាលំដាប់លំដោយ។ ទិន្នន័យរត់ពីស្រទាប់មួយទៅស្រទាប់មួយទៀតដើម្បីទាញយកលក្ខណៈពិសេសដែលលាក់កំបាំងកាន់តែស៊ីជម្រៅទៅៗ។ | ដូចជារោងចក្រដំឡើងរថយន្ត ដែលគ្រឿងបន្លាស់ត្រូវឆ្លងកាត់ពីផ្នែកមួយទៅផ្នែកមួយទៀតតាមលំដាប់លំដោយរហូតចេញជារថយន្តពេញលេញមួយ។ |
| Sparse tensor | ជាទម្រង់ផ្ទុកទិន្នន័យ (ម៉ាទ្រីសពហុវិមាត្រ) ដែលពោរពេញទៅដោយតម្លៃសូន្យច្រើនជាងតម្លៃពិតប្រាកដ។ ក្នុងដំណើរការវិភាគអត្ថបទខ្លីៗ វាធ្វើឱ្យម៉ូដែល AI ពិបាករៀនសូត្រ ដោយសារតែខ្វះព័ត៌មាន (Features) គ្រប់គ្រាន់សម្រាប់ចាប់យកលំនាំ (Patterns)។ | ដូចជាសៀវភៅមួយក្បាលធំដែលមានអក្សរតែពីរបីទំព័រ ចំណែកទំព័រផ្សេងទៀតទទេ។ វាធ្វើឱ្យអ្នកអានពិបាកយល់សាច់រឿងទាំងមូល។ |
| Contextualized text representation | ជាបច្ចេកទេសទំនើបដែលបំប្លែងពាក្យទៅជាតួលេខដោយពិចារណាលើបរិបទ ឬពាក្យដែលនៅជុំវិញវា (ដូចជា BERT ឬ Word2Vec)។ ទោះបីជាទំនើប ប៉ុន្តែការសិក្សានេះរកឃើញថាវាមិនសូវមានប្រសិទ្ធភាពសម្រាប់អត្ថបទខ្លីៗពេកនោះទេ។ | ដូចជាមនុស្សដែលពូកែស្តាប់និងយល់ន័យធៀបនៃពាក្យសម្តីតាមកាលៈទេសៈ ប៉ុន្តែអាចនឹងគិតស្មុគស្មាញពេកនៅពេលឮពាក្យលេងសើចខ្លីៗធម្មតា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖