បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការកំណត់អត្តសញ្ញាណអ្នកនិពន្ធ (Authorship Attribution) សម្រាប់អត្ថបទដែលមានទំហំខ្លីខ្លាំង និងមានទិន្នន័យបណ្តុះបណ្តាលមានកំណត់ ជាពិសេសផ្តោតលើអត្ថបទប្រវត្តិសាស្ត្រជាភាសាអារ៉ាប់។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់ម៉ាស៊ីនចំណាត់ថ្នាក់ Naive Bayes ដើម្បីវិភាគលើលក្ខណៈពិសេសនៃរចនាប័ទ្មសរសេរ (Stylometry) ដែលបានទាញចេញពីអត្ថបទ ដោយប្រៀបធៀបជាមួយវិធីសាស្ត្រ SVM ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Naive Bayes (NB) វិធីសាស្ត្រចំណាត់ថ្នាក់តាមបែបប្រូបាប៊ីលីតេ (Naive Bayes) |
មានប្រសិទ្ធភាពខ្ពស់ចំពោះទិន្នន័យដែលមានចំនួនតិច (Limited Training Data) និងដំណើរការលឿនដោយមិនទាមទារធនធានកុំព្យូទ័រខ្លាំង។ | សន្មតថាលក្ខណៈពិសេសនីមួយៗមិនអាស្រ័យលើគ្នា (Independence assumption) ដែលអាចមិនឆ្លុះបញ្ចាំងពីការពិតនៃរចនាសម្ព័ន្ធភាសា។ | ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត ៩៦.៦៧% (លើមុខងារ Word Uni-gram) និងមធ្យមភាគ ៧១.៨៥% លើគ្រប់មុខងារ។ |
| Support Vector Machines (SVM) វិធីសាស្ត្រវ៉ិចទ័រគាំទ្រ (Support Vector Machines) |
ជាទូទៅមានប្រសិទ្ធភាពចំពោះការចាត់ថ្នាក់អត្ថបទដែលមានទិន្នន័យច្រើន និងមានវិមាត្រខ្ពស់។ | ជួបការលំបាក និងទទួលបានលទ្ធផលទាបនៅពេលធ្វើការជាមួយទិន្នន័យខ្លីៗ ឬទិន្នន័យដែលមានចំនួនតិច (Sparse data)។ | ទទួលបានលទ្ធផលទាបជាង NB ដោយមធ្យមភាគត្រឹមតែ ៦២.៩៦% ហើយក្នុងករណីខ្លះធ្លាក់ចុះដល់ ២០% (Word Tri-gram)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រក្នុងកម្រិតទាប ដែលសមស្របសម្រាប់បរិបទនៃសាកលវិទ្យាល័យ ឬស្ថាប័នដែលមានថវិកាកម្រិតមធ្យម។
ការសិក្សានេះធ្វើឡើងលើអត្ថបទប្រវត្តិសាស្ត្រជាភាសាអារ៉ាប់ (Arabic travelers' texts) ដែលមានរចនាសម្ព័ន្ធភាសាខុសពីភាសាខ្មែរ។ ទោះជាយ៉ាងណាក៏ដោយ បញ្ហានៃការមានទិន្នន័យតិច (Limited Data) គឺស្រដៀងគ្នាទៅនឹងបញ្ហាប្រឈមក្នុងការធ្វើ NLP សម្រាប់ភាសាខ្មែរនាពេលបច្ចុប្បន្ន។
វិធីសាស្ត្រនេះមានអត្ថប្រយោជន៍ខ្ពស់សម្រាប់កម្ពុជា ជាពិសេសក្នុងការវិភាគអត្ថបទដែលមានធនធានតិចតួច។
ការប្រើប្រាស់ Naive Bayes លើទិន្នន័យតូច គឺជាដំណោះស្រាយដ៏ល្អសម្រាប់អ្នកស្រាវជ្រាវខ្មែរដែលមិនទាន់មានសំណុំទិន្នន័យធំ (Big Data) ក្នុងដៃ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Authorship Attribution | ជាដំណើរការនៃការវិភាគតាមបែបវិទ្យាសាស្ត្រកុំព្យូទ័រ ដើម្បីកំណត់អត្តសញ្ញាណថាអ្នកណាជាអ្នកសរសេរអត្ថបទមួយ (ដែលមិនមានឈ្មោះ ឬមានឈ្មោះក្លែងក្លាយ) ដោយផ្អែកលើទម្លាប់នៃការប្រើប្រាស់ភាសារបស់ពួកគេ។ | ប្រៀបបាននឹងការដែលយើងស្គាល់សំឡេងមិត្តភក្តិតាមទូរស័ព្ទ ទោះបីជាគេមិនបានប្រាប់ឈ្មោះក៏ដោយ ដោយគ្រាន់តែស្តាប់របៀបនិយាយរបស់គេ។ |
| Stylometry | ការសិក្សាវាស់វែងនិងវិភាគស្ថិតិទៅលើរចនាប័ទ្មនៃការសរសេរ (ដូចជាប្រវែងប្រយោគ ភាពញឹកញាប់នៃពាក្យ ឬការប្រើប្រាស់សញ្ញាវណ្ណយុត្តិ) ដើម្បីស្វែងរកលក្ខណៈពិសេសដាច់ដោយឡែករបស់អ្នកនិពន្ធម្នាក់ៗ។ | ដូចជាការពិនិត្យមើលស្នាមម្រាមដៃ (Fingerprint) ដែរប៉ុន្តែនេះគឺជាការពិនិត្យមើល "ស្នាមម្រាមដៃនៃភាសា" ដែលអ្នកនិពន្ធបានបន្សល់ទុកក្នុងអត្ថបទ។ |
| N-grams | បច្ចេកទេសតំណាងទិន្នន័យអត្ថបទដោយកាត់ជាបំណែកតូចៗនៃពាក្យ ឬតួអក្សរចំនួន N ដែលនៅជាប់គ្នាជាបន្តបន្ទាប់។ វាជួយឱ្យកុំព្យូទ័រចាប់យកបរិបទនៃពាក្យដែលនៅក្បែរគ្នាបាន។ | ឧបមាថាមានឃ្លា "ខ្ញុំទៅរៀន" បើកាត់ជា 2-grams (Bi-gram) យើងនឹងបាន "ខ្ញុំទៅ" និង "ទៅរៀន" ដើម្បីឱ្យកុំព្យូទ័រដឹងថាពាក្យទាំងនេះច្រើនដើរតួជាមួយគ្នា។ |
| Naive Bayes Classifier | ក្បួនដោះស្រាយ (Algorithm) សម្រាប់ការចាត់ថ្នាក់ទិន្នន័យដោយផ្អែកលើទ្រឹស្តីប្រូបាប៊ីលីតេ។ វាមានឈ្មោះថា "Naive" (ឆោតល្ងង់) ព្រោះវាសន្មតថាលក្ខណៈពិសេសនីមួយៗមិនមានទំនាក់ទំនងនឹងគ្នា ដែលធ្វើឱ្យវាគណនាបានលឿននិងមានប្រសិទ្ធភាពលើទិន្នន័យតូច។ | ដូចជាការទាយថានរណាម្នាក់ចូលចិត្តម្ហូបអ្វី ដោយគ្រាន់តែមើលគ្រឿងផ្សំដាច់ដោយឡែកពីគ្នា (សាច់, បន្លែ, រសជាតិ) ដោយមិនខ្វល់ថាវាត្រូវបានចម្អិនបញ្ចូលគ្នាយ៉ាងណានោះទេ។ |
| Cross Validation | វិធីសាស្ត្រវាយតម្លៃប្រសិទ្ធភាពនៃម៉ូដែល ដោយបែងចែកទិន្នន័យជាផ្នែកៗ (Folds) ហើយធ្វើការបណ្តុះបណ្តាលនិងធ្វើតេស្តឆ្លាស់គ្នាជាច្រើនដង ដើម្បីធានាថាលទ្ធផលមិនមែនកើតឡើងដោយចៃដន្យ។ | ប្រៀបដូចជាការឱ្យសិស្សប្រឡងច្រើនលើក ដោយប្រើវិញ្ញាសាផ្សេងៗគ្នា ដើម្បីវាស់សមត្ថភាពពិតប្រាកដ ជាជាងការប្រឡងតែមួយលើកដែលអាចនឹងសំណាងចេះចំ។ |
| Feature Selection | ដំណើរការនៃការជ្រើសរើសយកតែទិន្នន័យ ឬលក្ខណៈពិសេសណាដែលមានសារៈសំខាន់បំផុតសម្រាប់ការវិភាគ និងបោះចោលទិន្នន័យដែលមិនចាំបាច់ ដើម្បីឱ្យម៉ាស៊ីនដំណើរការលឿន និងមានភាពត្រឹមត្រូវជាងមុន។ | ដូចជាការរៀបចំកាបូបដើរព្រៃ ដោយជ្រើសរើសយកតែរបស់ចាំបាច់បំផុត (ទឹក, អាហារ, ភ្លើង) និងទុករបស់ដែលមិនសូវសំខាន់ចោល ដើម្បីកុំឱ្យធ្ងន់។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖