Original Title: Text Classification for Authorship Attribution Using Naive Bayes Classifier with Limited Training Data
Source: www.iiste.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការចាត់ថ្នាក់អត្ថបទសម្រាប់ការកំណត់អត្តសញ្ញាណអ្នកនិពន្ធដោយប្រើម៉ាស៊ីនចំណាត់ថ្នាក់ Naive Bayes ជាមួយទិន្នន័យបណ្តុះបណ្តាលមានកំណត់

ចំណងជើងដើម៖ Text Classification for Authorship Attribution Using Naive Bayes Classifier with Limited Training Data

អ្នកនិពន្ធ៖ Fatma Howedi (Universiti Kebangsaan Malaysia), Masnizah Mohd (Universiti Kebangsaan Malaysia)

ឆ្នាំបោះពុម្ព៖ 2014

វិស័យសិក្សា៖ Computer Science (Natural Language Processing)

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការកំណត់អត្តសញ្ញាណអ្នកនិពន្ធ (Authorship Attribution) សម្រាប់អត្ថបទដែលមានទំហំខ្លីខ្លាំង និងមានទិន្នន័យបណ្តុះបណ្តាលមានកំណត់ ជាពិសេសផ្តោតលើអត្ថបទប្រវត្តិសាស្ត្រជាភាសាអារ៉ាប់។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់ម៉ាស៊ីនចំណាត់ថ្នាក់ Naive Bayes ដើម្បីវិភាគលើលក្ខណៈពិសេសនៃរចនាប័ទ្មសរសេរ (Stylometry) ដែលបានទាញចេញពីអត្ថបទ ដោយប្រៀបធៀបជាមួយវិធីសាស្ត្រ SVM ។

AAAT Dataset (សំណុំទិន្នន័យអត្ថបទអារ៉ាប់បុរាណចំនួន ៣០ ពីអ្នកនិពន្ធ ១០ នាក់)
Naive Bayes Classifier (ម៉ាស៊ីនចំណាត់ថ្នាក់ Naive Bayes)
N-grams Features (ការទាញយកលក្ខណៈពិសេសបែប N-gram កម្រិតពាក្យ និងតួអក្សរ)
3-fold Cross Validation (ការផ្ទៀងផ្ទាត់ឆ្លងចំនួន ៣ ដំណាក់កាល)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ាស៊ីនចំណាត់ថ្នាក់ Naive Bayes ទទួលបានប្រសិទ្ធភាពខ្ពស់បំផុតរហូតដល់ ៩៦.៦៧% ដោយប្រើប្រាស់លក្ខណៈពិសេស Word Uni-gram ។
ជាមធ្យម ម៉ាស៊ីន Naive Bayes ផ្តល់លទ្ធផលល្អជាង SVM (៧១.៨៥% ធៀបនឹង ៦២.៩៦%) សម្រាប់ការវិភាគលើអត្ថបទខ្លីៗប្រភេទនេះ។
ការដាក់បញ្ចូលសញ្ញាវណ្ណយុត្តិ (Punctuation marks) ទៅក្នុងការវិភាគលក្ខណៈពិសេសនៃតួអក្សរ បានជួយបង្កើនភាពត្រឹមត្រូវនៃការកំណត់អត្តសញ្ញាណអ្នកនិពន្ធឱ្យកាន់តែប្រសើរឡើង។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Naive Bayes (NB) វិធីសាស្ត្រចំណាត់ថ្នាក់តាមបែបប្រូបាប៊ីលីតេ (Naive Bayes)	មានប្រសិទ្ធភាពខ្ពស់ចំពោះទិន្នន័យដែលមានចំនួនតិច (Limited Training Data) និងដំណើរការលឿនដោយមិនទាមទារធនធានកុំព្យូទ័រខ្លាំង។	សន្មតថាលក្ខណៈពិសេសនីមួយៗមិនអាស្រ័យលើគ្នា (Independence assumption) ដែលអាចមិនឆ្លុះបញ្ចាំងពីការពិតនៃរចនាសម្ព័ន្ធភាសា។	ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត ៩៦.៦៧% (លើមុខងារ Word Uni-gram) និងមធ្យមភាគ ៧១.៨៥% លើគ្រប់មុខងារ។
Support Vector Machines (SVM) វិធីសាស្ត្រវ៉ិចទ័រគាំទ្រ (Support Vector Machines)	ជាទូទៅមានប្រសិទ្ធភាពចំពោះការចាត់ថ្នាក់អត្ថបទដែលមានទិន្នន័យច្រើន និងមានវិមាត្រខ្ពស់។	ជួបការលំបាក និងទទួលបានលទ្ធផលទាបនៅពេលធ្វើការជាមួយទិន្នន័យខ្លីៗ ឬទិន្នន័យដែលមានចំនួនតិច (Sparse data)។	ទទួលបានលទ្ធផលទាបជាង NB ដោយមធ្យមភាគត្រឹមតែ ៦២.៩៦% ហើយក្នុងករណីខ្លះធ្លាក់ចុះដល់ ២០% (Word Tri-gram)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រក្នុងកម្រិតទាប ដែលសមស្របសម្រាប់បរិបទនៃសាកលវិទ្យាល័យ ឬស្ថាប័នដែលមានថវិកាកម្រិតមធ្យម។

Software: អ្នកស្រាវជ្រាវបានប្រើប្រាស់កម្មវិធី RapidMiner tool kit សម្រាប់ការវិភាគទិន្នន័យ និងការចាត់ថ្នាក់។
Dataset: សំណុំទិន្នន័យ AAAT (អត្ថបទអារ៉ាប់បុរាណ) ដែលមានទំហំតូច (ប្រហែល ៣០ អត្ថបទ) ជាប្រភេទឯកសារ .txt ។
Hardware: មិនទាមទារ GPU ខ្លាំងដូចការបណ្តុះបណ្តាល Deep Learning ទេ កុំព្យូទ័រធម្មតាអាចដំណើរការបាន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះធ្វើឡើងលើអត្ថបទប្រវត្តិសាស្ត្រជាភាសាអារ៉ាប់ (Arabic travelers' texts) ដែលមានរចនាសម្ព័ន្ធភាសាខុសពីភាសាខ្មែរ។ ទោះជាយ៉ាងណាក៏ដោយ បញ្ហានៃការមានទិន្នន័យតិច (Limited Data) គឺស្រដៀងគ្នាទៅនឹងបញ្ហាប្រឈមក្នុងការធ្វើ NLP សម្រាប់ភាសាខ្មែរនាពេលបច្ចុប្បន្ន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានអត្ថប្រយោជន៍ខ្ពស់សម្រាប់កម្ពុជា ជាពិសេសក្នុងការវិភាគអត្ថបទដែលមានធនធានតិចតួច។

Khmer Literature & Digital Humanities: អាចប្រើដើម្បីកំណត់អត្តសញ្ញាណអ្នកនិពន្ធនៃអត្ថបទបុរាណ ឬកំណាព្យខ្មែរដែលបាត់បង់ឈ្មោះអ្នកនិពន្ធ ដោយផ្អែកលើរចនាប័ទ្មសរសេរ (Stylometry)។
Forensic Linguistics (នីតិវិទ្យាភាសា): អាចអនុវត្តក្នុងវិស័យច្បាប់ដើម្បីវិភាគសារគំរាមកំហែង ឬលិខិតអនាមិកខ្លីៗ (Short texts) ដើម្បីរកអត្តសញ្ញាណជនសង្ស័យ។
Social Media Monitoring: ការចាត់ថ្នាក់គណនីក្លែងក្លាយ (Fake accounts) នៅលើ Facebook ឬ Telegram ដោយវិភាគលើមតិយោបល់ខ្លីៗរបស់អ្នកប្រើប្រាស់។

ការប្រើប្រាស់ Naive Bayes លើទិន្នន័យតូច គឺជាដំណោះស្រាយដ៏ល្អសម្រាប់អ្នកស្រាវជ្រាវខ្មែរដែលមិនទាន់មានសំណុំទិន្នន័យធំ (Big Data) ក្នុងដៃ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ាស៊ីនរៀន: និស្សិតគួរចាប់ផ្តើមសិក្សាពីទ្រឹស្តីនៃ Naive Bayes និងរបៀបគណនាប្រូបាប៊ីលីតេ ដោយប្រើប្រាស់ភាសា Python និងបណ្ណាល័យ Scikit-learn ។
ការរៀបចំទិន្នន័យភាសាខ្មែរ (Preprocessing): ដោយសារភាសាខ្មែរមិនដកឃ្លា និស្សិតត្រូវសិក្សាពីវិធីសាស្ត្រកាត់ពាក្យ (Word Segmentation) ដោយប្រើឧបករណ៍ដូចជា Khmer NLTK ឬ Polyglot មុននឹងបង្កើត N-grams។
ការអនុវត្តលើសំណុំទិន្នន័យតូច: សាកល្បងប្រមូលអត្ថបទខ្លីៗ (ប្រហែល ៥០០ ពាក្យក្នុងមួយអត្ថបទ) ពីអ្នកនិពន្ធខ្មែរល្បីៗ ៣-៥ នាក់ ហើយប្រើប្រាស់កម្មវិធី RapidMiner ឬសរសេរកូដ Python ដើម្បីធ្វើចំណាត់ថ្នាក់។
ការពិសោធន៍ជាមួយលក្ខណៈពិសេស (Feature Engineering): ប្រៀបធៀបប្រសិទ្ធភាពរវាងការប្រើ Word N-grams និង Character N-grams សម្រាប់ភាសាខ្មែរ ដើម្បីមើលថាតើមួយណាផ្តល់លទ្ធផលល្អជាងសម្រាប់អត្ថបទខ្លី។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Authorship Attribution	ជាដំណើរការនៃការវិភាគតាមបែបវិទ្យាសាស្ត្រកុំព្យូទ័រ ដើម្បីកំណត់អត្តសញ្ញាណថាអ្នកណាជាអ្នកសរសេរអត្ថបទមួយ (ដែលមិនមានឈ្មោះ ឬមានឈ្មោះក្លែងក្លាយ) ដោយផ្អែកលើទម្លាប់នៃការប្រើប្រាស់ភាសារបស់ពួកគេ។	ប្រៀបបាននឹងការដែលយើងស្គាល់សំឡេងមិត្តភក្តិតាមទូរស័ព្ទ ទោះបីជាគេមិនបានប្រាប់ឈ្មោះក៏ដោយ ដោយគ្រាន់តែស្តាប់របៀបនិយាយរបស់គេ។
Stylometry	ការសិក្សាវាស់វែងនិងវិភាគស្ថិតិទៅលើរចនាប័ទ្មនៃការសរសេរ (ដូចជាប្រវែងប្រយោគ ភាពញឹកញាប់នៃពាក្យ ឬការប្រើប្រាស់សញ្ញាវណ្ណយុត្តិ) ដើម្បីស្វែងរកលក្ខណៈពិសេសដាច់ដោយឡែករបស់អ្នកនិពន្ធម្នាក់ៗ។	ដូចជាការពិនិត្យមើលស្នាមម្រាមដៃ (Fingerprint) ដែរប៉ុន្តែនេះគឺជាការពិនិត្យមើល "ស្នាមម្រាមដៃនៃភាសា" ដែលអ្នកនិពន្ធបានបន្សល់ទុកក្នុងអត្ថបទ។
N-grams	បច្ចេកទេសតំណាងទិន្នន័យអត្ថបទដោយកាត់ជាបំណែកតូចៗនៃពាក្យ ឬតួអក្សរចំនួន N ដែលនៅជាប់គ្នាជាបន្តបន្ទាប់។ វាជួយឱ្យកុំព្យូទ័រចាប់យកបរិបទនៃពាក្យដែលនៅក្បែរគ្នាបាន។	ឧបមាថាមានឃ្លា "ខ្ញុំទៅរៀន" បើកាត់ជា 2-grams (Bi-gram) យើងនឹងបាន "ខ្ញុំទៅ" និង "ទៅរៀន" ដើម្បីឱ្យកុំព្យូទ័រដឹងថាពាក្យទាំងនេះច្រើនដើរតួជាមួយគ្នា។
Naive Bayes Classifier	ក្បួនដោះស្រាយ (Algorithm) សម្រាប់ការចាត់ថ្នាក់ទិន្នន័យដោយផ្អែកលើទ្រឹស្តីប្រូបាប៊ីលីតេ។ វាមានឈ្មោះថា "Naive" (ឆោតល្ងង់) ព្រោះវាសន្មតថាលក្ខណៈពិសេសនីមួយៗមិនមានទំនាក់ទំនងនឹងគ្នា ដែលធ្វើឱ្យវាគណនាបានលឿននិងមានប្រសិទ្ធភាពលើទិន្នន័យតូច។	ដូចជាការទាយថានរណាម្នាក់ចូលចិត្តម្ហូបអ្វី ដោយគ្រាន់តែមើលគ្រឿងផ្សំដាច់ដោយឡែកពីគ្នា (សាច់, បន្លែ, រសជាតិ) ដោយមិនខ្វល់ថាវាត្រូវបានចម្អិនបញ្ចូលគ្នាយ៉ាងណានោះទេ។
Cross Validation	វិធីសាស្ត្រវាយតម្លៃប្រសិទ្ធភាពនៃម៉ូដែល ដោយបែងចែកទិន្នន័យជាផ្នែកៗ (Folds) ហើយធ្វើការបណ្តុះបណ្តាលនិងធ្វើតេស្តឆ្លាស់គ្នាជាច្រើនដង ដើម្បីធានាថាលទ្ធផលមិនមែនកើតឡើងដោយចៃដន្យ។	ប្រៀបដូចជាការឱ្យសិស្សប្រឡងច្រើនលើក ដោយប្រើវិញ្ញាសាផ្សេងៗគ្នា ដើម្បីវាស់សមត្ថភាពពិតប្រាកដ ជាជាងការប្រឡងតែមួយលើកដែលអាចនឹងសំណាងចេះចំ។
Feature Selection	ដំណើរការនៃការជ្រើសរើសយកតែទិន្នន័យ ឬលក្ខណៈពិសេសណាដែលមានសារៈសំខាន់បំផុតសម្រាប់ការវិភាគ និងបោះចោលទិន្នន័យដែលមិនចាំបាច់ ដើម្បីឱ្យម៉ាស៊ីនដំណើរការលឿន និងមានភាពត្រឹមត្រូវជាងមុន។	ដូចជាការរៀបចំកាបូបដើរព្រៃ ដោយជ្រើសរើសយកតែរបស់ចាំបាច់បំផុត (ទឹក, អាហារ, ភ្លើង) និងទុករបស់ដែលមិនសូវសំខាន់ចោល ដើម្បីកុំឱ្យធ្ងន់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖