Original Title: Text Classification for Authorship Attribution Using Naive Bayes Classifier with Limited Training Data
Source: www.iiste.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការចាត់ថ្នាក់អត្ថបទសម្រាប់ការកំណត់អត្តសញ្ញាណអ្នកនិពន្ធដោយប្រើម៉ាស៊ីនចំណាត់ថ្នាក់ Naive Bayes ជាមួយទិន្នន័យបណ្តុះបណ្តាលមានកំណត់

ចំណងជើងដើម៖ Text Classification for Authorship Attribution Using Naive Bayes Classifier with Limited Training Data

អ្នកនិពន្ធ៖ Fatma Howedi (Universiti Kebangsaan Malaysia), Masnizah Mohd (Universiti Kebangsaan Malaysia)

ឆ្នាំបោះពុម្ព៖ 2014

វិស័យសិក្សា៖ Computer Science (Natural Language Processing)

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការកំណត់អត្តសញ្ញាណអ្នកនិពន្ធ (Authorship Attribution) សម្រាប់អត្ថបទដែលមានទំហំខ្លីខ្លាំង និងមានទិន្នន័យបណ្តុះបណ្តាលមានកំណត់ ជាពិសេសផ្តោតលើអត្ថបទប្រវត្តិសាស្ត្រជាភាសាអារ៉ាប់។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់ម៉ាស៊ីនចំណាត់ថ្នាក់ Naive Bayes ដើម្បីវិភាគលើលក្ខណៈពិសេសនៃរចនាប័ទ្មសរសេរ (Stylometry) ដែលបានទាញចេញពីអត្ថបទ ដោយប្រៀបធៀបជាមួយវិធីសាស្ត្រ SVM ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Naive Bayes (NB)
វិធីសាស្ត្រចំណាត់ថ្នាក់តាមបែបប្រូបាប៊ីលីតេ (Naive Bayes)
មានប្រសិទ្ធភាពខ្ពស់ចំពោះទិន្នន័យដែលមានចំនួនតិច (Limited Training Data) និងដំណើរការលឿនដោយមិនទាមទារធនធានកុំព្យូទ័រខ្លាំង។ សន្មតថាលក្ខណៈពិសេសនីមួយៗមិនអាស្រ័យលើគ្នា (Independence assumption) ដែលអាចមិនឆ្លុះបញ្ចាំងពីការពិតនៃរចនាសម្ព័ន្ធភាសា។ ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត ៩៦.៦៧% (លើមុខងារ Word Uni-gram) និងមធ្យមភាគ ៧១.៨៥% លើគ្រប់មុខងារ។
Support Vector Machines (SVM)
វិធីសាស្ត្រវ៉ិចទ័រគាំទ្រ (Support Vector Machines)
ជាទូទៅមានប្រសិទ្ធភាពចំពោះការចាត់ថ្នាក់អត្ថបទដែលមានទិន្នន័យច្រើន និងមានវិមាត្រខ្ពស់។ ជួបការលំបាក និងទទួលបានលទ្ធផលទាបនៅពេលធ្វើការជាមួយទិន្នន័យខ្លីៗ ឬទិន្នន័យដែលមានចំនួនតិច (Sparse data)។ ទទួលបានលទ្ធផលទាបជាង NB ដោយមធ្យមភាគត្រឹមតែ ៦២.៩៦% ហើយក្នុងករណីខ្លះធ្លាក់ចុះដល់ ២០% (Word Tri-gram)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រក្នុងកម្រិតទាប ដែលសមស្របសម្រាប់បរិបទនៃសាកលវិទ្យាល័យ ឬស្ថាប័នដែលមានថវិកាកម្រិតមធ្យម។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះធ្វើឡើងលើអត្ថបទប្រវត្តិសាស្ត្រជាភាសាអារ៉ាប់ (Arabic travelers' texts) ដែលមានរចនាសម្ព័ន្ធភាសាខុសពីភាសាខ្មែរ។ ទោះជាយ៉ាងណាក៏ដោយ បញ្ហានៃការមានទិន្នន័យតិច (Limited Data) គឺស្រដៀងគ្នាទៅនឹងបញ្ហាប្រឈមក្នុងការធ្វើ NLP សម្រាប់ភាសាខ្មែរនាពេលបច្ចុប្បន្ន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានអត្ថប្រយោជន៍ខ្ពស់សម្រាប់កម្ពុជា ជាពិសេសក្នុងការវិភាគអត្ថបទដែលមានធនធានតិចតួច។

ការប្រើប្រាស់ Naive Bayes លើទិន្នន័យតូច គឺជាដំណោះស្រាយដ៏ល្អសម្រាប់អ្នកស្រាវជ្រាវខ្មែរដែលមិនទាន់មានសំណុំទិន្នន័យធំ (Big Data) ក្នុងដៃ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃម៉ាស៊ីនរៀន: និស្សិតគួរចាប់ផ្តើមសិក្សាពីទ្រឹស្តីនៃ Naive Bayes និងរបៀបគណនាប្រូបាប៊ីលីតេ ដោយប្រើប្រាស់ភាសា Python និងបណ្ណាល័យ Scikit-learn ។
  2. ការរៀបចំទិន្នន័យភាសាខ្មែរ (Preprocessing): ដោយសារភាសាខ្មែរមិនដកឃ្លា និស្សិតត្រូវសិក្សាពីវិធីសាស្ត្រកាត់ពាក្យ (Word Segmentation) ដោយប្រើឧបករណ៍ដូចជា Khmer NLTK ឬ Polyglot មុននឹងបង្កើត N-grams។
  3. ការអនុវត្តលើសំណុំទិន្នន័យតូច: សាកល្បងប្រមូលអត្ថបទខ្លីៗ (ប្រហែល ៥០០ ពាក្យក្នុងមួយអត្ថបទ) ពីអ្នកនិពន្ធខ្មែរល្បីៗ ៣-៥ នាក់ ហើយប្រើប្រាស់កម្មវិធី RapidMiner ឬសរសេរកូដ Python ដើម្បីធ្វើចំណាត់ថ្នាក់។
  4. ការពិសោធន៍ជាមួយលក្ខណៈពិសេស (Feature Engineering): ប្រៀបធៀបប្រសិទ្ធភាពរវាងការប្រើ Word N-grams និង Character N-grams សម្រាប់ភាសាខ្មែរ ដើម្បីមើលថាតើមួយណាផ្តល់លទ្ធផលល្អជាងសម្រាប់អត្ថបទខ្លី។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Authorship Attribution ជាដំណើរការនៃការវិភាគតាមបែបវិទ្យាសាស្ត្រកុំព្យូទ័រ ដើម្បីកំណត់អត្តសញ្ញាណថាអ្នកណាជាអ្នកសរសេរអត្ថបទមួយ (ដែលមិនមានឈ្មោះ ឬមានឈ្មោះក្លែងក្លាយ) ដោយផ្អែកលើទម្លាប់នៃការប្រើប្រាស់ភាសារបស់ពួកគេ។ ប្រៀបបាននឹងការដែលយើងស្គាល់សំឡេងមិត្តភក្តិតាមទូរស័ព្ទ ទោះបីជាគេមិនបានប្រាប់ឈ្មោះក៏ដោយ ដោយគ្រាន់តែស្តាប់របៀបនិយាយរបស់គេ។
Stylometry ការសិក្សាវាស់វែងនិងវិភាគស្ថិតិទៅលើរចនាប័ទ្មនៃការសរសេរ (ដូចជាប្រវែងប្រយោគ ភាពញឹកញាប់នៃពាក្យ ឬការប្រើប្រាស់សញ្ញាវណ្ណយុត្តិ) ដើម្បីស្វែងរកលក្ខណៈពិសេសដាច់ដោយឡែករបស់អ្នកនិពន្ធម្នាក់ៗ។ ដូចជាការពិនិត្យមើលស្នាមម្រាមដៃ (Fingerprint) ដែរប៉ុន្តែនេះគឺជាការពិនិត្យមើល "ស្នាមម្រាមដៃនៃភាសា" ដែលអ្នកនិពន្ធបានបន្សល់ទុកក្នុងអត្ថបទ។
N-grams បច្ចេកទេសតំណាងទិន្នន័យអត្ថបទដោយកាត់ជាបំណែកតូចៗនៃពាក្យ ឬតួអក្សរចំនួន N ដែលនៅជាប់គ្នាជាបន្តបន្ទាប់។ វាជួយឱ្យកុំព្យូទ័រចាប់យកបរិបទនៃពាក្យដែលនៅក្បែរគ្នាបាន។ ឧបមាថាមានឃ្លា "ខ្ញុំទៅរៀន" បើកាត់ជា 2-grams (Bi-gram) យើងនឹងបាន "ខ្ញុំទៅ" និង "ទៅរៀន" ដើម្បីឱ្យកុំព្យូទ័រដឹងថាពាក្យទាំងនេះច្រើនដើរតួជាមួយគ្នា។
Naive Bayes Classifier ក្បួនដោះស្រាយ (Algorithm) សម្រាប់ការចាត់ថ្នាក់ទិន្នន័យដោយផ្អែកលើទ្រឹស្តីប្រូបាប៊ីលីតេ។ វាមានឈ្មោះថា "Naive" (ឆោតល្ងង់) ព្រោះវាសន្មតថាលក្ខណៈពិសេសនីមួយៗមិនមានទំនាក់ទំនងនឹងគ្នា ដែលធ្វើឱ្យវាគណនាបានលឿននិងមានប្រសិទ្ធភាពលើទិន្នន័យតូច។ ដូចជាការទាយថានរណាម្នាក់ចូលចិត្តម្ហូបអ្វី ដោយគ្រាន់តែមើលគ្រឿងផ្សំដាច់ដោយឡែកពីគ្នា (សាច់, បន្លែ, រសជាតិ) ដោយមិនខ្វល់ថាវាត្រូវបានចម្អិនបញ្ចូលគ្នាយ៉ាងណានោះទេ។
Cross Validation វិធីសាស្ត្រវាយតម្លៃប្រសិទ្ធភាពនៃម៉ូដែល ដោយបែងចែកទិន្នន័យជាផ្នែកៗ (Folds) ហើយធ្វើការបណ្តុះបណ្តាលនិងធ្វើតេស្តឆ្លាស់គ្នាជាច្រើនដង ដើម្បីធានាថាលទ្ធផលមិនមែនកើតឡើងដោយចៃដន្យ។ ប្រៀបដូចជាការឱ្យសិស្សប្រឡងច្រើនលើក ដោយប្រើវិញ្ញាសាផ្សេងៗគ្នា ដើម្បីវាស់សមត្ថភាពពិតប្រាកដ ជាជាងការប្រឡងតែមួយលើកដែលអាចនឹងសំណាងចេះចំ។
Feature Selection ដំណើរការនៃការជ្រើសរើសយកតែទិន្នន័យ ឬលក្ខណៈពិសេសណាដែលមានសារៈសំខាន់បំផុតសម្រាប់ការវិភាគ និងបោះចោលទិន្នន័យដែលមិនចាំបាច់ ដើម្បីឱ្យម៉ាស៊ីនដំណើរការលឿន និងមានភាពត្រឹមត្រូវជាងមុន។ ដូចជាការរៀបចំកាបូបដើរព្រៃ ដោយជ្រើសរើសយកតែរបស់ចាំបាច់បំផុត (ទឹក, អាហារ, ភ្លើង) និងទុករបស់ដែលមិនសូវសំខាន់ចោល ដើម្បីកុំឱ្យធ្ងន់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖