Original Title: Evaluation of Naïve Bayes Classification in Arabic Short Text Classification
Source: doi.org/10.23851/mjs.v32i4.994
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវាយតម្លៃនៃការចាត់ថ្នាក់តាមបែប Naïve Bayes នៅក្នុងការចាត់ថ្នាក់អត្ថបទខ្លីជាភាសាអារ៉ាប់

ចំណងជើងដើម៖ Evaluation of Naïve Bayes Classification in Arabic Short Text Classification

អ្នកនិពន្ធ៖ Mohammed F. Ibrahim (Middle Technical University, Iraq), Mahdi A. Ali Alhakeem, Nawar A. Fadhil

ឆ្នាំបោះពុម្ព៖ 2021, Al-Mustansiriyah Journal of Science

វិស័យសិក្សា៖ Computer Science (Natural Language Processing)

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការចាត់ថ្នាក់អត្ថបទខ្លី (Short Texts) ជាភាសាអារ៉ាប់ ជាពិសេសចំណងជើងសារណា និងនិក្ខេបបទ ដែលមានភាពស្មុគស្មាញដោយសារកង្វះទិន្នន័យក្នុងអត្ថបទ និងលក្ខណៈពិសេសនៃអក្សរវិទ្យាអារ៉ាប់។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រមូលទិន្នន័យចំណងជើងចំនួន ៧៥០០ និងអនុវត្តបច្ចេកទេសរៀនម៉ាស៊ីន (Machine Learning) ដោយប្រើវិធីសាស្ត្រ Naïve Bayes ចំនួនបីផ្សេងគ្នា ដើម្បីវាយតម្លៃប្រសិទ្ធភាព។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Complemented Naïve Bayes (CNB)
វិធីសាស្ត្រ CNB (ការកែសម្រួលគំរូ Naïve Bayes សម្រាប់ទិន្នន័យមិនមានតុល្យភាព)
មានប្រសិទ្ធភាពខ្ពស់បំផុតក្នុងការធ្វើចំណាត់ថ្នាក់ ជាពិសេសជាមួយថ្នាក់ទិន្នន័យដែលមានចំនួនមិនស្មើគ្នា (Imbalanced classes)។ ទាមទារការគណនាស្មុគស្មាញជាង MNB បន្តិច ប៉ុន្តែនៅតែលឿន។ ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត (Highest Accuracy) គឺ 0.84 ឬ 84%។
Multinomial Naïve Bayes (MNB)
វិធីសាស្ត្រ MNB (គំរូស្តង់ដារសម្រាប់ការធ្វើចំណាត់ថ្នាក់អត្ថបទ)
ដំណើរការលឿន និងជាវិធីសាស្ត្រមូលដ្ឋានដែលនិយមប្រើក្នុងការវិភាគអត្ថបទ។ មានប្រសិទ្ធភាពទាបចំពោះថ្នាក់ទិន្នន័យមួយចំនួន (ដូចជាផ្នែក Linguistics ទទួលបានតែ 0.39)។ ទទួលបានភាពត្រឹមត្រូវលំដាប់ទីពីរគឺ 0.81 ឬ 81%។
Gaussian Naïve Bayes (GNB)
វិធីសាស្ត្រ GNB (សន្មតថាទិន្នន័យមានបំណែងចែកជាលក្ខណៈ Normal Distribution)
ងាយស្រួលអនុវត្តសម្រាប់ទិន្នន័យដែលមានលក្ខណៈជាចំនួនជាប់ (Continuous data)។ មិនសូវសាកសមសម្រាប់ទិន្នន័យអត្ថបទដែលប្រើ TF-IDF (Sparse data) នោះទេ។ ទទួលបានភាពត្រឹមត្រូវទាបបំផុតគឺ 0.76 ឬ 76%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រតិចតួច ដោយសារក្បួនដោះស្រាយ Naïve Bayes មិនត្រូវការកម្លាំងម៉ាស៊ីនខ្លាំងដូច Deep Learning ទេ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះធ្វើឡើងនៅប្រទេសអ៊ីរ៉ាក់ ដោយប្រើប្រាស់ចំណងជើងសារណាជាភាសាអារ៉ាប់សុទ្ធសាធពីបណ្ណាល័យឌីជីថល។ ទោះបីជាភាសាខុសគ្នា ប៉ុន្តែរចនាសម្ព័ន្ធអក្សរអារ៉ាប់មានភាពស្មុគស្មាញស្រដៀងនឹងភាសាខ្មែរ (មិនមានអក្សរធំ/តូច និងមានការប្រើប្រាស់ស្រៈនិស្ស័យ) ដែលធ្វើឱ្យលទ្ធផលនេះអាចយកមកពិចារណាសម្រាប់កម្ពុជាបាន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់សាកលវិទ្យាល័យនៅកម្ពុជាក្នុងការរៀបចំប្រព័ន្ធបណ្ណាល័យឌីជីថលស្វ័យប្រវត្តិ។

ការប្រើប្រាស់ CNB ជាមួយ TF-IDF គឺជាដំណោះស្រាយដែលមានតម្លៃទាប និងប្រសិទ្ធភាពខ្ពស់សម្រាប់ការចាប់ផ្តើមគម្រោង NLP នៅកម្ពុជាមុននឹងឈានទៅប្រើ Deep Learning។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ការប្រមូលទិន្នន័យក្នុងស្រុក: ប្រមូលចំណងជើងសារណាពីបណ្ណាល័យសាកលវិទ្យាល័យក្នុងស្រុក (ឧ. បណ្ណាល័យ ហ៊ុន សែន) ដើម្បីបង្កើតជា Dataset ភាសាខ្មែរ ដោយបែងចែកជាប្រភេទដូចជា 'IT', 'Law', 'Engineering'។
  2. ការរៀបចំទិន្នន័យ (Preprocessing): ប្រើប្រាស់ឧបករណ៍កាត់ពាក្យភាសាខ្មែរ (Khmer Tokenization) ដូចជា (Khmer NLTK) ឬ (Khmer Cut) ជំនួសឱ្យការកាត់តាម Space ដូចភាសាអារ៉ាប់ និងដក Stop Words ចេញ។
  3. ការទាញយកលក្ខណៈពិសេស (Feature Extraction): អនុវត្តបច្ចេកទេស (TF-IDF) ដើម្បីបំប្លែងអក្សរខ្មែរទៅជាវ៉ិចទ័រលេខ ដោយមិនចាំបាច់ប្រើបច្ចេកទេស Stemming នាំឱ្យខូចន័យ។
  4. ការបង្កើតនិងបណ្តុះបណ្តាលគំរូ: សរសេរកូដ Python ដោយប្រើ sklearn.naive_bayes.ComplementNB ដើម្បីបណ្តុះបណ្តាលគំរូជាមួយទិន្នន័យដែលបានរៀបចំ។
  5. ការវាស់វែងប្រសិទ្ធភាព: ប្រើប្រាស់រង្វាស់ (F1-Score) និង (Accuracy) ដើម្បីផ្ទៀងផ្ទាត់លទ្ធផល ដោយប្រៀបធៀបរវាង MNB និង CNB លើទិន្នន័យភាសាខ្មែរ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
TF-IDF (Term Frequency-Inverse Document Frequency) ជាបច្ចេកទេសគណិតវិទ្យាសម្រាប់វាយតម្លៃសារៈសំខាន់នៃពាក្យនីមួយៗនៅក្នុងឯកសារមួយធៀបនឹងបណ្ណុំឯកសារទាំងមូល។ វាផ្តល់ពិន្ទុខ្ពស់ដល់ពាក្យដែលបង្ហាញខ្លួនញឹកញាប់ក្នុងឯកសារមួយ ប៉ុន្តែកម្រនឹងឃើញក្នុងឯកសារដទៃទៀត ដើម្បីកំណត់អត្តសញ្ញាណឯកសារនោះ។ ដូចជាការស្វែងរក "ពាក្យសម្ងាត់" ពិសេស។ ពាក្យ "បាយ" អាចនិយាយរាល់ថ្ងៃ (តម្លៃទាប) ប៉ុន្តែពាក្យ "ប្លាស្មា" និយាយតែក្នុងមន្ទីរពេទ្យ (តម្លៃខ្ពស់សម្រាប់សម្គាល់ថាជាអត្ថបទពេទ្យ)។
Complemented Naïve Bayes (CNB) ជាក្បួនដោះស្រាយដែលកែច្នៃចេញពី Naïve Bayes ដើម្បីដោះស្រាយបញ្ហាទិន្នន័យមិនមានតុល្យភាព (Imbalanced Data)។ ជំនួសឱ្យការគណនាឱកាសដែលឯកសារមួយស្ថិតក្នុងក្រុម A វាគណនាឱកាសដែលឯកសារនោះ មិន ស្ថិតនៅក្នុងក្រុមផ្សេងៗទៀត ដើម្បីកាត់បន្ថយភាពលំអៀងទៅរកក្រុមដែលមានទិន្នន័យច្រើនជាង។ ដូចជាការទាយថាផ្លែឈើនេះជា "ផ្លែប៉ pommes" ដោយមិនមែនមើលថាវាក្រហមឬអត់ ប៉ុន្តែដោយការបញ្ជាក់ថាវា មិនមែន ជាចេក ឬក្រូច។
Stemming ជាដំណើរការកាត់បន្ថយពាក្យដែលមានទម្រង់ផ្សេងៗគ្នាឱ្យទៅជាពាក្យឫសគល់ដើមមួយ ដើម្បីឱ្យកុំព្យូទ័រយល់ថាជាពាក្យតែមួយ។ ក្នុងភាសាអារ៉ាប់ (ឬភាសាខ្មែរ) នេះអាចស្មុគស្មាញព្រោះវាអាចធ្វើឱ្យបាត់បង់អត្ថន័យដើមនៃពាក្យ។ ដូចជាការកាត់មែកធាងចេញ ដើម្បីរកមើលដើមឈើពិតប្រាកដ (ឧទាហរណ៍៖ "ការរៀន", "បានរៀន", "កំពុងរៀន" កាត់សល់ត្រឹម "រៀន")។
Stop Words Removing ជាជំហាននៃការលុបចោលពាក្យដែលប្រើញឹកញាប់ពេកក្នុងភាសា (ដូចជា "គឺ", "នៃ", "និង") ដែលមិនផ្តល់អត្ថន័យសំខាន់សម្រាប់ការចាត់ថ្នាក់ ដើម្បីឱ្យម៉ូដែលកុំព្យូទ័រផ្តោតតែលើពាក្យគន្លឹះសំខាន់ៗ។ ដូចជាការច្រោះយកតែសាច់ត្រីសុទ្ធ ដោយបោះចោលឆ្អឹងនិងកាកសំណល់ដែលមិនត្រូវការ។
Multinomial Naïve Bayes (MNB) ជាម៉ូដែលស្ថិតិដែលប្រើជាទូទៅសម្រាប់ការចាត់ថ្នាក់អត្ថបទ ដោយផ្អែកលើចំនួនដងនៃពាក្យដែលលេចឡើង (Word Counts)។ វាដំណើរការល្អនៅពេលដែលយើងចង់ដឹងថាអត្ថបទមួយនិយាយអំពីអ្វីដោយផ្អែកលើពាក្យដែលឃើញញឹកញាប់។ ដូចជាការទាយប្រធានបទសៀវភៅមួយ ដោយគ្រាន់តែរាប់ចំនួនពាក្យដែលឃើញច្រើន (ឧទាហរណ៍៖ ឃើញពាក្យ "បាល់" និង "កីឡាករ" ច្រើន = សៀវភៅកីឡា)។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖