Original Title: Evaluation of Naïve Bayes Classification in Arabic Short Text Classification
Source: doi.org/10.23851/mjs.v32i4.994
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវាយតម្លៃនៃការចាត់ថ្នាក់តាមបែប Naïve Bayes នៅក្នុងការចាត់ថ្នាក់អត្ថបទខ្លីជាភាសាអារ៉ាប់

ចំណងជើងដើម៖ Evaluation of Naïve Bayes Classification in Arabic Short Text Classification

អ្នកនិពន្ធ៖ Mohammed F. Ibrahim (Middle Technical University, Iraq), Mahdi A. Ali Alhakeem, Nawar A. Fadhil

ឆ្នាំបោះពុម្ព៖ 2021, Al-Mustansiriyah Journal of Science

វិស័យសិក្សា៖ Computer Science (Natural Language Processing)

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការចាត់ថ្នាក់អត្ថបទខ្លី (Short Texts) ជាភាសាអារ៉ាប់ ជាពិសេសចំណងជើងសារណា និងនិក្ខេបបទ ដែលមានភាពស្មុគស្មាញដោយសារកង្វះទិន្នន័យក្នុងអត្ថបទ និងលក្ខណៈពិសេសនៃអក្សរវិទ្យាអារ៉ាប់។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រមូលទិន្នន័យចំណងជើងចំនួន ៧៥០០ និងអនុវត្តបច្ចេកទេសរៀនម៉ាស៊ីន (Machine Learning) ដោយប្រើវិធីសាស្ត្រ Naïve Bayes ចំនួនបីផ្សេងគ្នា ដើម្បីវាយតម្លៃប្រសិទ្ធភាព។

ការប្រមូលទិន្នន័យ (Data Collection): ប្រើប្រាស់បច្ចេកទេស Web Scraping ដើម្បីប្រមូលចំណងជើងសារណាពីបណ្ណាល័យអារ៉ាប់ចំនួន ៧៥០០ ចំណងជើង។
ការកែសម្រួលទិន្នន័យ (Preprocessing): ការលុបសញ្ញាខណ្ឌ ការលុបពាក្យឈប់ (Stop Words) និងការប្រើប្រាស់ TF-IDF សម្រាប់ការទាញយកលក្ខណៈពិសេស (Feature Extraction)។
ម៉ូដែលចាត់ថ្នាក់ (Classification Models): ការប្រើប្រាស់ម៉ូដែល Multinomial Naïve Bayes (MNB), Complemented Naïve Bayes (CNB), និង Gaussian Naïve Bayes (GNB)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

លទ្ធផលបង្ហាញថា ម៉ូដែល Complemented Naïve Bayes (CNB) ផ្តល់នូវប្រសិទ្ធភាពល្អបំផុតជាមួយនឹងកម្រិតភាពត្រឹមត្រូវ (Accuracy) ចំនួន ០.៨៤ (៨៤%)។
ម៉ូដែល Gaussian Naïve Bayes (GNB) ទទួលបានលទ្ធផលទាបជាងគេជាមួយនឹងកម្រិតភាពត្រឹមត្រូវចំនួន ០.៧៦ (៧៦%)។
ការសិក្សារកឃើញថា ការចាត់ថ្នាក់អត្ថបទខ្លីជាភាសាអារ៉ាប់មានបញ្ហាប្រឈមខ្លាំងដោយសារលក្ខណៈនៃអក្សរ ប៉ុន្តែការប្រើប្រាស់ចំណងជើងឯកសារនៅតែជាវិធីសាស្ត្រដែលមានប្រសិទ្ធភាពដែលអាចយកទៅអនុវត្តបាន។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Complemented Naïve Bayes (CNB) វិធីសាស្ត្រ CNB (ការកែសម្រួលគំរូ Naïve Bayes សម្រាប់ទិន្នន័យមិនមានតុល្យភាព)	មានប្រសិទ្ធភាពខ្ពស់បំផុតក្នុងការធ្វើចំណាត់ថ្នាក់ ជាពិសេសជាមួយថ្នាក់ទិន្នន័យដែលមានចំនួនមិនស្មើគ្នា (Imbalanced classes)។	ទាមទារការគណនាស្មុគស្មាញជាង MNB បន្តិច ប៉ុន្តែនៅតែលឿន។	ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត (Highest Accuracy) គឺ 0.84 ឬ 84%។
Multinomial Naïve Bayes (MNB) វិធីសាស្ត្រ MNB (គំរូស្តង់ដារសម្រាប់ការធ្វើចំណាត់ថ្នាក់អត្ថបទ)	ដំណើរការលឿន និងជាវិធីសាស្ត្រមូលដ្ឋានដែលនិយមប្រើក្នុងការវិភាគអត្ថបទ។	មានប្រសិទ្ធភាពទាបចំពោះថ្នាក់ទិន្នន័យមួយចំនួន (ដូចជាផ្នែក Linguistics ទទួលបានតែ 0.39)។	ទទួលបានភាពត្រឹមត្រូវលំដាប់ទីពីរគឺ 0.81 ឬ 81%។
Gaussian Naïve Bayes (GNB) វិធីសាស្ត្រ GNB (សន្មតថាទិន្នន័យមានបំណែងចែកជាលក្ខណៈ Normal Distribution)	ងាយស្រួលអនុវត្តសម្រាប់ទិន្នន័យដែលមានលក្ខណៈជាចំនួនជាប់ (Continuous data)។	មិនសូវសាកសមសម្រាប់ទិន្នន័យអត្ថបទដែលប្រើ TF-IDF (Sparse data) នោះទេ។	ទទួលបានភាពត្រឹមត្រូវទាបបំផុតគឺ 0.76 ឬ 76%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រតិចតួច ដោយសារក្បួនដោះស្រាយ Naïve Bayes មិនត្រូវការកម្លាំងម៉ាស៊ីនខ្លាំងដូច Deep Learning ទេ។

Dataset: ចំណងជើងសារណា/និក្ខេបបទចំនួន ៧៥០០ (ទិន្នន័យអក្សរអារ៉ាប់)។
Software: ភាសា Python និងបណ្ណាល័យសម្រាប់ Machine Learning (ដូចជា Scikit-learn)។
Hardware: កុំព្យូទ័រយួរដៃធម្មតា (Standard CPU) គឺគ្រប់គ្រាន់សម្រាប់ការដំណើរការ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះធ្វើឡើងនៅប្រទេសអ៊ីរ៉ាក់ ដោយប្រើប្រាស់ចំណងជើងសារណាជាភាសាអារ៉ាប់សុទ្ធសាធពីបណ្ណាល័យឌីជីថល។ ទោះបីជាភាសាខុសគ្នា ប៉ុន្តែរចនាសម្ព័ន្ធអក្សរអារ៉ាប់មានភាពស្មុគស្មាញស្រដៀងនឹងភាសាខ្មែរ (មិនមានអក្សរធំ/តូច និងមានការប្រើប្រាស់ស្រៈនិស្ស័យ) ដែលធ្វើឱ្យលទ្ធផលនេះអាចយកមកពិចារណាសម្រាប់កម្ពុជាបាន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់សាកលវិទ្យាល័យនៅកម្ពុជាក្នុងការរៀបចំប្រព័ន្ធបណ្ណាល័យឌីជីថលស្វ័យប្រវត្តិ។

បណ្ណាល័យសាកលវិទ្យាល័យ (RUPP/ITC Libraries): អាចប្រើដើម្បីធ្វើចំណាត់ថ្នាក់សារណា (Thesis classification) ដោយស្វ័យប្រវត្តិដោយគ្រាន់តែវិភាគលើចំណងជើង ដោយមិនចាំបាច់អានខ្លឹមសារទាំងមូល។
ការវិភាគអត្ថបទខ្លី (Short Text Analysis): សាកសមសម្រាប់ការវិភាគមតិយោបល់ខ្លីៗនៅលើបណ្តាញសង្គម (Facebook Comments) ជាភាសាខ្មែរ ដែលតែងតែមានអក្ខរាវិរុទ្ធមិនពេញលេញ ឬខ្លី។
បញ្ហាការកាត់ពាក្យ (Tokenization Challenges): ដូចភាសាអារ៉ាប់ដែរ ការមិនប្រើ Stemming (កាត់រកឫសពាក្យ) ក្នុងការសិក្សានេះ គឺជាមេរៀនល្អសម្រាប់ភាសាខ្មែរ ដើម្បីកុំឱ្យបាត់បង់អត្ថន័យនៃពាក្យក្នុងអត្ថបទខ្លី។

ការប្រើប្រាស់ CNB ជាមួយ TF-IDF គឺជាដំណោះស្រាយដែលមានតម្លៃទាប និងប្រសិទ្ធភាពខ្ពស់សម្រាប់ការចាប់ផ្តើមគម្រោង NLP នៅកម្ពុជាមុននឹងឈានទៅប្រើ Deep Learning។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ការប្រមូលទិន្នន័យក្នុងស្រុក: ប្រមូលចំណងជើងសារណាពីបណ្ណាល័យសាកលវិទ្យាល័យក្នុងស្រុក (ឧ. បណ្ណាល័យ ហ៊ុន សែន) ដើម្បីបង្កើតជា Dataset ភាសាខ្មែរ ដោយបែងចែកជាប្រភេទដូចជា 'IT', 'Law', 'Engineering'។
ការរៀបចំទិន្នន័យ (Preprocessing): ប្រើប្រាស់ឧបករណ៍កាត់ពាក្យភាសាខ្មែរ (Khmer Tokenization) ដូចជា (Khmer NLTK) ឬ (Khmer Cut) ជំនួសឱ្យការកាត់តាម Space ដូចភាសាអារ៉ាប់ និងដក Stop Words ចេញ។
ការទាញយកលក្ខណៈពិសេស (Feature Extraction): អនុវត្តបច្ចេកទេស (TF-IDF) ដើម្បីបំប្លែងអក្សរខ្មែរទៅជាវ៉ិចទ័រលេខ ដោយមិនចាំបាច់ប្រើបច្ចេកទេស Stemming នាំឱ្យខូចន័យ។
ការបង្កើតនិងបណ្តុះបណ្តាលគំរូ: សរសេរកូដ Python ដោយប្រើ sklearn.naive_bayes.ComplementNB ដើម្បីបណ្តុះបណ្តាលគំរូជាមួយទិន្នន័យដែលបានរៀបចំ។
ការវាស់វែងប្រសិទ្ធភាព: ប្រើប្រាស់រង្វាស់ (F1-Score) និង (Accuracy) ដើម្បីផ្ទៀងផ្ទាត់លទ្ធផល ដោយប្រៀបធៀបរវាង MNB និង CNB លើទិន្នន័យភាសាខ្មែរ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
TF-IDF (Term Frequency-Inverse Document Frequency)	ជាបច្ចេកទេសគណិតវិទ្យាសម្រាប់វាយតម្លៃសារៈសំខាន់នៃពាក្យនីមួយៗនៅក្នុងឯកសារមួយធៀបនឹងបណ្ណុំឯកសារទាំងមូល។ វាផ្តល់ពិន្ទុខ្ពស់ដល់ពាក្យដែលបង្ហាញខ្លួនញឹកញាប់ក្នុងឯកសារមួយ ប៉ុន្តែកម្រនឹងឃើញក្នុងឯកសារដទៃទៀត ដើម្បីកំណត់អត្តសញ្ញាណឯកសារនោះ។	ដូចជាការស្វែងរក "ពាក្យសម្ងាត់" ពិសេស។ ពាក្យ "បាយ" អាចនិយាយរាល់ថ្ងៃ (តម្លៃទាប) ប៉ុន្តែពាក្យ "ប្លាស្មា" និយាយតែក្នុងមន្ទីរពេទ្យ (តម្លៃខ្ពស់សម្រាប់សម្គាល់ថាជាអត្ថបទពេទ្យ)។
Complemented Naïve Bayes (CNB)	ជាក្បួនដោះស្រាយដែលកែច្នៃចេញពី Naïve Bayes ដើម្បីដោះស្រាយបញ្ហាទិន្នន័យមិនមានតុល្យភាព (Imbalanced Data)។ ជំនួសឱ្យការគណនាឱកាសដែលឯកសារមួយស្ថិតក្នុងក្រុម A វាគណនាឱកាសដែលឯកសារនោះ មិន ស្ថិតនៅក្នុងក្រុមផ្សេងៗទៀត ដើម្បីកាត់បន្ថយភាពលំអៀងទៅរកក្រុមដែលមានទិន្នន័យច្រើនជាង។	ដូចជាការទាយថាផ្លែឈើនេះជា "ផ្លែប៉ pommes" ដោយមិនមែនមើលថាវាក្រហមឬអត់ ប៉ុន្តែដោយការបញ្ជាក់ថាវា មិនមែន ជាចេក ឬក្រូច។
Stemming	ជាដំណើរការកាត់បន្ថយពាក្យដែលមានទម្រង់ផ្សេងៗគ្នាឱ្យទៅជាពាក្យឫសគល់ដើមមួយ ដើម្បីឱ្យកុំព្យូទ័រយល់ថាជាពាក្យតែមួយ។ ក្នុងភាសាអារ៉ាប់ (ឬភាសាខ្មែរ) នេះអាចស្មុគស្មាញព្រោះវាអាចធ្វើឱ្យបាត់បង់អត្ថន័យដើមនៃពាក្យ។	ដូចជាការកាត់មែកធាងចេញ ដើម្បីរកមើលដើមឈើពិតប្រាកដ (ឧទាហរណ៍៖ "ការរៀន", "បានរៀន", "កំពុងរៀន" កាត់សល់ត្រឹម "រៀន")។
Stop Words Removing	ជាជំហាននៃការលុបចោលពាក្យដែលប្រើញឹកញាប់ពេកក្នុងភាសា (ដូចជា "គឺ", "នៃ", "និង") ដែលមិនផ្តល់អត្ថន័យសំខាន់សម្រាប់ការចាត់ថ្នាក់ ដើម្បីឱ្យម៉ូដែលកុំព្យូទ័រផ្តោតតែលើពាក្យគន្លឹះសំខាន់ៗ។	ដូចជាការច្រោះយកតែសាច់ត្រីសុទ្ធ ដោយបោះចោលឆ្អឹងនិងកាកសំណល់ដែលមិនត្រូវការ។
Multinomial Naïve Bayes (MNB)	ជាម៉ូដែលស្ថិតិដែលប្រើជាទូទៅសម្រាប់ការចាត់ថ្នាក់អត្ថបទ ដោយផ្អែកលើចំនួនដងនៃពាក្យដែលលេចឡើង (Word Counts)។ វាដំណើរការល្អនៅពេលដែលយើងចង់ដឹងថាអត្ថបទមួយនិយាយអំពីអ្វីដោយផ្អែកលើពាក្យដែលឃើញញឹកញាប់។	ដូចជាការទាយប្រធានបទសៀវភៅមួយ ដោយគ្រាន់តែរាប់ចំនួនពាក្យដែលឃើញច្រើន (ឧទាហរណ៍៖ ឃើញពាក្យ "បាល់" និង "កីឡាករ" ច្រើន = សៀវភៅកីឡា)។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖