Original Title: Text classification and Naive Bayes
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបែងចែកអត្ថបទ និង Naive Bayes

ចំណងជើងដើម៖ Text classification and Naive Bayes

អ្នកនិពន្ធ៖ Christopher D. Manning (Cambridge University Press), Prabhakar Raghavan, Hinrich Schütze

ឆ្នាំបោះពុម្ព៖ 2009

វិស័យសិក្សា៖ Information Retrieval / Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ជំពូកនេះដោះស្រាយបញ្ហានៃការចាត់ថ្នាក់ឯកសារ (Text Classification) ទៅក្នុងក្រុមដែលបានកំណត់ទុកជាមុនដោយស្វ័យប្រវត្តិ ដើម្បីជំនួសឱ្យការចាត់ថ្នាក់ដោយដៃដែលចំណាយពេលយូរ និងមានតម្លៃថ្លៃ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រសិក្សាដោយមានការត្រួតពិនិត្យ (Supervised Learning) ដោយផ្តោតលើគំរូប្រូបាប៊ីលីតេ Naive Bayes និងបច្ចេកទេសជ្រើសរើសលក្ខណៈពិសេសនៃទិន្នន័យ។

គំរូ Multinomial Naive Bayes (ផ្អែកលើភាពញឹកញាប់នៃពាក្យ)
គំរូ Bernoulli Naive Bayes (ផ្អែកលើវត្តមាន ឬអវត្តមាននៃពាក្យ)
ការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection) ដោយប្រើ Mutual Information និង Chi-square
ការវាយតម្លៃប្រសិទ្ធភាពដោយប្រើ Precision, Recall និង F1 measure

លទ្ធផលសំខាន់ៗ (The Verdict)៖

Naive Bayes មានប្រសិទ្ធភាពខ្ពស់ និងល្បឿនលឿនក្នុងការបែងចែកអត្ថបទ ទោះបីជាវាសន្មតថាពាក្យនីមួយៗមានឯករាជ្យភាព (Independence Assumption) ពីគ្នាក៏ដោយ។
ការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection) ជួយបង្កើនភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់ ជាពិសេសសម្រាប់គំរូ Bernoulli ដោយកាត់បន្ថយពាក្យដែលរំខាន (Noise features)។
ទោះបីជា Naive Bayes ដំណើរការបានល្អក៏ដោយ វិធីសាស្ត្រផ្សេងទៀតដូចជា Support Vector Machines (SVM) ជារឿយៗផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់ជាងនៅលើសំណុំទិន្នន័យស្តង់ដារ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Multinomial Naive Bayes គំរូដែលគិតគូរពីចំនួនដងនៃការកើតឡើងនៃពាក្យ (Term Frequency)	មានប្រសិទ្ធភាពខ្ពស់សម្រាប់ឯកសារវែង និងអាចចាប់យកព័ត៌មានពីចំនួនពាក្យដែលបានប្រើប្រាស់។	ទាមទារការធ្វើឱ្យរលូន (Smoothing) ដើម្បីចៀសវាងបញ្ហាប្រូបាប៊ីលីតេសូន្យ ហើយសន្មតថាទីតាំងពាក្យមិនសំខាន់។	ដំណើរការបានល្អជាង Bernoulli លើទិន្នន័យដែលមានវាក្យសព្ទធំ ប៉ុន្តែនៅតែទាបជាង SVM ប្រហែល ១០% លើ F1 Score។
Bernoulli Naive Bayes គំរូដែលគិតតែពីវត្តមាន ឬអវត្តមាននៃពាក្យ (Binary)	មានប្រសិទ្ធភាពល្អសម្រាប់ឯកសារខ្លីៗ និងអាចទប់ទល់នឹងការប្រែប្រួលនៃបរិបទ (Concept Drift) បានខ្លះ។	បាត់បង់ព័ត៌មានលម្អិតដោយសារមិនគិតពីចំនួនដងនៃពាក្យ ហើយភាពត្រឹមត្រូវធ្លាក់ចុះលើឯកសារវែង។	ទាមទារការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection) យ៉ាងចាំបាច់ បើមិនដូច្នោះទេភាពត្រឹមត្រូវនឹងទាប។
Support Vector Machines (SVM) គំរូដែលស្វែងរកបន្ទាត់ព្រំដែនល្អបំផុតដើម្បីបែងចែកថ្នាក់ (ត្រូវបានប្រើប្រាស់ក្នុងឯកសារសម្រាប់ប្រៀបធៀប)	ផ្តល់នូវភាពត្រឹមត្រូវ (Accuracy/F1) ខ្ពស់បំផុតក្នុងចំណោមវិធីសាស្ត្រដែលបានសាកល្បង។	ចំណាយពេលយូរក្នុងការបង្វឹក (Training) និងទាមទារធនធានកុំព្យូទ័រខ្ពស់ជាង Naive Bayes។	ទទួលបានពិន្ទុ Micro-averaged F1 ខ្ពស់ជាង Naive Bayes (៨៩% ធៀបនឹង ៨០%)។

ការចំណាយលើធនធាន (Resource Cost)៖ វិធីសាស្ត្រ Naive Bayes ត្រូវបានគេស្គាល់ថាមានប្រសិទ្ធភាពខ្ពស់ និងចំណាយធនធានតិចបំផុត ដែលសាកសមសម្រាប់ការអនុវត្តលើកុំព្យូទ័រធម្មតា។

Computation Time: មានល្បឿនលឿនណាស់ (Linear Time Complexity) ក្នុងការបង្វឹក និងការធ្វើចំណាត់ថ្នាក់ ដែលសាកសមសម្រាប់ប្រព័ន្ធ Real-time។
Dataset: ទាមទារទិន្នន័យដែលមានស្លាក (Labeled Data) សម្រាប់ធ្វើការបង្វឹក (Supervised Learning)។
Storage: មិនត្រូវការអង្គចងចាំ (RAM) ធំពេកទេ បើធៀបនឹងគំរូ Deep Learning ទំនើបៗ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពី Reuters-RCV1 និង Reuters-21578 ដែលជាអត្ថបទព័ត៌មានភាសាអង់គ្លេស។ សម្រាប់កម្ពុជា នេះគឺជាបញ្ហាប្រឈមធំមួយព្រោះភាសាខ្មែរមិនមានដកឃ្លាដើម្បីសម្គាល់ពាក្យ (No explicit word boundaries) ដូចភាសាអង់គ្លេស ដែលធ្វើឱ្យគំរូ Bag of Words របស់ Naive Bayes ពិបាកអនុវត្តផ្ទាល់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាភាសា ប៉ុន្តែវិធីសាស្ត្រនេះមានប្រយោជន៍ខ្លាំងសម្រាប់កម្ពុជា ដោយសារវាមានតម្លៃថោក និងងាយស្រួលបង្កើត។

វិស័យសារព័ត៌មាន និងបណ្ណាល័យ: ការប្រើប្រាស់ដើម្បីបែងចែកប្រភេទព័ត៌មានក្នុងស្រុក ឬឯកសារក្នុងបណ្ណាល័យឌីជីថល (Digital Library) ដោយស្វ័យប្រវត្តិ។
វិស័យទូរគមនាគមន៍ (ISP/Telco): ការច្រោះសារឥតបានការ (Spam Filtering) លើ SMS ឬ Email ដែលជាបញ្ហាកំពុងកើនឡើងនៅកម្ពុជា។
ការស្រាវជ្រាវទីផ្សារ: ការវិភាគមតិយោបល់ (Sentiment Analysis) របស់អតិថិជនលើបណ្តាញសង្គមចំពោះផលិតផលខ្មែរ។

ដើម្បីឱ្យជោគជ័យនៅកម្ពុជា អ្នកស្រាវជ្រាវត្រូវតែបញ្ចូលបច្ចេកទេសកាត់ពាក្យខ្មែរ (Khmer Word Segmentation) មុននឹងអនុវត្តវិធីសាស្ត្រនេះ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី ១៖ ការសិក្សាទ្រឹស្តី និងឧបករណ៍: សិក្សាស្វែងយល់ពីទ្រឹស្តី Bayes Theorem និងរៀនប្រើប្រាស់បណ្ណាល័យ Python ដូចជា (scikit-learn) សម្រាប់ការអនុវត្ត Naive Bayes។
ជំហានទី ២៖ ការរៀបចំទិន្នន័យភាសាខ្មែរ: ដោយសារភាសាខ្មែរមិនមានដកឃ្លា អ្នកត្រូវប្រើឧបករណ៍កាត់ពាក្យដូចជា (KhmerCut) ឬ (PyKhmerNLP) ដើម្បីបំបែកអត្ថបទទៅជាពាក្យ (Tokens) មុននឹងដាក់ចូលក្នុងគំរូ។
ជំហានទី ៣៖ ការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection): អនុវត្តបច្ចេកទេស (Chi-square) ឬ (Mutual Information) ដើម្បីចម្រាញ់យកតែពាក្យសំខាន់ៗ និងកាត់បន្ថយទិន្នន័យរំខាន (Noise)។
ជំហានទី ៤៖ ការសាកល្បង និងវាយតម្លៃ: បែងចែកទិន្នន័យជា Training/Test set និងវាស់វែងប្រសិទ្ធភាពដោយប្រើរង្វាស់ (Precision, Recall, F1-Score) ជាជាងមើលតែលើ Accuracy តែមួយមុខ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Bag of words	គឺជាវិធីសាស្រ្តតំណាងឯកសារអត្ថបទដោយគ្រាន់តែរាប់ចំនួនពាក្យនីមួយៗដែលមានក្នុងឯកសារនោះ ដោយមិនខ្វល់ពីលំដាប់លំដោយ ឬរចនាសម្ព័ន្ធវេយ្យាករណ៍ឡើយ។	ដូចជាការយកគ្រឿងផ្សំធ្វើម្ហូបទាំងអស់ដាក់ចូលក្នុងថង់មួយ ដោយមិនខ្វល់ថាដាក់មួយណាមុនឬក្រោយ សំខាន់គឺមានអ្វីខ្លះនិងចំនួនប៉ុន្មាន។
Feature selection	គឺជាដំណើរការនៃការជ្រើសរើសយកតែពាក្យ ឬលក្ខណៈពិសេសដែលសំខាន់បំផុតពីក្នុងអត្ថបទ ដើម្បីយកមកបង្វឹកកុំព្យូទ័រ ដោយកាត់បន្ថយទិន្នន័យដែលមិនចាំបាច់ ឬរំខាន (Noise)។	ដូចជាការរៀបចំវ៉ាលីសម្រាប់ទៅដើរលេង អ្នកជ្រើសរើសយកតែរបស់ណាដែលចាំបាច់បំផុត ដោយទុករបស់ដែលមិនសំខាន់ចោលនៅផ្ទះ។
Add-one smoothing	គឺជាបច្ចេកទេសគណិតវិទ្យាដែលបន្ថែមចំនួន ១ ទៅលើគ្រប់ពាក្យទាំងអស់ ដើម្បីការពារកុំឱ្យមានប្រូបាប៊ីលីតេសូន្យ (Zero Probability) នៅពេលកុំព្យូទ័រជួបពាក្យដែលមិនធ្លាប់ឃើញពីមុនក្នុងទិន្នន័យបង្វឹក។	ដូចជាការផ្តល់ពិន្ទុបន្ថែម ១ ដល់សិស្សទាំងអស់ក្នុងការប្រឡង ដើម្បីធានាថាមិនមាននរណាម្នាក់បានពិន្ទុសូន្យដាច់ខាត ដែលអាចធ្វើឱ្យខូចមធ្យមភាគ។
Maximum a posteriori (MAP)	គឺជាវិធាននៃការសម្រេចចិត្តក្នុងស្ថិតិ ដើម្បីជ្រើសរើសយកចម្លើយ (ថ្នាក់) ណាដែលមានភាគរយអាចទៅរួចខ្ពស់បំផុត ដោយផ្អែកលើទិន្នន័យដែលមានស្រាប់ បូកផ្សំជាមួយចំណេះដឹងពីមុន (Prior knowledge)។	ដូចជាការទាយថាក្រុមបាល់ទាត់មួយណានឹងឈ្នះ ដោយផ្អែកលើប្រវត្តិប្រកួតកន្លងមក និងស្ថានភាពកីឡាករបច្ចុប្បន្ន ដើម្បីជ្រើសរើសអ្នកឈ្នះដែលទំនងបំផុត។
Concept drift	គឺជាបាតុភូតដែលអត្ថន័យ ឬបរិបទនៃទិន្នន័យផ្លាស់ប្តូរទៅតាមពេលវេលា ធ្វើឱ្យគំរូកុំព្យូទ័រចាស់លែងមានភាពត្រឹមត្រូវ (ឧទាហរណ៍៖ ប្រធានាធិបតីអាមេរិកផ្លាស់ប្តូរពី Clinton ទៅ Bush)។	ដូចជាពាក្យស្លោករបស់យុវវ័យដែលផ្លាស់ប្តូរពីមួយជំនាន់ទៅមួយជំនាន់ ពាក្យដែលពេញនិយមពីមុន អាចលែងមានន័យដូចដើមនៅពេលបច្ចុប្បន្ន។
Macroaveraging	គឺជាវិធីសាស្ត្រគណនាមធ្យមភាគនៃប្រសិទ្ធភាព ដោយផ្តល់ទម្ងន់ស្មើគ្នាដល់គ្រប់ថ្នាក់ (Class) មិនថាថ្នាក់នោះមានទិន្នន័យច្រើន ឬតិចនោះទេ ដែលជួយឱ្យយើងដឹងពីប្រសិទ្ធភាពលើថ្នាក់តូចៗ។	ដូចជាការរកមធ្យមភាគពិន្ទុនៃមុខវិជ្ជាផ្សេងៗគ្នា ដោយចាត់ទុកថាគ្រប់មុខវិជ្ជាសំខាន់ស្មើគ្នា ទោះបីជាមុខវិជ្ជាខ្លះរៀនពិបាកជាង ឬមានម៉ោងរៀនតិចជាងក៏ដោយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖