បញ្ហា (The Problem)៖ ជំពូកនេះដោះស្រាយបញ្ហានៃការចាត់ថ្នាក់ឯកសារ (Text Classification) ទៅក្នុងក្រុមដែលបានកំណត់ទុកជាមុនដោយស្វ័យប្រវត្តិ ដើម្បីជំនួសឱ្យការចាត់ថ្នាក់ដោយដៃដែលចំណាយពេលយូរ និងមានតម្លៃថ្លៃ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រសិក្សាដោយមានការត្រួតពិនិត្យ (Supervised Learning) ដោយផ្តោតលើគំរូប្រូបាប៊ីលីតេ Naive Bayes និងបច្ចេកទេសជ្រើសរើសលក្ខណៈពិសេសនៃទិន្នន័យ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Multinomial Naive Bayes គំរូដែលគិតគូរពីចំនួនដងនៃការកើតឡើងនៃពាក្យ (Term Frequency) |
មានប្រសិទ្ធភាពខ្ពស់សម្រាប់ឯកសារវែង និងអាចចាប់យកព័ត៌មានពីចំនួនពាក្យដែលបានប្រើប្រាស់។ | ទាមទារការធ្វើឱ្យរលូន (Smoothing) ដើម្បីចៀសវាងបញ្ហាប្រូបាប៊ីលីតេសូន្យ ហើយសន្មតថាទីតាំងពាក្យមិនសំខាន់។ | ដំណើរការបានល្អជាង Bernoulli លើទិន្នន័យដែលមានវាក្យសព្ទធំ ប៉ុន្តែនៅតែទាបជាង SVM ប្រហែល ១០% លើ F1 Score។ |
| Bernoulli Naive Bayes គំរូដែលគិតតែពីវត្តមាន ឬអវត្តមាននៃពាក្យ (Binary) |
មានប្រសិទ្ធភាពល្អសម្រាប់ឯកសារខ្លីៗ និងអាចទប់ទល់នឹងការប្រែប្រួលនៃបរិបទ (Concept Drift) បានខ្លះ។ | បាត់បង់ព័ត៌មានលម្អិតដោយសារមិនគិតពីចំនួនដងនៃពាក្យ ហើយភាពត្រឹមត្រូវធ្លាក់ចុះលើឯកសារវែង។ | ទាមទារការជ្រើសរើសលក្ខណៈពិសេស (Feature Selection) យ៉ាងចាំបាច់ បើមិនដូច្នោះទេភាពត្រឹមត្រូវនឹងទាប។ |
| Support Vector Machines (SVM) គំរូដែលស្វែងរកបន្ទាត់ព្រំដែនល្អបំផុតដើម្បីបែងចែកថ្នាក់ (ត្រូវបានប្រើប្រាស់ក្នុងឯកសារសម្រាប់ប្រៀបធៀប) |
ផ្តល់នូវភាពត្រឹមត្រូវ (Accuracy/F1) ខ្ពស់បំផុតក្នុងចំណោមវិធីសាស្ត្រដែលបានសាកល្បង។ | ចំណាយពេលយូរក្នុងការបង្វឹក (Training) និងទាមទារធនធានកុំព្យូទ័រខ្ពស់ជាង Naive Bayes។ | ទទួលបានពិន្ទុ Micro-averaged F1 ខ្ពស់ជាង Naive Bayes (៨៩% ធៀបនឹង ៨០%)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ វិធីសាស្ត្រ Naive Bayes ត្រូវបានគេស្គាល់ថាមានប្រសិទ្ធភាពខ្ពស់ និងចំណាយធនធានតិចបំផុត ដែលសាកសមសម្រាប់ការអនុវត្តលើកុំព្យូទ័រធម្មតា។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យពី Reuters-RCV1 និង Reuters-21578 ដែលជាអត្ថបទព័ត៌មានភាសាអង់គ្លេស។ សម្រាប់កម្ពុជា នេះគឺជាបញ្ហាប្រឈមធំមួយព្រោះភាសាខ្មែរមិនមានដកឃ្លាដើម្បីសម្គាល់ពាក្យ (No explicit word boundaries) ដូចភាសាអង់គ្លេស ដែលធ្វើឱ្យគំរូ Bag of Words របស់ Naive Bayes ពិបាកអនុវត្តផ្ទាល់។
ទោះបីជាមានបញ្ហាភាសា ប៉ុន្តែវិធីសាស្ត្រនេះមានប្រយោជន៍ខ្លាំងសម្រាប់កម្ពុជា ដោយសារវាមានតម្លៃថោក និងងាយស្រួលបង្កើត។
ដើម្បីឱ្យជោគជ័យនៅកម្ពុជា អ្នកស្រាវជ្រាវត្រូវតែបញ្ចូលបច្ចេកទេសកាត់ពាក្យខ្មែរ (Khmer Word Segmentation) មុននឹងអនុវត្តវិធីសាស្ត្រនេះ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Bag of words | គឺជាវិធីសាស្រ្តតំណាងឯកសារអត្ថបទដោយគ្រាន់តែរាប់ចំនួនពាក្យនីមួយៗដែលមានក្នុងឯកសារនោះ ដោយមិនខ្វល់ពីលំដាប់លំដោយ ឬរចនាសម្ព័ន្ធវេយ្យាករណ៍ឡើយ។ | ដូចជាការយកគ្រឿងផ្សំធ្វើម្ហូបទាំងអស់ដាក់ចូលក្នុងថង់មួយ ដោយមិនខ្វល់ថាដាក់មួយណាមុនឬក្រោយ សំខាន់គឺមានអ្វីខ្លះនិងចំនួនប៉ុន្មាន។ |
| Feature selection | គឺជាដំណើរការនៃការជ្រើសរើសយកតែពាក្យ ឬលក្ខណៈពិសេសដែលសំខាន់បំផុតពីក្នុងអត្ថបទ ដើម្បីយកមកបង្វឹកកុំព្យូទ័រ ដោយកាត់បន្ថយទិន្នន័យដែលមិនចាំបាច់ ឬរំខាន (Noise)។ | ដូចជាការរៀបចំវ៉ាលីសម្រាប់ទៅដើរលេង អ្នកជ្រើសរើសយកតែរបស់ណាដែលចាំបាច់បំផុត ដោយទុករបស់ដែលមិនសំខាន់ចោលនៅផ្ទះ។ |
| Add-one smoothing | គឺជាបច្ចេកទេសគណិតវិទ្យាដែលបន្ថែមចំនួន ១ ទៅលើគ្រប់ពាក្យទាំងអស់ ដើម្បីការពារកុំឱ្យមានប្រូបាប៊ីលីតេសូន្យ (Zero Probability) នៅពេលកុំព្យូទ័រជួបពាក្យដែលមិនធ្លាប់ឃើញពីមុនក្នុងទិន្នន័យបង្វឹក។ | ដូចជាការផ្តល់ពិន្ទុបន្ថែម ១ ដល់សិស្សទាំងអស់ក្នុងការប្រឡង ដើម្បីធានាថាមិនមាននរណាម្នាក់បានពិន្ទុសូន្យដាច់ខាត ដែលអាចធ្វើឱ្យខូចមធ្យមភាគ។ |
| Maximum a posteriori (MAP) | គឺជាវិធាននៃការសម្រេចចិត្តក្នុងស្ថិតិ ដើម្បីជ្រើសរើសយកចម្លើយ (ថ្នាក់) ណាដែលមានភាគរយអាចទៅរួចខ្ពស់បំផុត ដោយផ្អែកលើទិន្នន័យដែលមានស្រាប់ បូកផ្សំជាមួយចំណេះដឹងពីមុន (Prior knowledge)។ | ដូចជាការទាយថាក្រុមបាល់ទាត់មួយណានឹងឈ្នះ ដោយផ្អែកលើប្រវត្តិប្រកួតកន្លងមក និងស្ថានភាពកីឡាករបច្ចុប្បន្ន ដើម្បីជ្រើសរើសអ្នកឈ្នះដែលទំនងបំផុត។ |
| Concept drift | គឺជាបាតុភូតដែលអត្ថន័យ ឬបរិបទនៃទិន្នន័យផ្លាស់ប្តូរទៅតាមពេលវេលា ធ្វើឱ្យគំរូកុំព្យូទ័រចាស់លែងមានភាពត្រឹមត្រូវ (ឧទាហរណ៍៖ ប្រធានាធិបតីអាមេរិកផ្លាស់ប្តូរពី Clinton ទៅ Bush)។ | ដូចជាពាក្យស្លោករបស់យុវវ័យដែលផ្លាស់ប្តូរពីមួយជំនាន់ទៅមួយជំនាន់ ពាក្យដែលពេញនិយមពីមុន អាចលែងមានន័យដូចដើមនៅពេលបច្ចុប្បន្ន។ |
| Macroaveraging | គឺជាវិធីសាស្ត្រគណនាមធ្យមភាគនៃប្រសិទ្ធភាព ដោយផ្តល់ទម្ងន់ស្មើគ្នាដល់គ្រប់ថ្នាក់ (Class) មិនថាថ្នាក់នោះមានទិន្នន័យច្រើន ឬតិចនោះទេ ដែលជួយឱ្យយើងដឹងពីប្រសិទ្ធភាពលើថ្នាក់តូចៗ។ | ដូចជាការរកមធ្យមភាគពិន្ទុនៃមុខវិជ្ជាផ្សេងៗគ្នា ដោយចាត់ទុកថាគ្រប់មុខវិជ្ជាសំខាន់ស្មើគ្នា ទោះបីជាមុខវិជ្ជាខ្លះរៀនពិបាកជាង ឬមានម៉ោងរៀនតិចជាងក៏ដោយ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖