បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការចាត់ថ្នាក់អត្ថបទខ្លី (Short Texts) ជាភាសាអារ៉ាប់ ជាពិសេសចំណងជើងសារណា និងនិក្ខេបបទ ដែលមានភាពស្មុគស្មាញដោយសារកង្វះទិន្នន័យក្នុងអត្ថបទ និងលក្ខណៈពិសេសនៃអក្សរវិទ្យាអារ៉ាប់។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រមូលទិន្នន័យចំណងជើងចំនួន ៧៥០០ និងអនុវត្តបច្ចេកទេសរៀនម៉ាស៊ីន (Machine Learning) ដោយប្រើវិធីសាស្ត្រ Naïve Bayes ចំនួនបីផ្សេងគ្នា ដើម្បីវាយតម្លៃប្រសិទ្ធភាព។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Complemented Naïve Bayes (CNB) វិធីសាស្ត្រ CNB (ការកែសម្រួលគំរូ Naïve Bayes សម្រាប់ទិន្នន័យមិនមានតុល្យភាព) |
មានប្រសិទ្ធភាពខ្ពស់បំផុតក្នុងការធ្វើចំណាត់ថ្នាក់ ជាពិសេសជាមួយថ្នាក់ទិន្នន័យដែលមានចំនួនមិនស្មើគ្នា (Imbalanced classes)។ | ទាមទារការគណនាស្មុគស្មាញជាង MNB បន្តិច ប៉ុន្តែនៅតែលឿន។ | ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត (Highest Accuracy) គឺ 0.84 ឬ 84%។ |
| Multinomial Naïve Bayes (MNB) វិធីសាស្ត្រ MNB (គំរូស្តង់ដារសម្រាប់ការធ្វើចំណាត់ថ្នាក់អត្ថបទ) |
ដំណើរការលឿន និងជាវិធីសាស្ត្រមូលដ្ឋានដែលនិយមប្រើក្នុងការវិភាគអត្ថបទ។ | មានប្រសិទ្ធភាពទាបចំពោះថ្នាក់ទិន្នន័យមួយចំនួន (ដូចជាផ្នែក Linguistics ទទួលបានតែ 0.39)។ | ទទួលបានភាពត្រឹមត្រូវលំដាប់ទីពីរគឺ 0.81 ឬ 81%។ |
| Gaussian Naïve Bayes (GNB) វិធីសាស្ត្រ GNB (សន្មតថាទិន្នន័យមានបំណែងចែកជាលក្ខណៈ Normal Distribution) |
ងាយស្រួលអនុវត្តសម្រាប់ទិន្នន័យដែលមានលក្ខណៈជាចំនួនជាប់ (Continuous data)។ | មិនសូវសាកសមសម្រាប់ទិន្នន័យអត្ថបទដែលប្រើ TF-IDF (Sparse data) នោះទេ។ | ទទួលបានភាពត្រឹមត្រូវទាបបំផុតគឺ 0.76 ឬ 76%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រតិចតួច ដោយសារក្បួនដោះស្រាយ Naïve Bayes មិនត្រូវការកម្លាំងម៉ាស៊ីនខ្លាំងដូច Deep Learning ទេ។
ការសិក្សានេះធ្វើឡើងនៅប្រទេសអ៊ីរ៉ាក់ ដោយប្រើប្រាស់ចំណងជើងសារណាជាភាសាអារ៉ាប់សុទ្ធសាធពីបណ្ណាល័យឌីជីថល។ ទោះបីជាភាសាខុសគ្នា ប៉ុន្តែរចនាសម្ព័ន្ធអក្សរអារ៉ាប់មានភាពស្មុគស្មាញស្រដៀងនឹងភាសាខ្មែរ (មិនមានអក្សរធំ/តូច និងមានការប្រើប្រាស់ស្រៈនិស្ស័យ) ដែលធ្វើឱ្យលទ្ធផលនេះអាចយកមកពិចារណាសម្រាប់កម្ពុជាបាន។
វិធីសាស្ត្រនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់សាកលវិទ្យាល័យនៅកម្ពុជាក្នុងការរៀបចំប្រព័ន្ធបណ្ណាល័យឌីជីថលស្វ័យប្រវត្តិ។
ការប្រើប្រាស់ CNB ជាមួយ TF-IDF គឺជាដំណោះស្រាយដែលមានតម្លៃទាប និងប្រសិទ្ធភាពខ្ពស់សម្រាប់ការចាប់ផ្តើមគម្រោង NLP នៅកម្ពុជាមុននឹងឈានទៅប្រើ Deep Learning។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| TF-IDF (Term Frequency-Inverse Document Frequency) | ជាបច្ចេកទេសគណិតវិទ្យាសម្រាប់វាយតម្លៃសារៈសំខាន់នៃពាក្យនីមួយៗនៅក្នុងឯកសារមួយធៀបនឹងបណ្ណុំឯកសារទាំងមូល។ វាផ្តល់ពិន្ទុខ្ពស់ដល់ពាក្យដែលបង្ហាញខ្លួនញឹកញាប់ក្នុងឯកសារមួយ ប៉ុន្តែកម្រនឹងឃើញក្នុងឯកសារដទៃទៀត ដើម្បីកំណត់អត្តសញ្ញាណឯកសារនោះ។ | ដូចជាការស្វែងរក "ពាក្យសម្ងាត់" ពិសេស។ ពាក្យ "បាយ" អាចនិយាយរាល់ថ្ងៃ (តម្លៃទាប) ប៉ុន្តែពាក្យ "ប្លាស្មា" និយាយតែក្នុងមន្ទីរពេទ្យ (តម្លៃខ្ពស់សម្រាប់សម្គាល់ថាជាអត្ថបទពេទ្យ)។ |
| Complemented Naïve Bayes (CNB) | ជាក្បួនដោះស្រាយដែលកែច្នៃចេញពី Naïve Bayes ដើម្បីដោះស្រាយបញ្ហាទិន្នន័យមិនមានតុល្យភាព (Imbalanced Data)។ ជំនួសឱ្យការគណនាឱកាសដែលឯកសារមួយស្ថិតក្នុងក្រុម A វាគណនាឱកាសដែលឯកសារនោះ មិន ស្ថិតនៅក្នុងក្រុមផ្សេងៗទៀត ដើម្បីកាត់បន្ថយភាពលំអៀងទៅរកក្រុមដែលមានទិន្នន័យច្រើនជាង។ | ដូចជាការទាយថាផ្លែឈើនេះជា "ផ្លែប៉ pommes" ដោយមិនមែនមើលថាវាក្រហមឬអត់ ប៉ុន្តែដោយការបញ្ជាក់ថាវា មិនមែន ជាចេក ឬក្រូច។ |
| Stemming | ជាដំណើរការកាត់បន្ថយពាក្យដែលមានទម្រង់ផ្សេងៗគ្នាឱ្យទៅជាពាក្យឫសគល់ដើមមួយ ដើម្បីឱ្យកុំព្យូទ័រយល់ថាជាពាក្យតែមួយ។ ក្នុងភាសាអារ៉ាប់ (ឬភាសាខ្មែរ) នេះអាចស្មុគស្មាញព្រោះវាអាចធ្វើឱ្យបាត់បង់អត្ថន័យដើមនៃពាក្យ។ | ដូចជាការកាត់មែកធាងចេញ ដើម្បីរកមើលដើមឈើពិតប្រាកដ (ឧទាហរណ៍៖ "ការរៀន", "បានរៀន", "កំពុងរៀន" កាត់សល់ត្រឹម "រៀន")។ |
| Stop Words Removing | ជាជំហាននៃការលុបចោលពាក្យដែលប្រើញឹកញាប់ពេកក្នុងភាសា (ដូចជា "គឺ", "នៃ", "និង") ដែលមិនផ្តល់អត្ថន័យសំខាន់សម្រាប់ការចាត់ថ្នាក់ ដើម្បីឱ្យម៉ូដែលកុំព្យូទ័រផ្តោតតែលើពាក្យគន្លឹះសំខាន់ៗ។ | ដូចជាការច្រោះយកតែសាច់ត្រីសុទ្ធ ដោយបោះចោលឆ្អឹងនិងកាកសំណល់ដែលមិនត្រូវការ។ |
| Multinomial Naïve Bayes (MNB) | ជាម៉ូដែលស្ថិតិដែលប្រើជាទូទៅសម្រាប់ការចាត់ថ្នាក់អត្ថបទ ដោយផ្អែកលើចំនួនដងនៃពាក្យដែលលេចឡើង (Word Counts)។ វាដំណើរការល្អនៅពេលដែលយើងចង់ដឹងថាអត្ថបទមួយនិយាយអំពីអ្វីដោយផ្អែកលើពាក្យដែលឃើញញឹកញាប់។ | ដូចជាការទាយប្រធានបទសៀវភៅមួយ ដោយគ្រាន់តែរាប់ចំនួនពាក្យដែលឃើញច្រើន (ឧទាហរណ៍៖ ឃើញពាក្យ "បាល់" និង "កីឡាករ" ច្រើន = សៀវភៅកីឡា)។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖