បញ្ហា (The Problem)៖ និក្ខេបបទនេះដោះស្រាយបញ្ហានៃការទាញយកលក្ខណៈពិសេសពីទិន្នន័យអត្ថបទដែលគ្មានរចនាសម្ព័ន្ធ (Unstructured text data) ដើម្បីជួយធនាគារធ្វើចំណាត់ថ្នាក់អតិថិជនដោយស្វ័យប្រវត្តិ។ ដោយសារកង្វះទិន្នន័យដើម ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារ IMDB (មនោសញ្ចេតនា) និង Reuters (ប្រធានបទ) សម្រាប់ធ្វើការវាយតម្លៃជំនួសវិញ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានអនុវត្ត និងប្រៀបធៀបវិធីសាស្ត្រទាញយកលក្ខណៈពិសេសនៃអត្ថបទជាច្រើនប្រភេទ រួចសាកល្បងពួកវាជាមួយក្បួនដោះស្រាយចំណាត់ថ្នាក់ (Classifiers) ផ្សេងៗគ្នាដើម្បីស្វែងរកប្រសិទ្ធភាព។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Bag-of-words វិធីសាស្ត្រ Bag-of-words (ផ្អែកលើប្រេកង់ពាក្យ) |
ល្អបំផុតសម្រាប់ការចាត់ថ្នាក់ប្រធានបទ (Topic Categorization) ព្រោះវាចាប់យកវត្តមាននៃពាក្យគន្លឹះបានល្អ និងមានភាពងាយស្រួលក្នុងការយល់ និងអនុវត្ត។ | មិនអាចចាប់យកអត្ថន័យន័យធៀបបរិបទ ឬលំដាប់នៃពាក្យបានឡើយ ដែលធ្វើឱ្យវាមិនសូវមានប្រសិទ្ធភាពសម្រាប់ការវិភាគមនោសញ្ចេតនាអត្ថបទ។ | ទទួលបានលទ្ធផលល្អបំផុតលើសំណុំទិន្នន័យ Reuters (ចាត់ថ្នាក់ប្រធានបទ) ជាមួយនឹងពិន្ទុ AUC 0.9104 (ប្រើប្រាស់ SVM) ប៉ុន្តែទទួលបានលទ្ធផលខ្សោយលើទិន្នន័យ IMDB។ |
| Paragraph Vector (PV-DM / PV-DBOW) វ៉ិចទ័រកថាខណ្ឌ (Paragraph Vector) |
អាចរក្សាអត្ថន័យន័យធៀបនៃបរិបទ និងលំដាប់នៃពាក្យនៅក្នុងកថាខណ្ឌបានយ៉ាងល្អ ដែលស័ក្តិសមបំផុតសម្រាប់ការវិភាគមនោសញ្ចេតនាអត្ថបទ (Sentiment Analysis)។ | ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ និងពេលវេលាយូរក្នុងការបង្វឹកម៉ូដែល បើប្រៀបធៀបនឹងវិធីសាស្ត្រមូលដ្ឋាន ហើយមិនសូវផ្តល់លទ្ធផលល្អសម្រាប់ការចាត់ថ្នាក់ប្រធានបទនោះទេ។ | ទទួលបានលទ្ធផលល្អបំផុតលើសំណុំទិន្នន័យ IMDB (វិភាគមនោសញ្ចេតនា) ជាមួយនឹងពិន្ទុ AUC រហូតដល់ 0.8627 សម្រាប់ម៉ូដែល DMPV។ |
| Skip-gram + Average vector ម៉ូដែលបង្កប់ពាក្យ Skip-gram បូកជាមួយនឹងវ៉ិចទ័រមធ្យម |
ដំណើរការល្អក្នុងការចាប់យកអត្ថន័យនៃពាក្យកម្រ (Infrequent words) ជាងម៉ូដែល CBOW និងផ្តល់លទ្ធផលល្អសម្រាប់ការវិភាគមនោសញ្ចេតនា។ | ការព្យាយាមបន្ថែមទម្ងន់ TF-IDF ទៅលើមធ្យមភាគនេះ បែរជាធ្វើឱ្យបាត់បង់ភាពត្រឹមត្រូវនៃអត្ថន័យវ៉ិចទ័រទៅវិញសម្រាប់ទិន្នន័យដែលបានសម្អាតរួច។ | ទទួលបានលទ្ធផលល្អប្រសើរលើទិន្នន័យ IMDB (AUC: 0.8927 ជាមួយ Random Forest) ជាងការប្រើប្រាស់ម៉ូដែល CBOW។ |
| LSTM (Long Short-Term Memory) បណ្តាញសរសៃប្រសាទ LSTM |
អាចទាញយកលក្ខណៈពិសេស និងចាត់ថ្នាក់ដោយស្វ័យប្រវត្តិពីអត្ថបទឆៅ (Raw text) ដោយមិនបាច់ធ្វើ Feature Engineering ជាមុន រក្សាទុកពត៌មានបានយូរដោយសាររចនាសម្ព័ន្ធ Cell State។ | ពិបាកក្នុងការពន្យល់ពីដំណើរការនៃការសម្រេចចិត្តខាងក្នុង (Black-box problem) និងត្រូវការសំណុំទិន្នន័យធំ ព្រមទាំងកម្លាំងកុំព្យូទ័រខ្ពស់។ | ទទួលបានលទ្ធផលល្អលំដាប់ទី២ ទាំងលើការវិភាគមនោសញ្ចេតនា (IMDB) ជាមួយរង្វាស់ Accuracy 0.8522 និងការចាត់ថ្នាក់ប្រធានបទ (Reuters) ជាមួយ Accuracy 0.7486។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រទាញយកលក្ខណៈពិសេសទាំងនេះ ទាមទារធនធានកុំព្យូទ័រ និងចំណេះដឹងផ្នែកសរសេរកូដខុសៗគ្នា ដោយម៉ូដែល Deep Learning និង Paragraph Vector ទាមទារធនធានខ្ពស់ជាងគេ។
ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសំណុំទិន្នន័យភាសាអង់គ្លេសដែលមានវេយ្យាករណ៍ និងរចនាសម្ព័ន្ធច្បាស់លាស់ (IMDB សម្រាប់វាយតម្លៃកុន និង Reuters សម្រាប់ព័ត៌មាន)។ សម្រាប់បរិបទប្រទេសកម្ពុជា ការយកម៉ូដែលទាំងនេះមកអនុវត្តផ្ទាល់លើភាសាខ្មែរនឹងជួបប្រទះបញ្ហាប្រឈមធំៗ ដោយសារកង្វះសំណុំទិន្នន័យស្តង់ដារធំៗ បញ្ហានៃការកាត់ពាក្យ (Word Segmentation) ដោយសារភាសាខ្មែរមិនសរសេរដកឃ្លារវាងពាក្យ និងភាពស្មុគស្មាញនៃទម្រង់ភាសានៅលើបណ្តាញសង្គម។
ទោះបីជាមានបញ្ហាប្រឈមផ្នែកភាសា និងទិន្នន័យក៏ដោយ វិធីសាស្ត្រទាញយកលក្ខណៈពិសេសនៃអត្ថបទទាំងនេះមានសក្តានុពលខ្ពស់ខ្លាំងក្នុងការអភិវឌ្ឍប្រព័ន្ធស្វ័យប្រវត្តិកម្មសម្រាប់ស្ថាប័ននានានៅកម្ពុជា។
ការជ្រើសរើសម៉ូដែលឱ្យស្របទៅនឹងគោលដៅជាក់លាក់ (ឧទាហរណ៍៖ ជ្រើសរើស BoW សម្រាប់ការចាត់ថ្នាក់ប្រធានបទ និងជ្រើសរើស Paragraph Vector សម្រាប់ការវិភាគមនោសញ្ចេតនា) នឹងជួយឱ្យស្ថាប័ននានានៅកម្ពុជាសន្សំសំចៃធនធាន និងទទួលបានប្រសិទ្ធភាពការងារអតិបរមា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Bag-of-words | វិធីសាស្ត្រតំណាងអត្ថបទដោយរាប់ចំនួនដងនៃពាក្យនីមួយៗដែលលេចឡើងក្នុងអត្ថបទនោះ ដោយមិនខ្វល់ពីរចនាសម្ព័ន្ធ វេយ្យាករណ៍ ឬលំដាប់លំដោយនៃពាក្យឡើយ។ | ដូចជាការយកពាក្យទាំងអស់ក្នុងសៀវភៅមួយក្បាលទៅបោះចូលក្នុងថង់តែមួយ រួចរាប់ថាតើពាក្យនីមួយៗមានចំនួនប៉ុន្មាន ដោយមិនខ្វល់ថាវានៅទំព័រណា ឬតម្រៀបគ្នាយ៉ាងម៉េចនោះទេ។ |
| TF-IDF | រូបមន្តគណនាទម្ងន់នៃពាក្យ ដោយផ្តល់តម្លៃខ្ពស់ដល់ពាក្យដែលលេចឡើងញឹកញាប់ក្នុងឯកសារមួយ ប៉ុន្តែកម្រមានក្នុងឯកសារផ្សេងៗទៀតនៅក្នុងសំណុំទិន្នន័យរួម ដើម្បីស្វែងរកពាក្យគន្លឹះប្រចាំឯកសារនោះ។ | ដូចជាការវាយតម្លៃភាពលេចធ្លោរបស់មនុស្សម្នាក់ដោយគាត់ពាក់អាវពណ៌ក្រហមឆ្អៅ ក្នុងចំណោមមនុស្សរាប់ពាន់នាក់ផ្សេងទៀតដែលពាក់អាវពណ៌ខ្មៅ។ |
| Word Embedding | បច្ចេកទេសបំប្លែងពាក្យនីមួយៗទៅជាវ៉ិចទ័រលេខ (Vector) ដើម្បីឱ្យកុំព្យូទ័រអាចស្វែងយល់ពីអត្ថន័យ និងទំនាក់ទំនងរវាងពាក្យទាំងនោះតាមរយៈការគណនាចម្ងាយ (ឧទាហរណ៍៖ ពាក្យ 'ស្តេច' និង 'មហាក្សត្រ' មានទីតាំងលេខក្បែរគ្នា)។ | ដូចជាការដាក់ទីតាំងផ្ទះនៅលើផែនទី ដោយផ្ទះដែលមានរចនាបថ ឬមុខងារស្រដៀងគ្នា ត្រូវបានសាងសង់នៅក្បែរៗគ្នា។ |
| Skip-gram | ម៉ូដែលរៀនពាក្យ (Word Embedding) ប្រភេទមួយ ដែលយកពាក្យគោលដៅតែមួយមកទស្សន៍ទាយរកពាក្យដែលនៅជុំវិញវា (បរិបទ) ដែលម៉ូដែលនេះមានភាពចំណានក្នុងការចាប់យកអត្ថន័យនៃពាក្យដែលកម្រលេចឡើង។ | ដូចជាការឃើញមនុស្សម្នាក់ដើរម្នាក់ឯង រួចយើងទាយថាគាត់ប្រហែលជាមានមិត្តភក្តិប្រភេទណាខ្លះដែលតែងតែដើរជាមួយគាត់។ |
| Paragraph vector | បច្ចេកទេសបំប្លែងកថាខណ្ឌ ឬអត្ថបទទាំងមូលទៅជាវ៉ិចទ័រលេខ ដោយរួមបញ្ចូលនូវលំដាប់លំដោយនៃពាក្យ និងអត្ថន័យជារួមនៃអត្ថបទនោះ ដើម្បីយកទៅវិភាគមនោសញ្ចេតនា ឬប្រធានបទ។ | ដូចជាការសង្ខេបអត្ថន័យនៃសៀវភៅមួយជំពូកទៅជាលេខកូដសម្គាល់តែមួយ ដែលអាចយកទៅប្រៀបធៀបជាមួយជំពូកផ្សេងៗទៀតបានយ៉ាងងាយស្រួល។ |
| LSTM | ប្រភេទបណ្តាញសរសៃប្រសាទសប្បនិម្មិត (RNN) កម្រិតខ្ពស់ ដែលមានសមត្ថភាពចងចាំព័ត៌មានពីអតីតកាលបានយូរតាមរយៈរចនាសម្ព័ន្ធ Cell state ដែលជួយឱ្យវាអាចយល់ពីបរិបទនៃប្រយោគវែងៗបានល្អដោយមិនភ្លេចទិន្នន័យចាស់។ | ដូចជាមនុស្សម្នាក់អានសៀវភៅរឿងវែងមួយ ហើយនៅតែអាចចងចាំតួអង្គដែលបង្ហាញខ្លួនតាំងពីជំពូកទីមួយ ដើម្បីយល់ពីសាច់រឿងនៅជំពូកចុងក្រោយបង្អស់។ |
| SVM | ក្បួនដោះស្រាយសម្រាប់ធ្វើចំណាត់ថ្នាក់ទិន្នន័យ (Classification Algorithm) ដែលព្យាយាមស្វែងរកបន្ទាត់ ឬប្លង់អរូបីដើម្បីបំបែកទិន្នន័យពីរប្រភេទដាច់ពីគ្នា ឱ្យបានឆ្ងាយបំផុតតាមដែលអាចធ្វើទៅបាន (Maximum margin)។ | ដូចជាការគូសបន្ទាត់ព្រំដែនដ៏ធំទូលាយមួយចំកណ្តាលទីធ្លា ដើម្បីបំបែកក្រុមក្មេងលេងបាល់ទាត់ និងក្រុមក្មេងលេងបាល់ទះកុំឱ្យរត់បុកគ្នា។ |
| AUC | រង្វាស់សម្រាប់វាយតម្លៃសមត្ថភាពជារួមរបស់ម៉ូដែលចំណាត់ថ្នាក់ (Classifier) ក្នុងការបែងចែករវាងថ្នាក់វិជ្ជមាន និងអវិជ្ជមាន ដោយពិន្ទុដែលខិតជិត ១ គឺមានន័យថាម៉ូដែលនោះដំណើរការបានល្អឥតខ្ចោះ។ | ដូចជាពិន្ទុប្រឡងមធ្យមភាគប្រចាំឆ្នាំរបស់សិស្សម្នាក់ ដែលវាឆ្លុះបញ្ចាំងពីសមត្ថភាពទូទៅរបស់គេគ្រប់មុខវិជ្ជា មិនមែនស្ទង់មើលតែលើមុខវិជ្ជាមួយនោះទេ។ |
| Cross-validation | វិធីសាស្ត្រសាកល្បងភាពត្រឹមត្រូវរបស់ម៉ូដែល ដោយបែងចែកសំណុំទិន្នន័យជាច្រើនចំណែកស្មើៗគ្នា រួចឆ្លាស់គ្នាយកមួយចំណែកធ្វើជាទិន្នន័យសាកល្បង (Test) និងយកចំណែកដែលនៅសល់ធ្វើជាទិន្នន័យបង្វឹក (Train)។ | ដូចជាការយកលំហាត់ក្នុងសៀវភៅមកចែកជា ១០ជំពូក រួចរៀន ៩ជំពូក ហើយយក ១ជំពូកទៀតមកធ្វើតេស្តខ្លួនឯង រួចបន្តឆ្លាស់គ្នាបែបនេះរហូតដល់អស់គ្រប់ជំពូកទើបបូកសរុបលទ្ធផល។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖