បញ្ហា (The Problem)៖ ការធ្វើចំណាត់ថ្នាក់អត្ថបទពហុថ្នាក់នៅក្នុងពិភពពិត ជារឿយៗប្រឈមមុខនឹងបញ្ហាមិនមានតុល្យភាពនៃទិន្នន័យ (Class Imbalance) ព្រមទាំងមានចំនួនថ្នាក់ (Classes) រាប់រយ ដែលធ្វើឱ្យម៉ូដែលបណ្ដុះបណ្ដាលមានការលម្អៀង និងដំណើរការមិនបានល្អ។ ការសិក្សានេះផ្តោតលើការដោះស្រាយបញ្ហាអតុល្យភាពនេះ សម្រាប់ការចាត់ថ្នាក់ប្រភេទកម្មវិធី SaaS ជាភាសាបារាំង ដែលមានចំនួនរហូតដល់ ២៣៣ ថ្នាក់ដាច់ដោយឡែកពីគ្នា។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់បច្ចេកទេសបន្ថែមទិន្នន័យអត្ថបទ រួមផ្សំជាមួយនឹងម៉ូដែលភាសាធំដើម្បីដោះស្រាយបញ្ហាអតុល្យភាពថ្នាក់ទិន្នន័យ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| CamemBERT-No-TDA (Baseline) ម៉ូដែល CamemBERT ដែលមិនប្រើប្រាស់បច្ចេកទេសបន្ថែមទិន្នន័យ (Baseline) |
ងាយស្រួលក្នុងការអនុវត្ត និងមិនទាមទារពេលវេលា ឬធនធានបន្ថែមក្នុងការបង្កើតទិន្នន័យសិប្បនិម្មិត។ | ដំណើរការមិនបានល្អលើទិន្នន័យដែលមិនមានតុល្យភាព (Imbalanced data) ដែលធ្វើឱ្យមានភាពលម្អៀងទៅរកថ្នាក់ដែលមានទិន្នន័យច្រើន។ | ភាពត្រឹមត្រូវ (Accuracy): ០.៥៤២ និង ពិន្ទុ F1-score: ០.៥៣៣ |
| CamemBERT-TDA (with Easy Data Augmentation) ម៉ូដែល CamemBERT ដែលប្រើប្រាស់បច្ចេកទេសបន្ថែមទិន្នន័យ (EDA) |
ដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យបានយ៉ាងល្អ និងបង្កើនភាពត្រឹមត្រូវនៃការធ្វើចំណាត់ថ្នាក់សម្រាប់ថ្នាក់ដែលមានទិន្នន័យតិចតួច (Minority classes)។ | ត្រូវការពេលវេលា និងធនធានកុំព្យូទ័រច្រើនជាងមុន ដើម្បីបង្កើតទិន្នន័យបន្ថែម និងអាចបាត់បង់អត្ថន័យដើមប្រសិនបើការជំនួសពាក្យមិនបានត្រឹមត្រូវ។ | ភាពត្រឹមត្រូវ (Accuracy): ០.៧៣០ និង ពិន្ទុ F1-score: ០.៧៣១ (មានន័យថាកើនឡើង ៣៤.៧% និង ៣៧.១% រៀងគ្នា) |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រធុនមធ្យមទៅខ្ពស់ ជាពិសេសសម្រាប់ការបង្វឹកម៉ូដែលភាសាខ្នាតធំ (Large Language Models)។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសន្លឹកផលិតផលផ្នែកទន់ (SaaS product sheets) ជាភាសាបារាំងពីប្រព័ន្ធ Appvizer ។ ដោយសារវាផ្តោតតែលើភាសាបារាំង និងបរិបទកម្មវិធី SaaS ដែលមានលក្ខណៈជាក់លាក់ខ្លាំង លទ្ធផលអាចនឹងមិនឆ្លើយតបទាំងស្រុងទៅនឹងភាសា ឬបរិបទផ្សេងទៀតឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តបច្ចេកទេសនេះទាមទារឱ្យមានម៉ូដែលភាសាខ្មែរ (ដូចជា XLM-R) និងទិន្នន័យក្នុងស្រុកដែលមានគុណភាពដើម្បីធានាបាននូវប្រសិទ្ធភាព។
បច្ចេកទេសបន្ថែមទិន្នន័យ (EDA) សម្រាប់ការធ្វើចំណាត់ថ្នាក់អត្ថបទនេះ មានសារៈសំខាន់ណាស់សម្រាប់ប្រទេសកម្ពុជា ដែលជារឿយៗជួបប្រទះបញ្ហាខ្វះខាតទិន្នន័យហ្វឹកហាត់។
ការប្រើប្រាស់វិធីសាស្ត្រនេះអាចជួយស្ថាប័នឯកជន និងរដ្ឋនៅកម្ពុជាចំណេញពេលវេលា កាត់បន្ថយកំហុសពីមនុស្ស និងបង្កើនប្រសិទ្ធភាពក្នុងការចាត់ចែងទិន្នន័យអត្ថបទខ្នាតធំ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| BERT | ជាម៉ូដែលបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតខ្ពស់សម្រាប់ការយល់ដឹងពីភាសាធម្មជាតិ (NLP) ដែលអាចអានអត្ថបទទាំងទៅមុខនិងថយក្រោយ ដើម្បីចាប់យកអត្ថន័យបរិបទនៃពាក្យនីមួយៗបានយ៉ាងច្បាស់លាស់។ | ដូចជាអ្នកអានសៀវភៅម្នាក់ដែលមិនត្រឹមតែអានពីឆ្វេងទៅស្តាំប៉ុណ្ណោះទេ តែអាចអានត្រលប់ចុះឡើងដើម្បីយល់ន័យពិតប្រាកដនៃប្រយោគដោយផ្អែកលើពាក្យជុំវិញ។ |
| Imbalanced Classification | ជាបញ្ហាក្នុងការរៀនម៉ាស៊ីន (Machine Learning) ដែលចំនួនទិន្នន័យក្នុងក្រុម (Class) នីមួយៗមានភាពខុសគ្នាខ្លាំង ធ្វើឱ្យម៉ូដែលងាយនឹងទាយត្រូវតែលើក្រុមដែលមានទិន្នន័យច្រើន និងទាយខុសលើក្រុមមានទិន្នន័យតិច។ | ដូចជាសិស្សដែលរៀនតែមុខវិជ្ជាគណិតវិទ្យារាល់ថ្ងៃ ហើយមិនសូវរៀនគីមី ដល់ពេលប្រឡងក៏ធ្វើបានល្អតែមុខវិជ្ជាគណិតវិទ្យា ចំណែកឯគីមីធ្លាក់។ |
| Text Data Augmentation | ជាបច្ចេកទេសបង្កើតទិន្នន័យអត្ថបទថ្មីៗបន្ថែមពីលើទិន្នន័យចាស់ដែលមានស្រាប់ ដោយរក្សាអត្ថន័យដើម ដើម្បីជួយឱ្យម៉ូដែលរៀនម៉ាស៊ីនមានទិន្នន័យគ្រប់គ្រាន់សម្រាប់ការហ្វឹកហាត់។ | ដូចជាការយកប្រយោគមួយមកសរសេរជាឃ្លាថ្មីៗជាច្រើនជម្រើសដោយប្រើពាក្យមានន័យដូចគ្នា ដើម្បីបង្រៀនឱ្យកុំព្យូទ័រស្គាល់ប្រយោគនោះក្នុងទម្រង់ច្រើនបែប។ |
| Easy Data Augmentation | ជាវិធីសាស្ត្រជាក់លាក់មួយនៃការបន្ថែមទិន្នន័យអត្ថបទ ដែលបង្កើតទិន្នន័យថ្មីដោយប្រើបច្ចេកទេសងាយៗចំនួន៤ ដូចជា៖ ជំនួសពាក្យមានន័យដូច, បញ្ចូលពាក្យថ្មី, លុបពាក្យចោល, និងប្តូរទីតាំងពាក្យក្នុងប្រយោគ។ | ដូចជាការលេងល្បែងផ្គុំពាក្យ ដែលយើងអាចដក ដូរ ឬថែមពាក្យក្នុងប្រយោគមួយ ដើម្បីបង្កើតប្រយោគថ្មីៗបានយ៉ាងងាយស្រួលនិងរហ័ស។ |
| Fine-tuning | ជាដំណើរការយកម៉ូដែលបញ្ញាសិប្បនិម្មិតដែលត្រូវបានបង្វឹកជាមុនលើទិន្នន័យទូទៅដ៏ធំ (Pre-trained model) មកបង្វឹកបន្តបន្តិចបន្តួចបន្ថែមទៀតលើទិន្នន័យជាក់លាក់ណាមួយ ដើម្បីឱ្យវាអាចធ្វើការងារនោះបានល្អប្រសើរ។ | ដូចជាការយកនិស្សិតដែលទើបបញ្ចប់បរិញ្ញាបត្រចំណេះដឹងទូទៅ មកបណ្តុះបណ្តាលជំនាញការងារជាក់លាក់នៅក្នុងក្រុមហ៊ុនមួយបន្ថែមទៀត។ |
| Word embedding | ជាបច្ចេកទេសបំប្លែងពាក្យពេចន៍ពីទម្រង់អក្សរ ទៅជាទម្រង់វ៉ិចទ័រ ឬតួលេខគណិតវិទ្យា ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ពីទំនាក់ទំនង និងអត្ថន័យរវាងពាក្យនីមួយៗបាន។ | ដូចជាការផ្តល់កូដលេខសម្ងាត់ទៅឱ្យពាក្យនីមួយៗ ដែលកូដលេខក្បែរៗគ្នាមានន័យថាពាក្យទាំងនោះមានអត្ថន័យស្រដៀងគ្នា ឬទាក់ទងគ្នា។ |
| Masked Language Modeling | ជាវិធីសាស្ត្របង្វឹកម៉ូដែលភាសា ដោយលាក់ពាក្យមួយចំនួននៅក្នុងប្រយោគ (ឧ. ធ្វើឱ្យទៅជាចន្លោះទទេរ) ហើយតម្រូវឱ្យម៉ូដែលនោះទស្សន៍ទាយរកពាក្យដែលបាត់នោះ ដោយផ្អែកលើបរិបទពាក្យជុំវិញ។ | ដូចជាលំហាត់បំពេញចន្លោះនៅក្នុងសាលារៀន ដែលសិស្សត្រូវអានប្រយោគទាំងមូលដើម្បីរកនឹកពាក្យមកបំពេញកន្លែងដែលទទេរឱ្យបានត្រឹមត្រូវ។ |
| Top-k accuracy | ជារង្វាស់សម្រាប់វាយតម្លៃម៉ូដែល ដែលចាត់ទុកថាការទាយរបស់ម៉ូដែលគឺ 'ត្រឹមត្រូវ' ប្រសិនបើចម្លើយពិតប្រាកដស្ថិតនៅក្នុងចំណោមជម្រើសកំពូលទាំង k (ឧ. ជម្រើសកំពូលទាំង ៣ ឬ ៥) ដែលម៉ូដែលបានផ្តល់ឱ្យ។ | ដូចជាការលេងហ្គេមទាយឈ្មោះសត្វ បើយើងទាយ ៣ ឈ្មោះ ហើយក្នុងចំណោមនោះមានឈ្មោះសត្វនោះមែន នោះចាត់ទុកថាយើងទាយត្រូវហើយ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖