Original Title: Text Data Augmentation to Manage Imbalanced Classification: Apply to BERT-based Large Multiclass Classification for Product Sheets
Source: www.cscjournals.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបន្ថែមទិន្នន័យអត្ថបទដើម្បីគ្រប់គ្រងចំណាត់ថ្នាក់មិនមានតុល្យភាព៖ ការអនុវត្តចំពោះចំណាត់ថ្នាក់ពហុថ្នាក់ធំផ្អែកលើ BERT សម្រាប់សន្លឹកផលិតផល

ចំណងជើងដើម៖ Text Data Augmentation to Manage Imbalanced Classification: Apply to BERT-based Large Multiclass Classification for Product Sheets

អ្នកនិពន្ធ៖ Yu DU (Cloud-is-Mine R&D), Erwann LAVAREC (Cloud-is-Mine R&D), Colin LALOUETTE (Cloud-is-Mine R&D)

ឆ្នាំបោះពុម្ព៖ 2023 International Journal of Computational Linguistics (IJCL)

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការធ្វើចំណាត់ថ្នាក់អត្ថបទពហុថ្នាក់នៅក្នុងពិភពពិត ជារឿយៗប្រឈមមុខនឹងបញ្ហាមិនមានតុល្យភាពនៃទិន្នន័យ (Class Imbalance) ព្រមទាំងមានចំនួនថ្នាក់ (Classes) រាប់រយ ដែលធ្វើឱ្យម៉ូដែលបណ្ដុះបណ្ដាលមានការលម្អៀង និងដំណើរការមិនបានល្អ។ ការសិក្សានេះផ្តោតលើការដោះស្រាយបញ្ហាអតុល្យភាពនេះ សម្រាប់ការចាត់ថ្នាក់ប្រភេទកម្មវិធី SaaS ជាភាសាបារាំង ដែលមានចំនួនរហូតដល់ ២៣៣ ថ្នាក់ដាច់ដោយឡែកពីគ្នា។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រើប្រាស់បច្ចេកទេសបន្ថែមទិន្នន័យអត្ថបទ រួមផ្សំជាមួយនឹងម៉ូដែលភាសាធំដើម្បីដោះស្រាយបញ្ហាអតុល្យភាពថ្នាក់ទិន្នន័យ។

ការប្រើប្រាស់បច្ចេកទេសបន្ថែមទិន្នន័យ (Easy Data Augmentation - EDA) ដើម្បីបង្កើតទិន្នន័យអត្ថបទថ្មីសម្រាប់ថ្នាក់ទិន្នន័យភាគតិច (Minority classes)
ការបំពាក់និងបង្វឹកម៉ូដែលភាសាបារាំង (Fine-tuning CamemBERT) ជាមួយទិន្នន័យដែលបានបន្ថែមរួច
ការវាយតម្លៃម៉ូដែលដោយប្រើរង្វាស់ ភាពត្រឹមត្រូវ (Accuracy), ភាពត្រឹមត្រូវកំពូល-k (Top-k accuracy) និង ពិន្ទុ F1-score

លទ្ធផលសំខាន់ៗ (The Verdict)៖

បច្ចេកទេស EDA បានបង្កើនទិន្នន័យហ្វឹកហាត់ពី ១៦ ០៧៦ ដល់ ៨០ ២៤៧ សំណាក ដែលជួយកាត់បន្ថយភាពលម្អៀងនៃទិន្នន័យ។
ម៉ូដែល CamemBERT ដែលបានប្រើទិន្នន័យបន្ថែម (CamemBERT-TDA) ទទួលបានភាពត្រឹមត្រូវ (Accuracy) ០.៧៣០ ដែលជាកំណើន ៣៤.៧% បើធៀបនឹងម៉ូដែលធម្មតា។
ម៉ូដែលនេះក៏ទទួលបានពិន្ទុ F1-score កើនឡើង ៣៧.១% (ឈានដល់ ០.៧៣១) ដែលបង្ហាញយ៉ាងច្បាស់ពីប្រសិទ្ធភាពនៃវិធីសាស្ត្របន្ថែមទិន្នន័យក្នុងការដោះស្រាយបញ្ហាចំណាត់ថ្នាក់ពហុថ្នាក់ដ៏ធំ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
CamemBERT-No-TDA (Baseline) ម៉ូដែល CamemBERT ដែលមិនប្រើប្រាស់បច្ចេកទេសបន្ថែមទិន្នន័យ (Baseline)	ងាយស្រួលក្នុងការអនុវត្ត និងមិនទាមទារពេលវេលា ឬធនធានបន្ថែមក្នុងការបង្កើតទិន្នន័យសិប្បនិម្មិត។	ដំណើរការមិនបានល្អលើទិន្នន័យដែលមិនមានតុល្យភាព (Imbalanced data) ដែលធ្វើឱ្យមានភាពលម្អៀងទៅរកថ្នាក់ដែលមានទិន្នន័យច្រើន។	ភាពត្រឹមត្រូវ (Accuracy): ០.៥៤២ និង ពិន្ទុ F1-score: ០.៥៣៣
CamemBERT-TDA (with Easy Data Augmentation) ម៉ូដែល CamemBERT ដែលប្រើប្រាស់បច្ចេកទេសបន្ថែមទិន្នន័យ (EDA)	ដោះស្រាយបញ្ហាអតុល្យភាពទិន្នន័យបានយ៉ាងល្អ និងបង្កើនភាពត្រឹមត្រូវនៃការធ្វើចំណាត់ថ្នាក់សម្រាប់ថ្នាក់ដែលមានទិន្នន័យតិចតួច (Minority classes)។	ត្រូវការពេលវេលា និងធនធានកុំព្យូទ័រច្រើនជាងមុន ដើម្បីបង្កើតទិន្នន័យបន្ថែម និងអាចបាត់បង់អត្ថន័យដើមប្រសិនបើការជំនួសពាក្យមិនបានត្រឹមត្រូវ។	ភាពត្រឹមត្រូវ (Accuracy): ០.៧៣០ និង ពិន្ទុ F1-score: ០.៧៣១ (មានន័យថាកើនឡើង ៣៤.៧% និង ៣៧.១% រៀងគ្នា)

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រធុនមធ្យមទៅខ្ពស់ ជាពិសេសសម្រាប់ការបង្វឹកម៉ូដែលភាសាខ្នាតធំ (Large Language Models)។

Hardware: ទាមទារអង្គគណនា (GPU) ដូចជា Tesla T4 GPU សម្រាប់ការបង្វឹកម៉ូដែល (Fine-tuning)។
Software & Libraries: ប្រើប្រាស់បណ្ណាល័យ Python ដូចជា Hugging Face Transformers, fastbert, និង Textattack (សម្រាប់ធ្វើ EDA)។
Dataset: ប្រើប្រាស់សំណុំទិន្នន័យអត្ថបទភាសាបារាំងចំនួន ១៣ ០១៤ សន្លឹក ដែលត្រូវបានកាត់ជាផ្នែកតូចៗរហូតដល់មាន ២០ ០៩៥ អត្ថបទ និងត្រូវបង្កើនចំនួនទិន្នន័យហ្វឹកហាត់ដល់ ៨០ ២៤៧ តាមរយៈ EDA។
Pre-trained Model: ត្រូវការម៉ូដែលភាសាដែលបានបង្វឹកជាមុន ដូចជា CamemBERT ដែលត្រូវបានបង្វឹកលើទិន្នន័យអត្ថបទភាសាបារាំងទំហំ 135GB រួចជាស្រេច។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសន្លឹកផលិតផលផ្នែកទន់ (SaaS product sheets) ជាភាសាបារាំងពីប្រព័ន្ធ Appvizer ។ ដោយសារវាផ្តោតតែលើភាសាបារាំង និងបរិបទកម្មវិធី SaaS ដែលមានលក្ខណៈជាក់លាក់ខ្លាំង លទ្ធផលអាចនឹងមិនឆ្លើយតបទាំងស្រុងទៅនឹងភាសា ឬបរិបទផ្សេងទៀតឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តបច្ចេកទេសនេះទាមទារឱ្យមានម៉ូដែលភាសាខ្មែរ (ដូចជា XLM-R) និងទិន្នន័យក្នុងស្រុកដែលមានគុណភាពដើម្បីធានាបាននូវប្រសិទ្ធភាព។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសបន្ថែមទិន្នន័យ (EDA) សម្រាប់ការធ្វើចំណាត់ថ្នាក់អត្ថបទនេះ មានសារៈសំខាន់ណាស់សម្រាប់ប្រទេសកម្ពុជា ដែលជារឿយៗជួបប្រទះបញ្ហាខ្វះខាតទិន្នន័យហ្វឹកហាត់។

E-Commerce Platforms (ឧ. Nham24, Khmer24): អាចប្រើប្រាស់ដើម្បីចាត់ថ្នាក់ផលិតផលរាប់ពាន់ប្រភេទដោយស្វ័យប្រវត្តិ ជាពិសេសសម្រាប់ប្រភេទផលិតផលកម្រដែលមានទិន្នន័យតិចតួច។
News and Media Categorization: ជួយស្ថាប័នព័ត៌មានក្នុងការចាត់ថ្នាក់អត្ថបទព័ត៌មានទៅតាមប្រធានបទដោយស្វ័យប្រវត្តិ ទោះបីជាប្រធានបទខ្លះមានចំនួនអត្ថបទតិចក៏ដោយ ដោយការបង្កើតទិន្នន័យសិប្បនិម្មិតបន្ថែម។
E-Government & Citizen Feedback: ជួយរដ្ឋាភិបាល ឬក្រសួងស្ថាប័នក្នុងការបែងចែកពាក្យបណ្តឹង ឬសំណូមពររបស់ប្រជាពលរដ្ឋទៅតាមផ្នែកពាក់ព័ន្ធបានយ៉ាងរហ័សនិងសុក្រឹត ទោះបីជាសំណូមពរខ្លះមានទម្រង់កម្រជួបក៏ដោយ។

ការប្រើប្រាស់វិធីសាស្ត្រនេះអាចជួយស្ថាប័នឯកជន និងរដ្ឋនៅកម្ពុជាចំណេញពេលវេលា កាត់បន្ថយកំហុសពីមនុស្ស និងបង្កើនប្រសិទ្ធភាពក្នុងការចាត់ចែងទិន្នន័យអត្ថបទខ្នាតធំ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីមូលដ្ឋានគ្រឹះនៃការធ្វើចំណាត់ថ្នាក់អត្ថបទ: ចាប់ផ្តើមស្វែងយល់ពីរបៀបដំណើរការរបស់ម៉ូដែល BERT និង Transformers តាមរយៈឯកសារ ឬវគ្គសិក្សាឥតគិតថ្លៃពី Hugging Face។
ប្រមូលនិងរៀបចំទិន្នន័យភាសាខ្មែរ: ប្រមូលទិន្នន័យអត្ថបទពិតប្រាកដ (ឧ. ព័ត៌មាន ឬការពិពណ៌នាផលិតផល) ហើយសម្អាតវាដោយប្រើបណ្ណាល័យ Pandas ព្រមទាំងកំណត់អត្តសញ្ញាណថ្នាក់ទិន្នន័យដែលមានតុល្យភាពនិងគ្មានតុល្យភាព។
អនុវត្តបច្ចេកទេសបន្ថែមទិន្នន័យ (EDA): សាកល្បងសរសេរកូដ Python ដើម្បីបង្កើតទិន្នន័យបន្ថែមសម្រាប់ថ្នាក់ដែលមានទិន្នន័យតិចតួច ដោយប្រើបច្ចេកទេសជំនួសពាក្យ (Synonym Replacement) ឬការបកប្រែត្រលប់ (Back-translation) ដោយប្រើ Textattack library។
បង្វឹកនិងវាយតម្លៃម៉ូដែល (Fine-tuning): ប្រើប្រាស់ Google Colab (T4 GPU) រួមជាមួយ Transformers library ឬ fastbert ដើម្បីបង្វឹកម៉ូដែលពហុភាសាដូចជា XLM-RoBERTa លើទិន្នន័យភាសាខ្មែររបស់អ្នក រួចប្រៀបធៀបលទ្ធផល F1-score រវាងទិន្នន័យដើម និងទិន្នន័យដែលបានបន្ថែម។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
BERT	ជាម៉ូដែលបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតខ្ពស់សម្រាប់ការយល់ដឹងពីភាសាធម្មជាតិ (NLP) ដែលអាចអានអត្ថបទទាំងទៅមុខនិងថយក្រោយ ដើម្បីចាប់យកអត្ថន័យបរិបទនៃពាក្យនីមួយៗបានយ៉ាងច្បាស់លាស់។	ដូចជាអ្នកអានសៀវភៅម្នាក់ដែលមិនត្រឹមតែអានពីឆ្វេងទៅស្តាំប៉ុណ្ណោះទេ តែអាចអានត្រលប់ចុះឡើងដើម្បីយល់ន័យពិតប្រាកដនៃប្រយោគដោយផ្អែកលើពាក្យជុំវិញ។
Imbalanced Classification	ជាបញ្ហាក្នុងការរៀនម៉ាស៊ីន (Machine Learning) ដែលចំនួនទិន្នន័យក្នុងក្រុម (Class) នីមួយៗមានភាពខុសគ្នាខ្លាំង ធ្វើឱ្យម៉ូដែលងាយនឹងទាយត្រូវតែលើក្រុមដែលមានទិន្នន័យច្រើន និងទាយខុសលើក្រុមមានទិន្នន័យតិច។	ដូចជាសិស្សដែលរៀនតែមុខវិជ្ជាគណិតវិទ្យារាល់ថ្ងៃ ហើយមិនសូវរៀនគីមី ដល់ពេលប្រឡងក៏ធ្វើបានល្អតែមុខវិជ្ជាគណិតវិទ្យា ចំណែកឯគីមីធ្លាក់។
Text Data Augmentation	ជាបច្ចេកទេសបង្កើតទិន្នន័យអត្ថបទថ្មីៗបន្ថែមពីលើទិន្នន័យចាស់ដែលមានស្រាប់ ដោយរក្សាអត្ថន័យដើម ដើម្បីជួយឱ្យម៉ូដែលរៀនម៉ាស៊ីនមានទិន្នន័យគ្រប់គ្រាន់សម្រាប់ការហ្វឹកហាត់។	ដូចជាការយកប្រយោគមួយមកសរសេរជាឃ្លាថ្មីៗជាច្រើនជម្រើសដោយប្រើពាក្យមានន័យដូចគ្នា ដើម្បីបង្រៀនឱ្យកុំព្យូទ័រស្គាល់ប្រយោគនោះក្នុងទម្រង់ច្រើនបែប។
Easy Data Augmentation	ជាវិធីសាស្ត្រជាក់លាក់មួយនៃការបន្ថែមទិន្នន័យអត្ថបទ ដែលបង្កើតទិន្នន័យថ្មីដោយប្រើបច្ចេកទេសងាយៗចំនួន៤ ដូចជា៖ ជំនួសពាក្យមានន័យដូច, បញ្ចូលពាក្យថ្មី, លុបពាក្យចោល, និងប្តូរទីតាំងពាក្យក្នុងប្រយោគ។	ដូចជាការលេងល្បែងផ្គុំពាក្យ ដែលយើងអាចដក ដូរ ឬថែមពាក្យក្នុងប្រយោគមួយ ដើម្បីបង្កើតប្រយោគថ្មីៗបានយ៉ាងងាយស្រួលនិងរហ័ស។
Fine-tuning	ជាដំណើរការយកម៉ូដែលបញ្ញាសិប្បនិម្មិតដែលត្រូវបានបង្វឹកជាមុនលើទិន្នន័យទូទៅដ៏ធំ (Pre-trained model) មកបង្វឹកបន្តបន្តិចបន្តួចបន្ថែមទៀតលើទិន្នន័យជាក់លាក់ណាមួយ ដើម្បីឱ្យវាអាចធ្វើការងារនោះបានល្អប្រសើរ។	ដូចជាការយកនិស្សិតដែលទើបបញ្ចប់បរិញ្ញាបត្រចំណេះដឹងទូទៅ មកបណ្តុះបណ្តាលជំនាញការងារជាក់លាក់នៅក្នុងក្រុមហ៊ុនមួយបន្ថែមទៀត។
Word embedding	ជាបច្ចេកទេសបំប្លែងពាក្យពេចន៍ពីទម្រង់អក្សរ ទៅជាទម្រង់វ៉ិចទ័រ ឬតួលេខគណិតវិទ្យា ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ពីទំនាក់ទំនង និងអត្ថន័យរវាងពាក្យនីមួយៗបាន។	ដូចជាការផ្តល់កូដលេខសម្ងាត់ទៅឱ្យពាក្យនីមួយៗ ដែលកូដលេខក្បែរៗគ្នាមានន័យថាពាក្យទាំងនោះមានអត្ថន័យស្រដៀងគ្នា ឬទាក់ទងគ្នា។
Masked Language Modeling	ជាវិធីសាស្ត្របង្វឹកម៉ូដែលភាសា ដោយលាក់ពាក្យមួយចំនួននៅក្នុងប្រយោគ (ឧ. ធ្វើឱ្យទៅជាចន្លោះទទេរ) ហើយតម្រូវឱ្យម៉ូដែលនោះទស្សន៍ទាយរកពាក្យដែលបាត់នោះ ដោយផ្អែកលើបរិបទពាក្យជុំវិញ។	ដូចជាលំហាត់បំពេញចន្លោះនៅក្នុងសាលារៀន ដែលសិស្សត្រូវអានប្រយោគទាំងមូលដើម្បីរកនឹកពាក្យមកបំពេញកន្លែងដែលទទេរឱ្យបានត្រឹមត្រូវ។
Top-k accuracy	ជារង្វាស់សម្រាប់វាយតម្លៃម៉ូដែល ដែលចាត់ទុកថាការទាយរបស់ម៉ូដែលគឺ 'ត្រឹមត្រូវ' ប្រសិនបើចម្លើយពិតប្រាកដស្ថិតនៅក្នុងចំណោមជម្រើសកំពូលទាំង k (ឧ. ជម្រើសកំពូលទាំង ៣ ឬ ៥) ដែលម៉ូដែលបានផ្តល់ឱ្យ។	ដូចជាការលេងហ្គេមទាយឈ្មោះសត្វ បើយើងទាយ ៣ ឈ្មោះ ហើយក្នុងចំណោមនោះមានឈ្មោះសត្វនោះមែន នោះចាត់ទុកថាយើងទាយត្រូវហើយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖