Original Title: Utilizing BERT pretrained models with various fine-tune methods in subjectivity tasks
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការប្រើប្រាស់ម៉ូដែលហ្វឹកហាត់ជាមុន BERT ជាមួយនឹងវិធីសាស្ត្រកែសម្រួលម៉ត់ចត់ផ្សេងៗក្នុងកិច្ចការស្វែងរកភាពលំអៀង

ចំណងជើងដើម៖ Utilizing BERT pretrained models with various fine-tune methods in subjectivity tasks

អ្នកនិពន្ធ៖ Hairong Huo (Waseda University), Mizuho Iwaihara (Waseda University)

ឆ្នាំបោះពុម្ព៖ 2020 DEIM Forum

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយលើកិច្ចការនៃការស្វែងរកភាពលំអៀង (Subjectivity detection) ដែលពាក់ព័ន្ធនឹងការចាត់ថ្នាក់ប្រយោគទៅជាប្រយោគមានមតិយោបល់ (Subjective) ឬប្រយោគអព្យាក្រឹត (Objective) ដោយស្វែងរកយុទ្ធសាស្ត្រកែសម្រួលម៉ត់ចត់ (Fine-tuning strategies) ដ៏ល្អប្រសើរបំផុតសម្រាប់ម៉ូដែលភាសា BERT ដែលបានហ្វឹកហាត់ជាមុន។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះធ្វើការពិសោធន៍ដោយប្រើប្រាស់ម៉ូដែលគោល BERT-base និងប្រៀបធៀបយុទ្ធសាស្ត្រកែសម្រួលម៉ត់ចត់ (Fine-tuning strategies) ផ្សេងៗគ្នា ជាមួយនឹងឧបករណ៍ចាត់ថ្នាក់បណ្តាញសរសៃប្រសាទ (Neural network classifiers) ច្រើនប្រភេទដើម្បីស្វែងរកលទ្ធផលល្អបំផុត។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Standard BERT-base fine-tuning
ការកែសម្រួលម៉ត់ចត់កម្រិតស្តង់ដារលើម៉ូដែល BERT-base
ងាយស្រួលក្នុងការអនុវត្ត និងដើរតួជាគោល (Baseline) ដ៏ល្អសម្រាប់ប្រៀបធៀបជាមួយវិធីសាស្ត្រផ្សេងៗ។ មិនទាន់អាចទាញយកសក្តានុពលពេញលេញនៃទិន្នន័យ និងរចនាសម្ព័ន្ធម៉ូដែលបានល្អបំផុតនោះទេ។ ទទួលបានភាពត្រឹមត្រូវ ៩៤.២% លើសំណុំទិន្នន័យ SUBJ និង ៨១.៥៦% លើ Wikipedia Biased Statements។
BERT-base with LSTM / BiLSTM
ការប្រើប្រាស់ម៉ូដែល BERT-base រួមជាមួយបណ្តាញ LSTM ឬ BiLSTM
អនុញ្ញាតឱ្យមានការបន្ថែមស្រទាប់បណ្តាញសរសៃប្រសាទស្មុគស្មាញពីលើតួម៉ូដែល BERT សម្រាប់ការចាត់ថ្នាក់អត្ថបទ។ ធ្វើឱ្យប្រសិទ្ធភាពធ្លាក់ចុះ ព្រោះ BERT មានបណ្តាញជ្រៅ និងយុទ្ធសាស្ត្រទាញយកលក្ខណៈពិសេស (Feature extraction) ល្អរួចទៅហើយ ការបន្ថែមនេះគឺមិនចាំបាច់ទេ។ ភាពត្រឹមត្រូវធ្លាក់ចុះមកត្រឹម ៩២.៩៤% (LSTM) និង ៩២.៤៨% (BiLSTM) លើសំណុំទិន្នន័យ SUBJ។
BERT-base with One Cycle Policy
ការប្រើប្រាស់ BERT-base ជាមួយគោលការណ៍វដ្តតែមួយ (One Cycle Policy)
ជួយការពារបញ្ហាការរៀនហួសកម្រិត (Over-fitting) និងមានប្រសិទ្ធភាពខ្ពស់លើសំណុំទិន្នន័យតូចៗ ដោយប្រើប្រាស់អត្រាសិក្សា (Learning rate) ថាមវន្ត។ មិនមានភាពប្រសើរឡើងគួរឱ្យកត់សម្គាល់លើសំណុំទិន្នន័យធំៗដូចជា IMDb នោះទេ។ ទទួលបានភាពត្រឹមត្រូវ ៩៤.៥៣% លើ SUBJ និង ៨២.១៧% លើទិន្នន័យ Wikipedia។
BERT-base Multi-Task Learning (6 datasets)
ការរៀនពហុកិច្ចការ (MTL) ដោយប្រើសំណុំទិន្នន័យ ៦
បង្កើនទំហំទិន្នន័យហ្វឹកហាត់ និងជួយឱ្យម៉ូដែលយល់ដឹងកាន់តែទូលំទូលាយពីបរិបទភាសាផ្សេងៗគ្នា។ ទាមទារធនធានកុំព្យូទ័រ និងពេលវេលាច្រើនក្នុងការហ្វឹកហាត់កិច្ចការច្រើនក្នុងពេលតែមួយ។ សម្រេចបានភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ៩៥.២៣% លើ SUBJ និង ៩៣.០៧% លើ IMDb ដែលវ៉ាដាច់ម៉ូដែលមុនៗ។
BERT-base MTL + 1 cycle policy
ការរួមបញ្ចូលគ្នារវាងការរៀនពហុកិច្ចការ និងគោលការណ៍វដ្តតែមួយ
ទទួលបានលទ្ធផលល្អបំផុតក្នុងការស្វែងរកភាពលំអៀងលើសំណុំទិន្នន័យ Wikipedia ដោយរួមបញ្ចូលចំណុចខ្លាំងនៃវិធីសាស្ត្រទាំងពីរ។ មិនមានការកើនឡើងប្រសិទ្ធភាពបន្ថែមទៀតលើសំណុំទិន្នន័យ SUBJ និង IMDb បើធៀបនឹងការប្រើ MTL តែឯង។ ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុតរហូតដល់ ៨៤.០៥% លើទិន្នន័យ Wikipedia Biased Statements។

ការចំណាយលើធនធាន (Resource Cost)៖ ការហ្វឹកហាត់ម៉ូដែល BERT និងវិធីសាស្ត្ររៀនពហុកិច្ចការ (Multi-task learning) ទាមទារធនធានកុំព្យូទ័រធុនធ្ងន់ ជាពិសេសអង្គគណនាដោះស្រាយក្រាហ្វិក (GPU) និងសំណុំទិន្នន័យចម្រុះជាច្រើន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសំណុំទិន្នន័យភាសាអង់គ្លេស (ដូចជា Wikipedia និង IMDb) ដែលឆ្លុះបញ្ចាំងពីវប្បធម៌ និងរបៀបបញ្ចេញមតិរបស់លោកខាងលិច។ ភាពលំអៀង និងការបញ្ចេញមតិផ្ទាល់ខ្លួន (Subjectivity) នៅក្នុងភាសាខ្មែរមានទម្រង់ និងបរិបទសង្គមខុសគ្នា ដែលធ្វើឱ្យម៉ូដែលនេះមិនអាចយកមកអនុវត្តផ្ទាល់នៅកម្ពុជាបានទេ បើគ្មានការហ្វឹកហាត់ឡើងវិញជាមួយអត្ថបទភាសាខ្មែរ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាទិន្នន័យជាភាសាអង់គ្លេសក៏ដោយ វិធីសាស្ត្រនៃការកែសម្រួលម៉ត់ចត់ (Fine-tuning strategies) នេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅប្រទេសកម្ពុជា ពិសេសដើម្បីដោះស្រាយបញ្ហាខ្វះខាតទិន្នន័យ។

ជារួម បច្ចេកទេស Multi-task learning និង One Cycle Policy នេះ គឺស័ក្តិសមបំផុតសម្រាប់កម្ពុជា ព្រោះវាអាចជួយដោះស្រាយបញ្ហាខ្វះខាតទិន្នន័យបណ្តុះបណ្តាល (Low-resource context) សម្រាប់ផ្នែក NLP ភាសាខ្មែរបានយ៉ាងមានប្រសិទ្ធភាពនាពេលអនាគត។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ BERT និង PyTorch: ចាប់ផ្តើមដោយការសិក្សាពីស្ថាបត្យកម្ម Transformer និងរបៀបប្រើប្រាស់ PyTorch រួមជាមួយបណ្ណាល័យ Hugging Face Transformers ដើម្បីយល់ពីរបៀបដំណើរការម៉ូដែលភាសា។
  2. សាកល្បងហ្វឹកហាត់ម៉ូដែលកម្រិតមូលដ្ឋាន (Baseline Fine-tuning): ប្រើប្រាស់ម៉ូដែល BERT-base ដើម្បីសាកល្បងអនុវត្តការកែសម្រួលម៉ត់ចត់ (Fine-tune) លើកិច្ចការចំណាត់ថ្នាក់អត្ថបទសាមញ្ញ តាមរយៈសៀវភៅកូដអនឡាញ Google Colab
  3. អនុវត្តយុទ្ធសាស្ត្រ One Cycle Policy: សរសេរកូដដើម្បីអនុវត្ត One Cycle Policy ក្នុងការកែតម្រូវអត្រាសិក្សា (Learning Rate) ថាមវន្ត ដោយប្រើប្រាស់មុខងារ LR Range Test ដើម្បីស្វែងរកតម្លៃល្អបំផុតមុនពេលហ្វឹកហាត់។
  4. អភិវឌ្ឍប្រព័ន្ធរៀនពហុកិច្ចការ (Multi-Task Learning): រៀបចំរចនាសម្ព័ន្ធទិន្នន័យ និងសរសេរកូដសម្រាប់ Multi-Task Learning ដោយប្រើប្រាស់ស្រទាប់ចែករំលែក (Shared Layers) សម្រាប់កិច្ចការខុសៗគ្នាក្នុងពេលតែមួយ ដើម្បីបង្កើនភាពត្រឹមត្រូវនៃតួម៉ូដែល។
  5. ស្រាវជ្រាវ និងអនុវត្តលើអត្ថបទភាសាខ្មែរ: ប្រមូលសំណុំទិន្នន័យភាសាខ្មែរតូចៗ និងសាកល្បងប្រើប្រាស់វិធីសាស្ត្រខាងលើជាមួយម៉ូដែលដែលបានហ្វឹកហាត់ភាសាខ្មែរស្រាប់ដូចជា Khmer-RoBERTaMultilingual BERT ដើម្បីដោះស្រាយបញ្ហាវិភាគអត្ថបទជាក់ស្តែងនៅកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
BERT វាជាម៉ូដែលបញ្ញាសិប្បនិម្មិតកម្រិតខ្ពស់ដែលត្រូវបានហ្វឹកហាត់ជាមុនលើអត្ថបទរាប់លាន ដើម្បីយល់ពីបរិបទ និងអត្ថន័យនៃពាក្យក្នុងប្រយោគទាំងសងខាង (ពីឆ្វេងទៅស្តាំ និងស្តាំទៅឆ្វេង)។ បន្ទាប់មកគេអាចយកវាទៅប្រើសម្រាប់កិច្ចការភាសាផ្សេងៗទៀត។ ដូចជានិស្សិតម្នាក់ដែលបានអានសៀវភៅរាប់ពាន់ក្បាលនៅបណ្ណាល័យដើម្បីយល់ដឹងពីភាសាទូទៅ មុននឹងចាប់ផ្តើមរៀនមុខវិជ្ជាឯកទេស។
Subjectivity detection ជាដំណើរការប្រើប្រាស់កុំព្យូទ័រដើម្បីបែងចែកថា តើប្រយោគមួយគ្រាន់តែជាការរៀបរាប់ការពិត (អព្យាក្រឹត) ឬជាការបញ្ចេញមតិយោបល់ផ្ទាល់ខ្លួន អារម្មណ៍ ឬភាពលំអៀងរបស់អ្នកសរសេរ។ ដូចជាអាជ្ញាកណ្តាលដែលកាត់ក្តីថា សម្តីមួយឃ្លាជារឿងពិត ឬគ្រាន់តែជាការបញ្ចេញមតិផ្ទាល់ខ្លួនរបស់គេប៉ុណ្ណោះ។
Fine-tuning ជាវិធីសាស្ត្រយកម៉ូដែល AI ដែលបានហ្វឹកហាត់រួចជាស្រេច (Pretrained model) មកបន្តបង្ហាត់បន្តិចបន្តួចបន្ថែមទៀតជាមួយទិន្នន័យជាក់លាក់ ដើម្បីឱ្យវាចេះធ្វើកិច្ចការថ្មីមួយបានល្អ ដោយមិនបាច់ចាប់ផ្តើមហ្វឹកហាត់ពីសូន្យ។ ដូចជាជាងឈើដែលមានជំនាញជាមូលដ្ឋានរួចហើយ គ្រាន់តែទៅរៀនបន្ថែមតិចតួចពីរបៀបធ្វើទូក ដើម្បីក្លាយជាជាងធ្វើទូកដ៏ចំណាន។
One cycle policy ជាយុទ្ធសាស្ត្រក្នុងការកែតម្រូវល្បឿននៃការរៀនរបស់ម៉ូដែល (Learning rate) ក្នុងពេលកំពុងហ្វឹកហាត់ ដោយចាប់ផ្តើមពីរៀនយឺតៗ រួចបង្កើនល្បឿនដល់កម្រិតកំពូល ហើយបន្ទាប់មកបន្ថយល្បឿនមកវិញ ដើម្បីជៀសវាងបញ្ហាម៉ូដែលទន្ទេញចាំទិន្នន័យ (Over-fitting)។ ដូចជាការរត់ម៉ារ៉ាតុង ដែលយើងចាប់ផ្តើមរត់យឺតៗ រួចបង្កើនល្បឿននៅពាក់កណ្តាលទី ហើយបន្ថយល្បឿនវិញនៅពេលជិតដល់ទីដៅដើម្បីកុំឱ្យដាច់ខ្យល់។
Catastrophic forgetting ជាបាតុភូតមួយដែលកើតឡើងនៅពេលម៉ូដែល AI រៀនចំណេះដឹងថ្មី ប៉ុន្តែបែរជាភ្លេចចំណេះដឹងចាស់ដែលវាធ្លាប់បានរៀនពីមុនមក ធ្វើឱ្យសមត្ថភាពរួមរបស់វាធ្លាក់ចុះ។ ដូចជាមនុស្សម្នាក់ដែលខំរៀនភាសាចិនរហូតចេះស្ទាត់ ប៉ុន្តែបែរជាភ្លេចរបៀបនិយាយភាសាអង់គ្លេសដែលខ្លួនធ្លាប់ចេះពីមុនមកអស់រលីង។
Gradual unfreezing ជាបច្ចេកទេសហ្វឹកហាត់ម៉ូដែល AI ដោយដោះសោ (Unfreeze) ស្រទាប់បណ្តាញរបស់វាឱ្យរៀនម្តងមួយស្រទាប់ៗពីលើចុះក្រោម ជាជាងឱ្យស្រទាប់ទាំងអស់រៀនក្នុងពេលតែមួយ ដើម្បីការពារកុំឱ្យវាភ្លេចចំណេះដឹងដើម។ ដូចជាការបង្រៀនសិស្សឱ្យចេះកែប្រែកំហុសម្តងមួយមុខវិជ្ជា ជាជាងប្រាប់កំហុសទាំងអស់ក្នុងពេលតែមួយដែលអាចធ្វើឱ្យសិស្សវង្វេង។
Multi-task learning ជាការបង្ហាត់ម៉ូដែល AI មួយឱ្យចេះធ្វើកិច្ចការច្រើនផ្សេងគ្នាក្នុងពេលតែមួយ ដើម្បីឱ្យវាអាចទាញយកអត្ថប្រយោជន៍ និងចំណេះដឹងពីកិច្ចការមួយទៅជួយបំពេញកិច្ចការមួយទៀតឱ្យកាន់តែប្រសើរ។ ដូចជាការរៀនលេងហ្គីតា និងព្យាណូក្នុងពេលតែមួយ ដែលការយល់ដឹងពីចង្វាក់ភ្លេងមួយអាចជួយឱ្យអ្នកលេងឧបករណ៍មួយទៀតបានកាន់តែងាយស្រួល។
Layer-wise discriminative fine-tuning ជាការកំណត់ល្បឿននៃការរៀន (Learning rate) ខុសៗគ្នាសម្រាប់ស្រទាប់នីមួយៗរបស់ម៉ូដែល ដោយស្រទាប់ខាងក្រោម (ដែលចាប់យកព័ត៌មានទូទៅ) រៀនយឺតជាងស្រទាប់ខាងលើ (ដែលចាប់យកព័ត៌មានជាក់លាក់)។ ដូចជាការគ្រប់គ្រងក្រុមហ៊ុន ដែលបុគ្គលិកថ្នាក់ក្រោមបន្តធ្វើការងារមូលដ្ឋានរាល់ថ្ងៃ (ផ្លាស់ប្តូរតិចតួច) ខណៈពេលដែលអ្នកគ្រប់គ្រងថ្នាក់លើផ្លាស់ប្តូរយុទ្ធសាស្ត្រថ្មីៗជានិច្ច (ផ្លាស់ប្តូរលឿន)។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖