បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយលើកិច្ចការនៃការស្វែងរកភាពលំអៀង (Subjectivity detection) ដែលពាក់ព័ន្ធនឹងការចាត់ថ្នាក់ប្រយោគទៅជាប្រយោគមានមតិយោបល់ (Subjective) ឬប្រយោគអព្យាក្រឹត (Objective) ដោយស្វែងរកយុទ្ធសាស្ត្រកែសម្រួលម៉ត់ចត់ (Fine-tuning strategies) ដ៏ល្អប្រសើរបំផុតសម្រាប់ម៉ូដែលភាសា BERT ដែលបានហ្វឹកហាត់ជាមុន។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះធ្វើការពិសោធន៍ដោយប្រើប្រាស់ម៉ូដែលគោល BERT-base និងប្រៀបធៀបយុទ្ធសាស្ត្រកែសម្រួលម៉ត់ចត់ (Fine-tuning strategies) ផ្សេងៗគ្នា ជាមួយនឹងឧបករណ៍ចាត់ថ្នាក់បណ្តាញសរសៃប្រសាទ (Neural network classifiers) ច្រើនប្រភេទដើម្បីស្វែងរកលទ្ធផលល្អបំផុត។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Standard BERT-base fine-tuning ការកែសម្រួលម៉ត់ចត់កម្រិតស្តង់ដារលើម៉ូដែល BERT-base |
ងាយស្រួលក្នុងការអនុវត្ត និងដើរតួជាគោល (Baseline) ដ៏ល្អសម្រាប់ប្រៀបធៀបជាមួយវិធីសាស្ត្រផ្សេងៗ។ | មិនទាន់អាចទាញយកសក្តានុពលពេញលេញនៃទិន្នន័យ និងរចនាសម្ព័ន្ធម៉ូដែលបានល្អបំផុតនោះទេ។ | ទទួលបានភាពត្រឹមត្រូវ ៩៤.២% លើសំណុំទិន្នន័យ SUBJ និង ៨១.៥៦% លើ Wikipedia Biased Statements។ |
| BERT-base with LSTM / BiLSTM ការប្រើប្រាស់ម៉ូដែល BERT-base រួមជាមួយបណ្តាញ LSTM ឬ BiLSTM |
អនុញ្ញាតឱ្យមានការបន្ថែមស្រទាប់បណ្តាញសរសៃប្រសាទស្មុគស្មាញពីលើតួម៉ូដែល BERT សម្រាប់ការចាត់ថ្នាក់អត្ថបទ។ | ធ្វើឱ្យប្រសិទ្ធភាពធ្លាក់ចុះ ព្រោះ BERT មានបណ្តាញជ្រៅ និងយុទ្ធសាស្ត្រទាញយកលក្ខណៈពិសេស (Feature extraction) ល្អរួចទៅហើយ ការបន្ថែមនេះគឺមិនចាំបាច់ទេ។ | ភាពត្រឹមត្រូវធ្លាក់ចុះមកត្រឹម ៩២.៩៤% (LSTM) និង ៩២.៤៨% (BiLSTM) លើសំណុំទិន្នន័យ SUBJ។ |
| BERT-base with One Cycle Policy ការប្រើប្រាស់ BERT-base ជាមួយគោលការណ៍វដ្តតែមួយ (One Cycle Policy) |
ជួយការពារបញ្ហាការរៀនហួសកម្រិត (Over-fitting) និងមានប្រសិទ្ធភាពខ្ពស់លើសំណុំទិន្នន័យតូចៗ ដោយប្រើប្រាស់អត្រាសិក្សា (Learning rate) ថាមវន្ត។ | មិនមានភាពប្រសើរឡើងគួរឱ្យកត់សម្គាល់លើសំណុំទិន្នន័យធំៗដូចជា IMDb នោះទេ។ | ទទួលបានភាពត្រឹមត្រូវ ៩៤.៥៣% លើ SUBJ និង ៨២.១៧% លើទិន្នន័យ Wikipedia។ |
| BERT-base Multi-Task Learning (6 datasets) ការរៀនពហុកិច្ចការ (MTL) ដោយប្រើសំណុំទិន្នន័យ ៦ |
បង្កើនទំហំទិន្នន័យហ្វឹកហាត់ និងជួយឱ្យម៉ូដែលយល់ដឹងកាន់តែទូលំទូលាយពីបរិបទភាសាផ្សេងៗគ្នា។ | ទាមទារធនធានកុំព្យូទ័រ និងពេលវេលាច្រើនក្នុងការហ្វឹកហាត់កិច្ចការច្រើនក្នុងពេលតែមួយ។ | សម្រេចបានភាពត្រឹមត្រូវខ្ពស់រហូតដល់ ៩៥.២៣% លើ SUBJ និង ៩៣.០៧% លើ IMDb ដែលវ៉ាដាច់ម៉ូដែលមុនៗ។ |
| BERT-base MTL + 1 cycle policy ការរួមបញ្ចូលគ្នារវាងការរៀនពហុកិច្ចការ និងគោលការណ៍វដ្តតែមួយ |
ទទួលបានលទ្ធផលល្អបំផុតក្នុងការស្វែងរកភាពលំអៀងលើសំណុំទិន្នន័យ Wikipedia ដោយរួមបញ្ចូលចំណុចខ្លាំងនៃវិធីសាស្ត្រទាំងពីរ។ | មិនមានការកើនឡើងប្រសិទ្ធភាពបន្ថែមទៀតលើសំណុំទិន្នន័យ SUBJ និង IMDb បើធៀបនឹងការប្រើ MTL តែឯង។ | ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុតរហូតដល់ ៨៤.០៥% លើទិន្នន័យ Wikipedia Biased Statements។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការហ្វឹកហាត់ម៉ូដែល BERT និងវិធីសាស្ត្ររៀនពហុកិច្ចការ (Multi-task learning) ទាមទារធនធានកុំព្យូទ័រធុនធ្ងន់ ជាពិសេសអង្គគណនាដោះស្រាយក្រាហ្វិក (GPU) និងសំណុំទិន្នន័យចម្រុះជាច្រើន។
ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសំណុំទិន្នន័យភាសាអង់គ្លេស (ដូចជា Wikipedia និង IMDb) ដែលឆ្លុះបញ្ចាំងពីវប្បធម៌ និងរបៀបបញ្ចេញមតិរបស់លោកខាងលិច។ ភាពលំអៀង និងការបញ្ចេញមតិផ្ទាល់ខ្លួន (Subjectivity) នៅក្នុងភាសាខ្មែរមានទម្រង់ និងបរិបទសង្គមខុសគ្នា ដែលធ្វើឱ្យម៉ូដែលនេះមិនអាចយកមកអនុវត្តផ្ទាល់នៅកម្ពុជាបានទេ បើគ្មានការហ្វឹកហាត់ឡើងវិញជាមួយអត្ថបទភាសាខ្មែរ។
ទោះបីជាទិន្នន័យជាភាសាអង់គ្លេសក៏ដោយ វិធីសាស្ត្រនៃការកែសម្រួលម៉ត់ចត់ (Fine-tuning strategies) នេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តនៅប្រទេសកម្ពុជា ពិសេសដើម្បីដោះស្រាយបញ្ហាខ្វះខាតទិន្នន័យ។
ជារួម បច្ចេកទេស Multi-task learning និង One Cycle Policy នេះ គឺស័ក្តិសមបំផុតសម្រាប់កម្ពុជា ព្រោះវាអាចជួយដោះស្រាយបញ្ហាខ្វះខាតទិន្នន័យបណ្តុះបណ្តាល (Low-resource context) សម្រាប់ផ្នែក NLP ភាសាខ្មែរបានយ៉ាងមានប្រសិទ្ធភាពនាពេលអនាគត។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| BERT | វាជាម៉ូដែលបញ្ញាសិប្បនិម្មិតកម្រិតខ្ពស់ដែលត្រូវបានហ្វឹកហាត់ជាមុនលើអត្ថបទរាប់លាន ដើម្បីយល់ពីបរិបទ និងអត្ថន័យនៃពាក្យក្នុងប្រយោគទាំងសងខាង (ពីឆ្វេងទៅស្តាំ និងស្តាំទៅឆ្វេង)។ បន្ទាប់មកគេអាចយកវាទៅប្រើសម្រាប់កិច្ចការភាសាផ្សេងៗទៀត។ | ដូចជានិស្សិតម្នាក់ដែលបានអានសៀវភៅរាប់ពាន់ក្បាលនៅបណ្ណាល័យដើម្បីយល់ដឹងពីភាសាទូទៅ មុននឹងចាប់ផ្តើមរៀនមុខវិជ្ជាឯកទេស។ |
| Subjectivity detection | ជាដំណើរការប្រើប្រាស់កុំព្យូទ័រដើម្បីបែងចែកថា តើប្រយោគមួយគ្រាន់តែជាការរៀបរាប់ការពិត (អព្យាក្រឹត) ឬជាការបញ្ចេញមតិយោបល់ផ្ទាល់ខ្លួន អារម្មណ៍ ឬភាពលំអៀងរបស់អ្នកសរសេរ។ | ដូចជាអាជ្ញាកណ្តាលដែលកាត់ក្តីថា សម្តីមួយឃ្លាជារឿងពិត ឬគ្រាន់តែជាការបញ្ចេញមតិផ្ទាល់ខ្លួនរបស់គេប៉ុណ្ណោះ។ |
| Fine-tuning | ជាវិធីសាស្ត្រយកម៉ូដែល AI ដែលបានហ្វឹកហាត់រួចជាស្រេច (Pretrained model) មកបន្តបង្ហាត់បន្តិចបន្តួចបន្ថែមទៀតជាមួយទិន្នន័យជាក់លាក់ ដើម្បីឱ្យវាចេះធ្វើកិច្ចការថ្មីមួយបានល្អ ដោយមិនបាច់ចាប់ផ្តើមហ្វឹកហាត់ពីសូន្យ។ | ដូចជាជាងឈើដែលមានជំនាញជាមូលដ្ឋានរួចហើយ គ្រាន់តែទៅរៀនបន្ថែមតិចតួចពីរបៀបធ្វើទូក ដើម្បីក្លាយជាជាងធ្វើទូកដ៏ចំណាន។ |
| One cycle policy | ជាយុទ្ធសាស្ត្រក្នុងការកែតម្រូវល្បឿននៃការរៀនរបស់ម៉ូដែល (Learning rate) ក្នុងពេលកំពុងហ្វឹកហាត់ ដោយចាប់ផ្តើមពីរៀនយឺតៗ រួចបង្កើនល្បឿនដល់កម្រិតកំពូល ហើយបន្ទាប់មកបន្ថយល្បឿនមកវិញ ដើម្បីជៀសវាងបញ្ហាម៉ូដែលទន្ទេញចាំទិន្នន័យ (Over-fitting)។ | ដូចជាការរត់ម៉ារ៉ាតុង ដែលយើងចាប់ផ្តើមរត់យឺតៗ រួចបង្កើនល្បឿននៅពាក់កណ្តាលទី ហើយបន្ថយល្បឿនវិញនៅពេលជិតដល់ទីដៅដើម្បីកុំឱ្យដាច់ខ្យល់។ |
| Catastrophic forgetting | ជាបាតុភូតមួយដែលកើតឡើងនៅពេលម៉ូដែល AI រៀនចំណេះដឹងថ្មី ប៉ុន្តែបែរជាភ្លេចចំណេះដឹងចាស់ដែលវាធ្លាប់បានរៀនពីមុនមក ធ្វើឱ្យសមត្ថភាពរួមរបស់វាធ្លាក់ចុះ។ | ដូចជាមនុស្សម្នាក់ដែលខំរៀនភាសាចិនរហូតចេះស្ទាត់ ប៉ុន្តែបែរជាភ្លេចរបៀបនិយាយភាសាអង់គ្លេសដែលខ្លួនធ្លាប់ចេះពីមុនមកអស់រលីង។ |
| Gradual unfreezing | ជាបច្ចេកទេសហ្វឹកហាត់ម៉ូដែល AI ដោយដោះសោ (Unfreeze) ស្រទាប់បណ្តាញរបស់វាឱ្យរៀនម្តងមួយស្រទាប់ៗពីលើចុះក្រោម ជាជាងឱ្យស្រទាប់ទាំងអស់រៀនក្នុងពេលតែមួយ ដើម្បីការពារកុំឱ្យវាភ្លេចចំណេះដឹងដើម។ | ដូចជាការបង្រៀនសិស្សឱ្យចេះកែប្រែកំហុសម្តងមួយមុខវិជ្ជា ជាជាងប្រាប់កំហុសទាំងអស់ក្នុងពេលតែមួយដែលអាចធ្វើឱ្យសិស្សវង្វេង។ |
| Multi-task learning | ជាការបង្ហាត់ម៉ូដែល AI មួយឱ្យចេះធ្វើកិច្ចការច្រើនផ្សេងគ្នាក្នុងពេលតែមួយ ដើម្បីឱ្យវាអាចទាញយកអត្ថប្រយោជន៍ និងចំណេះដឹងពីកិច្ចការមួយទៅជួយបំពេញកិច្ចការមួយទៀតឱ្យកាន់តែប្រសើរ។ | ដូចជាការរៀនលេងហ្គីតា និងព្យាណូក្នុងពេលតែមួយ ដែលការយល់ដឹងពីចង្វាក់ភ្លេងមួយអាចជួយឱ្យអ្នកលេងឧបករណ៍មួយទៀតបានកាន់តែងាយស្រួល។ |
| Layer-wise discriminative fine-tuning | ជាការកំណត់ល្បឿននៃការរៀន (Learning rate) ខុសៗគ្នាសម្រាប់ស្រទាប់នីមួយៗរបស់ម៉ូដែល ដោយស្រទាប់ខាងក្រោម (ដែលចាប់យកព័ត៌មានទូទៅ) រៀនយឺតជាងស្រទាប់ខាងលើ (ដែលចាប់យកព័ត៌មានជាក់លាក់)។ | ដូចជាការគ្រប់គ្រងក្រុមហ៊ុន ដែលបុគ្គលិកថ្នាក់ក្រោមបន្តធ្វើការងារមូលដ្ឋានរាល់ថ្ងៃ (ផ្លាស់ប្តូរតិចតួច) ខណៈពេលដែលអ្នកគ្រប់គ្រងថ្នាក់លើផ្លាស់ប្តូរយុទ្ធសាស្ត្រថ្មីៗជានិច្ច (ផ្លាស់ប្តូរលឿន)។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖