បញ្ហា (The Problem)៖ កំហុសនៃការសម្គាល់សំឡេងដោយស្វ័យប្រវត្តិ (ASR) បណ្តាលឱ្យមានការធ្លាក់ចុះយ៉ាងខ្លាំងនូវដំណើរការយល់ដឹងភាសានិយាយ (SLU) នៅក្នុងប្រព័ន្ធសន្ទនា ខណៈវិធីសាស្ត្រកែតម្រូវបច្ចុប្បន្នមានភាពយឺតយ៉ាវ និងងាយនឹងកំហុស (Overfit) ចំពោះម៉ូដែលជាក់លាក់ណាមួយ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវរចនាសម្ព័ន្ធ Detector-Corrector ថ្មីមួយដែលរួមបញ្ចូលគ្នានូវការក្លែងធ្វើកំហុស និងការកែតម្រូវកំហុសដោយជ្រើសរើសទីតាំងដើម្បីកាត់បន្ថយរយៈពេលដំណើរការ និងបង្កើនភាពត្រឹមត្រូវ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| ASR result (Baseline) លទ្ធផលពីកម្មវិធីស្គាល់សំឡេង (Baseline) |
មិនមានការចំណាយពេលវេលាគណនាបន្ថែម (Inference Time) សម្រាប់ដំណើរការកែតម្រូវកំហុសនោះទេ។ | មានអត្រាកំហុសខ្ពស់ (WER) ដែលធ្វើឱ្យប៉ះពាល់យ៉ាងខ្លាំងដល់ដំណើរការយល់ដឹងភាសានិយាយ (SLU) នៅផ្នែកខាងចុង។ | កម្រិតភាពត្រឹមត្រូវ (ACC) ត្រឹមតែ 74.9% សម្រាប់ការចាត់ថ្នាក់គោលបំណង (IC)។ |
| T5 (Seq2Seq) គំរូ T5 សម្រាប់ការបកប្រែជាបន្តបន្ទាប់ (Seq2Seq) |
អាចកាត់បន្ថយអត្រាកំហុសពាក្យ (WER) បានល្អបំផុតធៀបនឹងវិធីសាស្ត្រផ្សេងៗ។ | ទាមទារពេលវេលាដំណើរការយូរ (0.15s) និងធ្វើឱ្យធ្លាក់ចុះនូវកម្រិតភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់ ដោយសារវាបង្កើតអត្ថបទថ្មីទាំងស្រុងដែលអូសទាញឱ្យបាត់បង់បរិបទដើម។ | កម្រិត WER ទាបបំផុត 24.5 ប៉ុន្តែកម្រិតភាពត្រឹមត្រូវ (ACC) សម្រាប់ការចាត់ថ្នាក់គោលបំណង (IC) ធ្លាក់មកនៅត្រឹម 73.5%។ |
| ConstDecoder គំរូ ConstDecoder ផ្អែកលើការដាក់កម្រិតការឌិកូដ |
មានល្បឿននៃការអនុវត្ត (Inference Time) លឿនបំផុតត្រឹមតែ 0.01 វិនាទីប៉ុណ្ណោះ។ | មានដំណើរការធ្លាក់ចុះយ៉ាងខ្លាំង (Overfitting) ជាពិសេសនៅពេលជួបទិន្នន័យ ឬប្រភេទ ASR ដែលវាមិនធ្លាប់បានរៀនពីមុនមក។ | អត្រាកំហុសពាក្យ (WER) កើនឡើងខ្ពស់ដល់ 48.2 សម្រាប់ការចាត់ថ្នាក់គោលបំណង។ |
| Ours (Detector-Corrector) គំរូដែលបានស្នើឡើង (Detector-Corrector) |
ជួយកែតម្រូវបានយ៉ាងល្អនូវកំហុសដែលប៉ះពាល់ដល់អត្ថន័យ ដោយកែប្រែតែផ្នែកដែលខុស ទើបរក្សាបាននូវបរិបទដើម និងប្រើពេលលឿនជាងគំរូ T5 ធម្មតា។ | អត្រា WER រួមមានការកើនឡើងបន្តិចបើប្រៀបធៀបទៅនឹងគំរូ T5 (Seq2Seq) ប៉ុន្តែមិនប៉ះពាល់ដល់លទ្ធផលចុងក្រោយនោះទេ។ | ទទួលបានកម្រិតភាពត្រឹមត្រូវ (ACC) ខ្ពស់ជាងគេគឺ 77.9% សម្រាប់ការចាត់ថ្នាក់គោលបំណង និងចាយពេលត្រឹម 0.11s/ទិន្នន័យ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ (GPU) កម្រិតខ្ពស់ និងទិន្នន័យអត្ថបទ/សំឡេងដែលមានទំហំធំដើម្បីបណ្តុះបណ្តាលម៉ូដែលពីរផ្សេងគ្នា។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់សំណុំទិន្នន័យភាសាអង់គ្លេស (LibriSpeech, ATIS) ដែលមានរចនាសម្ព័ន្ធវេយ្យាករណ៍ច្បាស់លាស់។ វាមិនបានគិតគូរពីភាសាដែលមានធនធានតិចតួច (Low-resource languages) ឬភាសាដែលមានទម្រង់សូរសព្ទស្មុគស្មាញដូចជាភាសាខ្មែរនោះទេ។ នេះជារឿងសំខាន់សម្រាប់កម្ពុជា ព្រោះការបំប្លែងសំឡេងជាអត្ថបទ (ASR) ជាភាសាខ្មែរនៅមានកម្រិត និងមានកំហុសច្រើន ដែលទាមទារការកែសម្រួលបន្ថែមឱ្យត្រូវនឹងបរិបទក្នុងស្រុក។
វិធីសាស្ត្រកែតម្រូវកំហុស ASR នេះមានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធបញ្ជាដោយសំឡេង និង Chatbot នៅកម្ពុជា។
ជារួម ការអនុវត្តរចនាសម្ព័ន្ធ Detector-Corrector នេះអាចដោះស្រាយចំណុចខ្សោយនៃប្រព័ន្ធ ASR ភាសាខ្មែរនាពេលបច្ចុប្បន្ន ដោយផ្តោតលើការកែតែចំណុចខុស ដើម្បីរក្សាន័យដើមឱ្យបានល្អសម្រាប់ការប្រើប្រាស់ជាក់ស្តែង។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Automatic Speech Recognition (ASR) | ប្រព័ន្ធកុំព្យូទ័រដែលបំប្លែងសំឡេងនិយាយរបស់មនុស្សទៅជាអត្ថបទដោយស្វ័យប្រវត្តិ ដើម្បីឱ្យម៉ាស៊ីនអាចយកទៅដំណើរការបន្តបាន ដូចជាការបកប្រែ ឬវិភាគអត្ថន័យ។ | ដូចជាលេខាធិការដែលអង្គុយស្តាប់ចៅហ្វាយនិយាយ រួចវាយអត្ថបទចូលកុំព្យូទ័រតាមពាក្យនីមួយៗអញ្ចឹងដែរ។ |
| Spoken language understanding (SLU) | ដំណើរការដែលប្រព័ន្ធកុំព្យូទ័រព្យាយាមយល់ពីអត្ថន័យ និងគោលបំណងពិតប្រាកដនៃពាក្យសម្តីដែលមនុស្សនិយាយ បន្ទាប់ពីវាត្រូវបានបំប្លែងទៅជាអត្ថបទរួចរាល់។ | ដូចជាការស្តាប់មិត្តភក្តិប្រាប់រឿងរ៉ាវ រួចយើងចាប់បានថាតើគេចង់បានអ្វី ឬមានអារម្មណ៍បែបណាពិតប្រាកដចេញពីពាក្យសម្តីនោះ។ |
| Collaborative training | វិធីសាស្ត្របណ្តុះបណ្តាលម៉ូដែលបញ្ញាសិប្បនិម្មិតពីរក្នុងពេលតែមួយ ដោយមួយមានតួនាទីបង្កើតកំហុស (Generator) និងមួយទៀតមានតួនាទីចាប់កំហុសនោះ (Discriminator) ដើម្បីឱ្យពួកវាទាំងពីរកាន់តែមានសមត្ថភាពខ្ពស់។ | ដូចជាកូនសិស្សម្នាក់ព្យាយាមលាក់កំហុសក្នុងលំហាត់ ឯគ្រូបង្រៀនម្នាក់ទៀតព្យាយាមរកកំហុសនោះ ដែលធ្វើឱ្យពួកគេទាំងពីរពូកែរៀងៗខ្លួន។ |
| Word Error Rate (WER) | រង្វាស់សម្រាប់វាស់ស្ទង់ភាពត្រឹមត្រូវនៃប្រព័ន្ធបំប្លែងសំឡេងទៅជាអត្ថបទ ដោយគណនាភាគរយនៃពាក្យដែលប្រព័ន្ធស្តាប់ខុស បាត់ ឬបន្ថែមលើសធៀបនឹងអត្ថបទពិតប្រាកដ។ | ដូចជាការកាត់ពិន្ទុសិស្សនៅក្នុងការប្រឡងសរសេរតាមអាន ដោយរាប់ចំនួនពាក្យដែលសរសេរខុស បាត់ ឬលើសធៀបនឹងអត្ថបទដើម។ |
| Conditional decoding | វិធីសាស្ត្រក្នុងការបង្កើតអត្ថបទថ្មីដោយម៉ូដែល AI ដែលវាត្រូវផ្អែកលើលក្ខខណ្ឌ ឬផ្នែកខ្លះនៃអត្ថបទចាស់ ដើម្បីកែប្រែតែចំណុចដែលតម្រូវឱ្យកែដោយមិនប៉ះពាល់ផ្នែកផ្សេងទៀតដែលត្រឹមត្រូវស្រាប់។ | ដូចជាជាងជួសជុលសម្លៀកបំពាក់ដែលកាត់ និងដេរតែត្រង់កន្លែងរហែក ដោយមិនប៉ះពាល់ដល់សាច់ក្រណាត់ដែលនៅល្អ។ |
| Masked language modeling (MLM) | បច្ចេកទេសបង្រៀន AI ឱ្យយល់ពីបរិបទភាសា ដោយលាក់ពាក្យមួយចំនួននៅក្នុងប្រយោគ ហើយតម្រូវឱ្យ AI ទាយរកពាក្យដែលបាត់នោះដោយផ្អែកលើពាក្យនៅជុំវិញវា។ | ដូចជាល្បែងបំពេញចន្លោះនៅក្នុងប្រយោគ ដែលយើងត្រូវទាយពាក្យដែលត្រឹមត្រូវយកមកបំពេញតាមន័យនៃប្រយោគទាំងមូល។ |
| Levenshtein distance | រូបមន្តគណិតវិទ្យាសម្រាប់វាស់ភាពខុសគ្នារវាងពាក្យ ឬប្រយោគពីរ ដោយរាប់ចំនួនជំហានអប្បបរមាដែលត្រូវលុប បន្ថែម ឬជំនួសអក្សរ ដើម្បីបំប្លែងពាក្យមួយទៅជាពាក្យមួយទៀត។ | ដូចជាការរាប់ចំនួនជំហាននៃការរុះរើ និងផ្គុំតួអក្សរឡេហ្គោ (Lego) ដើម្បីប្តូរពីរូបរាងមួយទៅជារូបរាងមួយទៀត។ |
| Intent classification | ដំណើរការដែលប្រព័ន្ធ AI វិភាគអត្ថបទ ឬសំឡេងបញ្ជា ដើម្បីចាត់ថ្នាក់ថាតើអ្នកប្រើប្រាស់មានគោលបំណងចង់ឱ្យប្រព័ន្ធធ្វើអ្វីឱ្យប្រាកដ (ឧទាហរណ៍៖ សួរម៉ោង, បញ្ជាបិទភ្លើង ឬកក់សំបុត្រ)។ | ដូចជាអ្នករត់តុក្នុងភោជនីយដ្ឋានស្តាប់ការរៀបរាប់របស់ភ្ញៀវ រួចកត់ត្រាចូលក្នុងបញ្ជីយ៉ាងខ្លីថាភ្ញៀវចង់កម្ម៉ង់ម្ហូបអ្វីពិតប្រាកដ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖