បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការបង្កើតប្រព័ន្ធសម្គាល់សំឡេងនិយាយដោយស្វ័យប្រវត្តិ (ASR) ដែលមានវាក្យសព្ទធំទូលាយសម្រាប់ភាសាហិណ្ឌី ជាពិសេសសម្រាប់ការផ្សាយព័ត៌មាន ដែលបច្ចុប្បន្ននៅមានកម្រិតនៅឡើយ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រមូលទិន្នន័យសំឡេងផ្សាយព័ត៌មាន រួចប្រើប្រាស់វិធីសាស្ត្របន្សាំម៉ូដែលសូរសព្ទ និងម៉ូដែលភាសាដោយស្វ័យប្រវត្តិដើម្បីបណ្តុះបណ្តាលប្រព័ន្ធ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Baseline Graphemic Model (G0) ម៉ូដែលតួអក្សរមូលដ្ឋានដោយគ្មានព្រំដែនពាក្យ |
ងាយស្រួលក្នុងការបង្កើត ដោយគ្រាន់តែប្រើប្រព័ន្ធបំប្លែងតួអក្សរទៅជាសូរសព្ទដោយផ្ទាល់ (Deterministic mapping)។ | មិនបានពិចារណាលើការប្រែប្រួលនៃការបញ្ចេញសំឡេង ដែលអាស្រ័យលើទីតាំងអក្សរនៅក្នុងពាក្យ។ | អត្រាកំហុសពាក្យ (WER) ១៤.៣៦% លើសំណុំទិន្នន័យ Dev និង ១៤.២២% លើសំណុំ Eval។ |
| Graphemic Model with Word Boundary (G1) ម៉ូដែលតួអក្សរមានកំណត់សញ្ញាព្រំដែនពាក្យ |
អាចរៀនពីច្បាប់នៃការបញ្ចេញសំឡេងដោយប្រយោល តាមរយៈការកំណត់ទីតាំងអក្សរ (ដើម កណ្តាល ចុងពាក្យ)។ | ទាមទារទិន្នន័យគ្រប់គ្រាន់ដើម្បីឲ្យម៉ូដែលអាចទាញយកបរិបទនៃការបញ្ចេញសំឡេងបានត្រឹមត្រូវ។ | អត្រាកំហុសពាក្យ (WER) ធ្លាក់ចុះមកត្រឹម ១២.៩១% (Dev) និង ១៣.៣៦% (Eval)។ |
| Phonemic Model with rules (P1) ម៉ូដែលសូរសព្ទប្រើច្បាប់បំបាត់ស្រៈ និងសញ្ញាច្រមុះ |
ដោះស្រាយបញ្ហាសូរសព្ទជាក់លាក់ក្នុងភាសាហិណ្ឌីបានល្អ ដូចជាការបំបាត់ស្រៈ (Schwa deletion) និងសំឡេងច្រមុះ។ | ត្រូវការបង្កើតក្បួនច្បាប់ភាសាវិទ្យា (Rule-based algorithms) ដែលអាចមានភាពស្មុគស្មាញ និងចំណាយពេល។ | អត្រាកំហុសពាក្យ (WER) ១២.៥៦% (Dev) និង ១៣.៤៤% (Eval)។ |
| Lattice Interpolation (DNN + SGMM) with LM Adaptations ការបូកបញ្ចូលគ្នា (DNN + SGMM) ជាមួយការបន្សាំម៉ូដែលភាសា |
ផ្តល់លទ្ធផលល្អបំផុតដោយរួមបញ្ចូលចំណេះដឹងផ្នែកវាក្យសម្ព័ន្ធ រូបសព្ទ និងបច្ចេកវិទ្យាបណ្ដាញសរសៃប្រសាទជ្រៅ (DNN)។ | ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ ស៊ីធនធានច្រើន និងមានភាពស្មុគស្មាញក្នុងការរៀបចំប្រព័ន្ធពីររួមបញ្ចូលគ្នា។ | អត្រាកំហុសពាក្យ (WER) ល្អបំផុតត្រឹម ១១.១២% (Dev) និង ១១.៥០% (Eval)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រមធ្យមទៅខ្ពស់ និងការរៀបចំទិន្នន័យសំឡេងដោយផ្ទាល់ដៃមួយចំនួន។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសំឡេងផ្សាយព័ត៌មានពីវិទ្យុ All India Radio (Bhopal) ដែលមានទម្រង់សំឡេងស្តង់ដារ បរិយាកាសថតច្បាស់ល្អ និងមិនមានសំឡេងរំខាន។ វាមិនបានគ្របដណ្តប់លើគ្រាមភាសា ឬការសន្ទនាបែបក្រៅផ្លូវការក្នុងជីវភាពប្រចាំថ្ងៃនោះទេ។ សម្រាប់ប្រទេសកម្ពុជា ការពឹងផ្អែកតែលើទិន្នន័យព័ត៌មានផ្លូវការ អាចធ្វើឲ្យប្រព័ន្ធពិបាកសម្គាល់សំឡេងមនុស្សទូទៅដែលនិយាយលឿន ឬមានគ្រាមភាសាតំបន់។
វិធីសាស្ត្រនៃការបន្សាំម៉ូដែលភាសា និងការប្រើប្រាស់ម៉ូដែលអក្សរមានព្រំដែនពាក្យ មានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធ ASR ភាសាខ្មែរ។
ជារួម ការប្រើប្រាស់ម៉ូដែលអក្សររួមជាមួយព័ត៌មានព្រំដែនពាក្យ និងការកែសម្រួលម៉ូដែលភាសា គឺជាវិធីសាស្ត្រដ៏មានប្រសិទ្ធភាពដែលអាចយកមកអនុវត្តផ្ទាល់ក្នុងការកសាង ASR សម្រាប់ភាសាខ្មែរដែលស្ថិតក្នុងស្ថានភាពខ្វះខាតទិន្នន័យ (Low-resource language)។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Word Error Rate (WER) | អត្រាកំហុសពាក្យ (WER) គឺជារង្វាស់ស្តង់ដារដែលប្រើដើម្បីវាយតម្លៃភាពត្រឹមត្រូវនៃប្រព័ន្ធសម្គាល់សំឡេង (ASR) ដោយរាប់បញ្ចូលចំនួនពាក្យដែលប្រព័ន្ធស្តាប់ខុស បាត់ ឬបន្ថែមលើស បើធៀបនឹងអត្ថបទដើមពិតប្រាកដ។ | ដូចជាការបូកសរុបពិន្ទុខុសរបស់សិស្សក្នុងការសរសេរតាមអាន បើខុសច្រើន ពិន្ទុ WER នឹងកាន់តែខ្ពស់ (មានន័យថាប្រព័ន្ធមិនសូវពូកែ)។ |
| Graphemic Model | ម៉ូដែលផ្អែកលើតួអក្សរ គឺជាវិធីសាស្ត្របង្រៀនកុំព្យូទ័រឱ្យស្គាល់សំឡេងដោយផ្ទាល់ពីអក្ខរាវិរុទ្ធ (តួអក្សរ) នៃពាក្យ ដោយមិនចាំបាច់ប្រើវចនានុក្រមបំប្លែងទៅជាសូរសព្ទអន្តរជាតិ (Phonemes) មុននោះទេ។ | ដូចជាក្មេងរៀនអានពាក្យដោយគ្រាន់តែមើលអក្សរផ្ទាល់ដោយមិនបាច់រៀនពីក្បួនផ្សំសូរសព្ទលម្អិត។ |
| Phonemic Model | ម៉ូដែលផ្អែកលើសូរសព្ទ គឺជាប្រព័ន្ធដែលប្រើប្រាស់ក្បួនច្បាប់បញ្ចេញសំឡេង (ដូចជាការកាត់សូរសព្ទស្រៈចោល) ដើម្បីប្រាប់ម៉ាស៊ីនពីរបៀបដែលមនុស្សពិតប្រាកដបញ្ចេញសំឡេងពាក្យនីមួយៗ ជំនួសឱ្យការអានតាមតួអក្សរត្រង់ៗ។ | ដូចជាការប្រើសៀវភៅវចនានុក្រមដែលមានសរសេរពាក្យអាន (ឧទាហរណ៍៖ ភ្នំពេញ អានថា ភ្នុំ-ពេញ) ដើម្បីដឹងពីសំឡេងពិតប្រាកដរបស់ពាក្យ។ |
| Unsupervised Word Segmentation | ការបែងចែកពាក្យដោយគ្មានការត្រួតពិនិត្យ គឺជាក្បួនដោះស្រាយ (Algorithm) ដែលអនុញ្ញាតឱ្យកុំព្យូទ័រស្វែងរកដោយខ្លួនឯងនូវរបៀបកាត់ពាក្យធំៗទៅជាឫសពាក្យ (Stem) និងបច្ច័យ (Suffix) ដោយផ្អែកលើភាពញឹកញាប់នៃអក្សរដែលមានក្នុងសំណុំទិន្នន័យ។ | ដូចជាការឱ្យក្មេងលេងផ្គុំរូប ហើយឱ្យពួកគេសង្កេតមើលដោយខ្លួនឯងថាបំណែកណាដែលតែងតែនៅជាប់គ្នាជានិច្ច។ |
| Finite State Transducer (FST) | ប្រព័ន្ធបំប្លែង FST គឺជារចនាសម្ព័ន្ធទិន្នន័យគណិតវិទ្យាដែលប្រើក្នុងប្រព័ន្ធ ASR សម្រាប់ផ្ទុកនូវបណ្តុំពាក្យ និងច្បាប់វេយ្យាករណ៍ ដើម្បីបំប្លែងពីទម្រង់សំឡេងទៅជាទម្រង់អត្ថបទដោយរលូន និងមានល្បឿនលឿន។ | ដូចជាផែនទីផ្លូវរថភ្លើងដែលប្រាប់កុំព្យូទ័រថា តើពាក្យមួយណាអាចធ្វើដំណើរតទល់នឹងពាក្យមួយណាបានខ្លះ។ |
| Lattice interpolation | ការបូកបញ្ចូលក្រឡាពាក្យ (Lattice Interpolation) គឺជាបច្ចេកទេសមួយដែលយកលទ្ធផលនៃការទស្សន៍ទាយពីម៉ូដែលសម្គាល់សំឡេងពីរផ្សេងគ្នា (ដូចជាម៉ូដែល DNN និង SGMM) មកថ្លឹងថ្លែងបញ្ចូលគ្នា ដើម្បីគណនារកលទ្ធផលចុងក្រោយដែលត្រឹមត្រូវបំផុត។ | ដូចជាការសួរមតិពីអ្នកជំនាញពីរនាក់ផ្សេងគ្នា ហើយយកចម្លើយទាំងពីរមកប្រៀបធៀបគ្នារកការពិតដែលជឿទុកចិត្តបានបំផុត។ |
| Morphophonemic Knowledge | ចំណេះដឹងផ្នែករូបវិទ្យាសូរសព្ទ គឺជាការយល់ដឹងអំពីច្បាប់ទម្លាប់ថាតើសំឡេងនៃពាក្យមួយមានការផ្លាស់ប្តូរយ៉ាងដូចម្តេច នៅពេលដែលវាត្រូវបានបំប្លែងទម្រង់វេយ្យាករណ៍ (ដូចជាការបន្ថែមបច្ច័យខាងចុងជាដើម)។ | ដូចជាការដឹងថា ពាក្យដើម និងពាក្យដែលបានបំប្លែង អាចអានខុសគ្នា ទោះបីជាមានអក្សរស្រដៀងគ្នាក៏ដោយ។ |
| Subspace Gaussian Mixture Model (SGMM) | ម៉ូដែល SGMM គឺជាបច្ចេកទេសបង្កើតម៉ូដែលសូរសព្ទបែបស្ថិតិ ដែលប្រើប្រាស់រូបមន្តគណិតវិទ្យាដើម្បីចាប់យកទម្រង់នៃការប្រែប្រួលសម្លេងនៅក្នុងភាសា។ វាជាម៉ូដែលជំនាន់មុន ដែលត្រូវការធនធានកុំព្យូទ័រតិចជាងម៉ូដែល AI ជំនាន់ថ្មី។ | ដូចជាការគូសគំនូសព្រាងនៃទម្រង់សំឡេងនីមួយៗ ដោយប្រើប្រាស់គណិតវិទ្យាដើម្បីសន្និដ្ឋានថាតើសំឡេងនេះជាពាក្យអ្វី។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖