បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការរកឃើញកំហុសពីដំបូងនៅក្នុងប្រព័ន្ធសម្គាល់សំឡេងដោយស្វ័យប្រវត្តិ (ASR) នៅកម្រិតពាក្យ ដើម្បីការពារការយល់ច្រឡំ និងកែលម្អប្រព័ន្ធសន្ទនាដោយសំឡេង (Spoken Dialogue Systems) ។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះត្រូវបានបែងចែកជាពីរការសិក្សា ដោយរួមបញ្ចូលការប្រើប្រាស់បច្ចេកវិទ្យារៀនរបស់ម៉ាស៊ីន (Machine Learning) និងការធ្វើតេស្តលើមនុស្សផ្ទាល់ដើម្បីវាយតម្លៃកត្តាដែលជួយក្នុងការរកឃើញកំហុស។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Transformation-Based Learning (µ-TBL) ការរៀនរបស់ម៉ាស៊ីនដោយផ្អែកលើការបំប្លែង |
អាចបង្កើតវិធាន (Rules) ដែលងាយស្រួលយល់ និងអាចជួយអ្នកអភិវឌ្ឍន៍ស្វែងរកប្រភពនៃកំហុសនៅក្នុងម៉ូដែលភាសា និងសំឡេងបានច្បាស់លាស់។ ផ្តល់លទ្ធផលល្អបំផុតក្នុងការធ្វើតេស្តជាមួយលក្ខណៈពិសេសទាំងអស់។ | មិនអាចស្វែងរកកម្រិតកំណត់ (Thresholds) ដោយស្វ័យប្រវត្តិសម្រាប់តម្លៃលេខបានទេ (ឧទាហរណ៍ ពិន្ទុទំនុកចិត្ត) ដែលតម្រូវឱ្យមានការបែងចែកជាចន្លោះៗដោយដៃ។ | ទទួលបានភាពត្រឹមត្រូវ ៨៥.១% ក្នុងការរកឃើញកំហុសកម្រិតពាក្យ (ខ្ពស់ជាងកម្រិតគោល ១១.៩%)។ |
| Memory-Based Learning (TiMBL) ការរៀនរបស់ម៉ាស៊ីនដោយផ្អែកលើអង្គចងចាំ |
មានសមត្ថភាពគណនាចម្ងាយសម្រាប់តម្លៃលេខបានល្អប្រសើរ និងផ្តល់លទ្ធផលប្រកៀកប្រកិតទៅនឹង µ-TBL ដែរ។ | ទាមទារការកំណត់តម្លៃ k ផ្សេងៗគ្នាអាស្រ័យលើសំណុំលក្ខណៈពិសេស (Feature sets) ហើយមិនផ្តល់ជាវិធានងាយស្រួលអានដូច µ-TBL នោះទេ។ | ទទួលបានភាពត្រឹមត្រូវ ៨៤.១% ជាមួយនឹងការប្រើប្រាស់លក្ខណៈពិសេសទាំងអស់។ |
| Baseline (All tags TRUE) កម្រិតគោល (ចាត់ទុកពាក្យទាំងអស់ថាត្រឹមត្រូវ) |
ងាយស្រួលបំផុត មិនតម្រូវឱ្យមានការគណនាស្មុគស្មាញ ឬការបង្វឹកម៉ូដែលឡើយ។ | មិនអាចរកឃើញកំហុសទាល់តែសោះ វាគ្រាន់តែជាបន្ទាត់គោលសម្រាប់វាស់ស្ទង់ប្រសិទ្ធភាពនៃវិធីសាស្ត្រផ្សេងទៀតប៉ុណ្ណោះ។ | ទទួលបានភាពត្រឹមត្រូវ ៧៣.២% ផ្អែកលើអត្រានៃពាក្យដែលត្រឹមត្រូវពិតប្រាកដក្នុងទិន្នន័យ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីទំហំធនធានកុំព្យូទ័រទេ ប៉ុន្តែផ្អែកលើក្បួនដោះស្រាយ វិធីសាស្ត្រនេះតម្រូវឱ្យមានការរៀបចំទិន្នន័យច្បាស់លាស់ និងធនធានកុំព្យូទ័រកម្រិតមធ្យមសម្រាប់ការបង្វឹកម៉ូដែល។
ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងប្រទេសស៊ុយអែត ដោយប្រើប្រាស់អ្នកចូលរួមចំនួន ១៦ នាក់ និងទិន្នន័យជាភាសាស៊ុយអែតក្នុងបរិបទនៃការណែនាំផែនទី (Map-Task corpus)។ សម្រាប់ប្រទេសកម្ពុជា នេះជាបញ្ហាប្រឈមមួយ ដោយសារភាសាខ្មែរមានទម្រង់វេយ្យាករណ៍ វាក្យសព្ទ និងបរិបទខុសគ្នាស្រឡះ ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យសន្ទនាជាភាសាខ្មែរដែលមានលក្ខណៈតំណាង និងចម្រុះជាមុនសិន។
វិធីសាស្ត្រនៃការរកឃើញកំហុសពីដំបូងនេះមានសារៈសំខាន់ និងអាចយកមកអនុវត្តបានយ៉ាងល្អសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធ AI ស្គាល់សំឡេងភាសាខ្មែរ។
ជារួម ការប្រើប្រាស់បន្សំនៃពិន្ទុទំនុកចិត្ត និងបរិបទវាក្យសព្ទ នឹងជួយកាត់បន្ថយការយល់ច្រឡំ និងបង្កើនទំនុកចិត្តក្នុងការប្រើប្រាស់ប្រព័ន្ធសន្ទនាដោយសំឡេងនៅក្នុងប្រទេសកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Automatic speech recognition (ASR) | បច្ចេកវិទ្យាដែលអនុញ្ញាតឱ្យកុំព្យូទ័រស្តាប់ និងបំប្លែងភាសានិយាយរបស់មនុស្សទៅជាអត្ថបទ (Text) ដោយស្វ័យប្រវត្តិ។ | ដូចជាលេខាដែលអង្គុយស្តាប់ចៅហ្វាយនិយាយ រួចសរសេររាល់ពាក្យសម្តីនោះចូលក្នុងក្រដាស។ |
| Word confidence score | ពិន្ទុដែលប្រព័ន្ធសម្គាល់សំឡេង (ASR) ផ្តល់ឱ្យពាក្យនីមួយៗ ដើម្បីបង្ហាញពីកម្រិតភាគរយនៃភាពប្រាកដប្រជាថាវាពិតជាស្តាប់បានត្រឹមត្រូវ។ | ដូចជាពេលយើងប្រាប់មិត្តភក្តិថា "ខ្ញុំជឿជាក់ ៩០% ថាគាត់និយាយពាក្យនេះ" អញ្ចឹងដែរ។ |
| N-best lists | បញ្ជីនៃជម្រើសពាក្យ ឬប្រយោគកំពូលៗទាំង N (ឧទាហរណ៍ ៥ ជម្រើស) ដែលប្រព័ន្ធសម្គាល់សំឡេងបញ្ចេញមក ដោយសន្មតថាជាចម្លើយដែលអាចត្រឹមត្រូវបំផុតបន្ទាប់ពីវិភាគរួច។ | ដូចជាវិញ្ញាសាប្រឡងពហុជ្រើសរើស (Multiple choice) ដែលម៉ាស៊ីនរាយជម្រើសចម្លើយ A, B, C, D, E ដែលវាគិតថាសមស្របបំផុតមកឱ្យយើងជ្រើសរើស។ |
| Transformation-based learning | វិធីសាស្ត្ររៀនរបស់ម៉ាស៊ីន (Machine Learning) ដែលរៀនបង្កើតវិធាន (Rules) ជាបន្តបន្ទាប់ ដើម្បីកែប្រែទិន្នន័យពីស្ថានភាពដើមទៅរកលទ្ធផលដែលត្រឹមត្រូវបំផុត។ | ដូចជាជាងកាត់ដេរដែលកែសម្លៀកបំពាក់បន្តិចម្តងៗ (កាត់ទីនេះបន្តិច ដេរទីនោះបន្តិច) រហូតដល់វាស័ក្តិសមឥតខ្ចោះជាមួយរាងកាយ។ |
| Memory-based learning | វិធីសាស្ត្ររៀនរបស់ម៉ាស៊ីនដោយផ្អែកលើអង្គចងចាំ ដែលរក្សាទុកទិន្នន័យចាស់ៗទាំងអស់ រួចប្រៀបធៀបទិន្នន័យថ្មីទៅនឹងអ្វីដែលវាធ្លាប់ជួបពីមុនដើម្បីធ្វើការសម្រេចចិត្ត (ស្គាល់ថាជា Instance-based learning)។ | ដូចជាគ្រូពេទ្យដែលវិនិច្ឆ័យជំងឺរបស់អ្នកជំងឺថ្មីម្នាក់ ដោយប្រៀបធៀបរោគសញ្ញារបស់គាត់ទៅនឹងអ្នកជំងឺមុនៗដែលលោកគ្រូពេទ្យធ្លាប់បានព្យាបាលកន្លងមក។ |
| Wizard of Oz set-up | ទម្រង់នៃការពិសោធន៍ដែលអ្នកប្រើប្រាស់ជឿថាពួកគេកំពុងធ្វើអន្តរកម្មជាមួយប្រព័ន្ធកុំព្យូទ័រស្វ័យប្រវត្តិ ប៉ុន្តែការពិតគឺមានមនុស្សជាអ្នកលាក់ខ្លួនបញ្ជាប្រព័ន្ធនោះនៅពីក្រោយ។ | ដូចជាការលេងអាយ៉ង ដែលទស្សនិកជនមើលឃើញតែតុក្កតានិយាយនិងធ្វើចលនា តែមិនឃើញមនុស្សដែលជាអ្នកទាញខ្សែនៅពីក្រោយវាំងននឡើយ។ |
| Minimum edit distance | ក្បួនគណនាគណិតវិទ្យាដើម្បីរកមើលថាតើត្រូវធ្វើប្រតិបត្តិការកែប្រែ លុប ឬបន្ថែមអក្សរប៉ុន្មានដង ដើម្បីបំប្លែងខ្សែអក្សរមួយទៅជាខ្សែអក្សរមួយទៀត (ជាទូទៅប្រើដើម្បីវាស់កម្រិតកំហុស)។ | ដូចជារាប់ចំនួនដងដែលអ្នកត្រូវប្រើជ័រលុបនិងខ្មៅដៃ ដើម្បីកែពាក្យដែលសរសេរខុស ឱ្យទៅជាពាក្យត្រឹមត្រូវវិញ។ |
| Bigram language model | ម៉ូដែលភាសាដែលព្យាករណ៍ប្រូបាប៊ីលីតេនៃពាក្យបន្ទាប់ ដោយពឹងផ្អែកតែលើការវិភាគពាក្យមួយម៉ាត់គត់ដែលនៅជាប់ពីមុខវាដោយផ្ទាល់។ | ដូចជាការទាយពាក្យដែលមិត្តភក្តិនឹងនិយាយបន្ទាប់ ដោយផ្អែកលើពាក្យចុងក្រោយបង្អស់ដែលគេទើបនឹងនិយាយចេញពីមាត់ប៉ុណ្ណោះ ដោយមិនខ្វល់ពីសាច់រឿងមុនៗ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖