Original Title: Early error detection on word level
Source: www.isca-speech.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរកឃើញកំហុសពីដំបូងនៅកម្រិតពាក្យ

ចំណងជើងដើម៖ Early error detection on word level

អ្នកនិពន្ធ៖ Gabriel Skantze (CTT, KTH, Sweden), Jens Edlund (CTT, KTH, Sweden)

ឆ្នាំបោះពុម្ព៖ 2004 ISCA Tutorial and Research Workshop on Robustness Issues in Conversational Interaction

វិស័យសិក្សា៖ Computer Science / Speech Recognition

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការរកឃើញកំហុសពីដំបូងនៅក្នុងប្រព័ន្ធសម្គាល់សំឡេងដោយស្វ័យប្រវត្តិ (ASR) នៅកម្រិតពាក្យ ដើម្បីការពារការយល់ច្រឡំ និងកែលម្អប្រព័ន្ធសន្ទនាដោយសំឡេង (Spoken Dialogue Systems) ។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះត្រូវបានបែងចែកជាពីរការសិក្សា ដោយរួមបញ្ចូលការប្រើប្រាស់បច្ចេកវិទ្យារៀនរបស់ម៉ាស៊ីន (Machine Learning) និងការធ្វើតេស្តលើមនុស្សផ្ទាល់ដើម្បីវាយតម្លៃកត្តាដែលជួយក្នុងការរកឃើញកំហុស។

ការរៀនរបស់ម៉ាស៊ីន (Machine Learning): ប្រើប្រាស់ក្បួនដោះស្រាយ µ-TBL និង TiMBL ដើម្បីស្វែងរកកំហុស ដោយផ្អែកលើពិន្ទុទំនុកចិត្ត វាក្យសព្ទ និងបរិបទសន្ទនា។
ការរកឃើញកំហុសដោយមនុស្ស (Human Error Detection): ពិសោធន៍ជាមួយមនុស្សដោយផ្តល់នូវព័ត៌មានពី ASR ដូចជាបញ្ជីពាក្យដែលល្អបំផុតទាំង៥ (N-best lists) និងពិន្ទុទំនុកចិត្ត (Confidence scores) ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែលរៀនរបស់ម៉ាស៊ីន µ-TBL ដំណើរការបានល្អបំផុតក្នុងអត្រា ៨៥.១% ដែលប្រសើរជាងកម្រិតគោល (Baseline) ចំនួន ១១.៩% នៅពេលប្រើប្រាស់លក្ខណៈពិសេសទាំងអស់រួមបញ្ចូលគ្នា។
ពិន្ទុទំនុកចិត្តលើពាក្យ (Word confidence scores) គឺជាកត្តាដ៏មានប្រយោជន៍បំផុតសម្រាប់ការរកឃើញកំហុសពីដំបូង ខណៈដែលព័ត៌មានវាក្យសព្ទ និងបរិបទជួយបង្កើនប្រសិទ្ធភាពបន្ថែមទៀត។
សម្រាប់មនុស្ស ការប្រើប្រាស់បញ្ជី N-best ផ្តល់លទ្ធផលល្អជាងការពឹងផ្អែកលើពិន្ទុទំនុកចិត្តតែមួយមុខ ហើយបរិបទសន្ទនាភ្លាមៗ (Immediate context) គឺគ្រប់គ្រាន់សម្រាប់ការរកឃើញកំហុសដោយមិនត្រូវការបរិបទសន្ទនាទាំងមូលឡើយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Transformation-Based Learning (µ-TBL) ការរៀនរបស់ម៉ាស៊ីនដោយផ្អែកលើការបំប្លែង	អាចបង្កើតវិធាន (Rules) ដែលងាយស្រួលយល់ និងអាចជួយអ្នកអភិវឌ្ឍន៍ស្វែងរកប្រភពនៃកំហុសនៅក្នុងម៉ូដែលភាសា និងសំឡេងបានច្បាស់លាស់។ ផ្តល់លទ្ធផលល្អបំផុតក្នុងការធ្វើតេស្តជាមួយលក្ខណៈពិសេសទាំងអស់។	មិនអាចស្វែងរកកម្រិតកំណត់ (Thresholds) ដោយស្វ័យប្រវត្តិសម្រាប់តម្លៃលេខបានទេ (ឧទាហរណ៍ ពិន្ទុទំនុកចិត្ត) ដែលតម្រូវឱ្យមានការបែងចែកជាចន្លោះៗដោយដៃ។	ទទួលបានភាពត្រឹមត្រូវ ៨៥.១% ក្នុងការរកឃើញកំហុសកម្រិតពាក្យ (ខ្ពស់ជាងកម្រិតគោល ១១.៩%)។
Memory-Based Learning (TiMBL) ការរៀនរបស់ម៉ាស៊ីនដោយផ្អែកលើអង្គចងចាំ	មានសមត្ថភាពគណនាចម្ងាយសម្រាប់តម្លៃលេខបានល្អប្រសើរ និងផ្តល់លទ្ធផលប្រកៀកប្រកិតទៅនឹង µ-TBL ដែរ។	ទាមទារការកំណត់តម្លៃ k ផ្សេងៗគ្នាអាស្រ័យលើសំណុំលក្ខណៈពិសេស (Feature sets) ហើយមិនផ្តល់ជាវិធានងាយស្រួលអានដូច µ-TBL នោះទេ។	ទទួលបានភាពត្រឹមត្រូវ ៨៤.១% ជាមួយនឹងការប្រើប្រាស់លក្ខណៈពិសេសទាំងអស់។
Baseline (All tags TRUE) កម្រិតគោល (ចាត់ទុកពាក្យទាំងអស់ថាត្រឹមត្រូវ)	ងាយស្រួលបំផុត មិនតម្រូវឱ្យមានការគណនាស្មុគស្មាញ ឬការបង្វឹកម៉ូដែលឡើយ។	មិនអាចរកឃើញកំហុសទាល់តែសោះ វាគ្រាន់តែជាបន្ទាត់គោលសម្រាប់វាស់ស្ទង់ប្រសិទ្ធភាពនៃវិធីសាស្ត្រផ្សេងទៀតប៉ុណ្ណោះ។	ទទួលបានភាពត្រឹមត្រូវ ៧៣.២% ផ្អែកលើអត្រានៃពាក្យដែលត្រឹមត្រូវពិតប្រាកដក្នុងទិន្នន័យ។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីទំហំធនធានកុំព្យូទ័រទេ ប៉ុន្តែផ្អែកលើក្បួនដោះស្រាយ វិធីសាស្ត្រនេះតម្រូវឱ្យមានការរៀបចំទិន្នន័យច្បាស់លាស់ និងធនធានកុំព្យូទ័រកម្រិតមធ្យមសម្រាប់ការបង្វឹកម៉ូដែល។

Dataset: សំណុំទិន្នន័យសន្ទនាដែលមានកម្រិតកំហុសការសម្គាល់សំឡេងខ្ពស់ (Word Error Rate ប្រហែល ៤២%) រួមទាំងអត្ថបទប្រតិចារឹកពិតប្រាកដ (Transcriptions)។
Software: កម្មវិធី ឬកញ្ចប់កូដសម្រាប់ដំណើរការម៉ូដែល µ-TBL និង TiMBL ព្រមទាំងកម្មវិធីសម្រាប់តម្រឹមអត្ថបទ (Alignment tools ដូចជាអប្បបរមាចម្ងាយកែសម្រួល ឬ Minimum edit distance)។
Expertise: ចំណេះដឹងផ្នែកភាសាវិទ្យាកុំព្យូទ័រ (Computational Linguistics) ដើម្បីទាញយកលក្ខណៈពិសេសដូចជា ប្រភេទពាក្យ (Part-of-speech) ចំនួនព្យាង្គ និងការវិភាគបរិបទសន្ទនា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងប្រទេសស៊ុយអែត ដោយប្រើប្រាស់អ្នកចូលរួមចំនួន ១៦ នាក់ និងទិន្នន័យជាភាសាស៊ុយអែតក្នុងបរិបទនៃការណែនាំផែនទី (Map-Task corpus)។ សម្រាប់ប្រទេសកម្ពុជា នេះជាបញ្ហាប្រឈមមួយ ដោយសារភាសាខ្មែរមានទម្រង់វេយ្យាករណ៍ វាក្យសព្ទ និងបរិបទខុសគ្នាស្រឡះ ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យសន្ទនាជាភាសាខ្មែរដែលមានលក្ខណៈតំណាង និងចម្រុះជាមុនសិន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការរកឃើញកំហុសពីដំបូងនេះមានសារៈសំខាន់ និងអាចយកមកអនុវត្តបានយ៉ាងល្អសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធ AI ស្គាល់សំឡេងភាសាខ្មែរ។

ប្រព័ន្ធបម្រើសេវាអតិថិជនស្វ័យប្រវត្តិ (Call Center AI) នៅធនាគារក្នុងកម្ពុជា: អាចប្រើប្រាស់បច្ចេកទេសនេះដើម្បីដឹងថាពាក្យគន្លឹះណាដែលប្រព័ន្ធស្តាប់ខុស ជួយឱ្យ AI អាចសួរបញ្ជាក់អតិថិជនវិញ ជំនួសឱ្យការធ្វើប្រតិបត្តិការខុសឆ្គង។
កម្មវិធីបំប្លែងសំឡេងទៅជាអត្ថបទ (Voice-to-Text Transcription) សម្រាប់ស្ថាប័នរដ្ឋ: ការប្រើប្រាស់ពិន្ទុទំនុកចិត្ត (Confidence scores) អាចជួយរំលេចពាក្យដែលមិនច្បាស់លាស់ ឱ្យមន្ត្រីងាយស្រួលក្នុងការផ្ទៀងផ្ទាត់ និងកែសម្រួលឯកសារផ្លូវការ។

ជារួម ការប្រើប្រាស់បន្សំនៃពិន្ទុទំនុកចិត្ត និងបរិបទវាក្យសព្ទ នឹងជួយកាត់បន្ថយការយល់ច្រឡំ និងបង្កើនទំនុកចិត្តក្នុងការប្រើប្រាស់ប្រព័ន្ធសន្ទនាដោយសំឡេងនៅក្នុងប្រទេសកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាអំពីបច្ចេកវិទ្យាសម្គាល់សំឡេង (Understand ASR Outputs): ស្វែងយល់ពីរបៀបដែលប្រព័ន្ធ ASR បញ្ចេញទិន្នន័យ ដោយសាកល្បងទាញយក Word Confidence Scores និង N-best lists ពីប្រព័ន្ធកូដបើកចំហដូចជា Kaldi ឬ Wav2Vec2។
ប្រមូល និងតម្រឹមទិន្នន័យភាសាខ្មែរ (Collect & Align Data): ប្រមូលទិន្នន័យសំឡេងសន្ទនាភាសាខ្មែរ និងអត្ថបទប្រតិចារឹកពិតប្រាកដ រួចប្រើប្រាស់ក្បួន Minimum Edit Distance ដើម្បីតម្រឹម (Align) និងចាត់ថ្នាក់ពាក្យនីមួយៗថា ត្រឹមត្រូវ (TRUE) ឬ ខុស (FALSE)។
រៀបចំលក្ខណៈពិសេសនៃទិន្នន័យ (Feature Engineering): បង្កើតសំណុំលក្ខណៈពិសេសសម្រាប់ពាក្យនីមួយៗ ដោយប្រើប្រាស់ឧបករណ៍វិភាគភាសាខ្មែរដើម្បីទាញយក Part-of-Speech (POS) tags កំណត់ថាតើវាជាពាក្យខ្លឹមសារ (Content word) និងទាញយកបរិបទនៃពាក្យមុនៗ។
បង្វឹកម៉ូដែល Machine Learning (Train ML Models): ប្រើប្រាស់បណ្ណាល័យដូចជា Scikit-learn ដើម្បីបង្វឹកម៉ូដែលចំណាត់ថ្នាក់ដូចជា k-NN (ស្រដៀងនឹង TiMBL) ឬ Decision Trees ដើម្បីព្យាករណ៍រកពាក្យដែលមានកំហុស ដោយផ្អែកលើលក្ខណៈពិសេសដែលបានរៀបចំរួច។
វាយតម្លៃ និងស្វែងរកចំណុចខ្សោយ (Evaluate & Pinpoint Errors): ប្រៀបធៀបលទ្ធផលជាមួយកម្រិតគោល (Baseline) និងទាញយកវិធាន (Rules) ពីម៉ូដែល ដើម្បីស្វែងយល់ថាប្រភេទពាក្យខ្មែរណាខ្លះដែល ASR ឧស្សាហ៍ស្តាប់ខុស ដើម្បីយកទៅកែលម្អ Language Model ដើមវិញ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Automatic speech recognition (ASR)	បច្ចេកវិទ្យាដែលអនុញ្ញាតឱ្យកុំព្យូទ័រស្តាប់ និងបំប្លែងភាសានិយាយរបស់មនុស្សទៅជាអត្ថបទ (Text) ដោយស្វ័យប្រវត្តិ។	ដូចជាលេខាដែលអង្គុយស្តាប់ចៅហ្វាយនិយាយ រួចសរសេររាល់ពាក្យសម្តីនោះចូលក្នុងក្រដាស។
Word confidence score	ពិន្ទុដែលប្រព័ន្ធសម្គាល់សំឡេង (ASR) ផ្តល់ឱ្យពាក្យនីមួយៗ ដើម្បីបង្ហាញពីកម្រិតភាគរយនៃភាពប្រាកដប្រជាថាវាពិតជាស្តាប់បានត្រឹមត្រូវ។	ដូចជាពេលយើងប្រាប់មិត្តភក្តិថា "ខ្ញុំជឿជាក់ ៩០% ថាគាត់និយាយពាក្យនេះ" អញ្ចឹងដែរ។
N-best lists	បញ្ជីនៃជម្រើសពាក្យ ឬប្រយោគកំពូលៗទាំង N (ឧទាហរណ៍ ៥ ជម្រើស) ដែលប្រព័ន្ធសម្គាល់សំឡេងបញ្ចេញមក ដោយសន្មតថាជាចម្លើយដែលអាចត្រឹមត្រូវបំផុតបន្ទាប់ពីវិភាគរួច។	ដូចជាវិញ្ញាសាប្រឡងពហុជ្រើសរើស (Multiple choice) ដែលម៉ាស៊ីនរាយជម្រើសចម្លើយ A, B, C, D, E ដែលវាគិតថាសមស្របបំផុតមកឱ្យយើងជ្រើសរើស។
Transformation-based learning	វិធីសាស្ត្ររៀនរបស់ម៉ាស៊ីន (Machine Learning) ដែលរៀនបង្កើតវិធាន (Rules) ជាបន្តបន្ទាប់ ដើម្បីកែប្រែទិន្នន័យពីស្ថានភាពដើមទៅរកលទ្ធផលដែលត្រឹមត្រូវបំផុត។	ដូចជាជាងកាត់ដេរដែលកែសម្លៀកបំពាក់បន្តិចម្តងៗ (កាត់ទីនេះបន្តិច ដេរទីនោះបន្តិច) រហូតដល់វាស័ក្តិសមឥតខ្ចោះជាមួយរាងកាយ។
Memory-based learning	វិធីសាស្ត្ររៀនរបស់ម៉ាស៊ីនដោយផ្អែកលើអង្គចងចាំ ដែលរក្សាទុកទិន្នន័យចាស់ៗទាំងអស់ រួចប្រៀបធៀបទិន្នន័យថ្មីទៅនឹងអ្វីដែលវាធ្លាប់ជួបពីមុនដើម្បីធ្វើការសម្រេចចិត្ត (ស្គាល់ថាជា Instance-based learning)។	ដូចជាគ្រូពេទ្យដែលវិនិច្ឆ័យជំងឺរបស់អ្នកជំងឺថ្មីម្នាក់ ដោយប្រៀបធៀបរោគសញ្ញារបស់គាត់ទៅនឹងអ្នកជំងឺមុនៗដែលលោកគ្រូពេទ្យធ្លាប់បានព្យាបាលកន្លងមក។
Wizard of Oz set-up	ទម្រង់នៃការពិសោធន៍ដែលអ្នកប្រើប្រាស់ជឿថាពួកគេកំពុងធ្វើអន្តរកម្មជាមួយប្រព័ន្ធកុំព្យូទ័រស្វ័យប្រវត្តិ ប៉ុន្តែការពិតគឺមានមនុស្សជាអ្នកលាក់ខ្លួនបញ្ជាប្រព័ន្ធនោះនៅពីក្រោយ។	ដូចជាការលេងអាយ៉ង ដែលទស្សនិកជនមើលឃើញតែតុក្កតានិយាយនិងធ្វើចលនា តែមិនឃើញមនុស្សដែលជាអ្នកទាញខ្សែនៅពីក្រោយវាំងននឡើយ។
Minimum edit distance	ក្បួនគណនាគណិតវិទ្យាដើម្បីរកមើលថាតើត្រូវធ្វើប្រតិបត្តិការកែប្រែ លុប ឬបន្ថែមអក្សរប៉ុន្មានដង ដើម្បីបំប្លែងខ្សែអក្សរមួយទៅជាខ្សែអក្សរមួយទៀត (ជាទូទៅប្រើដើម្បីវាស់កម្រិតកំហុស)។	ដូចជារាប់ចំនួនដងដែលអ្នកត្រូវប្រើជ័រលុបនិងខ្មៅដៃ ដើម្បីកែពាក្យដែលសរសេរខុស ឱ្យទៅជាពាក្យត្រឹមត្រូវវិញ។
Bigram language model	ម៉ូដែលភាសាដែលព្យាករណ៍ប្រូបាប៊ីលីតេនៃពាក្យបន្ទាប់ ដោយពឹងផ្អែកតែលើការវិភាគពាក្យមួយម៉ាត់គត់ដែលនៅជាប់ពីមុខវាដោយផ្ទាល់។	ដូចជាការទាយពាក្យដែលមិត្តភក្តិនឹងនិយាយបន្ទាប់ ដោយផ្អែកលើពាក្យចុងក្រោយបង្អស់ដែលគេទើបនឹងនិយាយចេញពីមាត់ប៉ុណ្ណោះ ដោយមិនខ្វល់ពីសាច់រឿងមុនៗ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖