Original Title: The use of speech recognition confidence scores in dialogue systems
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការប្រើប្រាស់ពិន្ទុទំនុកចិត្តនៃការសម្គាល់សំឡេងនៅក្នុងប្រព័ន្ធសន្ទនា

ចំណងជើងដើម៖ The use of speech recognition confidence scores in dialogue systems

អ្នកនិពន្ធ៖ Gabriel Skantze (Department of Speech, Music and Hearing, KTH)

ឆ្នាំបោះពុម្ព៖ 2003 GSLT: Speech Technology

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះពិភាក្សាអំពីរបៀបបកស្រាយ និងប្រើប្រាស់ពិន្ទុទំនុកចិត្តនៃការសម្គាល់សំឡេង (speech recognition confidence scores) នៅក្នុងប្រព័ន្ធសន្ទនា ដើម្បីកែលម្អភាពរឹងមាំ ដោយចោទសួរលើប្រសិទ្ធភាពនៃការប្រើប្រាស់កម្រិតគោល (threshold) ជាទូទៅ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការវាយតម្លៃជាក់ស្តែងលើភាពត្រឹមត្រូវនៃទំនុកចិត្ត ដោយប្រើប្រាស់ប្រព័ន្ធសម្គាល់សំឡេងពាណិជ្ជកម្ម (Nuance 8.0) លើទិន្នន័យនៃការសន្ទនាចំនួន ៤០ ដែលមាន ៤៤៨១ ពាក្យ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Baseline (Accepting all words)
កម្រិតមូលដ្ឋាន (ការទទួលយកពាក្យទាំងអស់ដោយមិនមានការទាត់ចោល)
ងាយស្រួលអនុវត្តដោយមិនចាំបាច់មានការកំណត់កម្រិតគោល (Threshold) ស្មុគស្មាញ។ ប្រព័ន្ធនឹងទទួលយកកំហុសទាំងអស់ដែលកើតមាន ដែលធ្វើឱ្យការយល់ន័យខុសទាំងស្រុង។ ទទួលបានភាពត្រឹមត្រូវនៃការសម្គាល់ ៧១.៩% ដោយសារមិនមានការរកឃើញកំហុសទាល់តែសោះ។
Confidence Thresholding (Threshold = 0.4)
ការប្រើប្រាស់កម្រិតគោលនៃទំនុកចិត្ត (កំណត់កម្រិតគោលត្រឹម ០.៤)
ជួយកាត់បន្ថយការទទួលយកពាក្យខុស ដោយទាត់ចោលពាក្យដែលមានពិន្ទុទំនុកចិត្តទាបជាង ០.៤។ ផ្តល់ភាពប្រសើរឡើងតិចតួចណាស់ ហើយជារឿយៗទាត់ចោលពាក្យដែលប្រព័ន្ធស្តាប់បានត្រឹមត្រូវ (False Rejection)។ ភាពត្រឹមត្រូវនៃការរកឃើញកំហុសកើនឡើងត្រឹមតែ ៧៦.៤% ប៉ុណ្ណោះ ធៀបនឹងមូលដ្ឋាន ៧១.៩%។
Machine Learning with Augmented Features
ការរៀនដោយម៉ាស៊ីនជាមួយនឹងលក្ខណៈពិសេសបន្ថែម (ពិន្ទុទំនុកចិត្ត + សំឡេង + បរិបទ)
ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងការរកឃើញកំហុស ដោយពិចារណាលើកត្តាច្រើន (ទាញចេញពីការសិក្សា Litman et al.)។ ទាមទារការបណ្តុះបណ្តាលម៉ូដែលស្មុគស្មាញ និងទិន្នន័យច្រើនដើម្បីដំណើរការបានល្អ។ ភាពត្រឹមត្រូវនៃការរកឃើញកំហុសកើនឡើងដល់ខ្ពស់រហូតដល់ ៩៣.៤៧% ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះពឹងផ្អែកលើកម្មវិធីពាណិជ្ជកម្មដែលមានស្រាប់ និងមិនទាមទារធនធានកុំព្យូទ័រធំដុំសម្រាប់ការវាយតម្លៃនោះទេ ប៉ុន្តែត្រូវការកម្លាំងពលកម្មមនុស្សសម្រាប់ការប្រមូលទិន្នន័យ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសំឡេងភាសាស៊ុយអែត ជាមួយនឹងវាក្យសព្ទមានកំណត់ត្រឹមតែ ៣៥២ ពាក្យប៉ុណ្ណោះ នៅក្នុងមន្ទីរពិសោធន៍។ វាមិនឆ្លុះបញ្ចាំងពីភាពស្មុគស្មាញនៃភាសាខ្មែរ ដែលមានទម្រង់សំឡេងស្មុគស្មាញ និងបញ្ហាក្នុងការបែងចែកពាក្យ (Word Segmentation) នោះទេ។ ដូច្នេះ សម្រាប់កម្ពុជា ការទាញយកពិន្ទុទំនុកចិត្តនេះទាមទារទិន្នន័យក្នុងស្រុកបន្ថែមទៀតដើម្បីបញ្ជាក់ពីភាពត្រឹមត្រូវ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការប្រើប្រាស់ពិន្ទុទំនុកចិត្តជាប្រូបាប៊ីលីតេនេះ មានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធសន្ទនាឆ្លាតវៃ (Spoken Dialogue Systems) នៅកម្ពុជា។

សរុបមក ការបំប្លែងពិន្ទុទំនុកចិត្តទៅជាប្រូបាប៊ីលីតេរួមផ្សំជាមួយបរិបទ និងប្រវែងពាក្យ នឹងជួយឱ្យប្រព័ន្ធ AI ភាសាខ្មែរកាន់តែមានលក្ខណៈធម្មជាតិ និងកាត់បន្ថយភាពធុញថប់របស់អ្នកប្រើប្រាស់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ ប្រមូលនិងរៀបចំទិន្នន័យសំឡេងភាសាខ្មែរ: ប្រមូលទិន្នន័យសន្ទនាជាសំឡេង និងអត្ថបទ (Transcription) ជាភាសាខ្មែរ។ ប្រើប្រាស់ឧបករណ៍ដូចជា KhPOS ឬក្បួនបំបែកពាក្យខ្មែរដើម្បីធ្វើស្តង់ដារവាក្យសព្ទ (Standardized Vocabulary)។
  2. ជំហានទី២៖ បណ្តុះបណ្តាលម៉ូដែល ASR មូលដ្ឋាន: ប្រើប្រាស់ Framework ដូចជា KaldiOpenAI Whisper ដើម្បីហ្វឹកហាត់ (Fine-tune) ម៉ូដែលសម្គាល់សំឡេងភាសាខ្មែរ និងទាញយកទិន្នផលដែលរួមមានពិន្ទុទំនុកចិត្ត (Confidence Scores) សម្រាប់ពាក្យនីមួយៗ។
  3. ជំហានទី៣៖ វាយតម្លៃ និងតម្រឹមពិន្ទុទំនុកចិត្ត: សរសេរកូដ Python ដោយប្រើប្រាស់ក្បួន Minimum Edit Distance ដើម្បីតម្រឹមអត្ថបទដែលប្រព័ន្ធស្តាប់បាន ជាមួយអត្ថបទពិតប្រាកដ រួចគណនាអត្រាទំនាក់ទំនង (Correlation) រវាងពិន្ទុទំនុកចិត្ត និងភាពត្រឹមត្រូវនៃពាក្យ។
  4. ជំហានទី៤៖ វិភាគប្រវែងពាក្យ និងប្រភេទពាក្យ (Feature Engineering): សិក្សាពីឥទ្ធិពលនៃចំនួនព្យាង្គក្នុងភាសាខ្មែរ (ឧទាហរណ៍៖ ពាក្យមានព្យាង្គច្រើនច្រើនតែត្រឹមត្រូវជាង) ដើម្បីបង្កើតជាកត្តាបន្ថែមសម្រាប់ការវាយតម្លៃ ជៀសវាងការពឹងផ្អែកលើ Threshold តែមួយមុខ។
  5. ជំហានទី៥៖ បង្កើតឡូជីខលសន្ទនា (Dialogue Logic): បញ្ចូលម៉ូដែលនេះទៅក្នុងប្រព័ន្ធគ្រប់គ្រងការសន្ទនាដូចជា RasaDialogflow ដោយបង្កើតច្បាប់សួរបញ្ជាក់ (Confirmation Strategies) ដោយស្វ័យប្រវត្តិនៅពេលពិន្ទុប្រូបាប៊ីលីតេសរុបមានកម្រិតទាប។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Confidence score ជារង្វាស់ប្រូបាប៊ីលីតេដែលប្រព័ន្ធសម្គាល់សំឡេងប្រើដើម្បីបញ្ជាក់ថាវានៅមានភាពប្រាកដប្រជាកម្រិតណាទៅលើពាក្យដែលវាបានស្តាប់ និងបំប្លែងទៅជាអត្ថបទ។ ដូចជាសិស្សម្នាក់ប្រាប់គ្រូថាគាត់ប្រាកដ ៨០% ថាចម្លើយដែលគាត់បានឆ្លើយគឺពិតជាត្រឹមត្រូវ។
Word error rate (WER) ជារង្វាស់ស្តង់ដារសម្រាប់វាយតម្លៃប្រព័ន្ធសម្គាល់សំឡេង ដោយគណនាចំនួនពាក្យដែលប្រព័ន្ធស្តាប់ខុស (បន្ថែម បាត់ ឬជំនួសខុស) ចែកនឹងចំនួនពាក្យសរុប។ ដូចជាការរាប់ចំនួនកំហុសអក្ខរាវិរុទ្ធដែលសិស្សសរសេរតាមអំណានខុស ធៀបនឹងពាក្យសរុបដែលគ្រូបានអានទាំងអស់។
Out of vocabulary (OOV) ជាពាក្យដែលអ្នកប្រើប្រាស់និយាយ ប៉ុន្តែមិនមាននៅក្នុងវចនានុក្រមទិន្នន័យដែលប្រព័ន្ធបានរៀន ឬស្គាល់ពីមុនមក ដែលធ្វើឱ្យប្រព័ន្ធព្យាយាមទាយចេញជាពាក្យផ្សេងខុសពីការពិត។ ដូចជាពេលដែលជនបរទេសម្នាក់ឮពាក្យខ្មែរដែលគាត់មិនធ្លាប់រៀនសោះ ហើយគាត់ព្យាយាមទាយថាវាជាពាក្យអ្វីផ្សេងដែលគាត់ធ្លាប់ស្គាល់។
Minimum edit distance ជាក្បួនគណិតវិទ្យាសម្រាប់គណនាថាតើខ្សែអត្ថបទពីរខុសគ្នាត្រង់ណាខ្លះ ដោយរាប់ចំនួនប្រតិបត្តិការតិចបំផុត (លុប បន្ថែម ឬជំនួស) ដើម្បីបំប្លែងអត្ថបទមួយទៅអត្ថបទមួយទៀត។ ដូចជាការរាប់ថាតើយើងត្រូវលុប ឬកែអក្សរប៉ុន្មានតួទើបអាចធ្វើឱ្យពាក្យ "cat" ក្លាយជាពាក្យ "bat" (គឺត្រូវការកែ ១ តួអក្សរ)។
Implicit confirmation ជាយុទ្ធសាស្ត្រសន្ទនាដែលប្រព័ន្ធយកពាក្យដែលវាស្តាប់បាន បញ្ចូលទៅក្នុងសំណួរបន្ទាប់ ដើម្បីផ្ទៀងផ្ទាត់ដោយប្រយោល ដោយមិនចាំបាច់សួរអតិថិជនចំៗថាតើវាយល់ត្រឹមត្រូវឬទេ។ ដូចជាពេលមិត្តភក្តិប្រាប់ថា "ខ្ញុំចង់ញ៉ាំកាហ្វេ" ហើយអ្នកតបថា "យកកាហ្វេទឹកដោះគោ ឬកាហ្វេខ្មៅ?" (អ្នកបញ្ជាក់ដោយប្រយោលថាអ្នកឮពាក្យកាហ្វេច្បាស់លាស់)។
Explicit confirmation ជាយុទ្ធសាស្ត្រសន្ទនាដែលប្រព័ន្ធសួរបញ្ជាក់ចំៗទៅកាន់អ្នកប្រើប្រាស់ (ជាទម្រង់សំណួរ បាទ/ទេ) ដើម្បីឱ្យប្រាកដថាវាស្តាប់បានត្រឹមត្រូវ១០០% មុននឹងបន្តដំណើរការទៅមុខ។ ដូចជាអ្នករត់តុសួរអ្នកបញ្ជាក់ថា "តើបងពិតជាចង់កុម្ម៉ង់កាហ្វេទឹកដោះគោទឹកកកមួយកែវមែនទេបង?" មុនពេលទៅឆុងឱ្យ។
Grounding ជាដំណើរការក្នុងការសន្ទនាដែលភាគីទាំងសងខាង (មនុស្ស និងប្រព័ន្ធ) ផ្តល់សញ្ញាឱ្យគ្នាទៅវិញទៅមកដើម្បីបញ្ជាក់ថាពួកគេយល់ស្រប និងយល់ន័យគ្នាច្បាស់លាស់មុននឹងបន្តការសន្ទនាទៅមុខទៀត។ ដូចជាការងក់ក្បាល ឬនិយាយថា "អូខេ" ឬ "បាទ/ចាស" ពេលកំពុងស្តាប់នរណាម្នាក់និយាយ ដើម្បីបង្ហាញថាអ្នកកំពុងតាមដានយល់សាច់រឿង។
Equal error rate ជាចំណុចកម្រិតគោលដែលចំនួននៃការទទួលយកខុស (False acceptances) និងចំនួននៃការទាត់ចោលខុស (False rejections) ត្រូវបានកាត់បន្ថយរហូតដល់មានអត្រាស្មើគ្នា។ ដូចជាការថ្លឹងជញ្ជីងកំណត់ស្តង់ដារ ដែលចំនួនកំហុសទាំងសងខាង (អ្នកខុសតែប្រព័ន្ធឱ្យចូល និងអ្នកត្រូវតែប្រព័ន្ធមិនឱ្យចូល) មានទម្ងន់ស្មើគ្នាបេះបិទ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖