Original Title: A NEW WORD-CONFIDENCE THRESHOLD TECHNIQUE TO ENHANCE THE PERFORMANCE OF SPOKEN DIALOGUE SYSTEMS
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

បច្ចេកទេសកម្រិតទំនុកចិត្តពាក្យថ្មី ដើម្បីលើកកម្ពស់ដំណើរការនៃប្រព័ន្ធសន្ទនាដោយសំឡេង

ចំណងជើងដើម៖ A NEW WORD-CONFIDENCE THRESHOLD TECHNIQUE TO ENHANCE THE PERFORMANCE OF SPOKEN DIALOGUE SYSTEMS

អ្នកនិពន្ធ៖ R. López-Cózar, Universidad de Granada, A. J. Rubio, Universidad de Granada, P. García, Universidad de Granada, J. C. Segura, Universidad de Granada

ឆ្នាំបោះពុម្ព៖ 1998

វិស័យសិក្សា៖ Speech Recognition

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការកំណត់កម្រិតទំនុកចិត្ត (Confidence Threshold) នៅក្នុងប្រព័ន្ធទទួលស្គាល់សំឡេងនិយាយ ដែលការកំណត់កម្រិតថេរមិនអាចសម្របទៅនឹងការផ្លាស់ប្តូរនៃបរិយាកាសសំឡេងរំខាន ដែលធ្វើឱ្យប្រព័ន្ធកាត់ពាក្យត្រូវចោល ឬទទួលយកពាក្យខុសច្រើន។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានធ្វើការប្រៀបធៀបដំណើរការរវាងកម្រិតទំនុកចិត្តថេរ និងកម្រិតទំនុកចិត្តបន្សាំ ដោយប្រើប្រាស់ប្រព័ន្ធសន្ទនា SAPLEN និងម៉ាស៊ីនក្លែងធ្វើសំឡេងរំខាន ដើម្បីតាមដានប្រសិទ្ធភាពនៃការស្គាល់ពាក្យ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Fixed Confidence Threshold (FT)
កម្រិតទំនុកចិត្តថេរ (Fixed Confidence Threshold)
ងាយស្រួលក្នុងការអនុវត្ត និងតំឡើង។ នៅកម្រិត FT=0.7 វាផ្តល់នូវការពេញចិត្តខ្ពស់ពីអ្នកប្រើប្រាស់ ដោយសារប្រព័ន្ធអាចសង្គ្រោះកំហុសដោយស្វ័យប្រវត្តិដោយមិនរំខានដល់អ្នកប្រើប្រាស់។ មិនអាចបត់បែនតាមកម្រិតសំឡេងរំខានជាក់ស្តែងបាន។ ប្រសិនបើកម្រិតនេះខ្ពស់ពេក (ឧ. FT=0.9) អ្នកប្រើប្រាស់ភាគច្រើន (៧៥%) នឹងបោះបង់ការសន្ទនាដោយសារប្រព័ន្ធបដិសេធពាក្យញឹកញាប់ពេក។ រយៈពេលសន្ទនាមធ្យមគឺ ២៥,០៤ វេន និងអត្រាយល់ដឹងប្រយោគគឺ ៨២,២៥% (នៅកម្រិតថេរ FT=0.6)។
Adaptive Confidence Threshold (ACT)
កម្រិតទំនុកចិត្តបែបបន្សាំ (Adaptive Confidence Threshold)
អាចកែតម្រូវដោយស្វ័យប្រវត្តិទៅតាមស្ថានភាពបរិស្ថាន និងកម្រិតសំឡេងរំខាន។ ជួយកាត់បន្ថយរយៈពេលនៃការសន្ទនាសរុប និងបង្កើនភាពត្រឹមត្រូវនៃការយល់ដឹងប្រយោគ។ យុទ្ធសាស្ត្រនៃការធ្វើបច្ចុប្បន្នភាពកម្រិតនេះនៅមានលក្ខណៈសាមញ្ញនៅឡើយ (ប្រើប្រាស់មធ្យមភាគពីអន្តរកម្មមុនៗ) ហើយទើបតែបានសាកល្បងក្នុងលក្ខខណ្ឌក្លែងធ្វើសំឡេងរំខាន (Simulated conditions) ប៉ុណ្ណោះ។ កាត់បន្ថយរយៈពេលសន្ទនាមកត្រឹម ២១,៣៤ វេន និងបង្កើនអត្រាយល់ដឹងប្រយោគដល់ ៨៦,៩៦%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តបច្ចេកទេសនេះទាមទារនូវប្រព័ន្ធទទួលស្គាល់សំឡេង (Speech Recognizer) ដែលមានសមត្ថភាពបញ្ចេញតម្លៃកម្រិតទំនុកចិត្ត (Confidence Measures) និងហេដ្ឋារចនាសម្ព័ន្ធកុំព្យូទ័រសម្រាប់ការគណនាជាប្រចាំ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងជាភាសាអេស្ប៉ាញ ដោយផ្តោតលើបរិបទនៃការកុម្ម៉ង់អាហាររហ័ស (Fast-food) ជាមួយអ្នកប្រើប្រាស់ចំនួន ១០០ នាក់ និងការក្លែងធ្វើសំឡេងរំខានក្នុងបន្ទប់ពិសោធន៍។ សម្រាប់ប្រទេសកម្ពុជា វាជាការចាំបាច់ណាស់ដែលត្រូវទាមទារការប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរដែលមានគ្រាមភាសាផ្សេងៗគ្នា និងការសាកល្បងក្នុងបរិយាកាសជាក់ស្តែងដែលមានសំឡេងរំខានច្រើន (ដូចជាតាមដងផ្លូវ ឬហាងកាហ្វេ) ដើម្បីធានាបាននូវប្រសិទ្ធភាពពិតប្រាកដ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសកម្រិតទំនុកចិត្តបន្សាំនេះ មានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធសេវាកម្មអតិថិជនស្វ័យប្រវត្តិដោយប្រើសំឡេង (Voicebots) នៅក្នុងប្រទេសកម្ពុជា។

ជារួម ការប្រើប្រាស់បច្ចេកទេស ACT នឹងជួយឱ្យប្រព័ន្ធបញ្ជាដោយសំឡេងភាសាខ្មែរកាន់តែមានភាពបត់បែន ងាយស្រួលប្រើ និងកាត់បន្ថយភាពធុញទ្រាន់របស់អតិថិជនក្នុងស្ថានភាពមានសំឡេងរំខាននៃជីវិតប្រចាំថ្ងៃ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ស្វែងយល់ពីមូលដ្ឋានគ្រឹះនៃ Speech Recognition: និស្សិតគួរសិក្សាពីទម្រង់ម៉ូដែលសំឡេង និងរបៀបទាញយកកម្រិតទំនុកចិត្ត (Confidence Scores) ពីពាក្យនីមួយៗ ដោយប្រើប្រាស់បច្ចេកវិទ្យាទំនើបដូចជា Whisper របស់ OpenAI ឬ Kaldi
  2. ប្រមូល និងរៀបចំទិន្នន័យសំឡេងភាសាខ្មែរ (Khmer Speech Corpus): ចាប់ផ្តើមប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរក្នុងបរិបទជាក់លាក់ណាមួយ (ឧ. ការកុម្ម៉ង់អាហារ ឬសំណួរធនាគារ) ដោយប្រើប្រាស់ឧបករណ៍ដូចជា Mozilla Common Voice ដើម្បីបង្កើតមូលដ្ឋានទិន្នន័យសម្រាប់ហ្វឹកហាត់ប្រព័ន្ធឱ្យស្គាល់ពាក្យនិងសំឡេងរំខាន។
  3. អភិវឌ្ឍម៉ូឌុលគ្រប់គ្រងការសន្ទនា (Dialogue Manager): បង្កើតកម្មវិធីគ្រប់គ្រងលំហូរនៃការសន្ទនា (Dialogue State Tracking) ដោយប្រើប្រាស់ Framework ដូចជា Rasa ដែលអនុញ្ញាតឱ្យបញ្ចូលក្បួន ACT តាមរយៈការសរសេរកូដផ្ទាល់ (Custom Actions) ដើម្បីតាមដាន និងគណនាមធ្យមភាគ Confidence Score នៃអន្តរកម្មចុងក្រោយ។
  4. ធ្វើសមាហរណកម្ម និងសាកល្បងបច្ចេកទេស ACT ក្នុងលក្ខខណ្ឌផ្សេងៗ: សរសេរក្បួនដោះស្រាយ (Algorithm) ក្នុង Python ដើម្បីកែប្រែកម្រិត Threshold ដោយស្វ័យប្រវត្តិ និងធ្វើការសាកល្បងវាយតម្លៃប្រសិទ្ធភាពដោយបញ្ចូលសំឡេងរំខាន (Noise injection) ក្លែងក្លាយតាមរយៈបណ្ណាល័យ LibrosaPyDub

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Spoken Dialogue Systems ប្រព័ន្ធកុំព្យូទ័រដែលអាចសន្ទនាជាមួយមនុស្សដោយប្រើសំឡេង តាមរយៈការស្តាប់ (Speech Recognition) ការយល់ន័យ (Understanding) និងការឆ្លើយតបជាសំឡេងត្រឡប់មកវិញ (Speech Synthesis)។ ដូចជាជំនួយការឆ្លាតវៃ (Siri របស់ Apple ឬ Google Assistant) ដែលយើងអាចនិយាយបញ្ជា ឬសួរសំណួរវាបានដោយផ្ទាល់មាត់។
Confidence Threshold កម្រិតពិន្ទុអប្បបរមាដែលប្រព័ន្ធកុំព្យូទ័រកំណត់ ដើម្បីសម្រេចថា តើពាក្យដែលវាស្តាប់ឮនោះត្រឹមត្រូវឬអត់។ បើពិន្ទុដែលប្រព័ន្ធវាយតម្លៃទាបជាងកម្រិតនេះ វាចាត់ទុកថាជាកំហុស ហើយទាមទារឱ្យអ្នកនិយាយម្តងទៀត។ ដូចជាពិន្ទុប្រឡងជាប់ បើប្រព័ន្ធស្តាប់ឮច្បាស់ហើយវាឱ្យពិន្ទុខ្លួនឯងលើសកម្រិតនេះ វាគិតថាវាស្តាប់បានត្រឹមត្រូវហើយ។
Adaptive Confidence Threshold (ACT) បច្ចេកទេសដែលប្រព័ន្ធអាចផ្លាស់ប្តូរកម្រិតទំនុកចិត្តរបស់ខ្លួនដោយស្វ័យប្រវត្តិ ទៅតាមស្ថានភាពរំខាននៃបរិយាកាសជុំវិញអ្នកនិយាយ ដោយផ្អែកលើការបូកសរុបមធ្យមភាគនៃប្រវត្តិសន្ទនាមុនៗ។ ដូចជាមនុស្សយើងដែរ ពេលនៅកន្លែងស្ងាត់យើងស្តាប់គ្នាតាមធម្មតា តែពេលមានសំឡេងឡូឡា យើងដឹងខ្លួនឯងថាយើងត្រូវផ្ទៀងត្រចៀកស្តាប់ឱ្យបានច្បាស់ជាងមុន ឬសួរវែកញែកបន្ថែមដើម្បីកុំឱ្យស្តាប់ខុស។
Semi-Continuous Hidden Markov Models (SCHMM) ម៉ូដែលគណិតវិទ្យាស្ថិតិដែលត្រូវបានប្រើប្រាស់នៅក្នុងប្រព័ន្ធទទួលស្គាល់សំឡេង ដើម្បីបំប្លែងរលកសំឡេងទៅជាឯកតាពាក្យ ដោយរួមបញ្ចូលគ្នានូវលក្ខណៈពិសេសនៃសូរសព្ទបន្តបន្ទាប់គ្នា និងប្រូបាប៊ីលីតេ។ ដូចជាអ្នកបកប្រែដែលស្មានពាក្យបន្ទាប់ ដោយផ្អែកលើការវិភាគចង្វាក់បញ្ចេញសំឡេងដែលផ្លាស់ប្តូរជាបន្តបន្ទាប់ពីមួយម៉ាត់ទៅមួយម៉ាត់។
Bigrams ទម្រង់ម៉ូដែលភាសាស្ថិតិដែលព្យាករណ៍ពាក្យមួយ ដោយពឹងផ្អែកទៅលើពាក្យតែមួយគត់ដែលនៅពីមុខវា ដើម្បីជួយឱ្យប្រព័ន្ធកាត់ន័យប្រយោគ និងទទួលស្គាល់ពាក្យបានត្រឹមត្រូវជាងមុន។ ដូចជាពេលយើងឃើញពាក្យ "ញ៉ាំ" នោះប្រព័ន្ធអាចទាយទុកមុនថាពាក្យបន្ទាប់មានភាគរយខ្ពស់ថាជាពាក្យ "បាយ" ឬ "ទឹក"។
Implicit Recovery សមត្ថភាពរបស់ប្រព័ន្ធសន្ទនាក្នុងការបន្តដំណើរការទៅមុខយ៉ាងរលូន និងកែតម្រូវកំហុសនៃការស្តាប់ដោយស្ងាត់ៗ ដោយមិនចាំបាច់សួរអ្នកប្រើប្រាស់ឱ្យនិយាយបញ្ជាក់ម្តងទៀតចំៗឡើយ។ ដូចជាពេលមិត្តភក្តិនិយាយមិនសូវច្បាស់ តែយើងនៅតែអាចស្មានដឹងថាគេចង់និយាយពីអ្វីតាមរយៈបរិបទ ហើយឆ្លើយតបទៅវិញបានយ៉ាងរលូនដោយមិនបាច់សួរគេឱ្យនិយាយឡើងវិញ។
Turn Correction Ratio (TCR) អត្រានៃចំនួនវេនសន្ទនាដែលអ្នកប្រើប្រាស់ត្រូវធ្វើការកែតម្រូវ ឬនិយាយបញ្ជាក់ម្តងទៀត ធៀបនឹងចំនួនវេនសន្ទនាសរុប។ វាជារង្វាស់សម្រាប់វាស់ភាពរអាក់រអួល និងប្រសិទ្ធភាពនៃការសន្ទនា។ ដូចជាការរាប់ចំនួនដងដែលយើងត្រូវប្រកែកថា "អត់ទេ ខ្ញុំចង់មានន័យថា..." ពេលកំពុងជជែកជាមួយនរណាម្នាក់ដែលស្តាប់យើងមិនសូវបាន។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖