Original Title: HMM/Neural Network-Based System for Italian Continuous Digit Recognition
Source: cslu.cse.ogi.edu
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ប្រព័ន្ធផ្អែកលើម៉ូដែល HMM/បណ្តាញសរសៃប្រសាទ សម្រាប់ការសម្គាល់លេខជាភាសាអ៊ីតាលីបន្តបន្ទាប់

ចំណងជើងដើម៖ HMM/Neural Network-Based System for Italian Continuous Digit Recognition

អ្នកនិពន្ធ៖ Piero Cosi (Institute of Phonetics and Dialectology - C.N.R.), John-Paul Hosom (Center for Spoken Language Understanding - OGI)

ឆ្នាំបោះពុម្ព៖ 1999

វិស័យសិក្សា៖ Speech Recognition

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះផ្តោតលើការបង្កើតនិងវាយតម្លៃប្រព័ន្ធសម្គាល់សំឡេងនិយាយលេខជាភាសាអ៊ីតាលី ដោយប្រៀបធៀបប្រសិទ្ធភាពរវាងការប្រើប្រាស់ក្នុងបរិស្ថានសំឡេងច្បាស់ល្អ និងបរិស្ថានសំឡេងតាមទូរស័ព្ទដែលមានការរំខាន។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានអនុវត្តប្រព័ន្ធកូនកាត់ HMM/ANN តាមរយៈកម្មវិធី CSLU Toolkit ដោយធ្វើការសាកល្បងជាពីរដំណាក់កាលជាមួយនឹងទិន្នន័យ SPK-IRST និង PANDA-CSELT។

ការស្រង់យកលក្ខណៈពិសេសនៃសំឡេងរួមបញ្ចូលគ្នា (Feature Extraction using PLP and MFCC) រួមជាមួយនឹងបច្ចេកទេស RASTA និង CMS
ការបណ្តុះបណ្តាលបណ្តាញសរសៃប្រសាទគោល និងការតម្រឹមទិន្នន័យដោយបង្ខំ (Baseline Training and Forced Alignment)
ការបណ្តុះបណ្តាលដោយប្រើក្បួន (Forward-Backward Training) សម្រាប់កែលម្អការប៉ាន់ស្មានប្រូបាប៊ីលីតេនៃសូរសព្ទ

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ចំពោះបរិស្ថានសំឡេងច្បាស់ល្អ ការធ្វើតេស្តបានបង្ហាញលទ្ធផលដ៏ល្អប្រសើរដោយសម្រេចបានភាពត្រឹមត្រូវនៃពាក្យរហូតដល់ ៩៩,៦៥%។
ចំពោះបរិស្ថានសំឡេងតាមទូរស័ព្ទ ភាពត្រឹមត្រូវនៃពាក្យបានធ្លាក់ចុះមកត្រឹម ៩១,៨៦% ជាមួយនឹងបណ្តាញគោល ដោយសារភាពមិនស៊ីគ្នារវាងទិន្នន័យបណ្តុះបណ្តាល និងទិន្នន័យសាកល្បង។
ការប្រើប្រាស់វិធីសាស្ត្រ Forward-Backward បានជួយបង្កើនភាពត្រឹមត្រូវបន្តិចបន្តួចដល់ ៩២,៥៥% លើសំណុំទិន្នន័យអភិវឌ្ឍន៍ ហើយការប្រើប្រាស់ទិន្នន័យទូរស័ព្ទពិតប្រាកដសម្រាប់ការបណ្តុះបណ្តាលត្រូវបានណែនាំដើម្បីបង្កើនប្រសិទ្ធភាពបន្ថែមទៀត។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Baseline Training (B1/B2) ការបណ្តុះបណ្តាលបណ្តាញគោលដោយប្រើ HMM/ANN	មានភាពងាយស្រួលក្នុងការអនុវត្ត និងផ្តល់លទ្ធផលត្រឹមត្រូវខ្ពស់បំផុត (៩៩,៦៥%) សម្រាប់បរិស្ថានសំឡេងច្បាស់ល្អ។	ភាពត្រឹមត្រូវធ្លាក់ចុះយ៉ាងខ្លាំងនៅពេលសាកល្បងជាមួយទិន្នន័យពីប្រព័ន្ធទូរស័ព្ទពិតប្រាកដ ដោយសារភាពមិនស៊ីគ្នានៃសំឡេងរំខាន។	ទទួលបានភាពត្រឹមត្រូវនៃពាក្យ ៩៩,៦៥% (B1) លើទិន្នន័យសំឡេងច្បាស់ និង ៩១,៨៦% (B2) លើការតេស្តសំឡេងតាមទូរស័ព្ទពិតប្រាកដ។
Forced Alignment Training (FA1/FA2) ការបណ្តុះបណ្តាលដោយការតម្រឹមទិន្នន័យបង្ខំ	ជួយបង្កើតស្លាកសូរសព្ទ (Phonetic labels) ដែលមានភាពច្បាស់លាស់ និងពេលវេលាត្រឹមត្រូវជាងមុនដោយស្វ័យប្រវត្តិ។ វាបង្កើនប្រសិទ្ធភាពនៃម៉ូដែលគោលបន្ថែមទៀត។	ទាមទារឱ្យមានប្រព័ន្ធសម្គាល់សំឡេងគោល (Baseline) ដែលមានដំណើរការល្អជាមុនសិន ទើបអាចធ្វើការតម្រឹមទិន្នន័យបានត្រឹមត្រូវ។	សម្រេចបានភាពត្រឹមត្រូវនៃពាក្យ ៩២,២១% លើសំណុំទិន្នន័យអភិវឌ្ឍន៍សម្រាប់ការសាកល្បងបរិស្ថានទូរស័ព្ទ (FA2)។
Forward-Backward Training (FB2) ការបណ្តុះបណ្តាលដោយប៉ាន់ស្មានប្រូបាប៊ីលីតេ Forward-Backward	កែលម្អការប៉ាន់ស្មានប្រូបាប៊ីលីតេនៃសូរសព្ទបានកាន់តែល្អប្រសើរ ដោយមិនពឹងផ្អែកតែលើគោលដៅគោលពីរ (Binary targets) ដែលជួយសម្របទៅនឹងសំឡេងរំខានបានល្អ។	មានភាពស្មុគស្មាញក្នុងការគណនា និងទាមទារម៉ូដែលបណ្តាញគោលជាមុន (FA2) ដើម្បីផ្តើមដំណើរការបណ្តុះបណ្តាលនេះ។	ទទួលបានលទ្ធផលល្អបំផុតគឺ ៩២,៥៥% នៃភាពត្រឹមត្រូវនៃពាក្យលើសំណុំទិន្នន័យអភិវឌ្ឍន៍សម្រាប់បរិស្ថានទូរស័ព្ទ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យសំឡេងចំនួនច្រើនសម្រាប់ការបណ្តុះបណ្តាលបណ្តាញសរសៃប្រសាទកូនកាត់ (Hybrid Neural Networks)។

Software: ប្រើប្រាស់កម្មវិធីកញ្ចប់ CSLU Toolkit សម្រាប់ការស្រាវជ្រាវ និងការអភិវឌ្ឍប្រព័ន្ធសម្គាល់សំឡេងភាសា។
Dataset: ត្រូវការសំណុំទិន្នន័យសំឡេងធំៗដូចជា SPK-IRST (សំឡេងច្បាស់) និង PANDA-CSELT (សំឡេងទូរស័ព្ទពិតប្រាកដ) រួមទាំងការកត់ត្រាសូរសព្ទ (Phonetic transcriptions)។
Hardware: ទាមទារម៉ាស៊ីនកុំព្យូទ័រមានសមត្ថភាពខ្ពស់សម្រាប់ការគណនាបណ្តាញសរសៃប្រសាទ (Neural Networks) ជាមួយវ៉ិចទ័រ ១៣០ វិមាត្រ និងរាប់ម៉ឺនជុំ (Iterations)។
Expertise: ចាំបាច់ត្រូវមានចំណេះដឹងស៊ីជម្រៅផ្នែកសូរសព្ទវិទ្យា (Acoustic-phonetic knowledge) និងការស្រង់លក្ខណៈសំឡេងដូចជា PLP, MFCC និងបច្ចេកទេស RASTA។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រមូលផ្តុំទិន្នន័យសំឡេងភាសាអ៊ីតាលីពីតំបន់ North-East និងទូទាំងប្រទេសសម្រាប់ទិន្នន័យទូរស័ព្ទ។ ដោយសារវាផ្តោតតែលើភាសា និងគ្រាមភាសាអ៊ីតាលី វាមិនអាចយកមកអនុវត្តផ្ទាល់លើភាសាខ្មែរបានទេ បើគ្មានការប្រមូលទិន្នន័យសំឡេងខ្មែរក្នុងបរិបទស្រដៀងគ្នា។ យ៉ាងណាមិញ វាបង្ហាញពីគំរូដ៏ល្អសម្រាប់ដោះស្រាយបញ្ហាសំឡេងរំខានពេលខលទូរស័ព្ទនៅកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រក្នុងការស្រាវជ្រាវនេះមានអត្ថប្រយោជន៍ និងសក្តានុពលខ្លាំងសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធសម្គាល់សំឡេងជាភាសាខ្មែរ ពិសេសលើការសម្គាល់លេខ (Digit Recognition) ក្នុងបរិស្ថានដែលមានសំឡេងរំខាន។

ប្រព័ន្ធធនាគារ និងហិរញ្ញវត្ថុ (ABA, Wing, ACLEDA): អាចប្រើប្រាស់បច្ចេកទេសនេះដើម្បីបង្កើតប្រព័ន្ធឆ្លើយតបអតិថិជនដោយស្វ័យប្រវត្តិ (IVR) សម្រាប់ការផ្ទៀងផ្ទាត់លេខកូដសម្ងាត់ (PIN), លេខកាតឥណទាន ឬលេខគណនីតាមទូរស័ព្ទដោយប្រើសំឡេង។
វិស័យទូរគមនាគមន៍ (Cellcard, Smart, Metfone): ជួយឲ្យប្រព័ន្ធផ្តល់សេវាអតិថិជន ឬបញ្ចូលលុយតាមទូរស័ព្ទមានភាពងាយស្រួល តាមរយៈការសម្គាល់លេខកាតកោស ឬលេខទូរស័ព្ទដែលអ្នកប្រើប្រាស់និយាយបញ្ជាក់។
សេវាសង្គ្រោះបន្ទាន់ (១១៩ ឬ ១១៧): ប្រព័ន្ធនេះអាចជួយសម្គាល់លេខទូរស័ព្ទ ឬលេខកូដទីតាំងដែលហៅចូលដោយស្វ័យប្រវត្តិ ទោះបីជាអ្នកហៅស្ថិតក្នុងបរិស្ថានមានសំឡេងរំខានតាមប្រព័ន្ធទូរស័ព្ទក្តី។

ការអនុវត្តស្ថាបត្យកម្ម HMM/ANN រួមជាមួយនឹងបច្ចេកទេសកាត់បន្ថយសំឡេងរំខាន (ដូចជា RASTA និង CMS) អាចជួយឱ្យស្ថាប័ននៅកម្ពុជាបង្កើតសេវាកម្មទូរស័ព្ទស្វ័យប្រវត្តិដែលដំណើរការយ៉ាងរលូន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

១. សិក្សាមូលដ្ឋានគ្រឹះ និងរៀបចំឧបករណ៍បញ្ចេញសំឡេង: និស្សិតគប្បីចាប់ផ្តើមពីការយល់ដឹងអំពីម៉ូដែល HMM និង Neural Networks រួចសាកល្បងប្រើប្រាស់កម្មវិធីទំនើបៗដូចជា Kaldi ឬ PyTorch ជំនួសឲ្យ CSLU Toolkit ដែលចាស់ហួសសម័យ។
២. ប្រមូល និងរៀបចំសំណុំទិន្នន័យលេខជាភាសាខ្មែរ: បង្កើតសំណុំទិន្នន័យ (Corpus) ដែលមានការកត់ត្រាសំឡេងនិយាយលេខ ០ ដល់ ៩ ជាភាសាខ្មែរ ដោយបែងចែកជាពីរប្រភេទ៖ សំឡេងថតក្នុងស្ទូឌីយោច្បាស់ល្អ និងសំឡេងថតតាមទូរស័ព្ទដៃពិតប្រាកដ។
៣. ស្រង់យកលក្ខណៈពិសេសនៃសំឡេង (Feature Extraction): អនុវត្តការទាញយកទិន្នន័យតំណាងសំឡេងដោយប្រើប្រាស់បច្ចេកទេស MFCC និងរួមបញ្ចូលជាមួយ RASTA ឬ CMS (Cepstral Mean Subtraction) ដើម្បីកាត់បន្ថយឥទ្ធិពលនៃសំឡេងរំខាន។
៤. បណ្តុះបណ្តាលម៉ូដែលដោយប្រើបច្ចេកទេសតម្រឹមបង្ខំ: បង្កើតម៉ូដែលគោល (Baseline Model) បន្ទាប់មកប្រើប្រាស់វាដើម្បីធ្វើការតម្រឹមទិន្នន័យសូរសព្ទដោយស្វ័យប្រវត្តិ (Forced Alignment) ដើម្បីទទួលបានស្លាកសូរសព្ទច្បាស់លាស់មុននឹងបន្តទៅវគ្គបណ្តុះបណ្តាលបន្ទាប់។
៥. វាយតម្លៃ និងកែលម្អប្រព័ន្ធសម្រាប់បរិស្ថានជាក់ស្តែង: ធ្វើតេស្តប្រព័ន្ធដែលបានបង្កើតជាមួយនឹងសំណុំទិន្នន័យទូរស័ព្ទពិតប្រាកដ (តេស្តភាពត្រឹមត្រូវនៃពាក្យ) ហើយអនុវត្តក្បួន Forward-Backward Training ដើម្បីបង្កើនប្រសិទ្ធភាពដល់កម្រិតអតិបរមា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Hybrid HMM/ANN	ជាប្រព័ន្ធកូនកាត់ដែលរួមបញ្ចូលគ្នារវាង Hidden Markov Model (HMM) សម្រាប់តាមដានលំដាប់លំដោយនៃពាក្យក្នុងពេលវេលា និង Artificial Neural Network (ANN) សម្រាប់ប៉ាន់ស្មានប្រូបាប៊ីលីតេនៃសូរសព្ទនីមួយៗ។ ការរួមបញ្ចូលគ្នានេះជួយឲ្យប្រព័ន្ធស្គាល់សំឡេងដំណើរការបានកាន់តែសុក្រឹត និងមានប្រសិទ្ធភាពខ្ពស់។	ដូចជាការធ្វើការជាក្រុម ដែលម្នាក់ពូកែស្តាប់ចំណែកសំឡេង (ANN) និងម្នាក់ទៀតពូកែខាងតម្រៀបពាក្យឲ្យត្រូវតាមវេយ្យាករណ៍និងលំដាប់ (HMM)។
Viterbi search	ជាក្បួនអាល់កូរីតដែលប្រើសម្រាប់ស្វែងរកផ្លូវ ឬលំដាប់លំដោយនៃពាក្យដែលទំនងជាត្រឹមត្រូវបំផុត ដោយផ្អែកលើម៉ាទ្រីសប្រូបាប៊ីលីតេដែលបញ្ចេញដោយបណ្តាញសរសៃប្រសាទ ដើម្បីកាត់បន្ថយជម្រើសខុស និងស្វែងរកចម្លើយចុងក្រោយ។	ដូចជាការប្រើប្រព័ន្ធ GPS ដើម្បីគណនារកផ្លូវដែលលឿន និងត្រឹមត្រូវបំផុតពីចំណុចមួយទៅចំណុចមួយទៀតក្នុងចំណោមជម្រើសផ្លូវរាប់ពាន់។
Forced alignment	ជាដំណើរការដែលប្រើប្រព័ន្ធសម្គាល់សំឡេងមានស្រាប់ ដើម្បីតម្រឹមអត្ថបទដែលគេដឹងមុន ឲ្យស៊ីគ្នានឹងពេលវេលាជាក់លាក់នៃឯកសារសំឡេង ដើម្បីបង្កើតជាស្លាកសូរសព្ទ (Phonetic labels) ដោយស្វ័យប្រវត្តិសម្រាប់ការបណ្តុះបណ្តាលម៉ូដែលថ្មីបន្តទៀត។	ដូចជាការយកអត្ថបទចម្រៀងទៅតម្រឹមឲ្យត្រូវគ្នានឹងចង្វាក់ភ្លេងនាទីនីមួយៗក្នុងម៉ាស៊ីនខារ៉ាអូខេដោយស្វ័យប្រវត្តិ។
Forward-backward algorithm	ជាក្បួនគណនាដែលប៉ាន់ស្មានប្រូបាប៊ីលីតេនៃស្ថានភាពសូរសព្ទនីមួយៗ ដោយមើលទាំងទិន្នន័យពីអតីតកាល (Forward) និងទិន្នន័យពីអនាគត (Backward) នៅក្នុងស៊េរីនៃសំឡេង ដើម្បីបង្កើតគោលដៅបណ្តុះបណ្តាលបណ្តាញសរសៃប្រសាទដែលមានភាពសុក្រឹតជាងការប្រើគោលដៅសូន្យឬមួយ។	ដូចជាការទាយពាក្យដែលបាត់ក្នុងប្រយោគ ដោយអានទាំងពាក្យខាងមុខ និងពាក្យខាងក្រោយនៃចន្លោះនោះ ដើម្បីឲ្យប្រាកដថាអត្ថន័យពិតជាត្រឹមត្រូវ។
RASTA (RelAtive SpecTrAl)	ជាបច្ចេកទេសដំណើរការមុន (Pre-processing) លើសំឡេងដែលផ្តោតលើការផ្លាស់ប្តូរនៃសូរសព្ទ និងកាត់បន្ថយ ឬច្រោះចោលនូវឥទ្ធិពលនៃសំឡេងរំខានដែលនៅថេរ (ដូចជាសំឡេងរ៉ែៗក្នុងទូរស័ព្ទ) ដើម្បីធ្វើឲ្យការស្គាល់សំឡេងកាន់តែមានភាពធន់នឹងបរិស្ថានមិនល្អ។	ដូចជាវ៉ែនតាការពារពន្លឺថ្ងៃ ដែលជួយបិទបាំងពន្លឺចាំងខ្លាំងដែលនៅថេរ និងធ្វើឲ្យយើងមើលឃើញវត្ថុច្បាស់ល្អ។
Cepstral Mean Subtraction (CMS)	ជាវិធីសាស្ត្រក្នុងការដកតម្លៃមធ្យមនៃលក្ខណៈសំឡេងចេញពីសញ្ញាសំឡេងនីមួយៗ ដើម្បីកាត់បន្ថយឥទ្ធិពលមិនល្អដែលបណ្តាលមកពីឧបករណ៍ថតសំឡេងខុសៗគ្នា ឬបណ្តាញទូរស័ព្ទផ្សេងៗគ្នា។	ដូចជាការថ្លឹងទម្ងន់ផ្លែឈើក្នុងកន្ត្រក ដោយយើងត្រូវដកទម្ងន់កន្ត្រកចេញជាមុនសិនទើបបានទម្ងន់ផ្លែឈើពិតប្រាកដ។
MFCCs (Mel Frequency Cepstral Coefficients)	ជាលក្ខណៈពិសេសនៃសញ្ញាសំឡេងដែលត្រូវបានស្រង់ចេញដោយត្រាប់តាមរបៀបដែលត្រចៀកមនុស្សស្តាប់ឮ (កម្រិតប្រេកង់ Mel)។ វាត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយដើម្បីតំណាងឲ្យទិន្នន័យសំឡេងនៅក្នុងប្រព័ន្ធសម្គាល់សំឡេងស្វ័យប្រវត្តិ។	ដូចជាការបំប្លែងសំឡេងនិយាយឲ្យទៅជាលេខកូដពិសេស ដែលម៉ាស៊ីនកុំព្យូទ័រអាចយល់បាន ស្រដៀងនឹងរបៀបដែលត្រចៀកមនុស្សចាប់យកសំឡេងដែរ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖