Original Title: Spoken Language Understanding without Transcriptions in a Call Center Scenario
Source: www5.cs.fau.de
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការយល់ដឹងភាសានិយាយដោយគ្មានការចម្លងអត្ថបទនៅក្នុងសេណារីយ៉ូមជ្ឈមណ្ឌលហៅទូរស័ព្ទ

ចំណងជើងដើម៖ Spoken Language Understanding without Transcriptions in a Call Center Scenario

អ្នកនិពន្ធ៖ Michael Levit (Universität Erlangen–Nürnberg)

ឆ្នាំបោះពុម្ព៖ 2004

វិស័យសិក្សា៖ Computer Science / Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការពឹងផ្អែកលើការចម្លងទិន្នន័យសំឡេងជាអត្ថបទដោយដៃសម្រាប់បង្វឹកម៉ូដែលប្រព័ន្ធយល់ដឹងភាសានិយាយ (SLU) គឺចំណាយប្រាក់ និងពេលវេលាច្រើន។ និក្ខេបបទនេះដោះស្រាយពីរបៀបបង្កើតប្រព័ន្ធ SLU ស្វ័យប្រវត្តិសម្រាប់មជ្ឈមណ្ឌលហៅទូរស័ព្ទ ដោយប្រើតែទិន្នន័យសំឡេង និងម៉ូដែលភាសាដែលមានស្រាប់ដោយមិនចាំបាច់ចម្លងអត្ថបទ។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានប្រើប្រាស់ចំណាត់ថ្នាក់ប្រភេទ Large Margin Classifiers និងការបន្ស៊ាំម៉ូដែលភាសាដោយគ្មានការត្រួតពិនិត្យ លើសំណុំទិន្នន័យ AT&T "How May I Help You?"។

ការបន្ស៊ាំម៉ូដែលភាសាដោយគ្មានការត្រួតពិនិត្យ (Unsupervised Language Model Adaptation)
ការចាត់ថ្នាក់ប្រភេទនៃការហៅដោយប្រើប្រាស់ SVM និង BoosTexter (Calltype Classification using SVM and BoosTexter)
ការរកឃើញ ការកំណត់ទីតាំង និងការទាញយកតម្លៃនៃអង្គភាពដែលមានឈ្មោះ (Named Entity Detection, Localization, and Value Extraction)
ការទាញយករូបសព្ទសំឡេងពីខ្សែទិន្នន័យសំឡេង (Extraction of Acoustic Morphemes from Phone Streams)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការបន្ស៊ាំដោយគ្មានការត្រួតពិនិត្យបានកាត់បន្ថយកត្តាពេលវេលាជាក់ស្តែងនៃការស្គាល់ពាក់កណ្តាល (ពី 1.8 ទៅ 0.9) និងបង្កើនភាពត្រឹមត្រូវនៃពាក្យពី 63.1% ទៅ 70.1%។
ចំណាត់ថ្នាក់ប្រភេទនៃការហៅទូរស័ព្ទដោយប្រើប្រាស់ SVMs លើម៉ូដែលដែលបានបន្ស៊ាំ ទទួលបានអត្រាសម្រេចចិត្តត្រឹមត្រូវរហូតដល់ 82% សម្រាប់ការសន្ទនាពេញលេញ។
រូបសព្ទសំឡេង (Acoustic Morphemes) បានចង្កោមខ្សែទូរស័ព្ទសូរសព្ទដោយជោគជ័យ ដែលកាត់បន្ថយតម្លៃវិភាគមធ្យមពី 5.0 ទៅ 2.1 ដោយបង្កើតបានជាទម្រង់ដែលអាចត្រាប់តាមពាក្យជាក់ស្តែង។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Support Vector Machines (SVM) with Unsupervised LM Adaptation ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ (SVM) ជាមួយនឹងការបន្ស៊ាំម៉ូដែលភាសាដោយគ្មានការត្រួតពិនិត្យ	ផ្តល់អត្រាភាពត្រឹមត្រូវខ្ពស់បំផុតសម្រាប់ការចាត់ថ្នាក់ប្រភេទហៅទូរស័ព្ទ (Calltype Classification) និងការរកឃើញអង្គភាពមានឈ្មោះ (Named Entities) ប្រៀបធៀបនឹងម៉ូដែលផ្សេងទៀត។ វាអាចគ្រប់គ្រងចំនួនលក្ខណៈពិសេស (Features) យ៉ាងច្រើនបានល្អ។	ទាមទារពេលវេលាច្រើនក្នុងការបង្វឹកម៉ូដែល (Training) និងការចាត់ថ្នាក់ទិន្នន័យ បើប្រៀបធៀបទៅនឹងក្បួនដោះស្រាយ Boosting។	សម្រេចបានអត្រាភាពត្រឹមត្រូវ ៨២% សម្រាប់សំណុំទិន្នន័យ HMIHY-3CA និង ៧៣% សម្រាប់ HMIHY-3CI។
Boosting (BoosTexter) with Unsupervised LM Adaptation ក្បួនដោះស្រាយ Boosting (BoosTexter) ជាមួយនឹងការបន្ស៊ាំម៉ូដែលភាសាដោយគ្មានការត្រួតពិនិត្យ	មានដំណើរការលឿនជាង SVM ទាំងក្នុងពេលបង្វឹក និងពេលចាត់ថ្នាក់ទិន្នន័យជាក់ស្តែង។ វាអាចបង្ហាញយ៉ាងច្បាស់ពីលក្ខណៈពិសេស (N-grams) ដែលត្រូវបានជ្រើសរើសធ្វើជាសូចនាករ។	ផ្តល់អត្រាភាពត្រឹមត្រូវទាបជាងម៉ូដែល SVM ប្រហែល ៥% ទៅ ១០% នៅក្នុងការសាកល្បងភាគច្រើន។	សម្រេចបានអត្រាភាពត្រឹមត្រូវ ៦៨% សម្រាប់ការចាត់ថ្នាក់ប្រភេទហៅទូរស័ព្ទលើសំណុំទិន្នន័យ HMIHY-3CI។
Phone-based Classification (No Word Transcriptions) ការចាត់ថ្នាក់ផ្អែកលើសូរសព្ទផ្ទាល់ (មិនប្រើអត្ថបទចម្លងជាពាក្យ)	មិនតម្រូវឱ្យមានវចនានុក្រមពាក្យ ឬម៉ូដែលភាសាផ្ទៃខាងក្រោយជាមុនឡើយ ដែលស័ក្តិសមបំផុតសម្រាប់ភាសាដែលមានការខ្វះខាតទិន្នន័យ។	ដំណើរការមិនសូវបានល្អលើការស្វែងរក និងទាញយក Named Entity ខ្លីៗ (ដូចជាកាលបរិច្ឆេទ) បើធៀបនឹងការប្រើអត្ថបទពាក្យពេញលេញ។	សម្រេចបានអត្រាភាពត្រឹមត្រូវ ៧៤% សម្រាប់ការចាត់ថ្នាក់ប្រភេទហៅទូរស័ព្ទលើ HMIHY-3CI ដោយប្រើប្រាស់ SVM។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះតម្រូវឱ្យមានការប្រើប្រាស់ធនធានកុំព្យូទ័រមធ្យមទៅខ្ពស់ ជាពិសេសសម្រាប់ការដំណើរការបង្វឹកម៉ូដែល SVM និងឧបករណ៍កែច្នៃសំឡេងកម្រិតខ្ពស់។

Software: កម្មវិធីសម្គាល់សំឡេង (ឧទាហរណ៍ AT&T WATSON), កម្មវិធី FSM Toolkit សម្រាប់ការវិភាគ Finite State Machines, LLAMA (សម្រាប់ SVM), និង BoosTexter។
Hardware: ប្រព័ន្ធកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ក្នុងការដំណើរការក្បួនដោះស្រាយ SVM លើយន្តការវិភាគទិន្នន័យជា Vector ច្រើនវិមាត្រ (High-dimensional feature vectors)។
Dataset: សំណុំទិន្នន័យសំឡេងរាប់ម៉ឺនឃ្លា (ឧទាហរណ៍ HMIHY corpus និង Switchboard) ប៉ុន្តែចំណុចពិសេសគឺមិនតម្រូវឱ្យមានអត្ថបទចម្លងដោយដៃ (Manual Transcriptions) សម្រាប់ដែនទិន្នន័យគោលដៅទេ។
Expertise: ចំណេះដឹងស៊ីជម្រៅផ្នែកដំណើរការភាសាធម្មជាតិ (NLP), សូរសព្ទវិទ្យា (Phonetics), និងយន្តការសិក្សារបស់ម៉ាស៊ីន (Machine Learning) ពិសេស Large Margin Classifiers។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើសំណុំទិន្នន័យសំឡេងភាសាអង់គ្លេសពីមជ្ឈមណ្ឌលហៅទូរស័ព្ទរបស់ក្រុមហ៊ុន AT&T ក្នុងសហរដ្ឋអាមេរិក។ ទិន្នន័យនេះមានកម្រិតលំអៀងទៅលើការបញ្ចេញសំឡេង បរិបទ និងវាក្យសព្ទផ្តោតលើតែសេវាកម្មទូរស័ព្ទនៅអាមេរិក។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតសំណុំទិន្នន័យសំឡេងភាសាខ្មែរដែលមានទំហំធំ និងភាពខុសគ្នានៃវេយ្យាករណ៍សូរសព្ទ អាចជាបញ្ហាប្រឈមធំក្នុងការអនុវត្តផ្ទាល់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមលើធនធានទិន្នន័យភាសាក៏ដោយ វិធីសាស្ត្រក្នុងការយល់ដឹងភាសាដោយមិនបាច់មានអត្ថបទចម្លង (Unsupervised Phone-based SLU) នេះពិតជាមានសក្តានុពលខ្ពស់សម្រាប់ស្ថាប័ននានានៅកម្ពុជា។

វិស័យទូរគមនាគមន៍ (Cellcard, Smart, Metfone): អាចប្រើប្រាស់បច្ចេកវិទ្យានេះដើម្បីបង្កើតប្រព័ន្ធឆ្លើយតបនិងបញ្ជូនការហៅទូរស័ព្ទស្វ័យប្រវត្តិ (Automated Call Routing) សម្រាប់ឆ្លើយតបទៅនឹងសំណើរបស់អតិថិជន ដែលជួយកាត់បន្ថយបន្ទុករបស់បុគ្គលិកផ្នែក Call Center។
វិស័យធនាគារ និងហិរញ្ញវត្ថុ (ACLEDA, ABA): អាចអនុវត្តការស្រង់ចេញព័ត៌មាន (Named Entity Extraction) ដើម្បីទាញយកលេខគណនី ឬចំនួនទឹកប្រាក់ពីការនិយាយផ្ទាល់របស់អតិថិជន ជំនួសឱ្យការចុចលេខលើអេក្រង់។
ការស្រាវជ្រាវភាសាខ្មែរ (NLP Research for Khmer): ការប្រើប្រាស់វិធីសាស្ត្រទាញយកសូរសព្ទបឋម (Acoustic Morphemes) គឺស័ក្តិសមបំផុតសម្រាប់ការអភិវឌ្ឍន៍ប្រព័ន្ធ AI សម្រាប់ភាសាខ្មែរ ព្រោះវាមិនទាមទារការសរសេរអត្ថបទចម្លងដោយដៃដែលចំណាយថវិកា និងពេលវេលាច្រើន។

ជារួម បច្ចេកទេសក្នុងនិក្ខេបបទនេះផ្តល់នូវដំណោះស្រាយដ៏មានប្រសិទ្ធភាពក្នុងការកសាងប្រព័ន្ធ AI ឆ្លើយតបសំឡេងសម្រាប់អាជីវកម្មនៅកម្ពុជា ដោយកាត់បន្ថយការពឹងផ្អែកលើការរៀបចំទិន្នន័យអត្ថបទដ៏លំបាក។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះផ្នែកកែច្នៃសំឡេង: និស្សិតគួរចាប់ផ្តើមស្រាវជ្រាវពីដំណើរការបំប្លែងសំឡេងទៅជាសូរសព្ទ (Phone recognition) ដោយសាកល្បងប្រើប្រាស់ឧបករណ៍ Kaldi ឬ Wav2Vec ដើម្បីស្វែងយល់ពី Acoustic Modeling។
អនុវត្តការប្រើប្រាស់ Large Margin Classifiers: អនុវត្តការសរសេរកូដបង្វឹកម៉ូដែល AI ដោយប្រើប្រាស់បណ្ណាល័យ Scikit-Learn សម្រាប់ SVM និង XGBoost សម្រាប់ផ្ៀបធៀបសមត្ថភាពនៃការចាត់ថ្នាក់ប្រធានបទលើទិន្នន័យអត្ថបទ។
រៀនបង្កើត Finite State Machines (FSM): សិក្សាពីកញ្ចប់កម្មវិធី OpenFst ដើម្បីបង្កើតម៉ូដែលភាសាសាមញ្ញ និងយល់ដឹងពីរបៀបកំណត់ទីតាំងពាក្យ ឬទិន្នន័យសំខាន់ៗ (Named Entity Localization) តាមរយៈក្បួន Regular Grammar។
បង្កើតគម្រោងសាកល្បងខ្នាតតូច (Prototype): ប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរខ្លីៗប្រហែល ១០០ ទៅ ២០០ ឃ្លាអំពីការហៅទូរស័ព្ទសួរព័ត៌មាន ហើយសាកល្បងទាញយក "Acoustic Morphemes" ដោយប្រើវិធីសាស្ត្រ K-means Clustering តាមការណែនាំក្នុងឯកសារនេះ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Spoken Language Understanding	ដំណើរការដែលប្រព័ន្ធកុំព្យូទ័រវិភាគ និងទាញយកអត្ថន័យពីការនិយាយរបស់មនុស្ស ដើម្បីកំណត់ពីបំណងឬសកម្មភាពដែលអ្នកប្រើប្រាស់ចង់បាន (ឧទាហរណ៍៖ ការចង់បង់ប្រាក់ ឬសួរព័ត៌មាន) បន្ទាប់ពីវាបម្លែងសំឡេងទៅជាអត្ថបទរួច។	វាប្រៀបដូចជាអ្នករត់តុក្នុងភោជនីយដ្ឋានដែលមិនត្រឹមតែស្តាប់លឺអ្វីដែលភ្ញៀវនិយាយប៉ុណ្ណោះទេ តែអាចយល់ពីបំណងថាតើភ្ញៀវចង់កុម្ម៉ង់ម្ហូបអ្វីប្រាកដទោះបីភ្ញៀវនិយាយរអាក់រអួលក៏ដោយ។
Unsupervised Language Model Adaptation	ការបង្វឹកម៉ូដែលភាសារបស់បញ្ញាសិប្បនិម្មិតឱ្យស៊ាំទៅនឹងពាក្យបច្ចេកទេស ឬបរិបទថ្មីៗដោយស្វ័យប្រវត្តិ តាមរយៈការស្តាប់ទិន្នន័យសំឡេងផ្ទាល់ ដោយមិនតម្រូវឱ្យមានមនុស្សសរសេរអត្ថបទចម្លងពីសំឡេងនោះដើម្បីបង្រៀនវាជាមុនឡើយ។	វាប្រៀបដូចជាការស្តាប់បទចម្រៀងភាសាបរទេសរាល់ថ្ងៃរហូតដល់យើងអាចចាប់សម្លេងនិងចង្វាក់បានដោយខ្លួនឯង ទោះបីជាយើងមិនដែលមានអត្ថបទចម្រៀង (Lyrics) មើលក៏ដោយ។
Support Vector Machines	ក្បួនដោះស្រាយផ្នែកបញ្ញាសិប្បនិម្មិតដែលប្រើសម្រាប់ចាត់ថ្នាក់ទិន្នន័យ ដោយស្វែងរកបន្ទាត់ព្រំដែនគណិតវិទ្យាល្អបំផុត (Hyperplane) ដែលអាចញែកទិន្នន័យជាក្រុមផ្សេងៗគ្នាប្រកបដោយប្រសិទ្ធភាពខ្ពស់ និងកាត់បន្ថយភាពច្របូកច្របល់។	វាប្រៀបដូចជាការគូសបន្ទាត់មួយនៅលើតុដើម្បីញែកក្រុមផ្លែប៉ោម និងក្រុមផ្លែក្រូចឱ្យនៅដាច់ពីគ្នាឱ្យបានឆ្ងាយបំផុតតាមដែលអាចធ្វើទៅបាន ដើម្បីកុំឱ្យច្រឡំគ្នានៅពេលក្រោយ។
Named Entity	ពាក្យ ឬកន្សោមពាក្យជាក់លាក់នៅក្នុងប្រយោគដែលតំណាងឱ្យព័ត៌មានគោលដៅសំខាន់ៗ ដែលម៉ាស៊ីនត្រូវទាញយក ដូចជា លេខទូរស័ព្ទ កាលបរិច្ឆេទ ឈ្មោះមនុស្ស ឬចំនួនទឹកប្រាក់ជារូបិយប័ណ្ណផ្សេងៗ។	វាប្រៀបដូចជាការគូសចំណាំពណ៌លឿង (Highlight) តែទៅលើលេខគណនី និងថ្ងៃខែ ដែលមាននៅក្នុងសំបុត្រផ្ទេរប្រាក់ដ៏វែងអន្លាយមួយ ដើម្បីងាយស្រួលយកមកប្រើប្រាស់។
Acoustic Morphemes	កម្រងសូរសព្ទបឋម ដែលប្រព័ន្ធកុំព្យូទ័រទាញយកនិងផ្តុំបញ្ចូលគ្នាដោយស្វ័យប្រវត្តិពីចរន្តសំឡេងជាប់គ្នា ដើម្បីបង្កើតបានជាឯកតាសំឡេងមានអត្ថន័យប្រហាក់ប្រហែលនឹងពាក្យ ដោយវាមិនចាំបាច់ស្គាល់វចនានុក្រមភាសានោះពីមុនមក។	វាប្រៀបដូចជាទារកម្នាក់រៀននិយាយពាក្យ "ម៉ាម៉ា" ដោយគ្រាន់តែស្តាប់ការបញ្ចេញសំឡេងម្តងហើយម្តងទៀតនិងចងចាំទុក ទោះបីជាគេមិនទាន់ស្គាល់អក្ខរក្រម ឬពាក្យពេញលេញក៏ដោយ។
Boosting	បច្ចេកទេសរៀនរបស់ម៉ាស៊ីន (Machine Learning) ដែលយកម៉ូដែលទស្សន៍ទាយខ្សោយៗ និងមិនសូវសុក្រឹតជាច្រើន មកគួបបញ្ចូលគ្នាជាដំណាក់កាល ដើម្បីបង្កើតជាម៉ូដែលរួមមួយដែលរឹងមាំ និងមានភាពច្បាស់លាស់ខ្ពស់។	វាប្រៀបដូចជាការសួរយោបល់ពីមនុស្សជាច្រើននាក់ដែលដឹងរឿងម្នាក់បន្តិចៗ រួចយកចម្លើយពួកគេទាំងអស់មកផ្គុំនិងវិភាគ ដើម្បីទទួលបានសេចក្តីសន្និដ្ឋានមួយដ៏ត្រឹមត្រូវបំផុត។
Finite State Transducer	ម៉ូដែលគណិតវិទ្យាដែលតំណាងឱ្យដំណើរការតក្កវិជ្ជារបស់ម៉ាស៊ីន ក្នុងការផ្លាស់ប្តូរពីស្ថានភាពមួយទៅស្ថានភាពមួយទៀត ក្នុងគោលបំណងបំប្លែងទិន្នន័យពីទម្រង់មួយ (ឧទាហរណ៍៖ អត្ថបទសំឡេងរអាក់រអួល) ទៅជាទម្រង់មួយទៀតដែលមានន័យ និងមានរចនាសម្ព័ន្ធត្រឹមត្រូវ។	វាប្រៀបដូចជាម៉ាស៊ីនលក់ទឹកសុទ្ធស្វ័យប្រវត្តិ ដែលរង់ចាំឆ្លងកាត់ដំណាក់កាលទទួលលុយជាមុនសិន ទើបវាប្តូរស្ថានភាពទៅជាដំណាក់កាលទម្លាក់ដបទឹកមកឱ្យយើង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖