បញ្ហា (The Problem)៖ ការពឹងផ្អែកលើការចម្លងទិន្នន័យសំឡេងជាអត្ថបទដោយដៃសម្រាប់បង្វឹកម៉ូដែលប្រព័ន្ធយល់ដឹងភាសានិយាយ (SLU) គឺចំណាយប្រាក់ និងពេលវេលាច្រើន។ និក្ខេបបទនេះដោះស្រាយពីរបៀបបង្កើតប្រព័ន្ធ SLU ស្វ័យប្រវត្តិសម្រាប់មជ្ឈមណ្ឌលហៅទូរស័ព្ទ ដោយប្រើតែទិន្នន័យសំឡេង និងម៉ូដែលភាសាដែលមានស្រាប់ដោយមិនចាំបាច់ចម្លងអត្ថបទ។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានប្រើប្រាស់ចំណាត់ថ្នាក់ប្រភេទ Large Margin Classifiers និងការបន្ស៊ាំម៉ូដែលភាសាដោយគ្មានការត្រួតពិនិត្យ លើសំណុំទិន្នន័យ AT&T "How May I Help You?"។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Support Vector Machines (SVM) with Unsupervised LM Adaptation ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ (SVM) ជាមួយនឹងការបន្ស៊ាំម៉ូដែលភាសាដោយគ្មានការត្រួតពិនិត្យ |
ផ្តល់អត្រាភាពត្រឹមត្រូវខ្ពស់បំផុតសម្រាប់ការចាត់ថ្នាក់ប្រភេទហៅទូរស័ព្ទ (Calltype Classification) និងការរកឃើញអង្គភាពមានឈ្មោះ (Named Entities) ប្រៀបធៀបនឹងម៉ូដែលផ្សេងទៀត។ វាអាចគ្រប់គ្រងចំនួនលក្ខណៈពិសេស (Features) យ៉ាងច្រើនបានល្អ។ | ទាមទារពេលវេលាច្រើនក្នុងការបង្វឹកម៉ូដែល (Training) និងការចាត់ថ្នាក់ទិន្នន័យ បើប្រៀបធៀបទៅនឹងក្បួនដោះស្រាយ Boosting។ | សម្រេចបានអត្រាភាពត្រឹមត្រូវ ៨២% សម្រាប់សំណុំទិន្នន័យ HMIHY-3CA និង ៧៣% សម្រាប់ HMIHY-3CI។ |
| Boosting (BoosTexter) with Unsupervised LM Adaptation ក្បួនដោះស្រាយ Boosting (BoosTexter) ជាមួយនឹងការបន្ស៊ាំម៉ូដែលភាសាដោយគ្មានការត្រួតពិនិត្យ |
មានដំណើរការលឿនជាង SVM ទាំងក្នុងពេលបង្វឹក និងពេលចាត់ថ្នាក់ទិន្នន័យជាក់ស្តែង។ វាអាចបង្ហាញយ៉ាងច្បាស់ពីលក្ខណៈពិសេស (N-grams) ដែលត្រូវបានជ្រើសរើសធ្វើជាសូចនាករ។ | ផ្តល់អត្រាភាពត្រឹមត្រូវទាបជាងម៉ូដែល SVM ប្រហែល ៥% ទៅ ១០% នៅក្នុងការសាកល្បងភាគច្រើន។ | សម្រេចបានអត្រាភាពត្រឹមត្រូវ ៦៨% សម្រាប់ការចាត់ថ្នាក់ប្រភេទហៅទូរស័ព្ទលើសំណុំទិន្នន័យ HMIHY-3CI។ |
| Phone-based Classification (No Word Transcriptions) ការចាត់ថ្នាក់ផ្អែកលើសូរសព្ទផ្ទាល់ (មិនប្រើអត្ថបទចម្លងជាពាក្យ) |
មិនតម្រូវឱ្យមានវចនានុក្រមពាក្យ ឬម៉ូដែលភាសាផ្ទៃខាងក្រោយជាមុនឡើយ ដែលស័ក្តិសមបំផុតសម្រាប់ភាសាដែលមានការខ្វះខាតទិន្នន័យ។ | ដំណើរការមិនសូវបានល្អលើការស្វែងរក និងទាញយក Named Entity ខ្លីៗ (ដូចជាកាលបរិច្ឆេទ) បើធៀបនឹងការប្រើអត្ថបទពាក្យពេញលេញ។ | សម្រេចបានអត្រាភាពត្រឹមត្រូវ ៧៤% សម្រាប់ការចាត់ថ្នាក់ប្រភេទហៅទូរស័ព្ទលើ HMIHY-3CI ដោយប្រើប្រាស់ SVM។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះតម្រូវឱ្យមានការប្រើប្រាស់ធនធានកុំព្យូទ័រមធ្យមទៅខ្ពស់ ជាពិសេសសម្រាប់ការដំណើរការបង្វឹកម៉ូដែល SVM និងឧបករណ៍កែច្នៃសំឡេងកម្រិតខ្ពស់។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើសំណុំទិន្នន័យសំឡេងភាសាអង់គ្លេសពីមជ្ឈមណ្ឌលហៅទូរស័ព្ទរបស់ក្រុមហ៊ុន AT&T ក្នុងសហរដ្ឋអាមេរិក។ ទិន្នន័យនេះមានកម្រិតលំអៀងទៅលើការបញ្ចេញសំឡេង បរិបទ និងវាក្យសព្ទផ្តោតលើតែសេវាកម្មទូរស័ព្ទនៅអាមេរិក។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតសំណុំទិន្នន័យសំឡេងភាសាខ្មែរដែលមានទំហំធំ និងភាពខុសគ្នានៃវេយ្យាករណ៍សូរសព្ទ អាចជាបញ្ហាប្រឈមធំក្នុងការអនុវត្តផ្ទាល់។
ទោះបីជាមានបញ្ហាប្រឈមលើធនធានទិន្នន័យភាសាក៏ដោយ វិធីសាស្ត្រក្នុងការយល់ដឹងភាសាដោយមិនបាច់មានអត្ថបទចម្លង (Unsupervised Phone-based SLU) នេះពិតជាមានសក្តានុពលខ្ពស់សម្រាប់ស្ថាប័ននានានៅកម្ពុជា។
ជារួម បច្ចេកទេសក្នុងនិក្ខេបបទនេះផ្តល់នូវដំណោះស្រាយដ៏មានប្រសិទ្ធភាពក្នុងការកសាងប្រព័ន្ធ AI ឆ្លើយតបសំឡេងសម្រាប់អាជីវកម្មនៅកម្ពុជា ដោយកាត់បន្ថយការពឹងផ្អែកលើការរៀបចំទិន្នន័យអត្ថបទដ៏លំបាក។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Spoken Language Understanding | ដំណើរការដែលប្រព័ន្ធកុំព្យូទ័រវិភាគ និងទាញយកអត្ថន័យពីការនិយាយរបស់មនុស្ស ដើម្បីកំណត់ពីបំណងឬសកម្មភាពដែលអ្នកប្រើប្រាស់ចង់បាន (ឧទាហរណ៍៖ ការចង់បង់ប្រាក់ ឬសួរព័ត៌មាន) បន្ទាប់ពីវាបម្លែងសំឡេងទៅជាអត្ថបទរួច។ | វាប្រៀបដូចជាអ្នករត់តុក្នុងភោជនីយដ្ឋានដែលមិនត្រឹមតែស្តាប់លឺអ្វីដែលភ្ញៀវនិយាយប៉ុណ្ណោះទេ តែអាចយល់ពីបំណងថាតើភ្ញៀវចង់កុម្ម៉ង់ម្ហូបអ្វីប្រាកដទោះបីភ្ញៀវនិយាយរអាក់រអួលក៏ដោយ។ |
| Unsupervised Language Model Adaptation | ការបង្វឹកម៉ូដែលភាសារបស់បញ្ញាសិប្បនិម្មិតឱ្យស៊ាំទៅនឹងពាក្យបច្ចេកទេស ឬបរិបទថ្មីៗដោយស្វ័យប្រវត្តិ តាមរយៈការស្តាប់ទិន្នន័យសំឡេងផ្ទាល់ ដោយមិនតម្រូវឱ្យមានមនុស្សសរសេរអត្ថបទចម្លងពីសំឡេងនោះដើម្បីបង្រៀនវាជាមុនឡើយ។ | វាប្រៀបដូចជាការស្តាប់បទចម្រៀងភាសាបរទេសរាល់ថ្ងៃរហូតដល់យើងអាចចាប់សម្លេងនិងចង្វាក់បានដោយខ្លួនឯង ទោះបីជាយើងមិនដែលមានអត្ថបទចម្រៀង (Lyrics) មើលក៏ដោយ។ |
| Support Vector Machines | ក្បួនដោះស្រាយផ្នែកបញ្ញាសិប្បនិម្មិតដែលប្រើសម្រាប់ចាត់ថ្នាក់ទិន្នន័យ ដោយស្វែងរកបន្ទាត់ព្រំដែនគណិតវិទ្យាល្អបំផុត (Hyperplane) ដែលអាចញែកទិន្នន័យជាក្រុមផ្សេងៗគ្នាប្រកបដោយប្រសិទ្ធភាពខ្ពស់ និងកាត់បន្ថយភាពច្របូកច្របល់។ | វាប្រៀបដូចជាការគូសបន្ទាត់មួយនៅលើតុដើម្បីញែកក្រុមផ្លែប៉ោម និងក្រុមផ្លែក្រូចឱ្យនៅដាច់ពីគ្នាឱ្យបានឆ្ងាយបំផុតតាមដែលអាចធ្វើទៅបាន ដើម្បីកុំឱ្យច្រឡំគ្នានៅពេលក្រោយ។ |
| Named Entity | ពាក្យ ឬកន្សោមពាក្យជាក់លាក់នៅក្នុងប្រយោគដែលតំណាងឱ្យព័ត៌មានគោលដៅសំខាន់ៗ ដែលម៉ាស៊ីនត្រូវទាញយក ដូចជា លេខទូរស័ព្ទ កាលបរិច្ឆេទ ឈ្មោះមនុស្ស ឬចំនួនទឹកប្រាក់ជារូបិយប័ណ្ណផ្សេងៗ។ | វាប្រៀបដូចជាការគូសចំណាំពណ៌លឿង (Highlight) តែទៅលើលេខគណនី និងថ្ងៃខែ ដែលមាននៅក្នុងសំបុត្រផ្ទេរប្រាក់ដ៏វែងអន្លាយមួយ ដើម្បីងាយស្រួលយកមកប្រើប្រាស់។ |
| Acoustic Morphemes | កម្រងសូរសព្ទបឋម ដែលប្រព័ន្ធកុំព្យូទ័រទាញយកនិងផ្តុំបញ្ចូលគ្នាដោយស្វ័យប្រវត្តិពីចរន្តសំឡេងជាប់គ្នា ដើម្បីបង្កើតបានជាឯកតាសំឡេងមានអត្ថន័យប្រហាក់ប្រហែលនឹងពាក្យ ដោយវាមិនចាំបាច់ស្គាល់វចនានុក្រមភាសានោះពីមុនមក។ | វាប្រៀបដូចជាទារកម្នាក់រៀននិយាយពាក្យ "ម៉ាម៉ា" ដោយគ្រាន់តែស្តាប់ការបញ្ចេញសំឡេងម្តងហើយម្តងទៀតនិងចងចាំទុក ទោះបីជាគេមិនទាន់ស្គាល់អក្ខរក្រម ឬពាក្យពេញលេញក៏ដោយ។ |
| Boosting | បច្ចេកទេសរៀនរបស់ម៉ាស៊ីន (Machine Learning) ដែលយកម៉ូដែលទស្សន៍ទាយខ្សោយៗ និងមិនសូវសុក្រឹតជាច្រើន មកគួបបញ្ចូលគ្នាជាដំណាក់កាល ដើម្បីបង្កើតជាម៉ូដែលរួមមួយដែលរឹងមាំ និងមានភាពច្បាស់លាស់ខ្ពស់។ | វាប្រៀបដូចជាការសួរយោបល់ពីមនុស្សជាច្រើននាក់ដែលដឹងរឿងម្នាក់បន្តិចៗ រួចយកចម្លើយពួកគេទាំងអស់មកផ្គុំនិងវិភាគ ដើម្បីទទួលបានសេចក្តីសន្និដ្ឋានមួយដ៏ត្រឹមត្រូវបំផុត។ |
| Finite State Transducer | ម៉ូដែលគណិតវិទ្យាដែលតំណាងឱ្យដំណើរការតក្កវិជ្ជារបស់ម៉ាស៊ីន ក្នុងការផ្លាស់ប្តូរពីស្ថានភាពមួយទៅស្ថានភាពមួយទៀត ក្នុងគោលបំណងបំប្លែងទិន្នន័យពីទម្រង់មួយ (ឧទាហរណ៍៖ អត្ថបទសំឡេងរអាក់រអួល) ទៅជាទម្រង់មួយទៀតដែលមានន័យ និងមានរចនាសម្ព័ន្ធត្រឹមត្រូវ។ | វាប្រៀបដូចជាម៉ាស៊ីនលក់ទឹកសុទ្ធស្វ័យប្រវត្តិ ដែលរង់ចាំឆ្លងកាត់ដំណាក់កាលទទួលលុយជាមុនសិន ទើបវាប្តូរស្ថានភាពទៅជាដំណាក់កាលទម្លាក់ដបទឹកមកឱ្យយើង។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖