បញ្ហា (The Problem)៖ ប្រព័ន្ធសន្ទនាដោយសំឡេង (Spoken Dialogue Systems) ជាទូទៅប្រើប្រាស់សំឡេងសំយោគដែលខ្វះភាពរលូនតាមបរិបទ ហើយការប្រើប្រាស់មែកធាងសម្រេចចិត្តធម្មតាច្រើនតែជួបបញ្ហាទិន្នន័យមិនមានតុល្យភាពនៅពេលអនុវត្តលើដែនកំណត់ (domain) ថ្មី។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្របណ្តុះបណ្តាលសម្របតាមបរិបទជាមួយមែកធាងសម្រេចចិត្តបែបបំបែកកត្តា ហើយធ្វើតេស្តវាយតម្លៃប្រៀបធៀបទៅនឹងប្រព័ន្ធគោលធម្មតា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Standard Decision Trees (Baseline) ការប្រើប្រាស់មែកធាងការសម្រេចចិត្តស្តង់ដារ |
ងាយស្រួលក្នុងការអភិវឌ្ឍដោយបញ្ចូលលក្ខណៈបរិបទទាំងអស់ទៅក្នុងម៉ូដែលតែមួយ។ ដំណើរការបានល្អសម្រាប់ប្រធានបទដែលមានទិន្នន័យហ្វឹកហាត់គ្រប់គ្រាន់ (In-domain)។ | មិនមានតុល្យភាពក្នុងការរៀនពីទិន្នន័យ ធ្វើឱ្យគុណភាពសំឡេងធ្លាក់ចុះនៅពេលយកទៅអនុវត្តលើប្រធានបទថ្មីដែលមិនសូវមានទិន្នន័យ (Out-of-domain)។ | ទទួលបានការពេញចិត្តត្រឹមតែ ៣៣,៦% ប៉ុណ្ណោះ សម្រាប់ការសន្ទនាក្រៅដែនកំណត់ (Appointment Booking)។ |
| Context Adaptive Training with Factorized Decision trees (FD-CAT) ការបណ្តុះបណ្តាលសម្របតាមបរិបទដោយប្រើមែកធាងបំបែកកត្តា |
អាចបំបែកកត្តាខ្លាំង (សូរសព្ទ) និងកត្តាខ្សោយ (បរិបទសន្ទនា/ការសង្កត់សំឡេង) ដាច់ពីគ្នា។ រក្សាបាននូវគុណភាពសំឡេង និងភាពរលូន សូម្បីតែក្នុងដែនថ្មីដែលខ្វះទិន្នន័យក៏ដោយ។ | ទាមទារការរៀបចំទិន្នន័យលម្អិត និងបច្ចេកទេសបណ្តុះបណ្តាលម៉ូដែលស្មុគស្មាញជាងមុន (ប្រើប្រាស់ MLLR)។ | ទទួលបានការពេញចិត្ត ៤៦,៥% សម្រាប់ប្រធានបទក្រៅដែនកំណត់ ដោយឈ្នះប្រព័ន្ធគោលយ៉ាងច្បាស់លាស់។ |
| Neutral Voice សំឡេងអព្យាក្រឹត (មិនមានបរិបទសន្ទនា) |
ងាយស្រួលបំផុតក្នុងការបង្កើត ព្រោះមិនត្រូវការទិន្នន័យស្តីពីអារម្មណ៍ ឬប្រភេទនៃការសន្ទនា។ | ស្តាប់ទៅរឹង និងមិនមានលក្ខណៈធម្មជាតិនៅពេលប្រើប្រាស់ក្នុងប្រព័ន្ធសន្ទនាឆ្លើយឆ្លងពិតប្រាកដ។ | ចាញ់ប្រព័ន្ធ FD-CAT យ៉ាងខ្លាំង (ទទួលបានការពេញចិត្តត្រឹម ៣៤,៥% ធៀបនឹង ៥៤,៩% របស់ FD-CAT)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារមិនបានបញ្ជាក់លម្អិតពីទំហំកុំព្យូទ័រដែលត្រូវប្រើទេ ប៉ុន្តែផ្អែកលើវិធីសាស្ត្រ HMM ទាមទារធនធានកម្រិតមធ្យម និងទិន្នន័យសំឡេងដែលមានការរៀបចំច្បាស់លាស់។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសំឡេងភាសាអង់គ្លេសដែលថតដោយអ្នកនិយាយតែម្នាក់ (RJS voice) សម្រាប់វិស័យព័ត៌មានភោជនីយដ្ឋាន។ ទិន្នន័យនេះមិនតំណាងឱ្យភាពចម្រុះនៃគ្រាមភាសា ភេទ ឬភាសាដទៃទៀតឡើយ។ សម្រាប់ប្រទេសកម្ពុជា ការយកមកអនុវត្តតម្រូវឱ្យមានការប្រមូលទិន្នន័យសំឡេងសន្ទនាភាសាខ្មែរដែលមានការសង្កត់សំឡេងនិងបរិបទច្បាស់លាស់ ដែលបច្ចុប្បន្ននៅខ្វះខាតខ្លាំង។
វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់សម្រាប់អភិវឌ្ឍប្រព័ន្ធឆ្លើយតបអូតូម៉ាត (Voicebots) នៅកម្ពុជា ដោយសារវាជួយឱ្យសំឡេងស្តាប់ទៅធម្មជាតិ និងអាចប្រើឆ្លងវិស័យបាន។
សរុបមក ការប្រើប្រាស់បច្ចេកទេស FD-CAT អាចជួយឱ្យស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាអភិវឌ្ឍប្រព័ន្ធសន្ទនាឆ្លាតវៃ (SDS) ដែលមានសម្លេងប្រាកដនិយម ចំណាយតិចលើការថតសំឡេង និងអាចពង្រីកទៅកាន់វិស័យផ្សេងៗបានងាយស្រួល។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Factorized Decision Trees | ជាបច្ចេកទេសប្រើប្រាស់មែកធាងការសម្រេចចិត្តដោយបំបែកកត្តាផ្សេងៗគ្នា (ដូចជាកត្តាសូរសព្ទ និងកត្តាបរិបទ/ការសង្កត់សំឡេង) ដាច់ពីគ្នា ហើយទើបច្របាច់បញ្ចូលគ្នាវិញ ដើម្បីចៀសវាងបញ្ហាទិន្នន័យមិនមានតុល្យភាពក្នុងការបង្ហាត់ម៉ូដែល។ | ដូចជាការបំបែកការរៀនធ្វើម្ហូបជាពីរផ្នែកដាច់ពីគ្នា គឺរៀនពីរបៀបធ្វើគ្រឿងផ្សំគោល និងរៀនពីរបៀបថែមថយរសជាតិ ដើម្បីងាយស្រួលយកចំណេះដឹងទាំងពីរទៅច្នៃប្រឌិតមុខម្ហូបថ្មីៗ។ |
| Context Adaptive Training | ជាការបណ្តុះបណ្តាលម៉ូដែលកុំព្យូទ័រឱ្យចេះបត់បែន និងផ្លាស់ប្តូរលក្ខណៈសំឡេងរបស់វាដោយស្វ័យប្រវត្តិ ទៅតាមបរិបទនៃការសន្ទនា ឬកត្តាខ្សោយៗផ្សេងទៀត (Weak context factors)។ | ដូចជាមនុស្សដែលចេះផ្លាស់ប្តូរសម្លេង និងទឹកមុខទៅតាមស្ថានភាពជាក់ស្តែង ដូចជាពេលនិយាយលេងសើច និងពេលនិយាយការងារផ្លូវការ។ |
| Hidden Markov Models (HMM) | ជាម៉ូដែលស្ថិតិដែលគេប្រើជាទូទៅក្នុងការសំយោគ និងចាប់សញ្ញាសំឡេង ដែលវាធ្វើការផ្លាស់ប្តូរ និងព្យាករណ៍ពីសូរសព្ទបន្តបន្ទាប់គ្នាដោយផ្អែកលើទ្រឹស្តីប្រូបាប៊ីលីតេ។ | ដូចជាការទាយអាកាសធាតុថ្ងៃស្អែក ដោយពឹងផ្អែកលើទិន្នន័យអាកាសធាតុថ្ងៃនេះ និងច្បាប់នៃការព្យាករណ៍ដែលធ្លាប់កើតមានកន្លងមក។ |
| Spoken Dialogue Systems (SDS) | ជាប្រព័ន្ធកុំព្យូទ័រដែលអនុញ្ញាតឱ្យមនុស្សធ្វើអន្តរកម្ម ឬបញ្ជាម៉ាស៊ីនតាមរយៈការនិយាយឆ្លើយឆ្លងគ្នាដោយផ្ទាល់ ឧទាហរណ៍ដូចជាប្រព័ន្ធសេវាកម្មអតិថិជនស្វ័យប្រវត្តិ។ | ដូចជាការខលទូរស័ព្ទទៅនិយាយជាមួយភ្នាក់ងារបម្រើអតិថិជន ប៉ុន្តែជាក់ស្តែងអ្នកកំពុងនិយាយឆ្លើយឆ្លងជាមួយប្រព័ន្ធបញ្ញាសិប្បនិម្មិត (AI)។ |
| Concept-To-Speech (CTS) | ជាវិធីសាស្ត្រនៃការសំយោគសំឡេងដោយមិនត្រឹមតែបំប្លែងអត្ថបទទៅជាសំឡេងប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងយកព័ត៌មានអត្ថន័យ និងបរិបទប្រយោគ (Semantic information) មកជួយកំណត់ការលើកដាក់សំឡេងឱ្យកាន់តែសមរម្យ។ | ដូចជាអ្នកអានរឿងនិទានដែលយល់ពីសាច់រឿង និងអារម្មណ៍តួអង្គ រួចបញ្ចេញសម្លេងបានយ៉ាងរស់រវើក មិនមែនគ្រាន់តែអានអក្សរស្ងួតៗនោះទេ។ |
| F0 contours | គឺជាខ្សែខ្សែកោងដែលតំណាងឱ្យបំរែបំរួលនៃប្រេកង់មូលដ្ឋាន (Fundamental Frequency) របស់សំឡេង ដែលជាទូទៅវាឆ្លុះបញ្ចាំងពីការលើកដាក់សំឡេងខ្ពស់ទាប (Pitch) នៅក្នុងការនិយាយ។ | ដូចជាគំនូសរលកតន្ត្រីនៅលើអេក្រង់ ដែលលោតឡើងចុះៗ បង្ហាញពីកម្រិតសម្លេងធ្ងន់ស្រាល ពេលអ្នកកំពុងច្រៀង ឬនិយាយ។ |
| Out-of-domain | សំដៅលើការយកម៉ូដែលកុំព្យូទ័រដែលបានបង្ហាត់លើទិន្នន័យប្រធានបទមួយរួចហើយ (ឧទាហរណ៍៖ ការកក់ភោជនីយដ្ឋាន) ទៅសាកល្បងប្រើប្រាស់ជាមួយប្រធានបទមួយទៀតដែលវាមិនធ្លាប់ជួប ឬមានទិន្នន័យហ្វឹកហាត់តិចតួច (ឧទាហរណ៍៖ ការកក់ការណាត់ជួបពេទ្យ)។ | ដូចជាសិស្សដែលរៀនពូកែតែមុខវិជ្ជាគណិតវិទ្យា តែត្រូវគេតម្រូវឱ្យទៅប្រឡងមុខវិជ្ជាប្រវត្តិវិទ្យាដែលខ្លួនមិនសូវបានរៀនសោះ។ |
| MLLR adaptive training | Maximum Likelihood Linear Regression (MLLR) គឺជាបច្ចេកទេសគណិតវិទ្យាក្នុងការកែប្រែប៉ារ៉ាម៉ែត្រនៃម៉ូដែលសំឡេង (Mean និង Covariance) ឱ្យស៊ីសង្វាក់ទៅនឹងលក្ខណៈសំឡេងថ្មី ដោយប្រើប្រាស់សមីការលីនេអ៊ែរ ដើម្បីសន្សំសំចៃទិន្នន័យបណ្តុះបណ្តាល។ | ដូចជាការសារ៉េបង្វិលប៊ូតុងអង់តែនវិទ្យុបន្តិចម្តងៗ ដើម្បីចាប់ប៉ុស្តិ៍ថ្មីមួយទៀតឱ្យបានច្បាស់ល្អ ដោយមិនបាច់ដោះដូរម៉ាស៊ីនវិទ្យុថ្មី។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖