បញ្ហា (The Problem)៖ និក្ខេបបទនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការបង្កើតប្រព័ន្ធសន្ទនាតាមរយៈការនិយាយ (Spoken Dialogue Systems) ដោយផ្តោតលើការគ្រប់គ្រងភាពមិនច្បាស់លាស់នៃទិន្នន័យ និងការពឹងផ្អែកខ្លាំងលើវិធាន (Rules) ដែលត្រូវបង្កើតដោយដៃនៅក្នុងផ្នែកយល់ដឹងភាសាធម្មជាតិ។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះប្រើប្រាស់វិធីសាស្ត្រស្ថិតិដែលយកចេញពីការបកប្រែម៉ាស៊ីន និងការរៀនម៉ាស៊ីន ដើម្បីបង្កើតម៉ូដែលសម្រាប់សមាសភាគនីមួយៗនៃប្រព័ន្ធសន្ទនា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Source-Channel Paradigm (Alignment Templates) វិធីសាស្ត្រ Source-Channel ផ្អែកលើទម្រង់តម្រឹម (Alignment Templates) |
អនុញ្ញាតឱ្យមានការតម្រឹមពាក្យពីច្រើនទៅច្រើន (Many-to-many) និងអាចប្រើប្រាស់បច្ចេកទេសបកប្រែម៉ាស៊ីនស្តង់ដារបានយ៉ាងងាយស្រួល។ | ពិបាកក្នុងការបញ្ចូលប្រភពចំណេះដឹងថ្មីៗបន្ថែមទៅក្នុងម៉ូដែល ហើយវាងាយរងផលប៉ះពាល់ដោយសារពាក្យដែលមិនមានក្នុងវចនានុក្រម (Unknown words)។ | ទទួលបានអត្រាកំហុសទិន្នន័យ (Slot-ER) ១៤.១% លើទិន្នន័យសម្លេងនៃកម្រងទិន្នន័យ TELDIR។ |
| Maximum Entropy Model (Direct Model) ម៉ូដែលអង់ត្រូពីអតិបរមាផ្ទាល់ (Maximum Entropy) |
ធ្វើគំរូប្រូបាប៊ីលីតេផ្ទាល់ដែលអាចបញ្ចូលលក្ខណៈពិសេស (Feature functions) ចម្រុះបានយ៉ាងងាយ និងមានភាពរឹងមាំទោះបីជាមានទិន្នន័យហ្វឹកហាត់តិចតួចក៏ដោយ។ | ទាមទារការកំណត់ការតម្រឹម (Alignments) ឱ្យបានច្បាស់លាស់ជាមុន មុនពេលចាប់ផ្តើមបង្វឹក និងអាចជួបបញ្ហា Overfitting ប្រសិនបើគ្មានការធ្វើឱ្យរលោង (Smoothing) ត្រឹមត្រូវ។ | អត្រាកំហុសទិន្នន័យ (Slot-ER) ធ្លាក់ចុះមកត្រឹម ១០.៦% ល្អជាងវិធីសាស្ត្រ Alignment Templates យ៉ាងច្បាស់។ |
| Minimum Error Rate Training (MERT) ការហ្វឹកហាត់អត្រាកំហុសអប្បបរមា (MERT) |
ភ្ជាប់ប្រព័ន្ធសម្គាល់សម្លេង (ASR) និងការយល់ដឹងភាសា (NLU) បញ្ចូលគ្នា ដើម្បីកាត់បន្ថយទាំងអត្រាកំហុសពាក្យ (WER) និងអត្រាកំហុសទិន្នន័យ (Slot-ER) ក្នុងពេលតែមួយ។ | ក្បួនដោះស្រាយការធ្វើឱ្យប្រសើរ (Optimization) អាចជាប់គាំងនៅត្រឹមកម្រិតប្រសើរបំផុតមូលដ្ឋាន (Local optima) និងត្រូវការការគណនាស្មុគស្មាញលើ N-best lists។ | កាត់បន្ថយអត្រាកំហុសពាក្យ (WER) ពី ១៣.៦% ទៅ ១២.៣% និង Slot-ER ពី ១០.៦% ទៅ ៩.៦% លើទិន្នន័យ TELDIR។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រល្មម (Hardware សម័យឆ្នាំ ២០០៩) ប៉ុន្តែទាមទារចំណេះដឹងក្នុងការសរសេរកូដចងក្រងកម្រិតខ្ពស់ និងទិន្នន័យអត្ថបទដែលបានកត់ត្រាអត្ថន័យរួច។
ការស្រាវជ្រាវនេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យភាសាអាល្លឺម៉ង់ (German in-house corpora ដូចជា TELDIR និង TABA) ដែលផ្តោតលើការសាកសួរលេខទូរស័ព្ទ និងកាលវិភាគរថភ្លើងដោយពលរដ្ឋអឺរ៉ុប។ សម្រាប់ប្រទេសកម្ពុជា ការទាញយកម៉ូដែលនេះមកអនុវត្តផ្ទាល់នឹងជួបប្រឈមដោយសារភាសាខ្មែរគ្មានការដកឃ្លារវាងពាក្យ (No word segmentation) និងមានទម្រង់វេយ្យាករណ៍ខុសគ្នា ដែលទាមទារការរៀបចំទិន្នន័យ (Preprocessing) ជាពិសេស។
ទោះបីជាវិធីសាស្ត្រនេះត្រូវបានធ្វើតេស្តលើភាសាអាល្លឺម៉ង់ក៏ដោយ ក៏ស្ថាបត្យកម្មផ្អែកលើស្ថិតិ (Maximum Entropy) និងប្រព័ន្ធសន្ទនាផ្អែកលើមែកធាង អាចយកមកអនុវត្តប្រកបដោយប្រសិទ្ធភាពសម្រាប់ការបង្កើតប្រព័ន្ធឆ្លើយតបស្វ័យប្រវត្តិនៅកម្ពុជា។
ការប្រើប្រាស់វិធីសាស្ត្រកាត់បន្ថយកំហុសរួម (MERT) និងការគ្រប់គ្រងសន្ទនាដោយមិនពឹងផ្អែកលើដែនកំណត់ (Domain-independent) អាចជួយឱ្យស្ថាប័នកម្ពុជាសន្សំសំចៃពេលវេលា និងថវិកាក្នុងការបង្កើតប្រព័ន្ធ AI ឆ្លាតវៃថ្មីៗ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Maximum Entropy Model | ជាម៉ូដែលស្ថិតិមួយដែលប្រើប្រាស់សម្រាប់ទស្សន៍ទាយលទ្ធផល (ដូចជាការបែងចែកអត្ថន័យនៃប្រយោគ) ដោយផ្អែកលើទិន្នន័យលក្ខណៈពិសេសដែលបានផ្តល់ឱ្យ ប៉ុន្តែរក្សាភាពមិនលំអៀងចំពោះអ្វីដែលវាមិនដឹង ដោយបង្កើតការសន្មត់តិចតួចបំផុតចំពោះទិន្នន័យដែលនៅសល់ (រក្សាភាពវឹកវរ ឬ Entropy ឱ្យខ្ពស់បំផុត)។ | វាដូចជាការទស្សន៍ទាយអាកាសធាតុដោយប្រើតែព័ត៌មានដែលយើងច្បាស់១០០% (ឧ. មេឃងងឹតមានន័យថាអាចភ្លៀង) ហើយមិនធ្វើការសន្និដ្ឋានផ្តេសផ្តាសលើអ្វីដែលយើងមិនមានភស្តុតាង (ឧ. មិនសន្មត់ថាវានឹងភ្លៀងនៅម៉ោង២ បើយើងគ្មានទិន្នន័យម៉ោងពិតប្រាកដ)។ |
| Minimum Error Rate Training (MERT) | ជាក្បួនដោះស្រាយសម្រាប់ថ្លឹងថ្លែងទម្ងន់នៃប្រភពចំណេះដឹងផ្សេងៗ (Feature weights) នៅក្នុងម៉ូដែល Log-linear ដើម្បីកាត់បន្ថយអត្រាកំហុសរួម (ដូចជាកំហុសពាក្យ Word Error Rate ឬកំហុសអត្ថន័យ Slot Error Rate) ឱ្យនៅកម្រិតទាបបំផុតដោយផ្ទាល់ ជំនួសឱ្យការបង្កើនប្រូបាប៊ីលីតេ។ | វាដូចជាការសារ៉េកម្រិតសំឡេងបាសនិងសូកូ (Bass/Treble) លើម៉ាស៊ីនចាក់តន្ត្រីម្តងបន្តិចៗ រហូតដល់អ្នកទទួលបានសម្លេងដែលពីរោះបំផុត និងគ្មានសម្លេងរំខាន។ |
| Source-Channel Paradigm | ជាវិធីសាស្ត្រគណនាបែបប្រូបាប៊ីលីតេក្នុងដំណើរការភាសា ដែលបំបែកបញ្ហាស្វែងរកអត្ថន័យជាពីរផ្នែក៖ ម៉ូដែលភាសាគោលដៅ (Prior probability) និងម៉ូដែលបកប្រែ (Translation probability) ដោយប្រៀបធៀបដំណើរការយល់ដឹងនេះទៅនឹងការកែតម្រូវសារដែលខូចខាតពេលឆ្លងកាត់ប្រព័ន្ធបញ្ជូនរលកសញ្ញា។ | វាដូចជាការព្យាយាមស្តាប់មិត្តភក្តិនិយាយទូរស័ព្ទកាត់កន្លែងដែលមានសម្លេងរំខានខ្លាំង ដោយយើងព្យាយាមទាយពាក្យដែលបាត់ ផ្អែកលើការស្មានទុកជាមុនពីទម្លាប់នៃការនិយាយរបស់គាត់ និងអ្វីដែលយើងបានលឺតិចតួច។ |
| Hidden Markov Model | ម៉ូដែលស្ថិតិដែលប្រើសម្រាប់តំណាងប្រព័ន្ធមួយដែលមានស្ថានភាពផ្លាស់ប្តូរជាបន្តបន្ទាប់ ប៉ុន្តែយើងមិនអាចមើលឃើញស្ថានភាពនោះផ្ទាល់ទេ (Hidden states) គឺអាចមើលឃើញតែលទ្ធផលដែលវាបញ្ចេញមកក្រៅប៉ុណ្ណោះ (Observations)។ វាត្រូវប្រើច្រើនក្នុងការបំប្លែងសម្លេងនិយាយទៅជាអក្សរ។ | វាដូចជាការទស្សន៍ទាយថាមានអ្នកណាម្នាក់កំពុងធ្វើអ្វីនៅក្នុងបន្ទប់បិទជិត (គេង ឬ រត់) ដោយគ្រាន់តែស្តាប់សម្លេងគោះជើងដែលលេចចេញពីក្នុងបន្ទប់នោះ។ |
| Dialogue Manager | សមាសភាគកណ្តាលនៃប្រព័ន្ធសន្ទនាស្វ័យប្រវត្តិ ដែលមានតួនាទីទទួលយកអត្ថន័យបញ្ជាពីអ្នកប្រើប្រាស់ រក្សាទុកប្រវត្តិសន្ទនា វិភាគរកចំណុចខ្វះខាត និងសម្រេចចិត្តថាតើត្រូវឆ្លើយតបបែបណា ឬត្រូវសួរបញ្ជាក់បន្ថែមអំពីព័ត៌មានដែលមិនច្បាស់លាស់។ | វាប្រៀបបាននឹងអ្នកសម្របសម្រួល (MC) ក្នុងកម្មវិធីទូរទស្សន៍ ដែលមានភារកិច្ចស្តាប់សំណួរ គិតរកចម្លើយ និងបោះសំណួរត្រឡប់ទៅអ្នកចួលរួមវិញដើម្បីឱ្យការសន្ទនាដើរទៅមុខដោយរលូន។ |
| Word Graph | ជាទម្រង់រចនាសម្ព័ន្ធទិន្នន័យបណ្តាញ (Directed Acyclic Graph) ដែលផ្ទុកនូវជម្រើសប្រយោគ និងពាក្យជាច្រើនដែលប្រព័ន្ធចំណាំសម្លេងបានស្តាប់លឺ ដោយរក្សាទុកជម្រើសផ្សេងៗគ្នាជំនួសឱ្យការសម្រេចយកតែប្រយោគមួយ ដែលជួយឱ្យប្រព័ន្ធបន្ទាប់អាចយកវាទៅវិភាគបន្តបានលម្អិត។ | វាដូចជាបញ្ជីរាយនាមមុខម្ហូបដែលអាចទៅរួចទាំងអស់ផ្អែកលើសម្លេងរបស់ភ្ញៀវដែលបានកុម្ម៉ង់មិនច្បាស់ ដើម្បីឱ្យមេចុងភៅអាចពិចារណាផ្ទៀងផ្ទាត់ឡើងវិញ មុននឹងសម្រេចចិត្តថាភ្ញៀវពិតជាចង់បានអ្វីឱ្យប្រាកដ។ |
| Feature-Space Maximum Likelihood Linear Regression (F-MLLR) | បច្ចេកទេសគណនាបែបលីនេអ៊ែរដែលប្រើប្រាស់សម្រាប់ផ្លាស់ប្តូរលក្ខណៈទិន្នន័យសម្លេងដោយស្វ័យប្រវត្តិ ដើម្បីសម្របម៉ូដែលទៅនឹងមជ្ឈដ្ឋានជុំវិញ ឬសម្របតាមសម្លេងអ្នកនិយាយថ្មី (Speaker Adaptation) ក្នុងពេលកំពុងសន្ទនាផ្ទាល់។ | វាដូចជាការកែតម្រូវកញ្ចក់កែវយឹតឱ្យច្បាស់ (Focus adjustment) ពេលប្តូរមនុស្សមើល ដើម្បីឱ្យអ្នកប្រើប្រាស់ម្នាក់ៗអាចមើលឃើញទេសភាពច្បាស់ដោយខ្លួនឯង ដោយមិនបាច់ប្តូរកែវយឹតថ្មី។ |
| Viterbi Search | ក្បួនដោះស្រាយសម្រាប់ស្វែងរកផ្លូវ ឬលំដាប់លំដោយនៃស្ថានភាព (States) ដែលមានប្រូបាប៊ីលីតេខ្ពស់ជាងគេបំផុត ក្នុងចំណោមជម្រើសរាប់ពាន់ម៉ឺនជម្រើសនៅក្នុងបណ្តាញក្រាហ្វម៉ាកូវ (Markov models) ដោយវាយកាត់ចោលនូវជម្រើសណាដែលមិនសូវល្អជាបន្តបន្ទាប់ដើម្បីចំណេញពេលវេលាគណនា។ | វាដូចជាការប្រើប្រាស់ Google Maps ដើម្បីគណនាផ្លូវកាត់ ដោយវាវាយតម្លៃនិងលុបចោលផ្លូវដែលស្ទះខ្លាំងដោយស្វ័យប្រវត្តិ ហើយរក្សាទុកតែផ្លូវដែលលឿនបំផុតឆ្ពោះទៅគោលដៅប៉ុណ្ណោះ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖