បញ្ហា (The Problem)៖ ការរចនាប្រព័ន្ធសន្ទនាឆ្លើយតបដោយស្វ័យប្រវត្តិ (Spoken Dialogue Systems) សម្រាប់កម្មវិធីថ្មីៗជួបប្រទះនឹងបញ្ហាកង្វះទិន្នន័យ ដោយសារការប្រមូលទិន្នន័យចាំបាច់ត្រូវមានប្រព័ន្ធគំរូជាមុន ដែលទាមទារការចំណាយពេលវេលានិងកម្លាំងពលកម្មខ្ពស់ក្នុងការសរសេរកូដដោយដៃ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្រ 'Bootstrapping' ដោយប្រើប្រាស់ទិន្នន័យបរិមាណតិចតួចពីការពិសោធន៍ Wizard-of-Oz (WOZ) ដើម្បីបង្កើតបរិយាកាសសិក្សាក្លែងធ្វើមួយសម្រាប់បណ្តុះបណ្តាលប្រព័ន្ធឆ្លើយតបមុនពេលមានប្រព័ន្ធជាក់ស្តែង។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Reinforcement Learning (RL) Policy យុទ្ធសាស្ត្ររៀនតាមបែបពង្រឹង (RL) |
អាចសម្របខ្លួនទៅនឹងស្ថានភាពថ្មីៗបានល្អ និងស្វែងរកយុទ្ធសាស្ត្រដែលប្រសើរបំផុត (Globally optimal) ស្របតាមចំណង់ចំណូលចិត្តអ្នកប្រើប្រាស់ពិតប្រាកដ។ វាអនុញ្ញាតឱ្យប្រព័ន្ធធ្វើការសម្រេចចិត្តដោយថ្លឹងថ្លែងរវាងប្រវែងនៃការសន្ទនានិងបរិមាណព័ត៌មានដែលត្រូវបង្ហាញ។ | ទាមទារការរៀបចំបរិយាកាសក្លែងធ្វើ (Simulated environment) ដែលមានភាពស្មុគស្មាញ និងការកំណត់មុខងាររង្វាន់ (Reward function) ដែលត្រូវការការយកចិត្តទុកដាក់ខ្ពស់ដើម្បីចៀសវាងការវង្វេងគោលដៅ។ | ទទួលបានរង្វាន់ (Reward) ខ្ពស់ជាង ១៨ ដង ពេលសាកល្បងជាមួយអ្នកប្រើប្រាស់ពិត និងទទួលបានពិន្ទុវាយតម្លៃការពេញចិត្តខ្ពស់ជាង ១០%។ |
| Supervised Learning (SL) / Rule-based Baseline ប្រព័ន្ធមូលដ្ឋានរៀនដោយមានការត្រួតពិនិត្យ (SL) |
ងាយស្រួលក្នុងការអនុវត្ត និងអាចចម្លងតាមអាកប្បកិរិយារបស់មនុស្ស (Wizard) បានដោយផ្ទាល់ពីទិន្នន័យដោយមិនត្រូវការបរិយាកាសហ្វឹកហាត់ស្មុគស្មាញ។ | មិនអាចរៀនពីកំហុស ឬសម្របខ្លួនទៅនឹងបរិយាកាសដែលមិនធ្លាប់មានក្នុងទិន្នន័យហ្វឹកហាត់ ហើយតែងតែជាប់គាំងក្នុងយុទ្ធសាស្ត្រដែលមិនល្អបំផុត (ឧទាហរណ៍៖ បង្ហាញព័ត៌មានវែងពេក)។ | ទទួលបានពិន្ទុទាបពីអ្នកប្រើប្រាស់ផ្នែកភាពងាយស្រួលក្នុងការបំពេញការងារ និងមានភាពយឺតយ៉ាវដោយសារតែប្រព័ន្ធបង្ហាញបញ្ជីឈ្មោះវែងពេករហូតដល់ទៅជាង ៥០ ជម្រើស។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារទិន្នន័យពីការពិសោធន៍ស្តង់ដារក្នុងបរិមាណតិចតួច ប៉ុន្តែវាទាមទារការប្រើប្រាស់កម្លាំងម៉ាស៊ីននិងកម្មវិធីឯកទេសសម្រាប់ការក្លែងធ្វើ។
ការសិក្សានេះប្រមូលទិន្នន័យពីអ្នកប្រើប្រាស់ជានិស្សិតសាកលវិទ្យាល័យ (អាយុ ២០-៤០ ឆ្នាំ) នៅក្នុងមន្ទីរពិសោធន៍ ជាភាសាអាល្លឺម៉ង់ និងអង់គ្លេស ដោយផ្តោតលើការបញ្ជាម៉ាស៊ីនចាក់ចម្រៀងក្នុងរថយន្ត។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តម៉ូដែលនេះត្រូវប្រឈមនឹងបញ្ហាកង្វះខាតប្រព័ន្ធសម្គាល់សំឡេង (ASR) និងប្រព័ន្ធបញ្ចេញសំឡេង (TTS) ជាភាសាខ្មែរដែលមានគុណភាពខ្ពស់ ព្រមទាំងភាពខុសគ្នានៃវប្បធម៌ក្នុងការទំនាក់ទំនងជាមួយម៉ាស៊ីន។
ទោះបីជាប្រព័ន្ធសំឡេងជាភាសាខ្មែរនៅមានកម្រិត ការប្រើងបច្ចេកទេស Bootstrapping ពីទិន្នន័យ WOZ នេះមានតម្លៃខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធឆ្លើយតបអត្ថបទ (Text-based Chatbots) នៅកម្ពុជា។
សរុបមក វិធីសាស្ត្រនៃការប្រើប្រាស់ទិន្នន័យតិចតួចដើម្បីបង្ហាត់ម៉ូដែលក្លែងធ្វើនេះ នឹងជួយស្ថាប័នកម្ពុជាកាត់បន្ថយការចំណាយក្នុងការបង្កើត Chatbots ប្រកបដោយភាពឆ្លាតវៃ ដោយមិនចាំបាច់រង់ចាំប្រមូលទិន្នន័យសន្ទនារាប់ម៉ឺនប្រយោគពីមុនឡើយ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Wizard-of-Oz (WOZ) | ជាវិធីសាស្ត្រពិសោធន៍មួយដែលមនុស្សដើរតួជាកុំព្យូទ័រ (លាក់មុខ) ដើម្បីឆ្លើយតបទៅនឹងអ្នកប្រើប្រាស់ ដោយធ្វើឱ្យអ្នកប្រើប្រាស់គិតថាពួកគេកំពុងសន្ទនាជាមួយប្រព័ន្ធស្វ័យប្រវត្តិ។ គេប្រើវាដើម្បីប្រមូលទិន្នន័យពីរបៀបដែលមនុស្សសន្ទនាជាមួយម៉ាស៊ីនមុនពេលប្រព័ន្ធពិតប្រាកដត្រូវបានបង្កើត។ | ដូចជាការលេងអាយ៉ង ដែលមានមនុស្សពួននៅពីក្រោយឆាកជាអ្នកបញ្ជា តែអ្នកមើលស្មានថាអាយ៉ងនោះមានជីវិតពិតមែន។ |
| Reinforcement Learning (RL) | ជាក្បួនដោះស្រាយនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលរៀនតាមរយៈការសាកល្បងនិងកំហុស (trial and error)។ ប្រព័ន្ធរៀនជ្រើសរើសសកម្មភាពណាដែលទទួលបានរង្វាន់ (reward) ច្រើនជាងគេ និងស្វែងរកវិធីចៀសវាងសកម្មភាពដែលនាំឱ្យត្រូវពិន័យដើម្បីសម្រេចគោលដៅធំ។ | ដូចជាការបង្ហាត់សត្វឆ្កែ ពេលវាធ្វើត្រូវយើងឲ្យចំណីជាការលើកទឹកចិត្ត ពេលវាធ្វើខុសយើងស្តីបន្ទោស ដើម្បីឲ្យវាចងចាំទម្លាប់ល្អ។ |
| Markov Decision Process (MDP) | ជាទម្រង់គណិតវិទ្យាសម្រាប់ធ្វើសេចក្តីសម្រេចចិត្តជាជំហានៗ ដោយផ្អែកលើស្ថានភាពបច្ចុប្បន្ន (State) ដោយសន្មតថាអនាគតអាស្រ័យតែលើបច្ចុប្បន្នភាពប៉ុណ្ណោះ មិនមែនប្រវត្តិអតីតកាលទាំងមូលឡើយ។ ក្នុងប្រព័ន្ធសន្ទនា គេប្រើវាដើម្បីគណនាថាគួរជ្រើសរើសចម្លើយតបបែបណាទើបល្អបំផុត។ | ដូចជាការលេងអុក អ្នកសម្រេចចិត្តដើរកូនអុកបន្ទាប់ដោយមើលលើទីតាំងកូនអុកបច្ចុប្បន្ន មិនចាំបាច់ត្រូវដឹងពីគ្រប់ជំហានដែលដៃគូបានដើរតាំងពីដើមហ្គេមនោះទេ។ |
| Reward Function | ជាមុខងារគណិតវិទ្យាដែលផ្តល់ពិន្ទុវិជ្ជមាន (រង្វាន់) ឬអវិជ្ជមាន (ពិន័យ) ទៅដល់ប្រព័ន្ធបញ្ញាសិប្បនិម្មិត រាល់ពេលដែលវាធ្វើសកម្មភាពអ្វីមួយ។ វាដើរតួជាត្រីវិស័យកំណត់ទិសដៅ ដែលប្រព័ន្ធត្រូវប្រឹងប្រែងដើម្បីទទួលបានពិន្ទុសរុបខ្ពស់បំផុត។ | ដូចជាប្រព័ន្ធដាក់ពិន្ទុក្នុងហ្គេម បើយើងសម្លាប់សត្រូវយើងបានពិន្ទុ តែបើដើរធ្លាក់ទឹកយើងនឹងត្រូវដកពិន្ទុ។ |
| Dialogue Policy | ជាយុទ្ធសាស្ត្រ ឬក្បួនច្បាប់កណ្តាលដែលប្រព័ន្ធឆ្លាតវៃប្រើសម្រាប់សម្រេចចិត្តថាតើត្រូវផ្តល់ព័ត៌មាន បញ្ជាក់សំណួរ ឬសួរសំណួរបន្ថែមទៅកាន់អ្នកប្រើប្រាស់ អាស្រ័យលើបរិបទនៃការសន្ទនាជាក់ស្តែង។ | ដូចជាសៀវភៅណែនាំ (Script) សម្រាប់បុគ្គលិកសេវាកម្មអតិថិជន ដែលប្រាប់ថាពេលភ្ញៀវសួរបែបនេះ តើគួរឆ្លើយតបបែបណាវិញទើបឆាប់ដោះស្រាយបញ្ហាចេញ។ |
| Bootstrapping | ក្នុងបរិបទនៃការរៀនរបស់ម៉ាស៊ីន គឺជាការប្រើប្រាស់ទិន្នន័យបឋមក្នុងបរិមាណតិចតួចបំផុត (ដូចជាពីការពិសោធន៍ WOZ) ដើម្បីបង្កើតជាបរិយាកាសក្លែងធ្វើមួយ ដែលអនុញ្ញាតឱ្យកម្មវិធីរៀនសូត្របន្តដោយខ្លួនឯងរហូតដល់មានសមត្ថភាពពេញលេញ។ | ដូចជាការរុញរទេះឲ្យរមៀលពីលើចំណោត ពេលយើងរុញត្រឹមតែបន្តិច (ផ្តល់ទិន្នន័យតិចតួច) រទេះនោះនឹងមានសន្ទុះរមៀលបន្តដោយខ្លួនឯងបាន។ |
| State Space | ជាបណ្តុំនៃគ្រប់លទ្ធភាព និងស្ថានភាពទាំងអស់ដែលអាចកើតមានឡើងក្នុងប្រព័ន្ធអន្តរកម្ម។ នៅក្នុងការសន្ទនា វាផ្ទុកនូវព័ត៌មានដូចជា ប្រវត្តិសំណួរដែលបានសួររួច ចំនួនលទ្ធផលដែលរកឃើញនៅក្នុងទិន្នន័យ និងកម្រិតភាពច្បាស់លាស់នៃអ្វីដែលអ្នកប្រើប្រាស់ចង់បាន។ | ដូចជាផែនទីទីតាំងទាំងអស់នៅក្នុងវីដេអូហ្គេម ដែលប្រព័ន្ធត្រូវដឹងថាតួអង្គកំពុងឈរនៅត្រង់ចំណុចណាពិតប្រាកដ និងមានឧបសគ្គអ្វីខ្លះនៅជុំវិញ។ |
| Supervised Learning | ជាវិធីសាស្ត្របង្រៀនម៉ាស៊ីន (Machine Learning) ដែលតម្រូវឱ្យមនុស្សផ្តល់ទិន្នន័យគំរូដែលមានចម្លើយស្រាប់ៗទៅឱ្យកុំព្យូទ័រ ដើម្បីឱ្យវារៀនចាប់យកទម្រង់ (pattern) ចម្លងតាម និងអាចទស្សន៍ទាយចម្លើយសម្រាប់ទិន្នន័យថ្មីៗ។ | ដូចជាគ្រូបង្រៀនសិស្សដោយបង្ហាញលំហាត់គណិតដែលមានចម្លើយស្រាប់ ដើម្បីឱ្យសិស្សមើលយល់ពីរបៀបធ្វើ ហើយអាចយកទៅដោះស្រាយលំហាត់ថ្មីៗដោយខ្លួនឯងបាន។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖