បញ្ហា (The Problem)៖ ឯកសារនេះពិភាក្សាអំពីរបៀបបកស្រាយ និងប្រើប្រាស់ពិន្ទុទំនុកចិត្តនៃការសម្គាល់សំឡេង (speech recognition confidence scores) នៅក្នុងប្រព័ន្ធសន្ទនា ដើម្បីកែលម្អភាពរឹងមាំ ដោយចោទសួរលើប្រសិទ្ធភាពនៃការប្រើប្រាស់កម្រិតគោល (threshold) ជាទូទៅ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការវាយតម្លៃជាក់ស្តែងលើភាពត្រឹមត្រូវនៃទំនុកចិត្ត ដោយប្រើប្រាស់ប្រព័ន្ធសម្គាល់សំឡេងពាណិជ្ជកម្ម (Nuance 8.0) លើទិន្នន័យនៃការសន្ទនាចំនួន ៤០ ដែលមាន ៤៤៨១ ពាក្យ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Baseline (Accepting all words) កម្រិតមូលដ្ឋាន (ការទទួលយកពាក្យទាំងអស់ដោយមិនមានការទាត់ចោល) |
ងាយស្រួលអនុវត្តដោយមិនចាំបាច់មានការកំណត់កម្រិតគោល (Threshold) ស្មុគស្មាញ។ | ប្រព័ន្ធនឹងទទួលយកកំហុសទាំងអស់ដែលកើតមាន ដែលធ្វើឱ្យការយល់ន័យខុសទាំងស្រុង។ | ទទួលបានភាពត្រឹមត្រូវនៃការសម្គាល់ ៧១.៩% ដោយសារមិនមានការរកឃើញកំហុសទាល់តែសោះ។ |
| Confidence Thresholding (Threshold = 0.4) ការប្រើប្រាស់កម្រិតគោលនៃទំនុកចិត្ត (កំណត់កម្រិតគោលត្រឹម ០.៤) |
ជួយកាត់បន្ថយការទទួលយកពាក្យខុស ដោយទាត់ចោលពាក្យដែលមានពិន្ទុទំនុកចិត្តទាបជាង ០.៤។ | ផ្តល់ភាពប្រសើរឡើងតិចតួចណាស់ ហើយជារឿយៗទាត់ចោលពាក្យដែលប្រព័ន្ធស្តាប់បានត្រឹមត្រូវ (False Rejection)។ | ភាពត្រឹមត្រូវនៃការរកឃើញកំហុសកើនឡើងត្រឹមតែ ៧៦.៤% ប៉ុណ្ណោះ ធៀបនឹងមូលដ្ឋាន ៧១.៩%។ |
| Machine Learning with Augmented Features ការរៀនដោយម៉ាស៊ីនជាមួយនឹងលក្ខណៈពិសេសបន្ថែម (ពិន្ទុទំនុកចិត្ត + សំឡេង + បរិបទ) |
ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងការរកឃើញកំហុស ដោយពិចារណាលើកត្តាច្រើន (ទាញចេញពីការសិក្សា Litman et al.)។ | ទាមទារការបណ្តុះបណ្តាលម៉ូដែលស្មុគស្មាញ និងទិន្នន័យច្រើនដើម្បីដំណើរការបានល្អ។ | ភាពត្រឹមត្រូវនៃការរកឃើញកំហុសកើនឡើងដល់ខ្ពស់រហូតដល់ ៩៣.៤៧% ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះពឹងផ្អែកលើកម្មវិធីពាណិជ្ជកម្មដែលមានស្រាប់ និងមិនទាមទារធនធានកុំព្យូទ័រធំដុំសម្រាប់ការវាយតម្លៃនោះទេ ប៉ុន្តែត្រូវការកម្លាំងពលកម្មមនុស្សសម្រាប់ការប្រមូលទិន្នន័យ។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសំឡេងភាសាស៊ុយអែត ជាមួយនឹងវាក្យសព្ទមានកំណត់ត្រឹមតែ ៣៥២ ពាក្យប៉ុណ្ណោះ នៅក្នុងមន្ទីរពិសោធន៍។ វាមិនឆ្លុះបញ្ចាំងពីភាពស្មុគស្មាញនៃភាសាខ្មែរ ដែលមានទម្រង់សំឡេងស្មុគស្មាញ និងបញ្ហាក្នុងការបែងចែកពាក្យ (Word Segmentation) នោះទេ។ ដូច្នេះ សម្រាប់កម្ពុជា ការទាញយកពិន្ទុទំនុកចិត្តនេះទាមទារទិន្នន័យក្នុងស្រុកបន្ថែមទៀតដើម្បីបញ្ជាក់ពីភាពត្រឹមត្រូវ។
វិធីសាស្ត្រនៃការប្រើប្រាស់ពិន្ទុទំនុកចិត្តជាប្រូបាប៊ីលីតេនេះ មានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធសន្ទនាឆ្លាតវៃ (Spoken Dialogue Systems) នៅកម្ពុជា។
សរុបមក ការបំប្លែងពិន្ទុទំនុកចិត្តទៅជាប្រូបាប៊ីលីតេរួមផ្សំជាមួយបរិបទ និងប្រវែងពាក្យ នឹងជួយឱ្យប្រព័ន្ធ AI ភាសាខ្មែរកាន់តែមានលក្ខណៈធម្មជាតិ និងកាត់បន្ថយភាពធុញថប់របស់អ្នកប្រើប្រាស់។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Confidence score | ជារង្វាស់ប្រូបាប៊ីលីតេដែលប្រព័ន្ធសម្គាល់សំឡេងប្រើដើម្បីបញ្ជាក់ថាវានៅមានភាពប្រាកដប្រជាកម្រិតណាទៅលើពាក្យដែលវាបានស្តាប់ និងបំប្លែងទៅជាអត្ថបទ។ | ដូចជាសិស្សម្នាក់ប្រាប់គ្រូថាគាត់ប្រាកដ ៨០% ថាចម្លើយដែលគាត់បានឆ្លើយគឺពិតជាត្រឹមត្រូវ។ |
| Word error rate (WER) | ជារង្វាស់ស្តង់ដារសម្រាប់វាយតម្លៃប្រព័ន្ធសម្គាល់សំឡេង ដោយគណនាចំនួនពាក្យដែលប្រព័ន្ធស្តាប់ខុស (បន្ថែម បាត់ ឬជំនួសខុស) ចែកនឹងចំនួនពាក្យសរុប។ | ដូចជាការរាប់ចំនួនកំហុសអក្ខរាវិរុទ្ធដែលសិស្សសរសេរតាមអំណានខុស ធៀបនឹងពាក្យសរុបដែលគ្រូបានអានទាំងអស់។ |
| Out of vocabulary (OOV) | ជាពាក្យដែលអ្នកប្រើប្រាស់និយាយ ប៉ុន្តែមិនមាននៅក្នុងវចនានុក្រមទិន្នន័យដែលប្រព័ន្ធបានរៀន ឬស្គាល់ពីមុនមក ដែលធ្វើឱ្យប្រព័ន្ធព្យាយាមទាយចេញជាពាក្យផ្សេងខុសពីការពិត។ | ដូចជាពេលដែលជនបរទេសម្នាក់ឮពាក្យខ្មែរដែលគាត់មិនធ្លាប់រៀនសោះ ហើយគាត់ព្យាយាមទាយថាវាជាពាក្យអ្វីផ្សេងដែលគាត់ធ្លាប់ស្គាល់។ |
| Minimum edit distance | ជាក្បួនគណិតវិទ្យាសម្រាប់គណនាថាតើខ្សែអត្ថបទពីរខុសគ្នាត្រង់ណាខ្លះ ដោយរាប់ចំនួនប្រតិបត្តិការតិចបំផុត (លុប បន្ថែម ឬជំនួស) ដើម្បីបំប្លែងអត្ថបទមួយទៅអត្ថបទមួយទៀត។ | ដូចជាការរាប់ថាតើយើងត្រូវលុប ឬកែអក្សរប៉ុន្មានតួទើបអាចធ្វើឱ្យពាក្យ "cat" ក្លាយជាពាក្យ "bat" (គឺត្រូវការកែ ១ តួអក្សរ)។ |
| Implicit confirmation | ជាយុទ្ធសាស្ត្រសន្ទនាដែលប្រព័ន្ធយកពាក្យដែលវាស្តាប់បាន បញ្ចូលទៅក្នុងសំណួរបន្ទាប់ ដើម្បីផ្ទៀងផ្ទាត់ដោយប្រយោល ដោយមិនចាំបាច់សួរអតិថិជនចំៗថាតើវាយល់ត្រឹមត្រូវឬទេ។ | ដូចជាពេលមិត្តភក្តិប្រាប់ថា "ខ្ញុំចង់ញ៉ាំកាហ្វេ" ហើយអ្នកតបថា "យកកាហ្វេទឹកដោះគោ ឬកាហ្វេខ្មៅ?" (អ្នកបញ្ជាក់ដោយប្រយោលថាអ្នកឮពាក្យកាហ្វេច្បាស់លាស់)។ |
| Explicit confirmation | ជាយុទ្ធសាស្ត្រសន្ទនាដែលប្រព័ន្ធសួរបញ្ជាក់ចំៗទៅកាន់អ្នកប្រើប្រាស់ (ជាទម្រង់សំណួរ បាទ/ទេ) ដើម្បីឱ្យប្រាកដថាវាស្តាប់បានត្រឹមត្រូវ១០០% មុននឹងបន្តដំណើរការទៅមុខ។ | ដូចជាអ្នករត់តុសួរអ្នកបញ្ជាក់ថា "តើបងពិតជាចង់កុម្ម៉ង់កាហ្វេទឹកដោះគោទឹកកកមួយកែវមែនទេបង?" មុនពេលទៅឆុងឱ្យ។ |
| Grounding | ជាដំណើរការក្នុងការសន្ទនាដែលភាគីទាំងសងខាង (មនុស្ស និងប្រព័ន្ធ) ផ្តល់សញ្ញាឱ្យគ្នាទៅវិញទៅមកដើម្បីបញ្ជាក់ថាពួកគេយល់ស្រប និងយល់ន័យគ្នាច្បាស់លាស់មុននឹងបន្តការសន្ទនាទៅមុខទៀត។ | ដូចជាការងក់ក្បាល ឬនិយាយថា "អូខេ" ឬ "បាទ/ចាស" ពេលកំពុងស្តាប់នរណាម្នាក់និយាយ ដើម្បីបង្ហាញថាអ្នកកំពុងតាមដានយល់សាច់រឿង។ |
| Equal error rate | ជាចំណុចកម្រិតគោលដែលចំនួននៃការទទួលយកខុស (False acceptances) និងចំនួននៃការទាត់ចោលខុស (False rejections) ត្រូវបានកាត់បន្ថយរហូតដល់មានអត្រាស្មើគ្នា។ | ដូចជាការថ្លឹងជញ្ជីងកំណត់ស្តង់ដារ ដែលចំនួនកំហុសទាំងសងខាង (អ្នកខុសតែប្រព័ន្ធឱ្យចូល និងអ្នកត្រូវតែប្រព័ន្ធមិនឱ្យចូល) មានទម្ងន់ស្មើគ្នាបេះបិទ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖