បញ្ហា (The Problem)៖ ឯកសារនេះពិនិត្យមើលបញ្ហានៃការបង្កើតប្រព័ន្ធបកប្រែភាសាសញ្ញាស្វ័យប្រវត្តិសម្រាប់អ្នកមានពិការភាពផ្នែកការស្តាប់ ដោយប្រើប្រាស់បច្ចេកវិទ្យាសម្គាល់លំនាំនិងកាយវិការ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការពិនិត្យឡើងវិញនូវការស្រាវជ្រាវនានាដែលប្រើប្រាស់ម៉ូដែលទិន្នន័យស្ថិតិ Hidden Markov (HMMs) សម្រាប់ការសម្គាល់ភាសាសញ្ញា និងកាយវិការចលនា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Vision-based HMM with Colored Gloves ម៉ូដែល HMM ផ្អែកលើកាមេរ៉ាដោយប្រើស្រោមដៃពណ៌ |
ងាយស្រួលក្នុងការទាញយកលក្ខណៈពិសេស និងតាមដានចលនាដៃបានច្បាស់លាស់ ដោយកាត់បន្ថយបញ្ហារំខានពីផ្ទៃខាងក្រោយ។ | ទាមទារឱ្យអ្នកប្រើប្រាស់ពាក់ស្រោមដៃពណ៌ពិសេស ដែលមិនមានភាពងាយស្រួល ឬធម្មជាតិសម្រាប់ការប្រើប្រាស់ប្រចាំថ្ងៃនោះទេ។ | សម្រេចបានអត្រាភាពត្រឹមត្រូវ ៩៩% ក្នុងការសម្គាល់ពាក្យ (Starner & Pentland) និង ៩៤% សម្រាប់ប្រព័ន្ធវាក្យសព្ទ ២៦២ ពាក្យ (Assam & Grobel)។ |
| Vision-based HMM with Skin-Tone Tracking ម៉ូដែល HMM ផ្អែកលើកាមេរ៉ាដោយតាមដានពណ៌ស្បែក |
ផ្តល់ភាពងាយស្រួលដល់អ្នកប្រើប្រាស់ ដោយមិនចាំបាច់ពាក់ឧបករណ៍បន្ថែម (Intrusive devices) ធ្វើឱ្យចលនាមានភាពធម្មជាតិ។ | មានភាពស្មុគស្មាញក្នុងការបំបែករូបភាពដៃចេញពីផ្ទៃមុខ ឬផ្ទៃខាងក្រោយ ជាពិសេសនៅពេលមានពន្លឺប្រែប្រួល។ | សម្រេចបានអត្រាភាពត្រឹមត្រូវ ៩២% សម្រាប់ការសម្គាល់ដោយមិនប្រើស្រោមដៃ (Starner & Pentland)។ |
| Dataglove-based HMM ម៉ូដែល HMM ដោយប្រើស្រោមដៃទិន្នន័យ (Datagloves) |
អាចចាប់យកទីតាំងកម្រិត 3D និងមុំនៃសន្លាក់ម្រាមដៃបានយ៉ាងជាក់លាក់បំផុត។ | ឧបករណ៍មានតម្លៃថ្លៃខ្លាំង និងកំណត់សេរីភាពនៃការផ្លាស់ទីរបស់អ្នកប្រើប្រាស់។ | សម្រេចបានអត្រាសម្គាល់ ៨០% សម្រាប់កាយវិការ 3D (Nam & Wohn) និងអាចសម្គាល់ទិន្នន័យជាបន្តបន្ទាប់ក្នុងពេលជាក់ស្តែង (Liang & Ouhyoung)។ |
| Phoneme-based Parallel HMMs ម៉ូដែល HMM ស្របគ្នាផ្អែកលើសូរសព្ទកាយវិការ (Phonemes) |
ដោះស្រាយបញ្ហានៃការកើនឡើងទំហំវាក្យសព្ទ ដោយបំបែកកាយវិការធំៗទៅជាឯកតាតូចៗ (Phonemes) ដែលជួយកាត់បន្ថយទំហំទិន្នន័យហ្វឹកហាត់។ | មានភាពស្មុគស្មាញខ្ពស់ក្នុងការរៀបចំម៉ូដែល ដោយទាមទារដំណើរការ HMM ច្រើនស្របគ្នាសម្រាប់ដៃឆ្វេងនិងស្តាំ។ | សម្រេចបានអត្រាភាពត្រឹមត្រូវ ៩១% សម្រាប់វាក្យសព្ទ ២២ ពាក្យដោយប្រើប្រាស់សូរសព្ទ (Vogler & Metaxas)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការចំណាយលើធនធានអាស្រ័យយ៉ាងខ្លាំងលើវិធីសាស្ត្របញ្ចូលទិន្នន័យ ដែលការប្រើប្រាស់កាមេរ៉ាមានតម្លៃថោក ប៉ុន្តែទាមទារសមត្ថភាពកុំព្យូទ័រខ្ពស់ ខណៈស្រោមដៃទិន្នន័យមានតម្លៃថ្លៃខ្លាំង។
ការសិក្សាដែលបានលើកឡើងនៅក្នុងឯកសារនេះ ផ្តោតជាចម្បងលើភាសាសញ្ញាអាមេរិក (ASL), តៃវ៉ាន់ (TSL), និងអាល្លឺម៉ង់ ជាមួយនឹងសំណុំទិន្នន័យតូចៗ និងអ្នកចូលរួមធ្វើកាយវិការមានកំណត់។ នេះមានន័យថា ម៉ូដែលដែលបានបណ្តុះបណ្តាលរួចហើយទាំងនេះ មិនអាចយកមកប្រើប្រាស់ដោយផ្ទាល់សម្រាប់កម្ពុជាបានទេ លុះត្រាតែមានការបង្កើតសំណុំទិន្នន័យភាសាសញ្ញាកម្ពុជា (Cambodian Sign Language - CSL) ជាមុនសិន។
វិធីសាស្ត្រ HMM ផ្អែកលើកាមេរ៉ា គឺមានសក្តានុពលខ្ពស់និងស័ក្តិសមបំផុតសម្រាប់ការអភិវឌ្ឍនៅកម្ពុជា ដោយសារវាមានតម្លៃថោក និងងាយស្រួលអនុវត្ត។
ការអនុវត្តប្រព័ន្ធចំណាំភាសាសញ្ញាផ្អែកលើ HMM ដោយប្រើកាមេរ៉ាធម្មតា នឹងជួយកាត់បន្ថយគម្លាតនៃការប្រាស្រ័យទាក់ទង និងលើកកម្ពស់បរិយាបន្នសង្គមសម្រាប់សហគមន៍គ-ថ្លង់នៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Hidden Marcov Models | ម៉ូដែលស្ថិតិដែលប្រើសម្រាប់វិភាគទិន្នន័យដែលប្រែប្រួលតាមពេលវេលា (ដូចជាចលនា ឬសំឡេង) ដោយវាធ្វើការទស្សន៍ទាយស្ថានភាពពិតប្រាកដដែលលាក់កំបាំង (Hidden States) តាមរយៈលទ្ធផលដែលយើងអាចសង្កេតឃើញពីខាងក្រៅ។ | ដូចជាការព្យាយាមទាយថាអាកាសធាតុថ្ងៃនេះជាអ្វី ដោយគ្រាន់តែសង្កេតមើលសម្លៀកបំពាក់ដែលមនុស្សពាក់ដើរតាមផ្លូវ (យើងឃើញសម្លៀកបំពាក់ តែយើងមិនឃើញមេឃ)។ |
| Isolated recognition | ប្រព័ន្ធសម្គាល់កាយវិការដែលតម្រូវឱ្យអ្នកប្រើប្រាស់ធ្វើកាយវិការម្តងមួយៗ ដោយមានការផ្អាក ឬទម្លាក់ដៃចុះ (Silence) រវាងពាក្យនីមួយៗ ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលកាត់យកទិន្នន័យ។ | ដូចជាការនិយាយពាក្យមួយម៉ាត់ៗ ហើយឈប់ដកដង្ហើមសិនមុននឹងនិយាយពាក្យបន្ទាប់ ដើម្បីកុំឱ្យអ្នកស្តាប់ស្តាប់ច្រឡំ។ |
| Continuous recognition | ការសម្គាល់ភាសាសញ្ញាដែលប្រព្រឹត្តទៅជាបន្តបន្ទាប់ដោយគ្មានការឈប់សម្រាករវាងពាក្យ ដែលទាមទារឱ្យប្រព័ន្ធមានសមត្ថភាពខ្ពស់ក្នុងការកាត់បំបែកព្រំដែននៃពាក្យនីមួយៗដោយស្វ័យប្រវត្តិ។ | ដូចជាការស្តាប់មនុស្សនិយាយលឿនៗជារបារ ហើយយើងត្រូវប្រើខួរក្បាលដើម្បីចាប់យកពាក្យនីមួយៗក្នុងប្រយោគនោះដោយខ្លួនឯង។ |
| Feature extraction | ដំណើរការកាត់យកតែព័ត៌មាន ឬទិន្នន័យសំខាន់ៗ (ដូចជាទីតាំងកូអរដោនេនៃដៃ មុំនៃម្រាមដៃ ឬពណ៌) ពីរូបភាពនិងវីដេអូដើម ដើម្បីបំប្លែងជាលេខកូដកុំព្យូទ័រសម្រាប់យកទៅវិភាគបន្ត។ | ដូចជាការសរសេរស្រង់យកតែចំណុចសំខាន់ៗ (សង្ខេប) ចេញពីសៀវភៅមួយក្បាល ដើម្បីឱ្យអ្នកអានងាយយល់និងចំណាយពេលតិចបំផុត។ |
| Viterbi algorithm | ក្បួនដោះស្រាយគណិតវិទ្យាដែលប្រើសម្រាប់ដោះស្រាយបញ្ហាក្នុង HMM ដើម្បីស្វែងរកផ្លូវ ឬលំដាប់នៃស្ថានភាពដែលលាក់បាំង (Hidden States) ដែលមានប្រូបាប៊ីលីតេខ្ពស់បំផុត ក្នុងការបង្កើតចេញជាទិន្នន័យដែលយើងបានសង្កេតឃើញ។ | ដូចជាការប្រើប្រាស់ Google Maps ដើម្បីស្វែងរកផ្លូវដែលលឿននិងងាយស្រួលបំផុត ឆ្លងកាត់ចំណុចកកស្ទះជាច្រើន ដើម្បីទៅដល់គោលដៅ។ |
| Baum-Welch procedure | ក្បួនដោះស្រាយសម្រាប់បណ្តុះបណ្តាល (Train) ម៉ូដែល HMM ដោយវាធ្វើការកែតម្រូវប៉ារ៉ាម៉ែត្រនិងប្រូបាប៊ីលីតេរបស់ម៉ូដែលម្តងបន្តិចៗរហូតដល់វាអាចតំណាងឱ្យទិន្នន័យហ្វឹកហាត់បានល្អបំផុត។ | ដូចជាការរឹតបន្តឹងខ្សែហ្គីតាឡើងចុះៗ រហូតទាល់តែទទួលបានសំឡេងពិរោះត្រឹមត្រូវតាមកម្រិតដែលយើងចង់បាន។ |
| Datagloves | ឧបករណ៍ស្រោមដៃដែលបំពាក់ដោយសេនស័រអគ្គិសនី (Sensors) ជាច្រើន សម្រាប់ចាប់យកមុំ ទិសដៅ និងកាយវិការនៃសន្លាក់ម្រាមដៃនិងបាតដៃក្នុងទម្រង់ 3D យ៉ាងជាក់លាក់ ដើម្បីបញ្ជូនទៅកុំព្យូទ័រ។ | ដូចជាប្រដាប់បញ្ជាហ្គេម (Controller) ដែលយើងពាក់ជាប់នឹងដៃទាំងសងខាង ដើម្បីឱ្យតួអង្គក្នុងហ្គេមធ្វើចលនាម្រាមដៃតាមយើងបេះបិទ។ |
| Phonemes | នៅក្នុងបរិបទភាសាសញ្ញា វាសំដៅលើឯកតាតូចៗនៃកាយវិការ (ដូចជារូបរាងដៃ ទិសដៅ និងទីតាំង) ដែលត្រូវបានគេយកមកផ្គុំចូលគ្នាដើម្បីបង្កើតជាសញ្ញាឬពាក្យពេញលេញមួយ។ | ដូចជាតួអក្សរ ក ខ គ និងស្រៈ ដែលត្រូវផ្សំចូលគ្នាទើបបង្កើតបានជាពាក្យមួយម៉ាត់មានន័យ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖