Original Title: Hidden Marcov Models for Sign Language Recognition: a Review
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ម៉ូដែល Hidden Markov សម្រាប់ការសម្គាល់ភាសាសញ្ញា៖ ការពិនិត្យឡើងវិញ

ចំណងជើងដើម៖ Hidden Marcov Models for Sign Language Recognition: a Review

អ្នកនិពន្ធ៖ V.N. Pashaloudi (University of Macedonia), K.G. Margaritis (University of Macedonia)

ឆ្នាំបោះពុម្ព៖ 2002, 2nd Hellenic Conf. on AI (SETN-2002)

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះពិនិត្យមើលបញ្ហានៃការបង្កើតប្រព័ន្ធបកប្រែភាសាសញ្ញាស្វ័យប្រវត្តិសម្រាប់អ្នកមានពិការភាពផ្នែកការស្តាប់ ដោយប្រើប្រាស់បច្ចេកវិទ្យាសម្គាល់លំនាំនិងកាយវិការ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការពិនិត្យឡើងវិញនូវការស្រាវជ្រាវនានាដែលប្រើប្រាស់ម៉ូដែលទិន្នន័យស្ថិតិ Hidden Markov (HMMs) សម្រាប់ការសម្គាល់ភាសាសញ្ញា និងកាយវិការចលនា។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Vision-based HMM with Colored Gloves
ម៉ូដែល HMM ផ្អែកលើកាមេរ៉ាដោយប្រើស្រោមដៃពណ៌
ងាយស្រួលក្នុងការទាញយកលក្ខណៈពិសេស និងតាមដានចលនាដៃបានច្បាស់លាស់ ដោយកាត់បន្ថយបញ្ហារំខានពីផ្ទៃខាងក្រោយ។ ទាមទារឱ្យអ្នកប្រើប្រាស់ពាក់ស្រោមដៃពណ៌ពិសេស ដែលមិនមានភាពងាយស្រួល ឬធម្មជាតិសម្រាប់ការប្រើប្រាស់ប្រចាំថ្ងៃនោះទេ។ សម្រេចបានអត្រាភាពត្រឹមត្រូវ ៩៩% ក្នុងការសម្គាល់ពាក្យ (Starner & Pentland) និង ៩៤% សម្រាប់ប្រព័ន្ធវាក្យសព្ទ ២៦២ ពាក្យ (Assam & Grobel)។
Vision-based HMM with Skin-Tone Tracking
ម៉ូដែល HMM ផ្អែកលើកាមេរ៉ាដោយតាមដានពណ៌ស្បែក
ផ្តល់ភាពងាយស្រួលដល់អ្នកប្រើប្រាស់ ដោយមិនចាំបាច់ពាក់ឧបករណ៍បន្ថែម (Intrusive devices) ធ្វើឱ្យចលនាមានភាពធម្មជាតិ។ មានភាពស្មុគស្មាញក្នុងការបំបែករូបភាពដៃចេញពីផ្ទៃមុខ ឬផ្ទៃខាងក្រោយ ជាពិសេសនៅពេលមានពន្លឺប្រែប្រួល។ សម្រេចបានអត្រាភាពត្រឹមត្រូវ ៩២% សម្រាប់ការសម្គាល់ដោយមិនប្រើស្រោមដៃ (Starner & Pentland)។
Dataglove-based HMM
ម៉ូដែល HMM ដោយប្រើស្រោមដៃទិន្នន័យ (Datagloves)
អាចចាប់យកទីតាំងកម្រិត 3D និងមុំនៃសន្លាក់ម្រាមដៃបានយ៉ាងជាក់លាក់បំផុត។ ឧបករណ៍មានតម្លៃថ្លៃខ្លាំង និងកំណត់សេរីភាពនៃការផ្លាស់ទីរបស់អ្នកប្រើប្រាស់។ សម្រេចបានអត្រាសម្គាល់ ៨០% សម្រាប់កាយវិការ 3D (Nam & Wohn) និងអាចសម្គាល់ទិន្នន័យជាបន្តបន្ទាប់ក្នុងពេលជាក់ស្តែង (Liang & Ouhyoung)។
Phoneme-based Parallel HMMs
ម៉ូដែល HMM ស្របគ្នាផ្អែកលើសូរសព្ទកាយវិការ (Phonemes)
ដោះស្រាយបញ្ហានៃការកើនឡើងទំហំវាក្យសព្ទ ដោយបំបែកកាយវិការធំៗទៅជាឯកតាតូចៗ (Phonemes) ដែលជួយកាត់បន្ថយទំហំទិន្នន័យហ្វឹកហាត់។ មានភាពស្មុគស្មាញខ្ពស់ក្នុងការរៀបចំម៉ូដែល ដោយទាមទារដំណើរការ HMM ច្រើនស្របគ្នាសម្រាប់ដៃឆ្វេងនិងស្តាំ។ សម្រេចបានអត្រាភាពត្រឹមត្រូវ ៩១% សម្រាប់វាក្យសព្ទ ២២ ពាក្យដោយប្រើប្រាស់សូរសព្ទ (Vogler & Metaxas)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការចំណាយលើធនធានអាស្រ័យយ៉ាងខ្លាំងលើវិធីសាស្ត្របញ្ចូលទិន្នន័យ ដែលការប្រើប្រាស់កាមេរ៉ាមានតម្លៃថោក ប៉ុន្តែទាមទារសមត្ថភាពកុំព្យូទ័រខ្ពស់ ខណៈស្រោមដៃទិន្នន័យមានតម្លៃថ្លៃខ្លាំង។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សាដែលបានលើកឡើងនៅក្នុងឯកសារនេះ ផ្តោតជាចម្បងលើភាសាសញ្ញាអាមេរិក (ASL), តៃវ៉ាន់ (TSL), និងអាល្លឺម៉ង់ ជាមួយនឹងសំណុំទិន្នន័យតូចៗ និងអ្នកចូលរួមធ្វើកាយវិការមានកំណត់។ នេះមានន័យថា ម៉ូដែលដែលបានបណ្តុះបណ្តាលរួចហើយទាំងនេះ មិនអាចយកមកប្រើប្រាស់ដោយផ្ទាល់សម្រាប់កម្ពុជាបានទេ លុះត្រាតែមានការបង្កើតសំណុំទិន្នន័យភាសាសញ្ញាកម្ពុជា (Cambodian Sign Language - CSL) ជាមុនសិន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ HMM ផ្អែកលើកាមេរ៉ា គឺមានសក្តានុពលខ្ពស់និងស័ក្តិសមបំផុតសម្រាប់ការអភិវឌ្ឍនៅកម្ពុជា ដោយសារវាមានតម្លៃថោក និងងាយស្រួលអនុវត្ត។

ការអនុវត្តប្រព័ន្ធចំណាំភាសាសញ្ញាផ្អែកលើ HMM ដោយប្រើកាមេរ៉ាធម្មតា នឹងជួយកាត់បន្ថយគម្លាតនៃការប្រាស្រ័យទាក់ទង និងលើកកម្ពស់បរិយាបន្នសង្គមសម្រាប់សហគមន៍គ-ថ្លង់នៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃ HMM និង Computer Vision: និស្សិតត្រូវស្វែងយល់ពីទ្រឹស្តីស្ថិតិរបស់ HMM ជាពិសេសក្បួនដោះស្រាយ Viterbi សម្រាប់ការឌិកូដ និង Baum-Welch សម្រាប់ការហ្វឹកហាត់។ ព្រមទាំងសិក្សាពីបណ្ណាល័យ OpenCV សម្រាប់ដំណើរការរូបភាពបឋម។
  2. ជំហានទី២៖ ប្រមូលសំណុំទិន្នន័យភាសាសញ្ញាកម្ពុជា (CSL Dataset): សហការជាមួយសាលាគ-ថ្លង់ ដើម្បីថតវីដេអូកាយវិការភាសាសញ្ញាកម្ពុជា (ពាក្យដាច់ដោយឡែក) ដោយប្រើកាមេរ៉ាធម្មតា និងផ្ទៃខាងក្រោយពណ៌រាបស្មើ ដើម្បីងាយស្រួលក្នុងការទាញយកទិន្នន័យ។
  3. ជំហានទី៣៖ ទាញយកលក្ខណៈពិសេសនៃចលនា (Feature Extraction): ជំនួសឱ្យការតាមដានពណ៌ស្បែក (Skin-tone) ដែលហួសសម័យ គួរប្រើប្រាស់ឧបករណ៍ទំនើបដូចជា MediaPipe ដើម្បីទាញយកចំណុចសំខាន់ៗនៃដៃ (Hand Landmarks) និងរាងកាយ បំប្លែងទៅជាវ៉ិចទ័រទិន្នន័យ (Feature Vectors)។
  4. ជំហានទី៤៖ បណ្តុះបណ្តាល និងវាយតម្លៃម៉ូដែល HMM: ប្រើប្រាស់បណ្ណាល័យ hmmlearn នៅក្នុង Python ឬ HTK (Hidden Markov Model Toolkit) ដើម្បីបណ្តុះបណ្តាលទិន្នន័យវ៉ិចទ័រដែលទទួលបានទៅជាម៉ូដែលសម្គាល់ពាក្យនីមួយៗ និងវាស់ស្ទង់អត្រាភាពត្រឹមត្រូវ។
  5. ជំហានទី៥៖ បង្កើតកម្មវិធីសាកល្បង (Real-time Prototype): អភិវឌ្ឍកម្មវិធីកុំព្យូទ័រតូចមួយដែលតភ្ជាប់ជាមួយ Webcam ដើម្បីចាប់យកចលនាដៃក្នុងពេលជាក់ស្តែង បញ្ចូលទៅក្នុងម៉ូដែល HMM និងបង្ហាញអត្ថបទបកប្រែជាភាសាខ្មែរនៅលើអេក្រង់។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Hidden Marcov Models ម៉ូដែលស្ថិតិដែលប្រើសម្រាប់វិភាគទិន្នន័យដែលប្រែប្រួលតាមពេលវេលា (ដូចជាចលនា ឬសំឡេង) ដោយវាធ្វើការទស្សន៍ទាយស្ថានភាពពិតប្រាកដដែលលាក់កំបាំង (Hidden States) តាមរយៈលទ្ធផលដែលយើងអាចសង្កេតឃើញពីខាងក្រៅ។ ដូចជាការព្យាយាមទាយថាអាកាសធាតុថ្ងៃនេះជាអ្វី ដោយគ្រាន់តែសង្កេតមើលសម្លៀកបំពាក់ដែលមនុស្សពាក់ដើរតាមផ្លូវ (យើងឃើញសម្លៀកបំពាក់ តែយើងមិនឃើញមេឃ)។
Isolated recognition ប្រព័ន្ធសម្គាល់កាយវិការដែលតម្រូវឱ្យអ្នកប្រើប្រាស់ធ្វើកាយវិការម្តងមួយៗ ដោយមានការផ្អាក ឬទម្លាក់ដៃចុះ (Silence) រវាងពាក្យនីមួយៗ ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលកាត់យកទិន្នន័យ។ ដូចជាការនិយាយពាក្យមួយម៉ាត់ៗ ហើយឈប់ដកដង្ហើមសិនមុននឹងនិយាយពាក្យបន្ទាប់ ដើម្បីកុំឱ្យអ្នកស្តាប់ស្តាប់ច្រឡំ។
Continuous recognition ការសម្គាល់ភាសាសញ្ញាដែលប្រព្រឹត្តទៅជាបន្តបន្ទាប់ដោយគ្មានការឈប់សម្រាករវាងពាក្យ ដែលទាមទារឱ្យប្រព័ន្ធមានសមត្ថភាពខ្ពស់ក្នុងការកាត់បំបែកព្រំដែននៃពាក្យនីមួយៗដោយស្វ័យប្រវត្តិ។ ដូចជាការស្តាប់មនុស្សនិយាយលឿនៗជារបារ ហើយយើងត្រូវប្រើខួរក្បាលដើម្បីចាប់យកពាក្យនីមួយៗក្នុងប្រយោគនោះដោយខ្លួនឯង។
Feature extraction ដំណើរការកាត់យកតែព័ត៌មាន ឬទិន្នន័យសំខាន់ៗ (ដូចជាទីតាំងកូអរដោនេនៃដៃ មុំនៃម្រាមដៃ ឬពណ៌) ពីរូបភាពនិងវីដេអូដើម ដើម្បីបំប្លែងជាលេខកូដកុំព្យូទ័រសម្រាប់យកទៅវិភាគបន្ត។ ដូចជាការសរសេរស្រង់យកតែចំណុចសំខាន់ៗ (សង្ខេប) ចេញពីសៀវភៅមួយក្បាល ដើម្បីឱ្យអ្នកអានងាយយល់និងចំណាយពេលតិចបំផុត។
Viterbi algorithm ក្បួនដោះស្រាយគណិតវិទ្យាដែលប្រើសម្រាប់ដោះស្រាយបញ្ហាក្នុង HMM ដើម្បីស្វែងរកផ្លូវ ឬលំដាប់នៃស្ថានភាពដែលលាក់បាំង (Hidden States) ដែលមានប្រូបាប៊ីលីតេខ្ពស់បំផុត ក្នុងការបង្កើតចេញជាទិន្នន័យដែលយើងបានសង្កេតឃើញ។ ដូចជាការប្រើប្រាស់ Google Maps ដើម្បីស្វែងរកផ្លូវដែលលឿននិងងាយស្រួលបំផុត ឆ្លងកាត់ចំណុចកកស្ទះជាច្រើន ដើម្បីទៅដល់គោលដៅ។
Baum-Welch procedure ក្បួនដោះស្រាយសម្រាប់បណ្តុះបណ្តាល (Train) ម៉ូដែល HMM ដោយវាធ្វើការកែតម្រូវប៉ារ៉ាម៉ែត្រនិងប្រូបាប៊ីលីតេរបស់ម៉ូដែលម្តងបន្តិចៗរហូតដល់វាអាចតំណាងឱ្យទិន្នន័យហ្វឹកហាត់បានល្អបំផុត។ ដូចជាការរឹតបន្តឹងខ្សែហ្គីតាឡើងចុះៗ រហូតទាល់តែទទួលបានសំឡេងពិរោះត្រឹមត្រូវតាមកម្រិតដែលយើងចង់បាន។
Datagloves ឧបករណ៍ស្រោមដៃដែលបំពាក់ដោយសេនស័រអគ្គិសនី (Sensors) ជាច្រើន សម្រាប់ចាប់យកមុំ ទិសដៅ និងកាយវិការនៃសន្លាក់ម្រាមដៃនិងបាតដៃក្នុងទម្រង់ 3D យ៉ាងជាក់លាក់ ដើម្បីបញ្ជូនទៅកុំព្យូទ័រ។ ដូចជាប្រដាប់បញ្ជាហ្គេម (Controller) ដែលយើងពាក់ជាប់នឹងដៃទាំងសងខាង ដើម្បីឱ្យតួអង្គក្នុងហ្គេមធ្វើចលនាម្រាមដៃតាមយើងបេះបិទ។
Phonemes នៅក្នុងបរិបទភាសាសញ្ញា វាសំដៅលើឯកតាតូចៗនៃកាយវិការ (ដូចជារូបរាងដៃ ទិសដៅ និងទីតាំង) ដែលត្រូវបានគេយកមកផ្គុំចូលគ្នាដើម្បីបង្កើតជាសញ្ញាឬពាក្យពេញលេញមួយ។ ដូចជាតួអក្សរ ក ខ គ និងស្រៈ ដែលត្រូវផ្សំចូលគ្នាទើបបង្កើតបានជាពាក្យមួយម៉ាត់មានន័យ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖