Original Title: Hidden Marcov Models for Sign Language Recognition: a Review
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ម៉ូដែល Hidden Markov សម្រាប់ការសម្គាល់ភាសាសញ្ញា៖ ការពិនិត្យឡើងវិញ

ចំណងជើងដើម៖ Hidden Marcov Models for Sign Language Recognition: a Review

អ្នកនិពន្ធ៖ V.N. Pashaloudi (University of Macedonia), K.G. Margaritis (University of Macedonia)

ឆ្នាំបោះពុម្ព៖ 2002, 2nd Hellenic Conf. on AI (SETN-2002)

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះពិនិត្យមើលបញ្ហានៃការបង្កើតប្រព័ន្ធបកប្រែភាសាសញ្ញាស្វ័យប្រវត្តិសម្រាប់អ្នកមានពិការភាពផ្នែកការស្តាប់ ដោយប្រើប្រាស់បច្ចេកវិទ្យាសម្គាល់លំនាំនិងកាយវិការ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការពិនិត្យឡើងវិញនូវការស្រាវជ្រាវនានាដែលប្រើប្រាស់ម៉ូដែលទិន្នន័យស្ថិតិ Hidden Markov (HMMs) សម្រាប់ការសម្គាល់ភាសាសញ្ញា និងកាយវិការចលនា។

ការទាញយកលក្ខណៈពិសេសតាមរយៈកាមេរ៉ាវីដេអូ និងស្រោមដៃទិន្នន័យ (Vision-based and Dataglove Feature Extraction)
ការសម្គាល់កាយវិការដាច់ដោយឡែក និងបន្តបន្ទាប់ (Isolated and Continuous Gesture Recognition)
ការបណ្តុះបណ្តាលបណ្តាញ HMM តាមរយៈក្បួនដោះស្រាយ (Baum-Welch Algorithm)
ការធ្វើម៉ូដែលភាសាដោយប្រើប្រាស់ក្រាម (Language Modeling using N-grams)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ប្រព័ន្ធដែលប្រើប្រាស់ HMM អាចសម្រេចបានអត្រាភាពត្រឹមត្រូវពី ៨០% ទៅ ៩៩% អាស្រ័យលើទំហំវាក្យសព្ទ និងវិធីសាស្ត្រនៃការបញ្ចូលទិន្នន័យ។
ការប្រើប្រាស់កាមេរ៉ាវីដេអូជាមធ្យោបាយបញ្ចូលទិន្នន័យមានភាពងាយស្រួល និងមិនសូវរំខានដល់អ្នកប្រើប្រាស់ បើប្រៀបធៀបទៅនឹងការប្រើប្រាស់ស្រោមដៃទិន្នន័យ (Datagloves) ដែលមានតម្លៃថ្លៃ។
ការស្រាវជ្រាវភាគច្រើនប្រើប្រាស់ HMMs ដើម្បីធ្វើម៉ូដែលតំណាងឱ្យពាក្យទាំងមូល ទោះបីជាមានការសិក្សាថ្មីៗមួយចំនួនបានចាប់ផ្តើមប្រើវាសម្រាប់តំណាងឱ្យសូរសព្ទ (Phonemes) ដើម្បីកាត់បន្ថយភាពស្មុគស្មាញនៃប្រព័ន្ធវាក្យសព្ទធំក៏ដោយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Vision-based HMM with Colored Gloves ម៉ូដែល HMM ផ្អែកលើកាមេរ៉ាដោយប្រើស្រោមដៃពណ៌	ងាយស្រួលក្នុងការទាញយកលក្ខណៈពិសេស និងតាមដានចលនាដៃបានច្បាស់លាស់ ដោយកាត់បន្ថយបញ្ហារំខានពីផ្ទៃខាងក្រោយ។	ទាមទារឱ្យអ្នកប្រើប្រាស់ពាក់ស្រោមដៃពណ៌ពិសេស ដែលមិនមានភាពងាយស្រួល ឬធម្មជាតិសម្រាប់ការប្រើប្រាស់ប្រចាំថ្ងៃនោះទេ។	សម្រេចបានអត្រាភាពត្រឹមត្រូវ ៩៩% ក្នុងការសម្គាល់ពាក្យ (Starner & Pentland) និង ៩៤% សម្រាប់ប្រព័ន្ធវាក្យសព្ទ ២៦២ ពាក្យ (Assam & Grobel)។
Vision-based HMM with Skin-Tone Tracking ម៉ូដែល HMM ផ្អែកលើកាមេរ៉ាដោយតាមដានពណ៌ស្បែក	ផ្តល់ភាពងាយស្រួលដល់អ្នកប្រើប្រាស់ ដោយមិនចាំបាច់ពាក់ឧបករណ៍បន្ថែម (Intrusive devices) ធ្វើឱ្យចលនាមានភាពធម្មជាតិ។	មានភាពស្មុគស្មាញក្នុងការបំបែករូបភាពដៃចេញពីផ្ទៃមុខ ឬផ្ទៃខាងក្រោយ ជាពិសេសនៅពេលមានពន្លឺប្រែប្រួល។	សម្រេចបានអត្រាភាពត្រឹមត្រូវ ៩២% សម្រាប់ការសម្គាល់ដោយមិនប្រើស្រោមដៃ (Starner & Pentland)។
Dataglove-based HMM ម៉ូដែល HMM ដោយប្រើស្រោមដៃទិន្នន័យ (Datagloves)	អាចចាប់យកទីតាំងកម្រិត 3D និងមុំនៃសន្លាក់ម្រាមដៃបានយ៉ាងជាក់លាក់បំផុត។	ឧបករណ៍មានតម្លៃថ្លៃខ្លាំង និងកំណត់សេរីភាពនៃការផ្លាស់ទីរបស់អ្នកប្រើប្រាស់។	សម្រេចបានអត្រាសម្គាល់ ៨០% សម្រាប់កាយវិការ 3D (Nam & Wohn) និងអាចសម្គាល់ទិន្នន័យជាបន្តបន្ទាប់ក្នុងពេលជាក់ស្តែង (Liang & Ouhyoung)។
Phoneme-based Parallel HMMs ម៉ូដែល HMM ស្របគ្នាផ្អែកលើសូរសព្ទកាយវិការ (Phonemes)	ដោះស្រាយបញ្ហានៃការកើនឡើងទំហំវាក្យសព្ទ ដោយបំបែកកាយវិការធំៗទៅជាឯកតាតូចៗ (Phonemes) ដែលជួយកាត់បន្ថយទំហំទិន្នន័យហ្វឹកហាត់។	មានភាពស្មុគស្មាញខ្ពស់ក្នុងការរៀបចំម៉ូដែល ដោយទាមទារដំណើរការ HMM ច្រើនស្របគ្នាសម្រាប់ដៃឆ្វេងនិងស្តាំ។	សម្រេចបានអត្រាភាពត្រឹមត្រូវ ៩១% សម្រាប់វាក្យសព្ទ ២២ ពាក្យដោយប្រើប្រាស់សូរសព្ទ (Vogler & Metaxas)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការចំណាយលើធនធានអាស្រ័យយ៉ាងខ្លាំងលើវិធីសាស្ត្របញ្ចូលទិន្នន័យ ដែលការប្រើប្រាស់កាមេរ៉ាមានតម្លៃថោក ប៉ុន្តែទាមទារសមត្ថភាពកុំព្យូទ័រខ្ពស់ ខណៈស្រោមដៃទិន្នន័យមានតម្លៃថ្លៃខ្លាំង។

Hardware: កាមេរ៉ាវីដេអូស្តង់ដារ (សម្រាប់ Vision-based) ឬឧបករណ៍ស្រោមដៃទិន្នន័យ (Datagloves) ដែលមានតម្លៃថ្លៃសម្រាប់ការចាប់យកចលនា 3D ជាក់លាក់។
Computing Power: កុំព្យូទ័រដែលមានសមត្ថភាពមធ្យមទៅខ្ពស់ សម្រាប់ការគណនាក្បួនដោះស្រាយ Viterbi និង Baum-Welch ពិសេសសម្រាប់ការសម្គាល់ភ្លាមៗ (Real-time Continuous Recognition)។
Dataset: ទាមទារសំណុំទិន្នន័យវីដេអូ ឬទិន្នន័យ 3D នៃភាសាសញ្ញាដែលត្រូវបានកាត់បំបែក (Segmented) និងបំពាក់ស្លាកសញ្ញា (Labeled) យ៉ាងត្រឹមត្រូវ។
Expertise: ចំណេះដឹងផ្នែកស្ថិតិ (Parameter Estimation), ដំណើរការសញ្ញា (Signal Processing), និងចក្ខុវិស័យកុំព្យូទ័រ (Computer Vision)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សាដែលបានលើកឡើងនៅក្នុងឯកសារនេះ ផ្តោតជាចម្បងលើភាសាសញ្ញាអាមេរិក (ASL), តៃវ៉ាន់ (TSL), និងអាល្លឺម៉ង់ ជាមួយនឹងសំណុំទិន្នន័យតូចៗ និងអ្នកចូលរួមធ្វើកាយវិការមានកំណត់។ នេះមានន័យថា ម៉ូដែលដែលបានបណ្តុះបណ្តាលរួចហើយទាំងនេះ មិនអាចយកមកប្រើប្រាស់ដោយផ្ទាល់សម្រាប់កម្ពុជាបានទេ លុះត្រាតែមានការបង្កើតសំណុំទិន្នន័យភាសាសញ្ញាកម្ពុជា (Cambodian Sign Language - CSL) ជាមុនសិន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រ HMM ផ្អែកលើកាមេរ៉ា គឺមានសក្តានុពលខ្ពស់និងស័ក្តិសមបំផុតសម្រាប់ការអភិវឌ្ឍនៅកម្ពុជា ដោយសារវាមានតម្លៃថោក និងងាយស្រួលអនុវត្ត។

សាលារៀនអប់រំពិសេស (ឧទាហរណ៍៖ អង្គការគ្រួសារថ្មី - Krousar Thmey): អាចប្រើប្រាស់បច្ចេកវិទ្យានេះដើម្បីបង្កើតកម្មវិធីសិក្សា និងវចនានុក្រមឌីជីថល ជួយដល់កុមារគ-ថ្លង់ក្នុងការរៀនភាសាសញ្ញាកម្ពុជា។
មន្ទីរពេទ្យ និងសេវាសាធារណៈ: អាចដាក់ពង្រាយប្រព័ន្ធកាមេរ៉ាសម្គាល់កាយវិការបឋម (Kiosks) ដើម្បីជួយបកប្រែភាសាសញ្ញាទៅជាអត្ថបទ បង្កើនលទ្ធភាពទទួលបានសេវាថែទាំសុខភាពសម្រាប់ជនពិការ។
វិទ្យាស្ថានស្រាវជ្រាវបច្ចេកវិទ្យា (ឧទាហរណ៍៖ CADT, RUPP): សិស្សនិងអ្នកស្រាវជ្រាវអាចយកគំរូ HMM នេះធ្វើជាគម្រោងមូលដ្ឋាន ក្នុងការអភិវឌ្ឍប្រព័ន្ធ AI បកប្រែភាសាសញ្ញាកម្ពុជា ដោយមិនចាំបាច់ប្រើឧបករណ៍ថ្លៃៗ។

ការអនុវត្តប្រព័ន្ធចំណាំភាសាសញ្ញាផ្អែកលើ HMM ដោយប្រើកាមេរ៉ាធម្មតា នឹងជួយកាត់បន្ថយគម្លាតនៃការប្រាស្រ័យទាក់ទង និងលើកកម្ពស់បរិយាបន្នសង្គមសម្រាប់សហគមន៍គ-ថ្លង់នៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ជំហានទី១៖ សិក្សាមូលដ្ឋានគ្រឹះនៃ HMM និង Computer Vision: និស្សិតត្រូវស្វែងយល់ពីទ្រឹស្តីស្ថិតិរបស់ HMM ជាពិសេសក្បួនដោះស្រាយ Viterbi សម្រាប់ការឌិកូដ និង Baum-Welch សម្រាប់ការហ្វឹកហាត់។ ព្រមទាំងសិក្សាពីបណ្ណាល័យ OpenCV សម្រាប់ដំណើរការរូបភាពបឋម។
ជំហានទី២៖ ប្រមូលសំណុំទិន្នន័យភាសាសញ្ញាកម្ពុជា (CSL Dataset): សហការជាមួយសាលាគ-ថ្លង់ ដើម្បីថតវីដេអូកាយវិការភាសាសញ្ញាកម្ពុជា (ពាក្យដាច់ដោយឡែក) ដោយប្រើកាមេរ៉ាធម្មតា និងផ្ទៃខាងក្រោយពណ៌រាបស្មើ ដើម្បីងាយស្រួលក្នុងការទាញយកទិន្នន័យ។
ជំហានទី៣៖ ទាញយកលក្ខណៈពិសេសនៃចលនា (Feature Extraction): ជំនួសឱ្យការតាមដានពណ៌ស្បែក (Skin-tone) ដែលហួសសម័យ គួរប្រើប្រាស់ឧបករណ៍ទំនើបដូចជា MediaPipe ដើម្បីទាញយកចំណុចសំខាន់ៗនៃដៃ (Hand Landmarks) និងរាងកាយ បំប្លែងទៅជាវ៉ិចទ័រទិន្នន័យ (Feature Vectors)។
ជំហានទី៤៖ បណ្តុះបណ្តាល និងវាយតម្លៃម៉ូដែល HMM: ប្រើប្រាស់បណ្ណាល័យ hmmlearn នៅក្នុង Python ឬ HTK (Hidden Markov Model Toolkit) ដើម្បីបណ្តុះបណ្តាលទិន្នន័យវ៉ិចទ័រដែលទទួលបានទៅជាម៉ូដែលសម្គាល់ពាក្យនីមួយៗ និងវាស់ស្ទង់អត្រាភាពត្រឹមត្រូវ។
ជំហានទី៥៖ បង្កើតកម្មវិធីសាកល្បង (Real-time Prototype): អភិវឌ្ឍកម្មវិធីកុំព្យូទ័រតូចមួយដែលតភ្ជាប់ជាមួយ Webcam ដើម្បីចាប់យកចលនាដៃក្នុងពេលជាក់ស្តែង បញ្ចូលទៅក្នុងម៉ូដែល HMM និងបង្ហាញអត្ថបទបកប្រែជាភាសាខ្មែរនៅលើអេក្រង់។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Hidden Marcov Models	ម៉ូដែលស្ថិតិដែលប្រើសម្រាប់វិភាគទិន្នន័យដែលប្រែប្រួលតាមពេលវេលា (ដូចជាចលនា ឬសំឡេង) ដោយវាធ្វើការទស្សន៍ទាយស្ថានភាពពិតប្រាកដដែលលាក់កំបាំង (Hidden States) តាមរយៈលទ្ធផលដែលយើងអាចសង្កេតឃើញពីខាងក្រៅ។	ដូចជាការព្យាយាមទាយថាអាកាសធាតុថ្ងៃនេះជាអ្វី ដោយគ្រាន់តែសង្កេតមើលសម្លៀកបំពាក់ដែលមនុស្សពាក់ដើរតាមផ្លូវ (យើងឃើញសម្លៀកបំពាក់ តែយើងមិនឃើញមេឃ)។
Isolated recognition	ប្រព័ន្ធសម្គាល់កាយវិការដែលតម្រូវឱ្យអ្នកប្រើប្រាស់ធ្វើកាយវិការម្តងមួយៗ ដោយមានការផ្អាក ឬទម្លាក់ដៃចុះ (Silence) រវាងពាក្យនីមួយៗ ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលកាត់យកទិន្នន័យ។	ដូចជាការនិយាយពាក្យមួយម៉ាត់ៗ ហើយឈប់ដកដង្ហើមសិនមុននឹងនិយាយពាក្យបន្ទាប់ ដើម្បីកុំឱ្យអ្នកស្តាប់ស្តាប់ច្រឡំ។
Continuous recognition	ការសម្គាល់ភាសាសញ្ញាដែលប្រព្រឹត្តទៅជាបន្តបន្ទាប់ដោយគ្មានការឈប់សម្រាករវាងពាក្យ ដែលទាមទារឱ្យប្រព័ន្ធមានសមត្ថភាពខ្ពស់ក្នុងការកាត់បំបែកព្រំដែននៃពាក្យនីមួយៗដោយស្វ័យប្រវត្តិ។	ដូចជាការស្តាប់មនុស្សនិយាយលឿនៗជារបារ ហើយយើងត្រូវប្រើខួរក្បាលដើម្បីចាប់យកពាក្យនីមួយៗក្នុងប្រយោគនោះដោយខ្លួនឯង។
Feature extraction	ដំណើរការកាត់យកតែព័ត៌មាន ឬទិន្នន័យសំខាន់ៗ (ដូចជាទីតាំងកូអរដោនេនៃដៃ មុំនៃម្រាមដៃ ឬពណ៌) ពីរូបភាពនិងវីដេអូដើម ដើម្បីបំប្លែងជាលេខកូដកុំព្យូទ័រសម្រាប់យកទៅវិភាគបន្ត។	ដូចជាការសរសេរស្រង់យកតែចំណុចសំខាន់ៗ (សង្ខេប) ចេញពីសៀវភៅមួយក្បាល ដើម្បីឱ្យអ្នកអានងាយយល់និងចំណាយពេលតិចបំផុត។
Viterbi algorithm	ក្បួនដោះស្រាយគណិតវិទ្យាដែលប្រើសម្រាប់ដោះស្រាយបញ្ហាក្នុង HMM ដើម្បីស្វែងរកផ្លូវ ឬលំដាប់នៃស្ថានភាពដែលលាក់បាំង (Hidden States) ដែលមានប្រូបាប៊ីលីតេខ្ពស់បំផុត ក្នុងការបង្កើតចេញជាទិន្នន័យដែលយើងបានសង្កេតឃើញ។	ដូចជាការប្រើប្រាស់ Google Maps ដើម្បីស្វែងរកផ្លូវដែលលឿននិងងាយស្រួលបំផុត ឆ្លងកាត់ចំណុចកកស្ទះជាច្រើន ដើម្បីទៅដល់គោលដៅ។
Baum-Welch procedure	ក្បួនដោះស្រាយសម្រាប់បណ្តុះបណ្តាល (Train) ម៉ូដែល HMM ដោយវាធ្វើការកែតម្រូវប៉ារ៉ាម៉ែត្រនិងប្រូបាប៊ីលីតេរបស់ម៉ូដែលម្តងបន្តិចៗរហូតដល់វាអាចតំណាងឱ្យទិន្នន័យហ្វឹកហាត់បានល្អបំផុត។	ដូចជាការរឹតបន្តឹងខ្សែហ្គីតាឡើងចុះៗ រហូតទាល់តែទទួលបានសំឡេងពិរោះត្រឹមត្រូវតាមកម្រិតដែលយើងចង់បាន។
Datagloves	ឧបករណ៍ស្រោមដៃដែលបំពាក់ដោយសេនស័រអគ្គិសនី (Sensors) ជាច្រើន សម្រាប់ចាប់យកមុំ ទិសដៅ និងកាយវិការនៃសន្លាក់ម្រាមដៃនិងបាតដៃក្នុងទម្រង់ 3D យ៉ាងជាក់លាក់ ដើម្បីបញ្ជូនទៅកុំព្យូទ័រ។	ដូចជាប្រដាប់បញ្ជាហ្គេម (Controller) ដែលយើងពាក់ជាប់នឹងដៃទាំងសងខាង ដើម្បីឱ្យតួអង្គក្នុងហ្គេមធ្វើចលនាម្រាមដៃតាមយើងបេះបិទ។
Phonemes	នៅក្នុងបរិបទភាសាសញ្ញា វាសំដៅលើឯកតាតូចៗនៃកាយវិការ (ដូចជារូបរាងដៃ ទិសដៅ និងទីតាំង) ដែលត្រូវបានគេយកមកផ្គុំចូលគ្នាដើម្បីបង្កើតជាសញ្ញាឬពាក្យពេញលេញមួយ។	ដូចជាតួអក្សរ ក ខ គ និងស្រៈ ដែលត្រូវផ្សំចូលគ្នាទើបបង្កើតបានជាពាក្យមួយម៉ាត់មានន័យ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖