Original Title: Text recognition using CRNN models based on temporal classification and interpolation methods
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសម្គាល់អត្ថបទដោយប្រើម៉ូដែល CRNN ផ្អែកលើការចាត់ថ្នាក់តាមពេលវេលា និងវិធីសាស្ត្របន្ថែមចន្លោះទិន្នន័យ (Interpolation)

ចំណងជើងដើម៖ Text recognition using CRNN models based on temporal classification and interpolation methods

អ្នកនិពន្ធ៖ Sonali Dash, Chandigarh University, India, Priyadarsan Parida, GIET University, India, Ashima Sindhu Mohanty, GIET University, India, Gupteswar Sahu, Raghu Engineering College, India

ឆ្នាំបោះពុម្ព៖ Machine learning in medical imaging and computer vision

វិស័យសិក្សា៖ Machine Learning and Computer Vision

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការសម្គាល់ទិន្នន័យដែលមានប្រវែងប្រែប្រួលនៅក្នុងអត្ថបទសរសេរដោយដៃ និងការសរសេរលើអាកាស (Air-writing) ដែលបណ្តាលមកពីភាពខុសគ្នានៃល្បឿនសរសេរ និងស្ទីលរបស់អ្នកប្រើប្រាស់។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធស្នើឡើងនូវស្ថាបត្យកម្ម Deep Learning ដោយប្រើប្រាស់បណ្តាញសរសៃប្រសាទកុំព្យូទ័រ (CRNN) រួមបញ្ចូលជាមួយចំណាត់ថ្នាក់តាមពេលវេលា (CTC) និងក្បួនដោះស្រាយ Interpolation ផ្សេងៗដើម្បីធ្វើស្តង់ដារប្រវែងសញ្ញា។

ការទាញយកលក្ខណៈពិសេសដោយប្រើបណ្តាញសរសៃប្រសាទ (Convolutional Neural Networks - CNN)
ការចាត់ថ្នាក់តាមពេលវេលាដើម្បីកាត់បន្ថយភាពស្ទួនតួអក្សរ (Connectionist Temporal Classification - CTC)
ក្បួនដោះស្រាយបកស្រាយពាក្យ (Word Beam Search Decoding)
វិធីសាស្ត្របន្ថែមចន្លោះទិន្នន័យសញ្ញា (Bicubic, Lanczos, Bilinear, Nearest Neighbour Interpolation)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការប្រើប្រាស់វិធីសាស្ត្រ Bicubic Interpolation ក្នុងប្រវែងសញ្ញាថេរ l=200 ផ្តល់លទ្ធផលល្អបំផុតសម្រាប់ការសរសេរលើអាកាស ដោយទទួលបានភាពត្រឹមត្រូវសរុប ៨៨.៥៤%។
សម្រាប់អត្ថបទសរសេរដោយដៃ ក្បួនដោះស្រាយ Word Beam Search (WBS) ដំណើរការបានល្អជាងវិធីសាស្ត្រផ្សេងៗ ដោយសម្រេចបានអត្រាកំហុសតួអក្សរ (CER) ត្រឹមតែ ១.០៧% និងកំហុសពាក្យ (WER) ១.៤៥% លើសំណុំទិន្នន័យ CVL។
ម៉ូដែលដែលបានស្នើនេះទទួលបានភាពត្រឹមត្រូវរហូតដល់ ៩១.៣៤% សម្រាប់ការសម្គាល់ការសរសេរលើអាកាសអាស្រ័យលើអ្នកប្រើប្រាស់ (User-dependent) នៅលើសំណុំទិន្នន័យ Smart-band។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Word Beam Search (WBS) Decoding ការស្វែងរកពាក្យដោយប្រើ Word Beam Search	ផ្តល់លទ្ធផលល្អបំផុតដោយប្រើវចនានុក្រមនិងម៉ូដែលភាសា ដើម្បីកែតម្រូវកំហុសអក្ខរាវិរុទ្ធដោយស្វ័យប្រវត្តិ។	ត្រូវការទំហំវចនានុក្រមធំដែលអាចប្រើពេលយូរក្នុងការគណនា និងពឹងផ្អែកខ្លាំងលើពាក្យដែលមានស្រាប់ក្នុងវចនានុក្រម។	ទទួលបានអត្រាកំហុសតួអក្សរ (CER) ទាបបំផុត ១.០៧% និងកំហុសពាក្យ (WER) ១.៤៥% លើសំណុំទិន្នន័យ CVL។
Best Path Decoding ការបកស្រាយតាមផ្លូវល្អបំផុត (Best Path)	ជាវិធីសាស្ត្រសាមញ្ញ លឿន និងមិនទាមទារកម្លាំងម៉ាស៊ីនច្រើន ដោយគ្រាន់តែជ្រើសរើសតួអក្សរដែលមានប្រូបាប៊ីលីតេខ្ពស់បំផុត។	មិនបានគិតពីបរិបទពាក្យឬវចនានុក្រម ដែលនាំឱ្យមានកំហុសពាក្យ (WER) ខ្ពស់នៅពេលតួអក្សរមើលទៅស្រដៀងគ្នា។	មានអត្រាកំហុសពាក្យខ្ពស់ដល់ទៅ ២៩.៤៧% លើសំណុំទិន្នន័យ IAM ដែលចាញ់វិធីសាស្ត្រ WBS យ៉ាងឆ្ងាយ។
Bicubic Interpolation (Length = 200) ការបន្ថែមចន្លោះទិន្នន័យ Bicubic (កំណត់ប្រវែងថេរ ២០០)	រក្សាបាននូវលក្ខណៈសំខាន់ៗនៃសញ្ញា និងកាត់បន្ថយការបាត់បង់ទិន្នន័យពេលពង្រីកទំហំសញ្ញា (Upsampling) ធ្វើឱ្យសញ្ញាមានភាពរលូន។	ត្រូវការការគណនាស្មុគស្មាញជាងការកាត់ចោល (Truncation) ឬវិធីសាស្ត្រ Nearest Neighbour។	សម្រេចបានភាពត្រឹមត្រូវសរុបខ្ពស់បំផុត ៨៨.៥៤% សម្រាប់ការសម្គាល់ការសរសេរលើអាកាស (Air-writing) ប្រៀបធៀបនឹងវិធីសាស្ត្រផ្សេងៗទៀត។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់លម្អិតពីតម្លៃឧបករណ៍ក៏ដោយ ក៏ស្ថាបត្យកម្មរួមបញ្ចូលគ្នារវាង CNN និង LSTM នេះត្រូវការធនធានកុំព្យូទ័រនិងទិន្នន័យច្រើនសម្រាប់ការបណ្តុះបណ្តាល។

Hardware: ត្រូវការក្រាហ្វិកកាត (GPU) ដែលមានកម្លាំងខ្លាំង ដើម្បីដំណើរការម៉ូដែល CNN-LSTM ដែលមានប៉ារ៉ាម៉ែត្ររហូតដល់ជាង ១.៧ លាន និងប្រតិបត្តិការរាប់លាន (Flops) ក្នុងមួយវិនាទី។
Software: ត្រូវការបណ្ណាល័យ Deep Learning ដូចជា TensorFlow ដែលអ្នកនិពន្ធបានប្រើប្រាស់សម្រាប់សរសេរកូដ និងអភិវឌ្ឍម៉ូដែល CRNN នេះ។
Dataset: ទាមទារសំណុំទិន្នន័យធំៗដែលមានការកត់ត្រាច្បាស់លាស់ ដូចជាសំណុំទិន្នន័យរូបភាពអត្ថបទសរសេរដោយដៃ (IAM, CVL) និងទិន្នន័យសេនស័រ (Smart-band, 6DMG)។
Expertise: ចំណេះដឹងស៊ីជម្រៅលើ Machine Learning (CNN, RNN/LSTM), ការចាត់ថ្នាក់តាមពេលវេលា (CTC), និងការប្រើប្រាស់គណិតវិទ្យាសម្រាប់ដំណើរការសញ្ញា (Signal Interpolation)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

សំណុំទិន្នន័យដែលប្រើប្រាស់ក្នុងការសិក្សានេះ (IAM, CVL) គឺផ្តោតជាចម្បងទៅលើភាសាអង់គ្លេស និងអាល្លឺម៉ង់ ដែលមានទម្រង់តួអក្សរដាច់ឡែកពីគ្នា។ សម្រាប់បរិបទប្រទេសកម្ពុជា នេះគឺជាបញ្ហាប្រឈមដ៏ធំមួយ ព្រោះអក្សរខ្មែរមានជើងតួអក្សរ ស្រៈលើ-ក្រោម និងមិនមានការដកឃ្លារវាងពាក្យ ដែលទាមទារឱ្យមានសំណុំទិន្នន័យថ្មីនិងការកែសម្រួលម៉ូដែលទាំងស្រុង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាទាមទារការបណ្តុះបណ្តាលលើទិន្នន័យថ្មីក៏ដោយ បច្ចេកវិទ្យានេះមានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធឌីជីថលនៅក្នុងប្រទេសកម្ពុជា។

ការធ្វើឌីជីថលកម្មឯកសារប្រវត្តិសាស្ត្រ (Document Digitization): អាចយកទៅអនុវត្តនៅបណ្ណាល័យជាតិ ឬបណ្ណាសារដ្ឋានជាតិកម្ពុជា ដើម្បីបំប្លែងឯកសារសរសេរដោយដៃចាស់ៗ ទៅជាអត្ថបទឌីជីថលដែលងាយស្រួលរក្សាទុកនិងស្រាវជ្រាវ។
ការអប់រំនិងបន្ទប់រៀនឆ្លាតវៃ (Smart Classrooms): បច្ចេកវិទ្យាសម្គាល់ការសរសេរលើអាកាស (Air-writing) អាចត្រូវបានរួមបញ្ចូលនៅក្នុងសាកលវិទ្យាល័យបច្ចេកវិទ្យាដូចជា RUPP ឬ ITC ដើម្បីអនុញ្ញាតឱ្យសាស្ត្រាចារ្យសរសេរអត្ថបទបញ្ជាលើអេក្រង់ដោយមិនចាំបាច់ប៉ះ។
បច្ចេកវិទ្យាជំនួយជនពិការ (Accessibility Tech): អាចជួយបង្កើតឧបករណ៍ទំនាក់ទំនងថ្មីសម្រាប់ជនពិការនៅកម្ពុជា ដោយអនុញ្ញាតឱ្យពួកគេវាយអត្ថបទតាមរយៈចលនាដៃសរសេរលើអាកាសជំនួសការប្រើក្តារចុចកុំព្យូទ័រឬទូរស័ព្ទ។

ជារួម បច្ចេកវិទ្យានេះគឺជាជំហានដ៏សំខាន់មួយដែលអាចជួយពន្លឿនការធ្វើបរិវត្តកម្មឌីជីថល (Digital Transformation) នៅកម្ពុជា ប្រសិនបើត្រូវបានបន្សាំទៅនឹងភាសានិងបរិបទក្នុងស្រុក។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

រៀនមូលដ្ឋានគ្រឹះនៃ CNN និង RNN/LSTM: ចាប់ផ្តើមសិក្សាពីស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទកុំព្យូទ័រ (CNN) សម្រាប់ការទាញយកលក្ខណៈពិសេសពីរូបភាព និងខ្សែសង្វាក់ RNN/LSTM សម្រាប់ទិន្នន័យតាមពេលវេលា ដោយអនុវត្តសរសេរកូដនៅលើ TensorFlow ឬ PyTorch។
ស្វែងយល់និងអនុវត្តបច្ចេកទេស CTC Layer: សិក្សាពីរបៀបដែល Connectionist Temporal Classification (CTC) ដំណើរការក្នុងការកាត់បន្ថយភាពស្ទួននៃតួអក្សរ និងការតម្រឹមទិន្នន័យ (Alignment) ដោយសាកល្បងប្រើប្រាស់មុខងារ CTC ដែលមានស្រាប់នៅក្នុង Keras API។
ប្រមូលនិងសម្អាតទិន្នន័យអក្សរខ្មែរ: បង្កើតឬប្រមូលសំណុំទិន្នន័យរូបភាពអត្ថបទសរសេរដោយដៃជាភាសាខ្មែរ រួចប្រើប្រាស់បណ្ណាល័យ OpenCV សម្រាប់សម្អាតរូបភាព (Noise Reduction), ធ្វើឱ្យរូបភាពមានពណ៌សខ្មៅ (Binarization) និងកែប្រែទំហំទៅជា ១២៨x៣២ ភីកសែល។
កែតម្រូវទិន្នន័យសញ្ញាជាមួយពហុធា (Interpolation): ប្រសិនបើធ្វើការជាមួយទិន្នន័យ Air-writing សូមប្រើប្រាស់អនុគមន៍ Bicubic Interpolation នៅក្នុង SciPy ឬ NumPy ដើម្បីទាញប្រវែងសញ្ញា (Signal Length) ឱ្យស្មើគ្នា (ឧទាហរណ៍ ប្រវែង ២០០) មុននឹងបញ្ចូលទៅម៉ូដែល។
អនុវត្ត Word Beam Search ដើម្បីបង្កើនភាពត្រឹមត្រូវ: ចងក្រងវចនានុក្រមភាសាខ្មែរ (Khmer Text Corpus) បញ្ចូលទៅក្នុងក្បួនដោះស្រាយការទស្សន៍ទាយ ដោយប្រើប្រាស់ CTC Word Beam Search ជំនួសឱ្យ Best Path ធម្មតា ដើម្បីឱ្យម៉ូដែលចេះកែតម្រូវអក្ខរាវិរុទ្ធដែលខុសដោយស្វ័យប្រវត្តិ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Convolutional Recurrent Neural Network (CRNN)	ជាស្ថាបត្យកម្មបញ្ញាសិប្បនិម្មិតដែលរួមបញ្ចូលគ្នារវាងបណ្តាញ CNN សម្រាប់ចាប់យករូបភាពឬលក្ខណៈពិសេសនៃសញ្ញា និងបណ្តាញ RNN សម្រាប់រៀនពីលំដាប់លំដោយនៃទិន្នន័យ (ដូចជាតួអក្សរដែលតម្រៀបគ្នាជាពាក្យ)។	ដូចជាការឱ្យមនុស្សម្នាក់មើលរូបភាពម្តងមួយៗ (CNN) រួចឱ្យម្នាក់ទៀតព្យាយាមផ្គុំរូបភាពទាំងនោះជាសាច់រឿងតាមលំដាប់លំដោយ (RNN)។
Connectionist Temporal Classification (CTC)	ជាក្បួនដោះស្រាយសម្រាប់បណ្តុះបណ្តាលបណ្តាញសរសៃប្រសាទលើទិន្នន័យលំដាប់លំដោយ (Sequence Data) ដោយមិនចាំបាច់ដឹងពីទីតាំងច្បាស់លាស់នៃតួអក្សរនីមួយៗ ហើយវាជួយលុបបំបាត់តួអក្សរដែលស្ទួនគ្នា និងចន្លោះទទេចេញ។	ដូចជាអ្នកកែអត្ថបទដែលចេះកាត់ចោលអក្សរដែលសរសេរជាន់គ្នា (ឧទាហរណ៍៖ "កកក-អអ-ប" ទៅជា "ក-អ-ប") ដើម្បីស្វែងរកពាក្យពិតប្រាកដ។
Air-writing	ជាការសរសេរអក្សរ ឬគូររូបនៅលើអាកាសដោយប្រើចលនាដៃ ឬម្រាមដៃ ដែលត្រូវបានកត់ត្រាដោយសេនស័រ (ដូចជា Smart-band) ឬកាមេរ៉ា ដើម្បីបំប្លែងទៅជាអត្ថបទឌីជីថល។	ដូចជាការប្រើម្រាមដៃសរសេរអក្សរលើខ្យល់ជំនួសឱ្យការសរសេរលើក្រដាស ឬចុចលើក្តារចុច ហើយម៉ាស៊ីនអាចយល់ពីអ្វីដែលយើងសរសេរ។
Bicubic Interpolation	ជាវិធីសាស្ត្រគណិតវិទ្យាក្នុងការប៉ាន់ស្មានតម្លៃទិន្នន័យថ្មីចន្លោះចំណុចទិន្នន័យដែលមានស្រាប់ ដើម្បីពង្រីក ឬបង្រួមប្រវែងសញ្ញាឱ្យមានភាពរលូន និងមិនសូវបាត់បង់ព័ត៌មាន ដោយវាគណនាផ្អែកលើចំណុចក្បែរៗចំនួន ១៦។	ដូចជាការគូសបន្ទាត់ភ្ជាប់ចំណុចជាច្រើន ប៉ុន្តែជំនួសឱ្យការគូសបន្ទាត់ត្រង់ វាប្រើខ្សែរាងកោងរលូនដើម្បីឱ្យទម្រង់មើលទៅធម្មជាតិ និងមិនដាច់ៗ។
Long Short-Term Memory (LSTM)	ជាប្រភេទបណ្តាញសរសៃប្រសាទ RNN កម្រិតខ្ពស់ដែលមានសមត្ថភាពចងចាំព័ត៌មានពីអតីតកាលក្នុងរយៈពេលយូរ ដែលជួយដោះស្រាយបញ្ហាបាត់បង់ព័ត៌មាន (Vanishing Gradient) នៅពេលប្រព័ន្ធទិន្នន័យមានប្រវែងវែង។	ដូចជាមនុស្សម្នាក់ដែលអានសៀវភៅហើយនៅតែចងចាំតួអង្គសំខាន់នៅជំពូកទីមួយយ៉ាងច្បាស់ ទោះបីជាកំពុងអានដល់ជំពូកទីដប់ក៏ដោយ។
Word Beam Search (WBS) Decoding	ជាក្បួនដោះស្រាយក្នុងការទស្សន៍ទាយអត្ថបទចុងក្រោយ ដោយវាយតម្លៃលើផ្លូវ (Paths) ជាច្រើនក្នុងពេលតែមួយ ហើយប្រើប្រាស់វចនានុក្រមឬម៉ូដែលភាសាដើម្បីជ្រើសរើសពាក្យដែលត្រឹមត្រូវបំផុត។	ដូចជាការលេងទស្សន៍ទាយពាក្យ ដោយយើងមិនត្រឹមតែមើលតួអក្សរម្តងមួយៗទេ តែយើងផ្ទៀងផ្ទាត់ជាមួយវចនានុក្រមក្នុងខួរក្បាលដើម្បីរកមើលពាក្យដែលត្រឹមត្រូវនិងមានន័យបំផុត។
Upsampling and Downsampling	ដំណើរការនៃការបង្កើន (Upsampling) ឬកាត់បន្ថយ (Downsampling) ចំនួនចំណុចទិន្នន័យនៅក្នុងសញ្ញា (Signal) ដើម្បីធានាថាទិន្នន័យពីអ្នកប្រើប្រាស់ផ្សេងៗគ្នាមានប្រវែងថេរដូចគ្នា មុននឹងបញ្ចូលទៅក្នុងម៉ូដែលវិភាគ។	ដូចជាការទាញខ្សែយឺតឱ្យវែងបន្តិច ឬបង្រួញវាឱ្យខ្លីបន្តិច ដើម្បីឱ្យវាមានទំហំប៉ុនគ្នាបេះបិទ ងាយស្រួលក្នុងការយកទៅដាក់ចូលក្នុងប្រអប់ស្តង់ដារតែមួយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖