បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាប្រឈមក្នុងការសម្គាល់ទិន្នន័យដែលមានប្រវែងប្រែប្រួលនៅក្នុងអត្ថបទសរសេរដោយដៃ និងការសរសេរលើអាកាស (Air-writing) ដែលបណ្តាលមកពីភាពខុសគ្នានៃល្បឿនសរសេរ និងស្ទីលរបស់អ្នកប្រើប្រាស់។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធស្នើឡើងនូវស្ថាបត្យកម្ម Deep Learning ដោយប្រើប្រាស់បណ្តាញសរសៃប្រសាទកុំព្យូទ័រ (CRNN) រួមបញ្ចូលជាមួយចំណាត់ថ្នាក់តាមពេលវេលា (CTC) និងក្បួនដោះស្រាយ Interpolation ផ្សេងៗដើម្បីធ្វើស្តង់ដារប្រវែងសញ្ញា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Word Beam Search (WBS) Decoding ការស្វែងរកពាក្យដោយប្រើ Word Beam Search |
ផ្តល់លទ្ធផលល្អបំផុតដោយប្រើវចនានុក្រមនិងម៉ូដែលភាសា ដើម្បីកែតម្រូវកំហុសអក្ខរាវិរុទ្ធដោយស្វ័យប្រវត្តិ។ | ត្រូវការទំហំវចនានុក្រមធំដែលអាចប្រើពេលយូរក្នុងការគណនា និងពឹងផ្អែកខ្លាំងលើពាក្យដែលមានស្រាប់ក្នុងវចនានុក្រម។ | ទទួលបានអត្រាកំហុសតួអក្សរ (CER) ទាបបំផុត ១.០៧% និងកំហុសពាក្យ (WER) ១.៤៥% លើសំណុំទិន្នន័យ CVL។ |
| Best Path Decoding ការបកស្រាយតាមផ្លូវល្អបំផុត (Best Path) |
ជាវិធីសាស្ត្រសាមញ្ញ លឿន និងមិនទាមទារកម្លាំងម៉ាស៊ីនច្រើន ដោយគ្រាន់តែជ្រើសរើសតួអក្សរដែលមានប្រូបាប៊ីលីតេខ្ពស់បំផុត។ | មិនបានគិតពីបរិបទពាក្យឬវចនានុក្រម ដែលនាំឱ្យមានកំហុសពាក្យ (WER) ខ្ពស់នៅពេលតួអក្សរមើលទៅស្រដៀងគ្នា។ | មានអត្រាកំហុសពាក្យខ្ពស់ដល់ទៅ ២៩.៤៧% លើសំណុំទិន្នន័យ IAM ដែលចាញ់វិធីសាស្ត្រ WBS យ៉ាងឆ្ងាយ។ |
| Bicubic Interpolation (Length = 200) ការបន្ថែមចន្លោះទិន្នន័យ Bicubic (កំណត់ប្រវែងថេរ ២០០) |
រក្សាបាននូវលក្ខណៈសំខាន់ៗនៃសញ្ញា និងកាត់បន្ថយការបាត់បង់ទិន្នន័យពេលពង្រីកទំហំសញ្ញា (Upsampling) ធ្វើឱ្យសញ្ញាមានភាពរលូន។ | ត្រូវការការគណនាស្មុគស្មាញជាងការកាត់ចោល (Truncation) ឬវិធីសាស្ត្រ Nearest Neighbour។ | សម្រេចបានភាពត្រឹមត្រូវសរុបខ្ពស់បំផុត ៨៨.៥៤% សម្រាប់ការសម្គាល់ការសរសេរលើអាកាស (Air-writing) ប្រៀបធៀបនឹងវិធីសាស្ត្រផ្សេងៗទៀត។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់លម្អិតពីតម្លៃឧបករណ៍ក៏ដោយ ក៏ស្ថាបត្យកម្មរួមបញ្ចូលគ្នារវាង CNN និង LSTM នេះត្រូវការធនធានកុំព្យូទ័រនិងទិន្នន័យច្រើនសម្រាប់ការបណ្តុះបណ្តាល។
សំណុំទិន្នន័យដែលប្រើប្រាស់ក្នុងការសិក្សានេះ (IAM, CVL) គឺផ្តោតជាចម្បងទៅលើភាសាអង់គ្លេស និងអាល្លឺម៉ង់ ដែលមានទម្រង់តួអក្សរដាច់ឡែកពីគ្នា។ សម្រាប់បរិបទប្រទេសកម្ពុជា នេះគឺជាបញ្ហាប្រឈមដ៏ធំមួយ ព្រោះអក្សរខ្មែរមានជើងតួអក្សរ ស្រៈលើ-ក្រោម និងមិនមានការដកឃ្លារវាងពាក្យ ដែលទាមទារឱ្យមានសំណុំទិន្នន័យថ្មីនិងការកែសម្រួលម៉ូដែលទាំងស្រុង។
ទោះបីជាទាមទារការបណ្តុះបណ្តាលលើទិន្នន័យថ្មីក៏ដោយ បច្ចេកវិទ្យានេះមានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធឌីជីថលនៅក្នុងប្រទេសកម្ពុជា។
ជារួម បច្ចេកវិទ្យានេះគឺជាជំហានដ៏សំខាន់មួយដែលអាចជួយពន្លឿនការធ្វើបរិវត្តកម្មឌីជីថល (Digital Transformation) នៅកម្ពុជា ប្រសិនបើត្រូវបានបន្សាំទៅនឹងភាសានិងបរិបទក្នុងស្រុក។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Convolutional Recurrent Neural Network (CRNN) | ជាស្ថាបត្យកម្មបញ្ញាសិប្បនិម្មិតដែលរួមបញ្ចូលគ្នារវាងបណ្តាញ CNN សម្រាប់ចាប់យករូបភាពឬលក្ខណៈពិសេសនៃសញ្ញា និងបណ្តាញ RNN សម្រាប់រៀនពីលំដាប់លំដោយនៃទិន្នន័យ (ដូចជាតួអក្សរដែលតម្រៀបគ្នាជាពាក្យ)។ | ដូចជាការឱ្យមនុស្សម្នាក់មើលរូបភាពម្តងមួយៗ (CNN) រួចឱ្យម្នាក់ទៀតព្យាយាមផ្គុំរូបភាពទាំងនោះជាសាច់រឿងតាមលំដាប់លំដោយ (RNN)។ |
| Connectionist Temporal Classification (CTC) | ជាក្បួនដោះស្រាយសម្រាប់បណ្តុះបណ្តាលបណ្តាញសរសៃប្រសាទលើទិន្នន័យលំដាប់លំដោយ (Sequence Data) ដោយមិនចាំបាច់ដឹងពីទីតាំងច្បាស់លាស់នៃតួអក្សរនីមួយៗ ហើយវាជួយលុបបំបាត់តួអក្សរដែលស្ទួនគ្នា និងចន្លោះទទេចេញ។ | ដូចជាអ្នកកែអត្ថបទដែលចេះកាត់ចោលអក្សរដែលសរសេរជាន់គ្នា (ឧទាហរណ៍៖ "កកក-អអ-ប" ទៅជា "ក-អ-ប") ដើម្បីស្វែងរកពាក្យពិតប្រាកដ។ |
| Air-writing | ជាការសរសេរអក្សរ ឬគូររូបនៅលើអាកាសដោយប្រើចលនាដៃ ឬម្រាមដៃ ដែលត្រូវបានកត់ត្រាដោយសេនស័រ (ដូចជា Smart-band) ឬកាមេរ៉ា ដើម្បីបំប្លែងទៅជាអត្ថបទឌីជីថល។ | ដូចជាការប្រើម្រាមដៃសរសេរអក្សរលើខ្យល់ជំនួសឱ្យការសរសេរលើក្រដាស ឬចុចលើក្តារចុច ហើយម៉ាស៊ីនអាចយល់ពីអ្វីដែលយើងសរសេរ។ |
| Bicubic Interpolation | ជាវិធីសាស្ត្រគណិតវិទ្យាក្នុងការប៉ាន់ស្មានតម្លៃទិន្នន័យថ្មីចន្លោះចំណុចទិន្នន័យដែលមានស្រាប់ ដើម្បីពង្រីក ឬបង្រួមប្រវែងសញ្ញាឱ្យមានភាពរលូន និងមិនសូវបាត់បង់ព័ត៌មាន ដោយវាគណនាផ្អែកលើចំណុចក្បែរៗចំនួន ១៦។ | ដូចជាការគូសបន្ទាត់ភ្ជាប់ចំណុចជាច្រើន ប៉ុន្តែជំនួសឱ្យការគូសបន្ទាត់ត្រង់ វាប្រើខ្សែរាងកោងរលូនដើម្បីឱ្យទម្រង់មើលទៅធម្មជាតិ និងមិនដាច់ៗ។ |
| Long Short-Term Memory (LSTM) | ជាប្រភេទបណ្តាញសរសៃប្រសាទ RNN កម្រិតខ្ពស់ដែលមានសមត្ថភាពចងចាំព័ត៌មានពីអតីតកាលក្នុងរយៈពេលយូរ ដែលជួយដោះស្រាយបញ្ហាបាត់បង់ព័ត៌មាន (Vanishing Gradient) នៅពេលប្រព័ន្ធទិន្នន័យមានប្រវែងវែង។ | ដូចជាមនុស្សម្នាក់ដែលអានសៀវភៅហើយនៅតែចងចាំតួអង្គសំខាន់នៅជំពូកទីមួយយ៉ាងច្បាស់ ទោះបីជាកំពុងអានដល់ជំពូកទីដប់ក៏ដោយ។ |
| Word Beam Search (WBS) Decoding | ជាក្បួនដោះស្រាយក្នុងការទស្សន៍ទាយអត្ថបទចុងក្រោយ ដោយវាយតម្លៃលើផ្លូវ (Paths) ជាច្រើនក្នុងពេលតែមួយ ហើយប្រើប្រាស់វចនានុក្រមឬម៉ូដែលភាសាដើម្បីជ្រើសរើសពាក្យដែលត្រឹមត្រូវបំផុត។ | ដូចជាការលេងទស្សន៍ទាយពាក្យ ដោយយើងមិនត្រឹមតែមើលតួអក្សរម្តងមួយៗទេ តែយើងផ្ទៀងផ្ទាត់ជាមួយវចនានុក្រមក្នុងខួរក្បាលដើម្បីរកមើលពាក្យដែលត្រឹមត្រូវនិងមានន័យបំផុត។ |
| Upsampling and Downsampling | ដំណើរការនៃការបង្កើន (Upsampling) ឬកាត់បន្ថយ (Downsampling) ចំនួនចំណុចទិន្នន័យនៅក្នុងសញ្ញា (Signal) ដើម្បីធានាថាទិន្នន័យពីអ្នកប្រើប្រាស់ផ្សេងៗគ្នាមានប្រវែងថេរដូចគ្នា មុននឹងបញ្ចូលទៅក្នុងម៉ូដែលវិភាគ។ | ដូចជាការទាញខ្សែយឺតឱ្យវែងបន្តិច ឬបង្រួញវាឱ្យខ្លីបន្តិច ដើម្បីឱ្យវាមានទំហំប៉ុនគ្នាបេះបិទ ងាយស្រួលក្នុងការយកទៅដាក់ចូលក្នុងប្រអប់ស្តង់ដារតែមួយ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖