បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាភាពត្រឹមត្រូវដែលមានកម្រិតនៃប្រព័ន្ធសម្គាល់តួអក្សរអុបទិក (OCR) សម្រាប់ភាសាខ្មែរ ដោយសារភាពស្មុគស្មាញនៃប្រព័ន្ធសំណេរ និងកង្វះការបែងចែកដកឃ្លារវាងពាក្យ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវវិធីសាស្ត្រពាក់កណ្តាលស្វ័យប្រវត្តិសម្រាប់ការកែតម្រូវកំហុសក្រោយការសម្គាល់ (Post-recognition error correction) ដោយកំណត់តំបន់កំហុស និងផ្តល់ពាក្យស្នើកែតម្រូវ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Tesseract OCR (Baseline) ប្រព័ន្ធ Tesseract OCR (មុនពេលកែតម្រូវកំហុស) |
អាចដំណើរការបំប្លែងរូបភាពទៅជាអត្ថបទបានយ៉ាងរហ័ស និងប្រើប្រាស់ទម្រង់ស្ដង់ដារដែលមានស្រាប់។ | មានកំហុសច្រើនក្នុងការសម្គាល់តួអក្សរខ្មែរ ដោយសារភាពស្មុគស្មាញនៃប្រព័ន្ធសំណេរ និងតួអក្សរដែលសរសេរជាប់ៗគ្នា។ | ផ្តល់អត្រាភាពត្រឹមត្រូវជាមធ្យម ៩៣,៣៥% លើអត្ថបទសាកល្បង។ |
| Post-recognition Error Correction (Proposed) វិធីសាស្ត្រកែតម្រូវកំហុសក្រោយការសម្គាល់ (វិធីសាស្ត្រស្នើឡើង) |
ជួយបង្កើនភាពត្រឹមត្រូវនៃអត្ថបទបានខ្ពស់ ដោយប្រើម៉ាទ្រីសភាពស្រដៀងគ្នានៃតួអក្សរ និងជួយកែតម្រូវកំហុសតួអក្សរបានរហូតដល់ ៧៩,៣៨%។ | ទាមទារការចូលរួមពីអ្នកប្រើប្រាស់ដើម្បីជ្រើសរើសពាក្យ (ពាក់កណ្តាលស្វ័យប្រវត្តិ) និងមិនទាន់គាំទ្រការកែតម្រូវតួអក្សរផ្សំ (Combined characters) នៅឡើយ។ | បង្កើនអត្រាភាពត្រឹមត្រូវជាមធ្យមដល់ ៩៦,៤៣%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះមិនទាមទារធនធានផ្នែករឹង (Hardware) ខ្ពស់ខ្លាំងនោះទេ ប៉ុន្តែទាមទារការពឹងផ្អែកលើការរៀបចំទិន្នន័យវចនានុក្រម និងការចូលរួមពីមនុស្ស។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសាកល្បងពីអត្ថបទកាសែតអនឡាញចំនួន ៥ ដែលមានត្រឹមតែ ២ ៤៩៦ ពាក្យ និង ១០ ៦០៤ តួអក្សរ។ ទិន្នន័យនេះភាគច្រើនមានទម្រង់ពុម្ពអក្សរច្បាស់ល្អ ដែលអាចមិនទាន់ឆ្លុះបញ្ចាំងពេញលេញពីបញ្ហាប្រឈមជាក់ស្តែង ក្នុងការសម្គាល់ឯកសារចាស់ៗ ឯកសារព្រាង ឬទម្រង់ពុម្ពអក្សរស្មុគស្មាញច្រើនប្រភេទក្នុងប្រទេសកម្ពុជានៅឡើយទេ។
វិធីសាស្ត្រកែតម្រូវកំហុស OCR នេះ មានសារៈសំខាន់ និងមានប្រយោជន៍ខ្លាំងណាស់សម្រាប់ជំរុញយុទ្ធសាស្ត្ររដ្ឋាភិបាលឌីជីថលនៅកម្ពុជា។
សរុបមក ការអនុម័តនិងអភិវឌ្ឍប្រព័ន្ធ OCR ភាសាខ្មែរនេះបន្ត នឹងជួយសម្រួលដល់ការធ្វើបរិវត្តកម្មឌីជីថល (Digital Transformation) ជួយសន្សំសំចៃពេលវេលា និងថែរក្សាបេតិកភណ្ឌភាសាជាតិកម្ពុជាបានយ៉ាងរឹងមាំ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Optical Character Recognition (OCR) (ការសម្គាល់តួអក្សរអុបទិក) | វាជាបច្ចេកវិទ្យាដែលបំប្លែងរូបភាពនៃអត្ថបទ (ដូចជាឯកសារស្កេន ឬរូបថត) ទៅជាទិន្នន័យអត្ថបទឌីជីថលដែលម៉ាស៊ីនអាចអាន កែសម្រួល និងស្វែងរកបាន។ | ដូចជាការឱ្យកុំព្យូទ័រមើលរូបថតសៀវភៅ រួចវាយអត្ថបទនោះចូលក្នុងកុំព្យូទ័រឡើងវិញដោយស្វ័យប្រវត្តិជំនួសមនុស្ស។ |
| Post-recognition (ក្រោយការសម្គាល់) | វាគឺជាដំណាក់កាលចុងក្រោយនៅក្នុងប្រព័ន្ធកុំព្យូទ័រ ដែលដំណើរការការកែតម្រូវកំហុសអក្ខរាវិរុទ្ធ ឬតួអក្សរខុស បន្ទាប់ពីម៉ាស៊ីនបានបំប្លែងរូបភាពទៅជាអត្ថបទរួចរាល់។ | ដូចជាការត្រួតពិនិត្យ និងកែអក្ខរាវិរុទ្ធឡើងវិញដោយផ្ទៀងផ្ទាត់ជាមួយវចនានុក្រម បន្ទាប់ពីយើងបានវាយអត្ថបទមួយចប់សព្វគ្រប់។ |
| Character similarity matrix (ម៉ាទ្រីសភាពស្រដៀងគ្នានៃតួអក្សរ) | វាជាតារាងទិន្នន័យដែលផ្ទុកព័ត៌មានអំពីតួអក្សរណាខ្លះដែលមានរូបរាងស្រដៀងគ្នាខ្លាំង ហើយងាយនឹងធ្វើឱ្យប្រព័ន្ធ OCR ច្រឡំគ្នា (ឧទាហរណ៍ ក និង គ ឬ ត និង ក)។ | ដូចជាបញ្ជីកត់ត្រាមុខសញ្ញាមនុស្សភ្លោះ ឬអ្នកដែលមានមុខមាត់ស្រដៀងគ្នា ដើម្បីកុំឱ្យយើងចំណាំខុសនៅពេលក្រោយ។ |
| Word Segmentation (ការបែងចែកពាក្យ) | វាជាដំណើរការនៃការកាត់បំបែកប្រយោគទៅជាពាក្យនីមួយៗដាច់ពីគ្នា ដែលក្បួននេះមានភាពលំបាកសម្រាប់ភាសាខ្មែរដោយសារយើងសរសេរជាប់គ្នាដោយមិនដកឃ្លារវាងពាក្យនិមួយៗ។ | ដូចជាការយកកន្ត្រៃមកកាត់ប្រយោគមួយខ្សែវែង ឱ្យទៅជាកង់ៗតូចៗ ដែលមួយកង់ៗតំណាងឱ្យពាក្យមួយមានន័យត្រឹមត្រូវ។ |
| Suspect error area (SEA) (តំបន់សង្ស័យកំហុស) | វាជាវិធីសាស្ត្រក្នុងការកំណត់បរិវេណនៃពាក្យខុស ដោយរួមបញ្ចូលទាំងពាក្យដែលនៅខាងឆ្វេង និងខាងស្តាំនៃកំហុសនោះ ដើម្បីយកមកវិភាគរកប្រភពដើមនៃពាក្យ មុនពេលវាត្រូវបានប្រព័ន្ធបំបែកខុស។ | ដូចជាការហ៊ុំព័ទ្ធកន្លែងកើតហេតុ និងតំបន់ជុំវិញ ដើម្បីស្វែងរកភស្តុតាងឱ្យបានគ្រប់ជ្រុងជ្រោយក្នុងការដោះស្រាយបញ្ហា។ |
| Maximal matching (ការផ្គូផ្គងអតិបរមា) | វាជាក្បួនដោះស្រាយ (Algorithm) ដែលព្យាយាមផ្គូផ្គងខ្សែអក្សរវែងបំផុតដែលអាចធ្វើទៅបានជាមួយនឹងពាក្យដែលមានក្នុងវចនានុក្រម ដើម្បីអាចបែងចែកពាក្យចេញពីប្រយោគបានត្រឹមត្រូវ។ | ដូចជាការព្យាយាមរកមើលបន្ដុំអក្សរវែងបំផុតដែលអាចអានដាច់សេចក្តីមានន័យស្តាប់បាន មុននឹងសម្រេចចិត្តកាត់ផ្តាច់ពាក្យនោះចេញពីប្រយោគ។ |
| Consonantal clusters (តួអក្សរផ្សំ ឬជើងអក្សរ) | វាជាការប្រមូលផ្តុំនៃព្យញ្ជនៈពីរ ឬច្រើនដែលសរសេរត្រួតស៊ីគ្នា (មានតួ និងជើង) នៅក្នុងភាសាខ្មែរ ដែលទម្រង់នេះធ្វើឱ្យប្រព័ន្ធ OCR ងាយនឹងសម្គាល់ខុស ឬបំបែកអក្សរមួយតួទៅជាពាក្យច្រើន។ | ដូចជាការតម្រួតឥដ្ឋលើគ្នាដែលកុំព្យូទ័រអាចមើលច្រឡំថាជាឥដ្ឋពីរដាច់ឡែកពីគ្នា ប្រសិនបើវាមិនស្គាល់ពីទម្រង់នៃការតម្រួតនេះ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖