Original Title: Accuracy Improvement of Khmer Text Recognition by Correcting Post-recognized Characters
Source: doi.org/10.61945/cjbar.2024.6.2.05
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើឱ្យប្រសើរឡើងនូវភាពត្រឹមត្រូវនៃការសម្គាល់អត្ថបទខ្មែរតាមរយៈការកែតម្រូវតួអក្សរក្រោយការសម្គាល់រួច

ចំណងជើងដើម៖ Accuracy Improvement of Khmer Text Recognition by Correcting Post-recognized Characters

អ្នកនិពន្ធ៖ SRUN Sovila (Royal University of Phnom Penh), KEAN Tak (Royal University of Phnom Penh), BUN Leap (Royal University of Phnom Penh)

ឆ្នាំបោះពុម្ព៖ 2024, The Cambodia Journal of Basic and Applied Research

វិស័យសិក្សា៖ Information Technology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាភាពត្រឹមត្រូវដែលមានកម្រិតនៃប្រព័ន្ធសម្គាល់តួអក្សរអុបទិក (OCR) សម្រាប់ភាសាខ្មែរ ដោយសារភាពស្មុគស្មាញនៃប្រព័ន្ធសំណេរ និងកង្វះការបែងចែកដកឃ្លារវាងពាក្យ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវវិធីសាស្ត្រពាក់កណ្តាលស្វ័យប្រវត្តិសម្រាប់ការកែតម្រូវកំហុសក្រោយការសម្គាល់ (Post-recognition error correction) ដោយកំណត់តំបន់កំហុស និងផ្តល់ពាក្យស្នើកែតម្រូវ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Tesseract OCR (Baseline)
ប្រព័ន្ធ Tesseract OCR (មុនពេលកែតម្រូវកំហុស)
អាចដំណើរការបំប្លែងរូបភាពទៅជាអត្ថបទបានយ៉ាងរហ័ស និងប្រើប្រាស់ទម្រង់ស្ដង់ដារដែលមានស្រាប់។ មានកំហុសច្រើនក្នុងការសម្គាល់តួអក្សរខ្មែរ ដោយសារភាពស្មុគស្មាញនៃប្រព័ន្ធសំណេរ និងតួអក្សរដែលសរសេរជាប់ៗគ្នា។ ផ្តល់អត្រាភាពត្រឹមត្រូវជាមធ្យម ៩៣,៣៥% លើអត្ថបទសាកល្បង។
Post-recognition Error Correction (Proposed)
វិធីសាស្ត្រកែតម្រូវកំហុសក្រោយការសម្គាល់ (វិធីសាស្ត្រស្នើឡើង)
ជួយបង្កើនភាពត្រឹមត្រូវនៃអត្ថបទបានខ្ពស់ ដោយប្រើម៉ាទ្រីសភាពស្រដៀងគ្នានៃតួអក្សរ និងជួយកែតម្រូវកំហុសតួអក្សរបានរហូតដល់ ៧៩,៣៨%។ ទាមទារការចូលរួមពីអ្នកប្រើប្រាស់ដើម្បីជ្រើសរើសពាក្យ (ពាក់កណ្តាលស្វ័យប្រវត្តិ) និងមិនទាន់គាំទ្រការកែតម្រូវតួអក្សរផ្សំ (Combined characters) នៅឡើយ។ បង្កើនអត្រាភាពត្រឹមត្រូវជាមធ្យមដល់ ៩៦,៤៣%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះមិនទាមទារធនធានផ្នែករឹង (Hardware) ខ្ពស់ខ្លាំងនោះទេ ប៉ុន្តែទាមទារការពឹងផ្អែកលើការរៀបចំទិន្នន័យវចនានុក្រម និងការចូលរួមពីមនុស្ស។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសាកល្បងពីអត្ថបទកាសែតអនឡាញចំនួន ៥ ដែលមានត្រឹមតែ ២ ៤៩៦ ពាក្យ និង ១០ ៦០៤ តួអក្សរ។ ទិន្នន័យនេះភាគច្រើនមានទម្រង់ពុម្ពអក្សរច្បាស់ល្អ ដែលអាចមិនទាន់ឆ្លុះបញ្ចាំងពេញលេញពីបញ្ហាប្រឈមជាក់ស្តែង ក្នុងការសម្គាល់ឯកសារចាស់ៗ ឯកសារព្រាង ឬទម្រង់ពុម្ពអក្សរស្មុគស្មាញច្រើនប្រភេទក្នុងប្រទេសកម្ពុជានៅឡើយទេ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រកែតម្រូវកំហុស OCR នេះ មានសារៈសំខាន់ និងមានប្រយោជន៍ខ្លាំងណាស់សម្រាប់ជំរុញយុទ្ធសាស្ត្ររដ្ឋាភិបាលឌីជីថលនៅកម្ពុជា។

សរុបមក ការអនុម័តនិងអភិវឌ្ឍប្រព័ន្ធ OCR ភាសាខ្មែរនេះបន្ត នឹងជួយសម្រួលដល់ការធ្វើបរិវត្តកម្មឌីជីថល (Digital Transformation) ជួយសន្សំសំចៃពេលវេលា និងថែរក្សាបេតិកភណ្ឌភាសាជាតិកម្ពុជាបានយ៉ាងរឹងមាំ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាពីមូលដ្ឋានគ្រឹះនៃ OCR និងក្បួនដោះស្រាយអត្ថបទ: និស្សិតគួរសិក្សាពីរបៀបដំណើរការរបស់ប្រព័ន្ធ Tesseract OCR និងទ្រឹស្តីទាក់ទងនឹងការបែងចែកពាក្យខ្មែរ ដូចជាក្បួន Bi-directional Maximal Matching
  2. ប្រមូល និងរៀបចំទិន្នន័យវចនានុក្រម: រៀបចំទិន្នន័យវចនានុក្រមភាសាខ្មែរ (Khmer Dictionary) ដែលមានភាពសុក្រឹត ដើម្បីយកមកប្រើជាមូលដ្ឋានក្នុងការផ្ទៀងផ្ទាត់ពាក្យខុស និងពាក្យត្រឹមត្រូវក្នុងដំណាក់កាល Post-processing
  3. បង្កើតម៉ាទ្រីសភាពស្រដៀងគ្នានៃតួអក្សរ: រៀបចំបង្កើត Character Similarity Matrix ដោយធ្វើការកត់ត្រានូវតួអក្សរខ្មែរណាខ្លះដែលប្រព័ន្ធ OCR ឧស្សាហ៍សម្គាល់ខុស (ឧទាហរណ៍៖ ក និង គ ឬ ត និង ក)។
  4. សរសេរកូដ និងសាកល្បងក្បួនដោះស្រាយកែតម្រូវ: ប្រើប្រាស់ភាសាកម្មវិធី Python ដើម្បីសរសេរកូដកំណត់តំបន់សង្ស័យកំហុស (Suspect Error Area) រួចដំណើរការស្វែងរកពាក្យស្នើកែតម្រូវ និងប្រៀបធៀបលទ្ធផលជាមួយអត្ថបទដើម។
  5. អភិវឌ្ឍបន្ថែមលើតួអក្សរផ្សំ និងម៉ាស៊ីនរៀន: ពង្រីកសមត្ថភាពប្រព័ន្ធកែតម្រូវនេះឱ្យអាចគាំទ្រ One-to-many character similarities ដើម្បីដោះស្រាយបញ្ហាតួអក្សរផ្សំ ដោយអាចរួមបញ្ចូលបច្ចេកវិទ្យា Machine LearningNLP បន្ថែមដើម្បីជួយផ្ដល់យោបល់ពាក្យដោយស្វ័យប្រវត្តិ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Optical Character Recognition (OCR) (ការសម្គាល់តួអក្សរអុបទិក) វាជាបច្ចេកវិទ្យាដែលបំប្លែងរូបភាពនៃអត្ថបទ (ដូចជាឯកសារស្កេន ឬរូបថត) ទៅជាទិន្នន័យអត្ថបទឌីជីថលដែលម៉ាស៊ីនអាចអាន កែសម្រួល និងស្វែងរកបាន។ ដូចជាការឱ្យកុំព្យូទ័រមើលរូបថតសៀវភៅ រួចវាយអត្ថបទនោះចូលក្នុងកុំព្យូទ័រឡើងវិញដោយស្វ័យប្រវត្តិជំនួសមនុស្ស។
Post-recognition (ក្រោយការសម្គាល់) វាគឺជាដំណាក់កាលចុងក្រោយនៅក្នុងប្រព័ន្ធកុំព្យូទ័រ ដែលដំណើរការការកែតម្រូវកំហុសអក្ខរាវិរុទ្ធ ឬតួអក្សរខុស បន្ទាប់ពីម៉ាស៊ីនបានបំប្លែងរូបភាពទៅជាអត្ថបទរួចរាល់។ ដូចជាការត្រួតពិនិត្យ និងកែអក្ខរាវិរុទ្ធឡើងវិញដោយផ្ទៀងផ្ទាត់ជាមួយវចនានុក្រម បន្ទាប់ពីយើងបានវាយអត្ថបទមួយចប់សព្វគ្រប់។
Character similarity matrix (ម៉ាទ្រីសភាពស្រដៀងគ្នានៃតួអក្សរ) វាជាតារាងទិន្នន័យដែលផ្ទុកព័ត៌មានអំពីតួអក្សរណាខ្លះដែលមានរូបរាងស្រដៀងគ្នាខ្លាំង ហើយងាយនឹងធ្វើឱ្យប្រព័ន្ធ OCR ច្រឡំគ្នា (ឧទាហរណ៍ ក និង គ ឬ ត និង ក)។ ដូចជាបញ្ជីកត់ត្រាមុខសញ្ញាមនុស្សភ្លោះ ឬអ្នកដែលមានមុខមាត់ស្រដៀងគ្នា ដើម្បីកុំឱ្យយើងចំណាំខុសនៅពេលក្រោយ។
Word Segmentation (ការបែងចែកពាក្យ) វាជាដំណើរការនៃការកាត់បំបែកប្រយោគទៅជាពាក្យនីមួយៗដាច់ពីគ្នា ដែលក្បួននេះមានភាពលំបាកសម្រាប់ភាសាខ្មែរដោយសារយើងសរសេរជាប់គ្នាដោយមិនដកឃ្លារវាងពាក្យនិមួយៗ។ ដូចជាការយកកន្ត្រៃមកកាត់ប្រយោគមួយខ្សែវែង ឱ្យទៅជាកង់ៗតូចៗ ដែលមួយកង់ៗតំណាងឱ្យពាក្យមួយមានន័យត្រឹមត្រូវ។
Suspect error area (SEA) (តំបន់សង្ស័យកំហុស) វាជាវិធីសាស្ត្រក្នុងការកំណត់បរិវេណនៃពាក្យខុស ដោយរួមបញ្ចូលទាំងពាក្យដែលនៅខាងឆ្វេង និងខាងស្តាំនៃកំហុសនោះ ដើម្បីយកមកវិភាគរកប្រភពដើមនៃពាក្យ មុនពេលវាត្រូវបានប្រព័ន្ធបំបែកខុស។ ដូចជាការហ៊ុំព័ទ្ធកន្លែងកើតហេតុ និងតំបន់ជុំវិញ ដើម្បីស្វែងរកភស្តុតាងឱ្យបានគ្រប់ជ្រុងជ្រោយក្នុងការដោះស្រាយបញ្ហា។
Maximal matching (ការផ្គូផ្គងអតិបរមា) វាជាក្បួនដោះស្រាយ (Algorithm) ដែលព្យាយាមផ្គូផ្គងខ្សែអក្សរវែងបំផុតដែលអាចធ្វើទៅបានជាមួយនឹងពាក្យដែលមានក្នុងវចនានុក្រម ដើម្បីអាចបែងចែកពាក្យចេញពីប្រយោគបានត្រឹមត្រូវ។ ដូចជាការព្យាយាមរកមើលបន្ដុំអក្សរវែងបំផុតដែលអាចអានដាច់សេចក្តីមានន័យស្តាប់បាន មុននឹងសម្រេចចិត្តកាត់ផ្តាច់ពាក្យនោះចេញពីប្រយោគ។
Consonantal clusters (តួអក្សរផ្សំ ឬជើងអក្សរ) វាជាការប្រមូលផ្តុំនៃព្យញ្ជនៈពីរ ឬច្រើនដែលសរសេរត្រួតស៊ីគ្នា (មានតួ និងជើង) នៅក្នុងភាសាខ្មែរ ដែលទម្រង់នេះធ្វើឱ្យប្រព័ន្ធ OCR ងាយនឹងសម្គាល់ខុស ឬបំបែកអក្សរមួយតួទៅជាពាក្យច្រើន។ ដូចជាការតម្រួតឥដ្ឋលើគ្នាដែលកុំព្យូទ័រអាចមើលច្រឡំថាជាឥដ្ឋពីរដាច់ឡែកពីគ្នា ប្រសិនបើវាមិនស្គាល់ពីទម្រង់នៃការតម្រួតនេះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖