Original Title: Accuracy Improvement of Khmer Text Recognition by Correcting Post-recognized Characters
Source: doi.org/10.61945/cjbar.2024.6.2.05
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការធ្វើឱ្យប្រសើរឡើងនូវភាពត្រឹមត្រូវនៃការសម្គាល់អត្ថបទខ្មែរតាមរយៈការកែតម្រូវតួអក្សរក្រោយការសម្គាល់រួច

ចំណងជើងដើម៖ Accuracy Improvement of Khmer Text Recognition by Correcting Post-recognized Characters

អ្នកនិពន្ធ៖ SRUN Sovila (Royal University of Phnom Penh), KEAN Tak (Royal University of Phnom Penh), BUN Leap (Royal University of Phnom Penh)

ឆ្នាំបោះពុម្ព៖ 2024, The Cambodia Journal of Basic and Applied Research

វិស័យសិក្សា៖ Information Technology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាភាពត្រឹមត្រូវដែលមានកម្រិតនៃប្រព័ន្ធសម្គាល់តួអក្សរអុបទិក (OCR) សម្រាប់ភាសាខ្មែរ ដោយសារភាពស្មុគស្មាញនៃប្រព័ន្ធសំណេរ និងកង្វះការបែងចែកដកឃ្លារវាងពាក្យ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវវិធីសាស្ត្រពាក់កណ្តាលស្វ័យប្រវត្តិសម្រាប់ការកែតម្រូវកំហុសក្រោយការសម្គាល់ (Post-recognition error correction) ដោយកំណត់តំបន់កំហុស និងផ្តល់ពាក្យស្នើកែតម្រូវ។

ការរកឃើញកំហុសតាមរយៈការបែងចែកពាក្យ (Word Segmentation) និងការកំណត់តំបន់កំហុសដែលសង្ស័យ (Suspect Error Area Detection)។
ការកែតម្រូវកំហុសតាមរយៈការបង្កើតពាក្យដែលត្រូវបានស្នើ (Generating suggested words) ដោយផ្អែកលើម៉ាទ្រីសភាពស្រដៀងគ្នានៃតួអក្សរ (Character Similarity Matrix)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រដែលបានស្នើឡើងអាចកែតម្រូវពាក្យដែលមានកំហុសតួអក្សរបានចំនួន ៧៧ ក្នុងចំណោម ៩៧ ពាក្យ ដែលស្មើនឹងអត្រាជោគជ័យ ៧៩,៣៨%។
ភាពត្រឹមត្រូវជាមធ្យមនៃប្រព័ន្ធ Tesseract OCR ត្រូវបានធ្វើឱ្យប្រសើរឡើងពី ៩៣,៣៥% ទៅ ៩៦,៤៣% លើអត្ថបទសាកល្បងចំនួន ៥។
ស្ថាប័នរដ្ឋ និងឯកជនគួរតែផ្តល់អាទិភាពលើការអនុម័តប្រព័ន្ធ OCR ភាសាខ្មែរដែលត្រូវបានកែលម្អនេះ ដើម្បីជំរុញគោលដៅបរិវត្តកម្មឌីជីថល (Digital transformation) នៅកម្ពុជា។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Tesseract OCR (Baseline) ប្រព័ន្ធ Tesseract OCR (មុនពេលកែតម្រូវកំហុស)	អាចដំណើរការបំប្លែងរូបភាពទៅជាអត្ថបទបានយ៉ាងរហ័ស និងប្រើប្រាស់ទម្រង់ស្ដង់ដារដែលមានស្រាប់។	មានកំហុសច្រើនក្នុងការសម្គាល់តួអក្សរខ្មែរ ដោយសារភាពស្មុគស្មាញនៃប្រព័ន្ធសំណេរ និងតួអក្សរដែលសរសេរជាប់ៗគ្នា។	ផ្តល់អត្រាភាពត្រឹមត្រូវជាមធ្យម ៩៣,៣៥% លើអត្ថបទសាកល្បង។
Post-recognition Error Correction (Proposed) វិធីសាស្ត្រកែតម្រូវកំហុសក្រោយការសម្គាល់ (វិធីសាស្ត្រស្នើឡើង)	ជួយបង្កើនភាពត្រឹមត្រូវនៃអត្ថបទបានខ្ពស់ ដោយប្រើម៉ាទ្រីសភាពស្រដៀងគ្នានៃតួអក្សរ និងជួយកែតម្រូវកំហុសតួអក្សរបានរហូតដល់ ៧៩,៣៨%។	ទាមទារការចូលរួមពីអ្នកប្រើប្រាស់ដើម្បីជ្រើសរើសពាក្យ (ពាក់កណ្តាលស្វ័យប្រវត្តិ) និងមិនទាន់គាំទ្រការកែតម្រូវតួអក្សរផ្សំ (Combined characters) នៅឡើយ។	បង្កើនអត្រាភាពត្រឹមត្រូវជាមធ្យមដល់ ៩៦,៤៣%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះមិនទាមទារធនធានផ្នែករឹង (Hardware) ខ្ពស់ខ្លាំងនោះទេ ប៉ុន្តែទាមទារការពឹងផ្អែកលើការរៀបចំទិន្នន័យវចនានុក្រម និងការចូលរួមពីមនុស្ស។

Software Framework: ម៉ាស៊ីន Tesseract OCR និងកូដសម្រាប់ដំណើរការក្បួនដោះស្រាយ Word Segmentation ព្រមទាំងប្រព័ន្ធកែតម្រូវ។
Dataset: ត្រូវការវចនានុក្រមភាសាខ្មែរដែលពេញលេញ និងម៉ាទ្រីសភាពស្រដៀងគ្នានៃតួអក្សរ (Character Similarity Matrix) ដែលត្រូវធ្វើបច្ចុប្បន្នភាពជាប្រចាំ។
Human Expertise: ទាមទារអ្នកប្រើប្រាស់ដើម្បីពិនិត្យ ជ្រើសរើសពាក្យដែលបានស្នើ ឬវាយបញ្ចូលពាក្យត្រឹមត្រូវក្នុងករណីប្រព័ន្ធរកមិនឃើញពាក្យ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសាកល្បងពីអត្ថបទកាសែតអនឡាញចំនួន ៥ ដែលមានត្រឹមតែ ២ ៤៩៦ ពាក្យ និង ១០ ៦០៤ តួអក្សរ។ ទិន្នន័យនេះភាគច្រើនមានទម្រង់ពុម្ពអក្សរច្បាស់ល្អ ដែលអាចមិនទាន់ឆ្លុះបញ្ចាំងពេញលេញពីបញ្ហាប្រឈមជាក់ស្តែង ក្នុងការសម្គាល់ឯកសារចាស់ៗ ឯកសារព្រាង ឬទម្រង់ពុម្ពអក្សរស្មុគស្មាញច្រើនប្រភេទក្នុងប្រទេសកម្ពុជានៅឡើយទេ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រកែតម្រូវកំហុស OCR នេះ មានសារៈសំខាន់ និងមានប្រយោជន៍ខ្លាំងណាស់សម្រាប់ជំរុញយុទ្ធសាស្ត្ររដ្ឋាភិបាលឌីជីថលនៅកម្ពុជា។

វិស័យរដ្ឋបាលសាធារណៈ (E-Government): ស្ថាប័នរដ្ឋអាចប្រើប្រាស់ប្រព័ន្ធនេះដើម្បីបំប្លែងឯកសារច្បាប់ សេចក្តីប្រកាស ឬសៀវភៅរាជកិច្ចចាស់ៗ ទៅជាទម្រង់ឌីជីថល (Digital format) ប្រកបដោយប្រសិទ្ធភាព និងអាចស្វែងរកបាន។
វិស័យធនាគារ និងហិរញ្ញវត្ថុ: ជួយក្នុងការទាញយកទិន្នន័យពីវិក្កយបត្រ របាយការណ៍ធនាគារ ឬឯកសារកម្ចីប្រាក់នានាដោយស្វ័យប្រវត្តិ ដើម្បីកាត់បន្ថយកំហុសពីការវាយបញ្ចូលទិន្នន័យដោយមនុស្ស។
វិស័យសុខាភិបាល: ជួយសម្រួលដល់ការប្រែក្លាយកំណត់ត្រាវេជ្ជសាស្ត្រ (Health records) និងប្រវត្តិជំងឺជាភាសាខ្មែរទៅជាប្រព័ន្ធទិន្នន័យអេឡិចត្រូនិក។

សរុបមក ការអនុម័តនិងអភិវឌ្ឍប្រព័ន្ធ OCR ភាសាខ្មែរនេះបន្ត នឹងជួយសម្រួលដល់ការធ្វើបរិវត្តកម្មឌីជីថល (Digital Transformation) ជួយសន្សំសំចៃពេលវេលា និងថែរក្សាបេតិកភណ្ឌភាសាជាតិកម្ពុជាបានយ៉ាងរឹងមាំ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីមូលដ្ឋានគ្រឹះនៃ OCR និងក្បួនដោះស្រាយអត្ថបទ: និស្សិតគួរសិក្សាពីរបៀបដំណើរការរបស់ប្រព័ន្ធ Tesseract OCR និងទ្រឹស្តីទាក់ទងនឹងការបែងចែកពាក្យខ្មែរ ដូចជាក្បួន Bi-directional Maximal Matching។
ប្រមូល និងរៀបចំទិន្នន័យវចនានុក្រម: រៀបចំទិន្នន័យវចនានុក្រមភាសាខ្មែរ (Khmer Dictionary) ដែលមានភាពសុក្រឹត ដើម្បីយកមកប្រើជាមូលដ្ឋានក្នុងការផ្ទៀងផ្ទាត់ពាក្យខុស និងពាក្យត្រឹមត្រូវក្នុងដំណាក់កាល Post-processing។
បង្កើតម៉ាទ្រីសភាពស្រដៀងគ្នានៃតួអក្សរ: រៀបចំបង្កើត Character Similarity Matrix ដោយធ្វើការកត់ត្រានូវតួអក្សរខ្មែរណាខ្លះដែលប្រព័ន្ធ OCR ឧស្សាហ៍សម្គាល់ខុស (ឧទាហរណ៍៖ ក និង គ ឬ ត និង ក)។
សរសេរកូដ និងសាកល្បងក្បួនដោះស្រាយកែតម្រូវ: ប្រើប្រាស់ភាសាកម្មវិធី Python ដើម្បីសរសេរកូដកំណត់តំបន់សង្ស័យកំហុស (Suspect Error Area) រួចដំណើរការស្វែងរកពាក្យស្នើកែតម្រូវ និងប្រៀបធៀបលទ្ធផលជាមួយអត្ថបទដើម។
អភិវឌ្ឍបន្ថែមលើតួអក្សរផ្សំ និងម៉ាស៊ីនរៀន: ពង្រីកសមត្ថភាពប្រព័ន្ធកែតម្រូវនេះឱ្យអាចគាំទ្រ One-to-many character similarities ដើម្បីដោះស្រាយបញ្ហាតួអក្សរផ្សំ ដោយអាចរួមបញ្ចូលបច្ចេកវិទ្យា Machine Learning ឬ NLP បន្ថែមដើម្បីជួយផ្ដល់យោបល់ពាក្យដោយស្វ័យប្រវត្តិ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Optical Character Recognition (OCR) (ការសម្គាល់តួអក្សរអុបទិក)	វាជាបច្ចេកវិទ្យាដែលបំប្លែងរូបភាពនៃអត្ថបទ (ដូចជាឯកសារស្កេន ឬរូបថត) ទៅជាទិន្នន័យអត្ថបទឌីជីថលដែលម៉ាស៊ីនអាចអាន កែសម្រួល និងស្វែងរកបាន។	ដូចជាការឱ្យកុំព្យូទ័រមើលរូបថតសៀវភៅ រួចវាយអត្ថបទនោះចូលក្នុងកុំព្យូទ័រឡើងវិញដោយស្វ័យប្រវត្តិជំនួសមនុស្ស។
Post-recognition (ក្រោយការសម្គាល់)	វាគឺជាដំណាក់កាលចុងក្រោយនៅក្នុងប្រព័ន្ធកុំព្យូទ័រ ដែលដំណើរការការកែតម្រូវកំហុសអក្ខរាវិរុទ្ធ ឬតួអក្សរខុស បន្ទាប់ពីម៉ាស៊ីនបានបំប្លែងរូបភាពទៅជាអត្ថបទរួចរាល់។	ដូចជាការត្រួតពិនិត្យ និងកែអក្ខរាវិរុទ្ធឡើងវិញដោយផ្ទៀងផ្ទាត់ជាមួយវចនានុក្រម បន្ទាប់ពីយើងបានវាយអត្ថបទមួយចប់សព្វគ្រប់។
Character similarity matrix (ម៉ាទ្រីសភាពស្រដៀងគ្នានៃតួអក្សរ)	វាជាតារាងទិន្នន័យដែលផ្ទុកព័ត៌មានអំពីតួអក្សរណាខ្លះដែលមានរូបរាងស្រដៀងគ្នាខ្លាំង ហើយងាយនឹងធ្វើឱ្យប្រព័ន្ធ OCR ច្រឡំគ្នា (ឧទាហរណ៍ ក និង គ ឬ ត និង ក)។	ដូចជាបញ្ជីកត់ត្រាមុខសញ្ញាមនុស្សភ្លោះ ឬអ្នកដែលមានមុខមាត់ស្រដៀងគ្នា ដើម្បីកុំឱ្យយើងចំណាំខុសនៅពេលក្រោយ។
Word Segmentation (ការបែងចែកពាក្យ)	វាជាដំណើរការនៃការកាត់បំបែកប្រយោគទៅជាពាក្យនីមួយៗដាច់ពីគ្នា ដែលក្បួននេះមានភាពលំបាកសម្រាប់ភាសាខ្មែរដោយសារយើងសរសេរជាប់គ្នាដោយមិនដកឃ្លារវាងពាក្យនិមួយៗ។	ដូចជាការយកកន្ត្រៃមកកាត់ប្រយោគមួយខ្សែវែង ឱ្យទៅជាកង់ៗតូចៗ ដែលមួយកង់ៗតំណាងឱ្យពាក្យមួយមានន័យត្រឹមត្រូវ។
Suspect error area (SEA) (តំបន់សង្ស័យកំហុស)	វាជាវិធីសាស្ត្រក្នុងការកំណត់បរិវេណនៃពាក្យខុស ដោយរួមបញ្ចូលទាំងពាក្យដែលនៅខាងឆ្វេង និងខាងស្តាំនៃកំហុសនោះ ដើម្បីយកមកវិភាគរកប្រភពដើមនៃពាក្យ មុនពេលវាត្រូវបានប្រព័ន្ធបំបែកខុស។	ដូចជាការហ៊ុំព័ទ្ធកន្លែងកើតហេតុ និងតំបន់ជុំវិញ ដើម្បីស្វែងរកភស្តុតាងឱ្យបានគ្រប់ជ្រុងជ្រោយក្នុងការដោះស្រាយបញ្ហា។
Maximal matching (ការផ្គូផ្គងអតិបរមា)	វាជាក្បួនដោះស្រាយ (Algorithm) ដែលព្យាយាមផ្គូផ្គងខ្សែអក្សរវែងបំផុតដែលអាចធ្វើទៅបានជាមួយនឹងពាក្យដែលមានក្នុងវចនានុក្រម ដើម្បីអាចបែងចែកពាក្យចេញពីប្រយោគបានត្រឹមត្រូវ។	ដូចជាការព្យាយាមរកមើលបន្ដុំអក្សរវែងបំផុតដែលអាចអានដាច់សេចក្តីមានន័យស្តាប់បាន មុននឹងសម្រេចចិត្តកាត់ផ្តាច់ពាក្យនោះចេញពីប្រយោគ។
Consonantal clusters (តួអក្សរផ្សំ ឬជើងអក្សរ)	វាជាការប្រមូលផ្តុំនៃព្យញ្ជនៈពីរ ឬច្រើនដែលសរសេរត្រួតស៊ីគ្នា (មានតួ និងជើង) នៅក្នុងភាសាខ្មែរ ដែលទម្រង់នេះធ្វើឱ្យប្រព័ន្ធ OCR ងាយនឹងសម្គាល់ខុស ឬបំបែកអក្សរមួយតួទៅជាពាក្យច្រើន។	ដូចជាការតម្រួតឥដ្ឋលើគ្នាដែលកុំព្យូទ័រអាចមើលច្រឡំថាជាឥដ្ឋពីរដាច់ឡែកពីគ្នា ប្រសិនបើវាមិនស្គាល់ពីទម្រង់នៃការតម្រួតនេះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ការលើកកម្ពស់ភាពត្រឹមត្រូវនៃការទទួលស្គាល់តួអក្សរអុបទិកខ្មែរ (OCR) ដោយប្រើការយល់ដឹងពីតំបន់តួអក្សរ (CRAFT) និងម៉ូដែលផ្អែកលើ Transformer
Advancement of Khmer Optical Character Recognition (OCR) Accuracy by Using Character Region Awareness (CRAFT) and Transformer-Based Models

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖