Original Title: Advancement of Khmer Optical Character Recognition (OCR) Accuracy by Using Character Region Awareness (CRAFT) and Transformer-Based Models
Source: doi.org/10.61945/cjbar.2025.7.3.01
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការលើកកម្ពស់ភាពត្រឹមត្រូវនៃការទទួលស្គាល់តួអក្សរអុបទិកខ្មែរ (OCR) ដោយប្រើការយល់ដឹងពីតំបន់តួអក្សរ (CRAFT) និងម៉ូដែលផ្អែកលើ Transformer

ចំណងជើងដើម៖ Advancement of Khmer Optical Character Recognition (OCR) Accuracy by Using Character Region Awareness (CRAFT) and Transformer-Based Models

អ្នកនិពន្ធ៖ Bunchhun Chhim (Royal University of Phnom Penh, Cambodia), Sovanndara Var (Royal University of Phnom Penh, Cambodia), Sovila Srun (Royal University of Phnom Penh, Cambodia)

ឆ្នាំបោះពុម្ព៖ 2025 The Cambodia Journal of Basic and Applied Research

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាប្រឈមក្នុងប្រព័ន្ធទទួលស្គាល់តួអក្សរអុបទិកខ្មែរ (Khmer OCR) ដែលបណ្តាលមកពីរចនាសម្ព័ន្ធស្មុគស្មាញនៃអក្សរខ្មែរ ដូចជាការត្រួតតួអក្សរ កង្វះចន្លោះពាក្យ និងការប្រែប្រួលគុណភាពឯកសារ និងពុម្ពអក្សរ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រកូនកាត់ (Hybrid approach) ដោយរួមបញ្ចូលបច្ចេកវិទ្យាចាប់យកទីតាំងអត្ថបទ និងម៉ូដែលអានអត្ថបទដែលបានហ្វឹកហាត់លើសំណុំទិន្នន័យសំយោគចម្រុះ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
2D Transformer on synthetic data (Buoy et al., 2023)
ម៉ូដែល 2D Transformer ហ្វឹកហាត់លើទិន្នន័យសំយោគ
ទទួលបានអត្រាកំហុសទាបលើទិន្នន័យអត្តសញ្ញាណប័ណ្ណនិងឯកសារទូទៅដែលបានធ្វើតេស្ត។ មិនបានបញ្ជាក់ឬផ្តោតលើវាក្យសព្ទជាក់លាក់ ឬឈ្មោះទីតាំងភូមិសាស្ត្រដែលជួបប្រទះក្នុងឯកសាររដ្ឋបាលពិតប្រាកដ។ អត្រាកំហុសតួអក្សរ (CER) ចន្លោះ ២,៥៥% ទៅ ៣,០០%
Post-recognition correction (Srun et al., 2024)
ការកែតម្រូវក្រោយការទទួលស្គាល់អត្ថបទ
ជួយកែតម្រូវកំហុសបន្ទាប់ពីម៉ូដែល OCR បានអានអត្ថបទរួចរាល់ ដែលជួយបង្កើនភាពត្រឹមត្រូវមួយកម្រិតទៀត។ ផ្តោតតែលើដំណាក់កាលកែតម្រូវប៉ុណ្ណោះ មិនមែនជាប្រព័ន្ធទទួលស្គាល់អត្ថបទពីដើមដល់ចប់ (End-to-end recognition) ទេ។ អត្រាកំហុសតួអក្សរ (CER) ៣,៥៧%
Pytesseract with 19 Khmer fonts (Nom et al., 2025)
ការប្រើប្រាស់ Pytesseract ជាមួយពុម្ពអក្សរខ្មែរចំនួន ១៩ ប្រភេទ
ងាយស្រួលក្នុងការប្រើប្រាស់ដោយផ្អែកលើបច្ចេកវិទ្យា Tesseract ជំនាន់មុនដែលគេស្គាល់ទូទៅ។ ប្រសិទ្ធភាពប្រែប្រួលខ្លាំងទៅតាមប្រភេទពុម្ពអក្សរ និងខ្វះការរួមបញ្ចូលជាមួយម៉ូដែលបណ្ដាញសរសៃប្រសាទ (Neural Networks) ទំនើបៗ។ អត្រាកំហុសតួអក្សរ (CER) ចន្លោះ ៤,២% ទៅ ១២,៧%
Hybrid model with CRAFT and fine-tuned TrOCR (Current Study)
ម៉ូដែលកូនកាត់៖ CRAFT + TrOCR (ការសិក្សាបច្ចុប្បន្ន)
ប្រើសំណុំទិន្នន័យសំយោគចម្រុះដែលមានវាក្យសព្ទពិតប្រាកដ និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការចាប់ទីតាំងអត្ថបទស្មុគស្មាញ និងមានភាពជាក់លាក់ខ្ពស់បំផុត។ នៅមានកម្រិតក្នុងការអានឯកសារចាស់ៗដែលមានអត្ថបទតម្រៀបគ្នាណែនពេក ឬអត្ថបទសរសេរដោយដៃ។ អត្រាកំហុសតួអក្សរ (CER) ១,៩២% និង អត្រាកំហុសពាក្យ (WER) ១១,៧១%

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ ពិសេសការប្រើប្រាស់ Cloud Computing និង GPU សម្រាប់ការហ្វឹកហាត់ (Training) ម៉ូដែល ព្រមទាំងដំណើរការទិន្នន័យរូបភាពទំហំធំ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ទោះបីជាការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យសំយោគយ៉ាងទូលំទូលាយក៏ដោយ ក៏វាផ្តោតសំខាន់តែលើប្រភេទ «អត្ថបទទម្រង់បោះពុម្ព» (Printed text) ប៉ុណ្ណោះ ដោយមិនទាន់គាំទ្រអត្ថបទសរសេរដោយដៃ ឬឯកសារចាស់ៗដែលខូចខាតខ្លាំងនោះទេ។ សម្រាប់បរិបទប្រទេសកម្ពុជា ចំណុចនេះមានសារៈសំខាន់ ព្រោះឯកសារប្រវត្តិសាស្រ្ត សៀវភៅសាស្ត្រាស្លឹករឹត និងកំណត់ត្រាចាស់ៗនៅតាមក្រសួងស្ថាប័នភាគច្រើនមានសភាពចាស់ និងសរសេរដោយដៃ ដែលទាមទារការអភិវឌ្ឍម៉ូដែលបន្ថែមដើម្បីអាចបំប្លែងឯកសារទាំងនោះបានពេញលេញ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ប្រព័ន្ធកូនកាត់ OCR នេះមានភាពជាក់ស្តែង និងមានសារៈប្រយោជន៍យ៉ាងធំធេងសម្រាប់ការជំរុញការធ្វើបរិវត្តកម្មឌីជីថល (Digital Transformation) នៅកម្ពុជា។

ជារួម ការដាក់ឱ្យអនុវត្តបច្ចេកវិទ្យា OCR នេះនឹងជួយពន្លឿនការផ្លាស់ប្តូរទៅកាន់រដ្ឋាភិបាលឌីជីថល កាត់បន្ថយគម្លាតឌីជីថលរវាងទីក្រុងនិងជនបទ និងបង្កើនប្រសិទ្ធភាពការងារក្នុងស្ថាប័នរដ្ឋនិងឯកជននៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាពីមូលដ្ឋានគ្រឹះនៃ Computer Vision និង Transformers: ចាប់ផ្តើមរៀនពីបណ្ណាល័យ PyTorch និងស្វែងយល់ពីរបៀបដំណើរការរបស់ Vision Transformers (ViT) ដែលជាស្នូលនៃការយល់ដឹងរូបភាពនៅក្នុងម៉ូដែល TrOCR។
  2. អនុវត្តការចាប់យកទីតាំងអត្ថបទដោយប្រើ CRAFT: ប្រើប្រាស់កូដកំហិតបើកចំហ (Open-source) របស់ម៉ូដែល CRAFT (បណ្ណាល័យ craft_text_detector) ដើម្បីសាកល្បងរកទីតាំងអត្ថបទខ្មែរ (Bounding box detection) និងកាត់រូបភាពអត្ថបទចេញពីឯកសារស្កេន។
  3. បង្កើតសំណុំទិន្នន័យសំយោគកម្រិតខ្ពស់ (Synthetic Data Generation): សរសេរកូដ Python ដោយប្រើបណ្ណាល័យ Pillow, FreeType, និង Harfbuzz ដើម្បិបំប្លែងពាក្យខ្មែរពីវចនានុក្រមជួនណាត ទៅជារូបភាពដែលមានពុម្ពអក្សរ កម្រិតភាពព្រិល (Blur) ចំណុចរំខាន (Noise) និងពណ៌ផ្ទៃខាងក្រោយខុសៗគ្នា។
  4. ហ្វឹកហាត់និងកែតម្រូវម៉ូដែល TrOCR (Fine-tuning): ប្រើប្រាស់បណ្ណាល័យ Transformers របស់ស្ថាប័ន HuggingFace ដើម្បីទាញយកម៉ូដែល TrOCR មកធ្វើការហ្វឹកហាត់បន្ត (Fine-tune) ជាមួយសំណុំទិន្នន័យសំយោគភាសាខ្មែរ ដោយកំណត់ Hyperparameters ដូចជា Batch size=16 និង Learning rate=1e-5។
  5. វាយតម្លៃសមត្ថភាព និងដាក់ឱ្យប្រើប្រាស់ (Evaluation & API Deployment): ប្រើប្រាស់បណ្ណាល័យ jiwer ដើម្បីគណនាអត្រាកំហុស CER និង WER រួចរៀបចំខ្ចប់ម៉ូដែលនេះឱ្យដំណើរការជា API តាមរយៈ FastAPI ឬដាក់លើ Cloud Platforms (ដូចជា AWS SageMaker) ដើម្បីងាយស្រួលភ្ជាប់ទៅកាន់ប្រព័ន្ធគ្រប់គ្រងទិន្នន័យផ្សេងៗ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Optical Character Recognition (OCR) បច្ចេកវិទ្យាដែលបំប្លែងរូបភាពនៃអត្ថបទ (ដូចជាឯកសារស្កេន រូបថត ឬឯកសារ PDF) ទៅជាទិន្នន័យអត្ថបទឌីជីថលដែលកុំព្យូទ័រអាចអាន កែសម្រួល និងស្វែងរកបាន។ ដូចជាការបង្រៀនកុំព្យូទ័រឱ្យចេះអានអក្សរចេញពីសៀវភៅ ឬរូបថត ឱ្យដូចដែលមនុស្សយើងអានដែរ រួចវាយបញ្ចូលក្នុងកុំព្យូទ័រដោយស្វ័យប្រវត្តិ។
CRAFT model ម៉ូដែលបញ្ញាសិប្បនិម្មិតកម្រិតខ្ពស់ដែលត្រូវបានប្រើប្រាស់ដើម្បីស្វែងរកទីតាំងពិតប្រាកដនៃអត្ថបទនៅលើរូបភាព ដោយវាយតម្លៃតំបន់តួអក្សរនីមួយៗ និងគម្លាតរវាងតួអក្សរ ទោះបីជាអត្ថបទនោះមានរាងកោង ឬតម្រៀបមិនស្មើគ្នាក៏ដោយ។ ដូចជាមនុស្សម្នាក់ដែលយកប៊ិចហ្វឺតមកគូសរំលេច (Highlight) លើគ្រប់តួអក្សរទាំងអស់នៅលើក្រដាស ដើម្បីប្រាប់កុំព្យូទ័រថាអក្សរនៅត្រង់ណាខ្លះ មុននឹងចាប់ផ្តើមអាន។
TrOCR (Transformer-based OCR) ប្រព័ន្ធម៉ូដែលទទួលស្គាល់អត្ថបទពីដើមដល់ចប់ ដែលប្រើប្រាស់ស្ថាបត្យកម្ម Transformer ទាំងស្រុង (រួមបញ្ចូល Vision Transformer សម្រាប់មើលរូបភាព និង Text Transformer សម្រាប់ទស្សន៍ទាយអត្ថបទចេញមកក្រៅ) ដោយមិនពឹងផ្អែកលើបណ្ដាញសរសៃប្រសាទកាឡៃ (CNNs) ធម្មតាឡើយ។ ដូចជាអ្នកបកប្រែដ៏ឆ្លាតវៃម្នាក់ ដែលមិនត្រឹមតែមើលឃើញរូបរាងអក្សរប៉ុណ្ណោះទេ ថែមទាំងយល់ពីបរិបទនៃតួអក្សរនីមួយៗថាតើវាគួរផ្គុំគ្នាជាពាក្យអ្វី។
Synthetic dataset ទិន្នន័យរូបភាពអត្ថបទដែលត្រូវបានបង្កើតឡើងដោយកុំព្យូទ័រតាមរយៈការសរសេរកូដបញ្ចូលគ្នានូវពុម្ពអក្សរ ផ្ទៃខាងក្រោយ កម្រិតព្រិល និងចំណុចរំខានផ្សេងៗ ដើម្បីយកមកហ្វឹកហាត់ម៉ូដែល AI ជំនួសឱ្យការប្រើប្រាស់ការស្កេនឯកសារពិតៗរាប់ម៉ឺនសន្លឹក។ ដូចជាការបង្កើតលំហាត់សាកល្បងដោយខ្លួនឯងរាប់ម៉ឺនលំហាត់ ដើម្បីហ្វឹកហាត់ខួរក្បាលមុននឹងចូលរួមការប្រឡងពិតប្រាកដ។
Character Error Rate (CER) រង្វាស់សម្រាប់វាយតម្លៃភាពត្រឹមត្រូវនៃប្រព័ន្ធ OCR ដោយគណនាចំនួនតួអក្សរដែលម៉ូដែលទស្សន៍ទាយខុស (ដូចជាបន្ថែមតួអក្សរ បាត់តួអក្សរ ឬខុសតួអក្សរ) ចែកនឹងចំនួនតួអក្សរសរុបនៅក្នុងអត្ថបទដើម។ អត្រាកាន់តែទាប មានន័យថាម៉ូដែលកាន់តែសុក្រឹត។ ដូចជាការប្រឡងសរសេរតាមអាន ប្រសិនបើគ្រូអាន ១០០ អក្សរ ហើយសិស្សសរសេរខុស ២ អក្សរ នោះអត្រាកំហុសគឺ ២%។
Word Error Rate (WER) រង្វាស់វាយតម្លៃកំហុសស្រដៀងនឹង CER ដែរ ប៉ុន្តែវាគណនាកម្រិតកំហុសទៅលើការទទួលស្គាល់ "ពាក្យទាំងមូល" តែម្តង ជាជាងរាប់ត្រឹមតួអក្សរនីមួយៗ។ វាកំណត់ថាតើប្រព័ន្ធអាចចាប់យកអត្ថន័យនិងកម្រងពាក្យបានត្រឹមត្រូវកម្រិតណា។ ដូចជាការចុះពិន្ទុថាតើសិស្សម្នាក់សរសេរខុសប៉ុន្មានពាក្យ នៅក្នុងប្រយោគមួយទាំងមូល ទោះបីជាក្នុងពាក្យនោះខុសតែមួយអក្សរក៏ចាត់ទុកថាខុសមួយពាក្យដែរ។
fine-tuned ដំណើរការយកម៉ូដែល AI ខ្នាតធំដែលធ្លាប់បានហ្វឹកហាត់លើទិន្នន័យទូទៅរួចរាល់ហើយ មកបន្តហ្វឹកហាត់បន្ថែមជាមួយសំណុំទិន្នន័យថ្មីដែលជាក់លាក់ (ដូចជាអត្ថបទភាសាខ្មែរ) ដើម្បីឱ្យវាមានសមត្ថភាពខ្ពស់ និងតម្រង់ទិសក្នុងការដោះស្រាយការងារថ្មីនោះ។ ដូចជាការយកគ្រូពេទ្យទូទៅម្នាក់ មកបណ្តុះបណ្តាលបន្ថែមរយ:ពេលខ្លី ដើម្បីឱ្យក្លាយជាគ្រូពេទ្យឯកទេសវះកាត់បេះដូង។
bounding box កូអរដោនេរាងចតុកោណកែងដែលប្រព័ន្ធចាប់យក (Detection system) គូសហ៊ុមព័ទ្ធជុំវិញតំបន់ដែលមានអត្ថបទនៅក្នុងរូបភាព ដើម្បីកំណត់កន្លែងដែលម៉ូដែលអាន (Recognition system) ត្រូវផ្តោតអារម្មណ៍កាត់យករូបភាពនោះទៅធ្វើការបកប្រែ។ ដូចជាការប្រើបន្ទាត់គូសប្រអប់តូចៗព័ទ្ធជុំវិញពាក្យ ឬប្រយោគនីមួយៗនៅលើកាសែត ដើម្បីងាយស្រួលកាត់វាចេញមករក្សាទុក។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖