បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហាប្រឈមក្នុងប្រព័ន្ធទទួលស្គាល់តួអក្សរអុបទិកខ្មែរ (Khmer OCR) ដែលបណ្តាលមកពីរចនាសម្ព័ន្ធស្មុគស្មាញនៃអក្សរខ្មែរ ដូចជាការត្រួតតួអក្សរ កង្វះចន្លោះពាក្យ និងការប្រែប្រួលគុណភាពឯកសារ និងពុម្ពអក្សរ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្ត្រកូនកាត់ (Hybrid approach) ដោយរួមបញ្ចូលបច្ចេកវិទ្យាចាប់យកទីតាំងអត្ថបទ និងម៉ូដែលអានអត្ថបទដែលបានហ្វឹកហាត់លើសំណុំទិន្នន័យសំយោគចម្រុះ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| 2D Transformer on synthetic data (Buoy et al., 2023) ម៉ូដែល 2D Transformer ហ្វឹកហាត់លើទិន្នន័យសំយោគ |
ទទួលបានអត្រាកំហុសទាបលើទិន្នន័យអត្តសញ្ញាណប័ណ្ណនិងឯកសារទូទៅដែលបានធ្វើតេស្ត។ | មិនបានបញ្ជាក់ឬផ្តោតលើវាក្យសព្ទជាក់លាក់ ឬឈ្មោះទីតាំងភូមិសាស្ត្រដែលជួបប្រទះក្នុងឯកសាររដ្ឋបាលពិតប្រាកដ។ | អត្រាកំហុសតួអក្សរ (CER) ចន្លោះ ២,៥៥% ទៅ ៣,០០% |
| Post-recognition correction (Srun et al., 2024) ការកែតម្រូវក្រោយការទទួលស្គាល់អត្ថបទ |
ជួយកែតម្រូវកំហុសបន្ទាប់ពីម៉ូដែល OCR បានអានអត្ថបទរួចរាល់ ដែលជួយបង្កើនភាពត្រឹមត្រូវមួយកម្រិតទៀត។ | ផ្តោតតែលើដំណាក់កាលកែតម្រូវប៉ុណ្ណោះ មិនមែនជាប្រព័ន្ធទទួលស្គាល់អត្ថបទពីដើមដល់ចប់ (End-to-end recognition) ទេ។ | អត្រាកំហុសតួអក្សរ (CER) ៣,៥៧% |
| Pytesseract with 19 Khmer fonts (Nom et al., 2025) ការប្រើប្រាស់ Pytesseract ជាមួយពុម្ពអក្សរខ្មែរចំនួន ១៩ ប្រភេទ |
ងាយស្រួលក្នុងការប្រើប្រាស់ដោយផ្អែកលើបច្ចេកវិទ្យា Tesseract ជំនាន់មុនដែលគេស្គាល់ទូទៅ។ | ប្រសិទ្ធភាពប្រែប្រួលខ្លាំងទៅតាមប្រភេទពុម្ពអក្សរ និងខ្វះការរួមបញ្ចូលជាមួយម៉ូដែលបណ្ដាញសរសៃប្រសាទ (Neural Networks) ទំនើបៗ។ | អត្រាកំហុសតួអក្សរ (CER) ចន្លោះ ៤,២% ទៅ ១២,៧% |
| Hybrid model with CRAFT and fine-tuned TrOCR (Current Study) ម៉ូដែលកូនកាត់៖ CRAFT + TrOCR (ការសិក្សាបច្ចុប្បន្ន) |
ប្រើសំណុំទិន្នន័យសំយោគចម្រុះដែលមានវាក្យសព្ទពិតប្រាកដ និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការចាប់ទីតាំងអត្ថបទស្មុគស្មាញ និងមានភាពជាក់លាក់ខ្ពស់បំផុត។ | នៅមានកម្រិតក្នុងការអានឯកសារចាស់ៗដែលមានអត្ថបទតម្រៀបគ្នាណែនពេក ឬអត្ថបទសរសេរដោយដៃ។ | អត្រាកំហុសតួអក្សរ (CER) ១,៩២% និង អត្រាកំហុសពាក្យ (WER) ១១,៧១% |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ ពិសេសការប្រើប្រាស់ Cloud Computing និង GPU សម្រាប់ការហ្វឹកហាត់ (Training) ម៉ូដែល ព្រមទាំងដំណើរការទិន្នន័យរូបភាពទំហំធំ។
ទោះបីជាការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យសំយោគយ៉ាងទូលំទូលាយក៏ដោយ ក៏វាផ្តោតសំខាន់តែលើប្រភេទ «អត្ថបទទម្រង់បោះពុម្ព» (Printed text) ប៉ុណ្ណោះ ដោយមិនទាន់គាំទ្រអត្ថបទសរសេរដោយដៃ ឬឯកសារចាស់ៗដែលខូចខាតខ្លាំងនោះទេ។ សម្រាប់បរិបទប្រទេសកម្ពុជា ចំណុចនេះមានសារៈសំខាន់ ព្រោះឯកសារប្រវត្តិសាស្រ្ត សៀវភៅសាស្ត្រាស្លឹករឹត និងកំណត់ត្រាចាស់ៗនៅតាមក្រសួងស្ថាប័នភាគច្រើនមានសភាពចាស់ និងសរសេរដោយដៃ ដែលទាមទារការអភិវឌ្ឍម៉ូដែលបន្ថែមដើម្បីអាចបំប្លែងឯកសារទាំងនោះបានពេញលេញ។
ប្រព័ន្ធកូនកាត់ OCR នេះមានភាពជាក់ស្តែង និងមានសារៈប្រយោជន៍យ៉ាងធំធេងសម្រាប់ការជំរុញការធ្វើបរិវត្តកម្មឌីជីថល (Digital Transformation) នៅកម្ពុជា។
ជារួម ការដាក់ឱ្យអនុវត្តបច្ចេកវិទ្យា OCR នេះនឹងជួយពន្លឿនការផ្លាស់ប្តូរទៅកាន់រដ្ឋាភិបាលឌីជីថល កាត់បន្ថយគម្លាតឌីជីថលរវាងទីក្រុងនិងជនបទ និងបង្កើនប្រសិទ្ធភាពការងារក្នុងស្ថាប័នរដ្ឋនិងឯកជននៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Optical Character Recognition (OCR) | បច្ចេកវិទ្យាដែលបំប្លែងរូបភាពនៃអត្ថបទ (ដូចជាឯកសារស្កេន រូបថត ឬឯកសារ PDF) ទៅជាទិន្នន័យអត្ថបទឌីជីថលដែលកុំព្យូទ័រអាចអាន កែសម្រួល និងស្វែងរកបាន។ | ដូចជាការបង្រៀនកុំព្យូទ័រឱ្យចេះអានអក្សរចេញពីសៀវភៅ ឬរូបថត ឱ្យដូចដែលមនុស្សយើងអានដែរ រួចវាយបញ្ចូលក្នុងកុំព្យូទ័រដោយស្វ័យប្រវត្តិ។ |
| CRAFT model | ម៉ូដែលបញ្ញាសិប្បនិម្មិតកម្រិតខ្ពស់ដែលត្រូវបានប្រើប្រាស់ដើម្បីស្វែងរកទីតាំងពិតប្រាកដនៃអត្ថបទនៅលើរូបភាព ដោយវាយតម្លៃតំបន់តួអក្សរនីមួយៗ និងគម្លាតរវាងតួអក្សរ ទោះបីជាអត្ថបទនោះមានរាងកោង ឬតម្រៀបមិនស្មើគ្នាក៏ដោយ។ | ដូចជាមនុស្សម្នាក់ដែលយកប៊ិចហ្វឺតមកគូសរំលេច (Highlight) លើគ្រប់តួអក្សរទាំងអស់នៅលើក្រដាស ដើម្បីប្រាប់កុំព្យូទ័រថាអក្សរនៅត្រង់ណាខ្លះ មុននឹងចាប់ផ្តើមអាន។ |
| TrOCR (Transformer-based OCR) | ប្រព័ន្ធម៉ូដែលទទួលស្គាល់អត្ថបទពីដើមដល់ចប់ ដែលប្រើប្រាស់ស្ថាបត្យកម្ម Transformer ទាំងស្រុង (រួមបញ្ចូល Vision Transformer សម្រាប់មើលរូបភាព និង Text Transformer សម្រាប់ទស្សន៍ទាយអត្ថបទចេញមកក្រៅ) ដោយមិនពឹងផ្អែកលើបណ្ដាញសរសៃប្រសាទកាឡៃ (CNNs) ធម្មតាឡើយ។ | ដូចជាអ្នកបកប្រែដ៏ឆ្លាតវៃម្នាក់ ដែលមិនត្រឹមតែមើលឃើញរូបរាងអក្សរប៉ុណ្ណោះទេ ថែមទាំងយល់ពីបរិបទនៃតួអក្សរនីមួយៗថាតើវាគួរផ្គុំគ្នាជាពាក្យអ្វី។ |
| Synthetic dataset | ទិន្នន័យរូបភាពអត្ថបទដែលត្រូវបានបង្កើតឡើងដោយកុំព្យូទ័រតាមរយៈការសរសេរកូដបញ្ចូលគ្នានូវពុម្ពអក្សរ ផ្ទៃខាងក្រោយ កម្រិតព្រិល និងចំណុចរំខានផ្សេងៗ ដើម្បីយកមកហ្វឹកហាត់ម៉ូដែល AI ជំនួសឱ្យការប្រើប្រាស់ការស្កេនឯកសារពិតៗរាប់ម៉ឺនសន្លឹក។ | ដូចជាការបង្កើតលំហាត់សាកល្បងដោយខ្លួនឯងរាប់ម៉ឺនលំហាត់ ដើម្បីហ្វឹកហាត់ខួរក្បាលមុននឹងចូលរួមការប្រឡងពិតប្រាកដ។ |
| Character Error Rate (CER) | រង្វាស់សម្រាប់វាយតម្លៃភាពត្រឹមត្រូវនៃប្រព័ន្ធ OCR ដោយគណនាចំនួនតួអក្សរដែលម៉ូដែលទស្សន៍ទាយខុស (ដូចជាបន្ថែមតួអក្សរ បាត់តួអក្សរ ឬខុសតួអក្សរ) ចែកនឹងចំនួនតួអក្សរសរុបនៅក្នុងអត្ថបទដើម។ អត្រាកាន់តែទាប មានន័យថាម៉ូដែលកាន់តែសុក្រឹត។ | ដូចជាការប្រឡងសរសេរតាមអាន ប្រសិនបើគ្រូអាន ១០០ អក្សរ ហើយសិស្សសរសេរខុស ២ អក្សរ នោះអត្រាកំហុសគឺ ២%។ |
| Word Error Rate (WER) | រង្វាស់វាយតម្លៃកំហុសស្រដៀងនឹង CER ដែរ ប៉ុន្តែវាគណនាកម្រិតកំហុសទៅលើការទទួលស្គាល់ "ពាក្យទាំងមូល" តែម្តង ជាជាងរាប់ត្រឹមតួអក្សរនីមួយៗ។ វាកំណត់ថាតើប្រព័ន្ធអាចចាប់យកអត្ថន័យនិងកម្រងពាក្យបានត្រឹមត្រូវកម្រិតណា។ | ដូចជាការចុះពិន្ទុថាតើសិស្សម្នាក់សរសេរខុសប៉ុន្មានពាក្យ នៅក្នុងប្រយោគមួយទាំងមូល ទោះបីជាក្នុងពាក្យនោះខុសតែមួយអក្សរក៏ចាត់ទុកថាខុសមួយពាក្យដែរ។ |
| fine-tuned | ដំណើរការយកម៉ូដែល AI ខ្នាតធំដែលធ្លាប់បានហ្វឹកហាត់លើទិន្នន័យទូទៅរួចរាល់ហើយ មកបន្តហ្វឹកហាត់បន្ថែមជាមួយសំណុំទិន្នន័យថ្មីដែលជាក់លាក់ (ដូចជាអត្ថបទភាសាខ្មែរ) ដើម្បីឱ្យវាមានសមត្ថភាពខ្ពស់ និងតម្រង់ទិសក្នុងការដោះស្រាយការងារថ្មីនោះ។ | ដូចជាការយកគ្រូពេទ្យទូទៅម្នាក់ មកបណ្តុះបណ្តាលបន្ថែមរយ:ពេលខ្លី ដើម្បីឱ្យក្លាយជាគ្រូពេទ្យឯកទេសវះកាត់បេះដូង។ |
| bounding box | កូអរដោនេរាងចតុកោណកែងដែលប្រព័ន្ធចាប់យក (Detection system) គូសហ៊ុមព័ទ្ធជុំវិញតំបន់ដែលមានអត្ថបទនៅក្នុងរូបភាព ដើម្បីកំណត់កន្លែងដែលម៉ូដែលអាន (Recognition system) ត្រូវផ្តោតអារម្មណ៍កាត់យករូបភាពនោះទៅធ្វើការបកប្រែ។ | ដូចជាការប្រើបន្ទាត់គូសប្រអប់តូចៗព័ទ្ធជុំវិញពាក្យ ឬប្រយោគនីមួយៗនៅលើកាសែត ដើម្បីងាយស្រួលកាត់វាចេញមករក្សាទុក។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖