Original Title: Offline Handwritten Text Recognition of Historical Ge’ez Manuscripts Using Deep Learning Techniques
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការទទួលស្គាល់អត្ថបទសរសេរដោយដៃក្រៅបណ្ដាញនៃឯកសារសាត្រាស្លឹករឹតប្រវត្តិសាស្ត្រ Ge’ez ដោយប្រើបច្ចេកទេស Deep Learning

ចំណងជើងដើម៖ Offline Handwritten Text Recognition of Historical Ge’ez Manuscripts Using Deep Learning Techniques

អ្នកនិពន្ធ៖ Mesfin Geresu Gurmu (Jimma University)

ឆ្នាំបោះពុម្ព៖ 2021, Jimma University

វិស័យសិក្សា៖ Information Science, Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការបំប្លែងឯកសារសាត្រាស្លឹករឹតប្រវត្តិសាស្ត្រ Ge'ez (ហ្គីស) ទៅជាទម្រង់ឌីជីថល ដែលជួបប្រទះការលំបាកយ៉ាងខ្លាំងដោយសារភាពស្មុគស្មាញនៃទម្រង់ទំព័រ និងការខូចខាតគុណភាពនៃសាត្រាស្លឹករឹតចាស់ៗ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះអនុវត្តវិធីសាស្ត្រជាបន្តបន្ទាប់ដោយរួមបញ្ចូលការវិភាគរូបភាពឯកសារ និងបច្ចេកទេស Deep Learning សម្រាប់ដំណើរការស្គាល់អក្សរ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Sauvola's Binarization Method
វិធីសាស្ត្រកំណត់តម្លៃគោលពីរ Sauvola's Binarization Method
ដំណើរការបានល្អបំផុតលើរូបភាពឯកសារចាស់ៗដែលមានគុណភាពអន់ និងមានពន្លឺផ្ទៃខាងក្រោយមិនស្មើគ្នា (Adaptive Thresholding)។ ការពារការបាត់បង់ទម្រង់ដើមនៃតួអក្សរបានល្អ។ ទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រឱ្យបានត្រឹមត្រូវមុន (ដូចជាទំហំ window និងទម្ងន់ k) ដើម្បីទទួលបានលទ្ធផលល្អបំផុត។ ទទួលបានចំណាត់ថ្នាក់លេខ១ ជាមួយនឹងពិន្ទុសរុបល្អបំផុត (៦១) តាមរយៈការវាយតម្លៃលើ FM, ps-FM, PSNR និង DRD។
Otsu's Global Binarization Method
វិធីសាស្ត្រកំណត់តម្លៃគោលពីរទូទៅ Otsu's Global Binarization
ជាវិធីសាស្ត្រសាមញ្ញ ងាយស្រួលអនុវត្ត និងមិនទាមទារការកែតម្រូវប៉ារ៉ាម៉ែត្រច្រើនដោយដៃនោះទេ។ មិនស័ក្តិសម និងគ្មានប្រសិទ្ធភាពសោះសម្រាប់ឯកសារចាស់ៗដែលមានស្នាមប្រឡាក់ ឬភាពងងឹតនៃផ្ទៃខាងក្រោយច្រើន។ ទទួលបានចំណាត់ថ្នាក់ទាបជាងគេបំផុត (ចំណាត់ថ្នាក់លេខ៤) ជាមួយនឹងពិន្ទុសរុប ១៤៤ ក្នុងការធ្វើតេស្តជាមួយឯកសារប្រវត្តិសាស្ត្រ។
Fine-tuned Tesseract OCR (LSTM-based)
ការកែសម្រួលម៉ូដែល Fine-tuned Tesseract OCR (LSTM)
អាចកាត់បន្ថយអត្រាកំហុសតួអក្សរបានយ៉ាងមានប្រសិទ្ធភាពដោយគ្រាន់តែយកម៉ូដែលដើម (Base Model) មកបង្ហាត់បន្តជាមួយទិន្នន័យថ្មីក្នុងបរិមាណតិចតួច។ ចាំបាច់ត្រូវមានការបង្កើត Ground truth យ៉ាងប្រុងប្រយ័ត្ន និងទាមទារទិន្នន័យហ្វឹកហាត់បន្ថែមទៀតដើម្បីបង្កើនភាពសុក្រឹតកម្រិតខ្ពស់។ ម៉ូដែលដែលទទួលបានការហ្វឹកហាត់ថ្មីនេះ អាចសម្រេចបានអត្រាកំហុសតួអក្សរ (CER) ទាបត្រឹមតែ ២.៦៣២% ប៉ុណ្ណោះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រធម្មតា ប៉ុន្តែពឹងផ្អែកខ្លាំងលើកម្មវិធីកូដបើកចំហ (Open-source) សម្រាប់ការវិភាគ និងបង្វឹកម៉ូដែលកម្រិតជ្រៅ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសាត្រាស្លឹករឹតប្រវត្តិសាស្ត្រ Ge'ez (ភាសាអំបូរអាហ្វ្រិក) ដែលប្រមូលបានពីវត្តអារាមនានានៅតំបន់ North Gondar ប្រទេសអេត្យូពី។ ទោះបីជាទិន្នន័យមានលក្ខណៈតំបន់និយម ប៉ុន្តែវាមានសារៈសំខាន់ខ្លាំងសម្រាប់ប្រទេសកម្ពុជា ពីព្រោះឯកសារប្រវត្តិសាស្ត្រខ្មែរ (ដូចជាសាត្រាស្លឹករឹត) ក៏ជួបប្រទះបញ្ហាស្នាមប្រឡាក់ សរសៃអំបោះ ពណ៌មិនស្មើគ្នា និងភាពស្មុគស្មាញនៃរចនាសម្ព័ន្ធទំព័រដូចគ្នា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេស និងលំហូរការងារ (Pipeline) នៅក្នុងឯកសារនេះ អាចយកមកអនុវត្តដោយផ្ទាល់សម្រាប់ការអភិរក្ស និងធ្វើឌីជីថលនីយកម្មឯកសារប្រវត្តិសាស្ត្រនៅប្រទេសកម្ពុជា។

ជារួម ការប្រើប្រាស់បច្ចេកវិទ្យា Deep Learning ដូចជា Tesseract LSTM រួមផ្សំជាមួយដំណើរការសម្អាតរូបភាពយ៉ាងប្រុងប្រយ័ត្ន នឹងជួយសង្គ្រោះ និងធ្វើទំនើបកម្មបេតិកភណ្ឌអក្សរសាស្ត្រកម្ពុជាបានយ៉ាងមានប្រសិទ្ធភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះកែច្នៃរូបភាពឯកសារ (Document Image Pre-processing): ចាប់ផ្តើមរៀនពីបច្ចេកទេស Binarization និង Skew Correction ដោយប្រើប្រាស់បណ្ណាល័យ OpenCV ក្នុង PythonMATLAB។ សាកល្បងអនុវត្តវិធីសាស្ត្រ Sauvola និង Hough Transform លើរូបភាពសាត្រាស្លឹករឹតខ្មែរ ដើម្បីមើលភាពខុសគ្នា។
  2. ប្រមូល និងបង្កើតទិន្នន័យគោល (Ground Truth Creation): ប្រមូលរូបភាពឯកសារប្រវត្តិសាស្ត្រខ្មែរ ហើយប្រើប្រាស់កម្មវិធី Aletheia ដើម្បីកំណត់ទីតាំងអត្ថបទ (Bounding boxes) និងវាយអត្ថបទបញ្ចូលជា Ground truth សម្រាប់ត្រៀមបង្វឹកម៉ូដែល។
  3. អនុវត្តការវិភាគទម្រង់ទំព័រ (Page Layout Analysis): ប្រើប្រាស់បណ្ណាល័យកូដបើកចំហ Leptonica ឆ្លងកាត់ការសរសេរកូដ ដើម្បីសាកល្បងបំបែកទំព័រឯកសារជាផ្នែកៗ (ឧទាហរណ៍៖ រូបភាព, កថាខណ្ឌអត្ថបទ) មុននឹងបញ្ជូនទៅកាន់ម៉ាស៊ីន OCR។
  4. កែសម្រួល និងបង្វឹកម៉ូដែល OCR (Tesseract Fine-tuning): ដំឡើង Tesseract OCR-D លើប្រព័ន្ធប្រតិបត្តិការ Ubuntu Linux ហើយធ្វើការ Fine-tune ម៉ូដែលអក្សរខ្មែរដែលមានស្រាប់ ដោយបញ្ចុកទិន្នន័យថ្មីដែលបានរៀបចំនៅជំហានទី២ ដើម្បីឱ្យវាស្គាល់ទម្រង់អក្សរសរសេរដោយដៃ។
  5. វាស់ស្ទង់លទ្ធផល និងកែលម្អ (Evaluation & Post-processing): គណនាអត្រាកំហុសតួអក្សរ (CER) ដោយប្រៀបធៀបលទ្ធផល OCR ជាមួយ Ground truth។ បន្ទាប់មក សាកល្បងបញ្ចូលវចនានុក្រមខ្មែរ ឬបច្ចេកទេស NLP ជា Post-processing ដើម្បីកែតម្រូវពាក្យដែលម៉ាស៊ីនទាយខុស។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Image Binarization វាគឺជាដំណើរការបំប្លែងរូបភាពដែលមានពណ៌ ឬស្រមោលប្រផេះច្រើនកម្រិត ទៅជារូបភាពដែលមានតែពីរពណ៌ប៉ុណ្ណោះ គឺស និងខ្មៅ។ ដំណើរការនេះជួយកាត់បន្ថយភាពរញ៉េរញ៉ៃ (ដូចជាស្នាមប្រឡាក់លើក្រដាស) ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលផ្ដោតតែទៅលើតួអក្សរសម្រាប់ការវិភាគបន្ត។ ដូចជាការយកប៉ិចហ្វឺតពណ៌ខ្មៅទៅគូសពីលើអក្សរស្រាលៗ រួចលុបពណ៌ផ្ទៃខាងក្រោយចោលឱ្យសក្បុស ដើម្បីឱ្យមើលឃើញអក្សរដាច់ច្បាស់ល្អ។
Skew Estimation គឺជាដំណើរការគណនា និងស្វែងរកមុំទ្រេតនៃអត្ថបទនៅក្នុងរូបភាពឯកសារដែលបានស្កេន ដើម្បីធ្វើការកែតម្រូវឱ្យបន្ទាត់អត្ថបទត្រឡប់មកត្រង់ផ្ដេកវិញ មុននឹងបញ្ជូនទិន្នន័យនោះទៅកាន់ម៉ាស៊ីនស្គាល់អក្សរ (OCR)។ ដូចជាការសារេកែតម្រូវស៊ុមរូបថតដែលព្យួរវៀចនៅលើជញ្ជាំង ឱ្យត្រឡប់មកត្រង់ស្មើល្អវិញ។
Long Short-Term Memory (LSTM) ជាប្រភេទមួយនៃបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) ដែលមានសមត្ថភាពចងចាំព័ត៌មានពីមុនៗក្នុងរយៈពេលវែង និងដឹងថាព័ត៌មានណាគួររក្សាទុក ឬគួរលុបចោល ដែលស័ក្តិសមបំផុតសម្រាប់ការទាញយកលក្ខណៈពិសេសពីតួអក្សរដែលសរសេរតជាប់គ្នាជាបន្ទាត់។ ដូចជាមនុស្សម្នាក់ដែលកំពុងអានសៀវភៅ ដោយអាចចងចាំពាក្យនៅដើមប្រយោគ ដើម្បីយល់ន័យនៃពាក្យបន្ទាប់ និងបំភ្លេចចោលរឿងដែលមិនសំខាន់។
Page Layout Analysis គឺជាការវិភាគរចនាសម្ព័ន្ធនៃទំព័រឯកសារដើម្បីបំបែក និងចំណាត់ថ្នាក់តំបន់ផ្សេងៗគ្នានៅលើក្រដាស ដូចជា កថាខណ្ឌអត្ថបទ រូបភាព ឬគំនូរ និងរឹមទំព័រ ដើម្បីឱ្យកុំព្យូទ័រដឹងថាផ្នែកណាខ្លះដែលវាត្រូវទាញយកអត្ថបទ។ ដូចជាការយកបន្ទាត់ទៅគូសស៊ុមព័ទ្ធជុំវិញរូបភាព និងអត្ថបទដោយឡែកពីគ្នា នៅក្នុងទំព័រកាសែត ដើម្បីកុំឱ្យអានរំលងចូលគ្នា។
Connectionist Temporal Classification (CTC) គឺជាក្បួនដោះស្រាយដែលអនុញ្ញាតឱ្យបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតអាចទស្សន៍ទាយលំដាប់នៃតួអក្សរពីទិន្នន័យ (ដូចជាលំដាប់នៃរូបភាពបន្ទាត់អត្ថបទ) ដោយមិនចាំបាច់ត្រូវមានអ្នកកាត់បំបែករូបភាពតួអក្សរនីមួយៗជាមុនឡើយ។ ដូចជាអ្នកបកប្រែដែលអាចស្ដាប់យល់ និងសរសេរចេញជាប្រយោគបានភ្លាមៗ ទោះបីជាអ្នកនិយាយនិយាយលឿនរអិលមាត់មិនដកដង្ហើមក៏ដោយ។
Ground truth ជាសំណុំទិន្នន័យដើមដែលត្រូវបានផ្ទៀងផ្ទាត់ និងចាត់ទុកថាត្រឹមត្រូវ១០០% (ជាទូទៅវាយបញ្ចូលដោយមនុស្ស) ដែលប្រើសម្រាប់បង្វឹកម៉ូដែលបញ្ញាសិប្បនិម្មិត និងសម្រាប់ប្រៀបធៀបវាស់ស្ទង់ភាពត្រឹមត្រូវនៃលទ្ធផលដែលម៉ូដែលទាយបាន។ ដូចជាសៀវភៅចម្លើយ (Answer Key) នៅខាងចុងសៀវភៅលំហាត់ ដែលគ្រូប្រើសម្រាប់កែពិន្ទុសិស្ស។
Character Error Rate (CER) ជារង្វាស់សម្រាប់វាយតម្លៃគុណភាពនៃប្រព័ន្ធទទួលស្គាល់អក្សរ (OCR) ដោយគណនាអត្រានៃការទាយខុស (ការបញ្ចូលអក្សរលើស ការបាត់អក្សរ ឬការជំនួសអក្សរខុស) ធៀបនឹងចំនួនតួអក្សរសរុប។ ដូចជាការរាប់ចំនួនអក្ខរាវិរុទ្ធដែលសិស្សសរសេរខុសនៅក្នុងការប្រឡងសរសេរតាមអាន ដើម្បីយកមកកាត់ពិន្ទុអញ្ចឹងដែរ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖