Original Title: Offline Handwritten Text Recognition of Historical Ge’ez Manuscripts Using Deep Learning Techniques
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការទទួលស្គាល់អត្ថបទសរសេរដោយដៃក្រៅបណ្ដាញនៃឯកសារសាត្រាស្លឹករឹតប្រវត្តិសាស្ត្រ Ge’ez ដោយប្រើបច្ចេកទេស Deep Learning

ចំណងជើងដើម៖ Offline Handwritten Text Recognition of Historical Ge’ez Manuscripts Using Deep Learning Techniques

អ្នកនិពន្ធ៖ Mesfin Geresu Gurmu (Jimma University)

ឆ្នាំបោះពុម្ព៖ 2021, Jimma University

វិស័យសិក្សា៖ Information Science, Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការបំប្លែងឯកសារសាត្រាស្លឹករឹតប្រវត្តិសាស្ត្រ Ge'ez (ហ្គីស) ទៅជាទម្រង់ឌីជីថល ដែលជួបប្រទះការលំបាកយ៉ាងខ្លាំងដោយសារភាពស្មុគស្មាញនៃទម្រង់ទំព័រ និងការខូចខាតគុណភាពនៃសាត្រាស្លឹករឹតចាស់ៗ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះអនុវត្តវិធីសាស្ត្រជាបន្តបន្ទាប់ដោយរួមបញ្ចូលការវិភាគរូបភាពឯកសារ និងបច្ចេកទេស Deep Learning សម្រាប់ដំណើរការស្គាល់អក្សរ។

ការកំណត់តម្លៃគោលពីរនៃរូបភាព (Image Binarization) ដោយប្រៀបធៀបវិធីសាស្ត្រចំនួន ៤ ដែលវិធីសាស្ត្រ Sauvola's method ត្រូវបានរកឃើញថាល្អបំផុត។
ការប៉ាន់ស្មានភាពទ្រេត (Skew Estimation) ដោយប្រើប្រាស់ប្លែងកម្ម Hough (Hough transform) ដើម្បីកែតម្រូវទិសដៅអត្ថបទ។
ការវិភាគទម្រង់ទំព័រ (Page Layout Analysis) ដោយប្រើប្រាស់បណ្ណាល័យកូដ Leptonica សម្រាប់ការបែងចែកតំបន់អត្ថបទ និងក្រាហ្វិក។
ការបង្វឹកម៉ូដែលទទួលស្គាល់អត្ថបទ (OCR Engine Training) ដោយប្រើយន្តការ Tesseract OCR ដែលដំណើរការលើបណ្ដាញសរសៃប្រសាទ (LSTM) ជាមួយនឹងសំណុំទិន្នន័យនៃបន្ទាត់អត្ថបទចំនួន ២៥៧។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

នៅក្នុងដំណាក់កាលរៀបចំឯកសារ វិធីសាស្ត្រ Sauvola ទទួលបានពិន្ទុសរុបខ្ពស់ជាងគេក្នុងការលុបបំបាត់ស្នាមប្រឡាក់ ខណៈវិធីសាស្ត្រ Hough Transform អាចកែតម្រូវភាពទ្រេតបានយ៉ាងត្រឹមត្រូវរហូតដល់ ៧៦%។
ការធ្វើតេស្តការវិភាគទម្រង់ទំព័រដោយប្រើ Leptonica បង្ហាញពីអត្រាជោគជ័យខ្ពស់ក្នុងការកំណត់តំបន់អត្ថបទ ទោះបីជាមានវត្តមានគំនូរលម្អក៏ដោយ។
ម៉ូដែលទទួលស្គាល់អក្សរ Tesseract OCR ដែលបានកែសម្រួលដោយប្រើទិន្នន័យថ្មី ទទួលបានលទ្ធផលដ៏គួរឱ្យកត់សម្គាល់ ដោយបង្ហាញអត្រាកំហុសតួអក្សរ (Character Error Rate) ទាបត្រឹមតែ ២.៦៣២% ប៉ុណ្ណោះ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Sauvola's Binarization Method វិធីសាស្ត្រកំណត់តម្លៃគោលពីរ Sauvola's Binarization Method	ដំណើរការបានល្អបំផុតលើរូបភាពឯកសារចាស់ៗដែលមានគុណភាពអន់ និងមានពន្លឺផ្ទៃខាងក្រោយមិនស្មើគ្នា (Adaptive Thresholding)។ ការពារការបាត់បង់ទម្រង់ដើមនៃតួអក្សរបានល្អ។	ទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រឱ្យបានត្រឹមត្រូវមុន (ដូចជាទំហំ window និងទម្ងន់ k) ដើម្បីទទួលបានលទ្ធផលល្អបំផុត។	ទទួលបានចំណាត់ថ្នាក់លេខ១ ជាមួយនឹងពិន្ទុសរុបល្អបំផុត (៦១) តាមរយៈការវាយតម្លៃលើ FM, ps-FM, PSNR និង DRD។
Otsu's Global Binarization Method វិធីសាស្ត្រកំណត់តម្លៃគោលពីរទូទៅ Otsu's Global Binarization	ជាវិធីសាស្ត្រសាមញ្ញ ងាយស្រួលអនុវត្ត និងមិនទាមទារការកែតម្រូវប៉ារ៉ាម៉ែត្រច្រើនដោយដៃនោះទេ។	មិនស័ក្តិសម និងគ្មានប្រសិទ្ធភាពសោះសម្រាប់ឯកសារចាស់ៗដែលមានស្នាមប្រឡាក់ ឬភាពងងឹតនៃផ្ទៃខាងក្រោយច្រើន។	ទទួលបានចំណាត់ថ្នាក់ទាបជាងគេបំផុត (ចំណាត់ថ្នាក់លេខ៤) ជាមួយនឹងពិន្ទុសរុប ១៤៤ ក្នុងការធ្វើតេស្តជាមួយឯកសារប្រវត្តិសាស្ត្រ។
Fine-tuned Tesseract OCR (LSTM-based) ការកែសម្រួលម៉ូដែល Fine-tuned Tesseract OCR (LSTM)	អាចកាត់បន្ថយអត្រាកំហុសតួអក្សរបានយ៉ាងមានប្រសិទ្ធភាពដោយគ្រាន់តែយកម៉ូដែលដើម (Base Model) មកបង្ហាត់បន្តជាមួយទិន្នន័យថ្មីក្នុងបរិមាណតិចតួច។	ចាំបាច់ត្រូវមានការបង្កើត Ground truth យ៉ាងប្រុងប្រយ័ត្ន និងទាមទារទិន្នន័យហ្វឹកហាត់បន្ថែមទៀតដើម្បីបង្កើនភាពសុក្រឹតកម្រិតខ្ពស់។	ម៉ូដែលដែលទទួលបានការហ្វឹកហាត់ថ្មីនេះ អាចសម្រេចបានអត្រាកំហុសតួអក្សរ (CER) ទាបត្រឹមតែ ២.៦៣២% ប៉ុណ្ណោះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រធម្មតា ប៉ុន្តែពឹងផ្អែកខ្លាំងលើកម្មវិធីកូដបើកចំហ (Open-source) សម្រាប់ការវិភាគ និងបង្វឹកម៉ូដែលកម្រិតជ្រៅ។

Hardware: ប្រើប្រាស់កុំព្យូទ័រធម្មតា HP PRO 3500 Series MT (Intel Core i3-3240 CPU @ 3.40 GHz, 4GB RAM) ដំណើរការដោយ Windows 10 Pro (ទោះបីជាការហ្វឹកហាត់ Deep Learning ជាទូទៅត្រូវការ GPU ក៏ដោយ)។
Software: MATLAB (R2020b) សម្រាប់កែច្នៃរូបភាព, Aletheia (v1.2.4) សម្រាប់បង្កើត Ground Truth, Tesseract OCR-D ដំណើរការលើ Ubuntu 20.04 ជាមួយនឹងកូដ Python 3។
Dataset: សំណុំទិន្នន័យវាយតម្លៃពី DIBCO 2019 និង DISEC'13 និងសំណុំទិន្នន័យហ្វឹកហាត់សរសេរដោយដៃចំនួន ២៥៧ បន្ទាត់ (ទាញចេញពី ១៥ ទំព័រនៃសាត្រាស្លឹករឹត)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសាត្រាស្លឹករឹតប្រវត្តិសាស្ត្រ Ge'ez (ភាសាអំបូរអាហ្វ្រិក) ដែលប្រមូលបានពីវត្តអារាមនានានៅតំបន់ North Gondar ប្រទេសអេត្យូពី។ ទោះបីជាទិន្នន័យមានលក្ខណៈតំបន់និយម ប៉ុន្តែវាមានសារៈសំខាន់ខ្លាំងសម្រាប់ប្រទេសកម្ពុជា ពីព្រោះឯកសារប្រវត្តិសាស្ត្រខ្មែរ (ដូចជាសាត្រាស្លឹករឹត) ក៏ជួបប្រទះបញ្ហាស្នាមប្រឡាក់ សរសៃអំបោះ ពណ៌មិនស្មើគ្នា និងភាពស្មុគស្មាញនៃរចនាសម្ព័ន្ធទំព័រដូចគ្នា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេស និងលំហូរការងារ (Pipeline) នៅក្នុងឯកសារនេះ អាចយកមកអនុវត្តដោយផ្ទាល់សម្រាប់ការអភិរក្ស និងធ្វើឌីជីថលនីយកម្មឯកសារប្រវត្តិសាស្ត្រនៅប្រទេសកម្ពុជា។

វិទ្យាស្ថានពុទ្ធសាសនបណ្ឌិត្យ និង សារមន្ទីរជាតិកម្ពុជា: ស្ថាប័នទាំងនេះអាចប្រើប្រាស់បច្ចេកទេស Adaptive Binarization និង Tesseract OCR នេះដើម្បីធ្វើឌីជីថលនីយកម្មសាត្រាស្លឹករឹត (Sastra Slek Rith) កម្ពុជា ដែលកំពុងរងការខូចខាតដោយសារអាយុកាល។
បណ្ណសារដ្ឋានជាតិកម្ពុជា (National Archives of Cambodia): អាចអនុវត្តវិធីសាស្ត្រនេះដើម្បីសម្អាត (Noise removal) កែតម្រូវភាពទ្រេត (Skew correction) និងទាញយកអត្ថបទពីឯកសាររដ្ឋបាលចាស់ៗសម័យអាណានិគមបារាំង ដែលសរសេរដោយដៃ។
ការស្រាវជ្រាវនៅសាកលវិទ្យាល័យ (ឧ. RUPP, ITC): និស្សិតផ្នែកវិទ្យាសាស្ត្រកុំព្យូទ័រអាចយកគំរូស្ថាបត្យកម្មប្រព័ន្ធ (System Architecture) នេះទៅអនុវត្តបន្ត ដើម្បីអភិវឌ្ឍន៍ប្រព័ន្ធ OCR សម្រាប់ទទួលស្គាល់អក្សរខ្មែរសរសេរដោយដៃ ដែលនៅមានកម្រិតនៅឡើយ។

ជារួម ការប្រើប្រាស់បច្ចេកវិទ្យា Deep Learning ដូចជា Tesseract LSTM រួមផ្សំជាមួយដំណើរការសម្អាតរូបភាពយ៉ាងប្រុងប្រយ័ត្ន នឹងជួយសង្គ្រោះ និងធ្វើទំនើបកម្មបេតិកភណ្ឌអក្សរសាស្ត្រកម្ពុជាបានយ៉ាងមានប្រសិទ្ធភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះកែច្នៃរូបភាពឯកសារ (Document Image Pre-processing): ចាប់ផ្តើមរៀនពីបច្ចេកទេស Binarization និង Skew Correction ដោយប្រើប្រាស់បណ្ណាល័យ OpenCV ក្នុង Python ឬ MATLAB។ សាកល្បងអនុវត្តវិធីសាស្ត្រ Sauvola និង Hough Transform លើរូបភាពសាត្រាស្លឹករឹតខ្មែរ ដើម្បីមើលភាពខុសគ្នា។
ប្រមូល និងបង្កើតទិន្នន័យគោល (Ground Truth Creation): ប្រមូលរូបភាពឯកសារប្រវត្តិសាស្ត្រខ្មែរ ហើយប្រើប្រាស់កម្មវិធី Aletheia ដើម្បីកំណត់ទីតាំងអត្ថបទ (Bounding boxes) និងវាយអត្ថបទបញ្ចូលជា Ground truth សម្រាប់ត្រៀមបង្វឹកម៉ូដែល។
អនុវត្តការវិភាគទម្រង់ទំព័រ (Page Layout Analysis): ប្រើប្រាស់បណ្ណាល័យកូដបើកចំហ Leptonica ឆ្លងកាត់ការសរសេរកូដ ដើម្បីសាកល្បងបំបែកទំព័រឯកសារជាផ្នែកៗ (ឧទាហរណ៍៖ រូបភាព, កថាខណ្ឌអត្ថបទ) មុននឹងបញ្ជូនទៅកាន់ម៉ាស៊ីន OCR។
កែសម្រួល និងបង្វឹកម៉ូដែល OCR (Tesseract Fine-tuning): ដំឡើង Tesseract OCR-D លើប្រព័ន្ធប្រតិបត្តិការ Ubuntu Linux ហើយធ្វើការ Fine-tune ម៉ូដែលអក្សរខ្មែរដែលមានស្រាប់ ដោយបញ្ចុកទិន្នន័យថ្មីដែលបានរៀបចំនៅជំហានទី២ ដើម្បីឱ្យវាស្គាល់ទម្រង់អក្សរសរសេរដោយដៃ។
វាស់ស្ទង់លទ្ធផល និងកែលម្អ (Evaluation & Post-processing): គណនាអត្រាកំហុសតួអក្សរ (CER) ដោយប្រៀបធៀបលទ្ធផល OCR ជាមួយ Ground truth។ បន្ទាប់មក សាកល្បងបញ្ចូលវចនានុក្រមខ្មែរ ឬបច្ចេកទេស NLP ជា Post-processing ដើម្បីកែតម្រូវពាក្យដែលម៉ាស៊ីនទាយខុស។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Image Binarization	វាគឺជាដំណើរការបំប្លែងរូបភាពដែលមានពណ៌ ឬស្រមោលប្រផេះច្រើនកម្រិត ទៅជារូបភាពដែលមានតែពីរពណ៌ប៉ុណ្ណោះ គឺស និងខ្មៅ។ ដំណើរការនេះជួយកាត់បន្ថយភាពរញ៉េរញ៉ៃ (ដូចជាស្នាមប្រឡាក់លើក្រដាស) ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលផ្ដោតតែទៅលើតួអក្សរសម្រាប់ការវិភាគបន្ត។	ដូចជាការយកប៉ិចហ្វឺតពណ៌ខ្មៅទៅគូសពីលើអក្សរស្រាលៗ រួចលុបពណ៌ផ្ទៃខាងក្រោយចោលឱ្យសក្បុស ដើម្បីឱ្យមើលឃើញអក្សរដាច់ច្បាស់ល្អ។
Skew Estimation	គឺជាដំណើរការគណនា និងស្វែងរកមុំទ្រេតនៃអត្ថបទនៅក្នុងរូបភាពឯកសារដែលបានស្កេន ដើម្បីធ្វើការកែតម្រូវឱ្យបន្ទាត់អត្ថបទត្រឡប់មកត្រង់ផ្ដេកវិញ មុននឹងបញ្ជូនទិន្នន័យនោះទៅកាន់ម៉ាស៊ីនស្គាល់អក្សរ (OCR)។	ដូចជាការសារេកែតម្រូវស៊ុមរូបថតដែលព្យួរវៀចនៅលើជញ្ជាំង ឱ្យត្រឡប់មកត្រង់ស្មើល្អវិញ។
Long Short-Term Memory (LSTM)	ជាប្រភេទមួយនៃបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) ដែលមានសមត្ថភាពចងចាំព័ត៌មានពីមុនៗក្នុងរយៈពេលវែង និងដឹងថាព័ត៌មានណាគួររក្សាទុក ឬគួរលុបចោល ដែលស័ក្តិសមបំផុតសម្រាប់ការទាញយកលក្ខណៈពិសេសពីតួអក្សរដែលសរសេរតជាប់គ្នាជាបន្ទាត់។	ដូចជាមនុស្សម្នាក់ដែលកំពុងអានសៀវភៅ ដោយអាចចងចាំពាក្យនៅដើមប្រយោគ ដើម្បីយល់ន័យនៃពាក្យបន្ទាប់ និងបំភ្លេចចោលរឿងដែលមិនសំខាន់។
Page Layout Analysis	គឺជាការវិភាគរចនាសម្ព័ន្ធនៃទំព័រឯកសារដើម្បីបំបែក និងចំណាត់ថ្នាក់តំបន់ផ្សេងៗគ្នានៅលើក្រដាស ដូចជា កថាខណ្ឌអត្ថបទ រូបភាព ឬគំនូរ និងរឹមទំព័រ ដើម្បីឱ្យកុំព្យូទ័រដឹងថាផ្នែកណាខ្លះដែលវាត្រូវទាញយកអត្ថបទ។	ដូចជាការយកបន្ទាត់ទៅគូសស៊ុមព័ទ្ធជុំវិញរូបភាព និងអត្ថបទដោយឡែកពីគ្នា នៅក្នុងទំព័រកាសែត ដើម្បីកុំឱ្យអានរំលងចូលគ្នា។
Connectionist Temporal Classification (CTC)	គឺជាក្បួនដោះស្រាយដែលអនុញ្ញាតឱ្យបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតអាចទស្សន៍ទាយលំដាប់នៃតួអក្សរពីទិន្នន័យ (ដូចជាលំដាប់នៃរូបភាពបន្ទាត់អត្ថបទ) ដោយមិនចាំបាច់ត្រូវមានអ្នកកាត់បំបែករូបភាពតួអក្សរនីមួយៗជាមុនឡើយ។	ដូចជាអ្នកបកប្រែដែលអាចស្ដាប់យល់ និងសរសេរចេញជាប្រយោគបានភ្លាមៗ ទោះបីជាអ្នកនិយាយនិយាយលឿនរអិលមាត់មិនដកដង្ហើមក៏ដោយ។
Ground truth	ជាសំណុំទិន្នន័យដើមដែលត្រូវបានផ្ទៀងផ្ទាត់ និងចាត់ទុកថាត្រឹមត្រូវ១០០% (ជាទូទៅវាយបញ្ចូលដោយមនុស្ស) ដែលប្រើសម្រាប់បង្វឹកម៉ូដែលបញ្ញាសិប្បនិម្មិត និងសម្រាប់ប្រៀបធៀបវាស់ស្ទង់ភាពត្រឹមត្រូវនៃលទ្ធផលដែលម៉ូដែលទាយបាន។	ដូចជាសៀវភៅចម្លើយ (Answer Key) នៅខាងចុងសៀវភៅលំហាត់ ដែលគ្រូប្រើសម្រាប់កែពិន្ទុសិស្ស។
Character Error Rate (CER)	ជារង្វាស់សម្រាប់វាយតម្លៃគុណភាពនៃប្រព័ន្ធទទួលស្គាល់អក្សរ (OCR) ដោយគណនាអត្រានៃការទាយខុស (ការបញ្ចូលអក្សរលើស ការបាត់អក្សរ ឬការជំនួសអក្សរខុស) ធៀបនឹងចំនួនតួអក្សរសរុប។	ដូចជាការរាប់ចំនួនអក្ខរាវិរុទ្ធដែលសិស្សសរសេរខុសនៅក្នុងការប្រឡងសរសេរតាមអាន ដើម្បីយកមកកាត់ពិន្ទុអញ្ចឹងដែរ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖