បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការបំប្លែងឯកសារសាត្រាស្លឹករឹតប្រវត្តិសាស្ត្រ Ge'ez (ហ្គីស) ទៅជាទម្រង់ឌីជីថល ដែលជួបប្រទះការលំបាកយ៉ាងខ្លាំងដោយសារភាពស្មុគស្មាញនៃទម្រង់ទំព័រ និងការខូចខាតគុណភាពនៃសាត្រាស្លឹករឹតចាស់ៗ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះអនុវត្តវិធីសាស្ត្រជាបន្តបន្ទាប់ដោយរួមបញ្ចូលការវិភាគរូបភាពឯកសារ និងបច្ចេកទេស Deep Learning សម្រាប់ដំណើរការស្គាល់អក្សរ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Sauvola's Binarization Method វិធីសាស្ត្រកំណត់តម្លៃគោលពីរ Sauvola's Binarization Method |
ដំណើរការបានល្អបំផុតលើរូបភាពឯកសារចាស់ៗដែលមានគុណភាពអន់ និងមានពន្លឺផ្ទៃខាងក្រោយមិនស្មើគ្នា (Adaptive Thresholding)។ ការពារការបាត់បង់ទម្រង់ដើមនៃតួអក្សរបានល្អ។ | ទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រឱ្យបានត្រឹមត្រូវមុន (ដូចជាទំហំ window និងទម្ងន់ k) ដើម្បីទទួលបានលទ្ធផលល្អបំផុត។ | ទទួលបានចំណាត់ថ្នាក់លេខ១ ជាមួយនឹងពិន្ទុសរុបល្អបំផុត (៦១) តាមរយៈការវាយតម្លៃលើ FM, ps-FM, PSNR និង DRD។ |
| Otsu's Global Binarization Method វិធីសាស្ត្រកំណត់តម្លៃគោលពីរទូទៅ Otsu's Global Binarization |
ជាវិធីសាស្ត្រសាមញ្ញ ងាយស្រួលអនុវត្ត និងមិនទាមទារការកែតម្រូវប៉ារ៉ាម៉ែត្រច្រើនដោយដៃនោះទេ។ | មិនស័ក្តិសម និងគ្មានប្រសិទ្ធភាពសោះសម្រាប់ឯកសារចាស់ៗដែលមានស្នាមប្រឡាក់ ឬភាពងងឹតនៃផ្ទៃខាងក្រោយច្រើន។ | ទទួលបានចំណាត់ថ្នាក់ទាបជាងគេបំផុត (ចំណាត់ថ្នាក់លេខ៤) ជាមួយនឹងពិន្ទុសរុប ១៤៤ ក្នុងការធ្វើតេស្តជាមួយឯកសារប្រវត្តិសាស្ត្រ។ |
| Fine-tuned Tesseract OCR (LSTM-based) ការកែសម្រួលម៉ូដែល Fine-tuned Tesseract OCR (LSTM) |
អាចកាត់បន្ថយអត្រាកំហុសតួអក្សរបានយ៉ាងមានប្រសិទ្ធភាពដោយគ្រាន់តែយកម៉ូដែលដើម (Base Model) មកបង្ហាត់បន្តជាមួយទិន្នន័យថ្មីក្នុងបរិមាណតិចតួច។ | ចាំបាច់ត្រូវមានការបង្កើត Ground truth យ៉ាងប្រុងប្រយ័ត្ន និងទាមទារទិន្នន័យហ្វឹកហាត់បន្ថែមទៀតដើម្បីបង្កើនភាពសុក្រឹតកម្រិតខ្ពស់។ | ម៉ូដែលដែលទទួលបានការហ្វឹកហាត់ថ្មីនេះ អាចសម្រេចបានអត្រាកំហុសតួអក្សរ (CER) ទាបត្រឹមតែ ២.៦៣២% ប៉ុណ្ណោះ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះប្រើប្រាស់ធនធានកុំព្យូទ័រធម្មតា ប៉ុន្តែពឹងផ្អែកខ្លាំងលើកម្មវិធីកូដបើកចំហ (Open-source) សម្រាប់ការវិភាគ និងបង្វឹកម៉ូដែលកម្រិតជ្រៅ។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យសាត្រាស្លឹករឹតប្រវត្តិសាស្ត្រ Ge'ez (ភាសាអំបូរអាហ្វ្រិក) ដែលប្រមូលបានពីវត្តអារាមនានានៅតំបន់ North Gondar ប្រទេសអេត្យូពី។ ទោះបីជាទិន្នន័យមានលក្ខណៈតំបន់និយម ប៉ុន្តែវាមានសារៈសំខាន់ខ្លាំងសម្រាប់ប្រទេសកម្ពុជា ពីព្រោះឯកសារប្រវត្តិសាស្ត្រខ្មែរ (ដូចជាសាត្រាស្លឹករឹត) ក៏ជួបប្រទះបញ្ហាស្នាមប្រឡាក់ សរសៃអំបោះ ពណ៌មិនស្មើគ្នា និងភាពស្មុគស្មាញនៃរចនាសម្ព័ន្ធទំព័រដូចគ្នា។
បច្ចេកទេស និងលំហូរការងារ (Pipeline) នៅក្នុងឯកសារនេះ អាចយកមកអនុវត្តដោយផ្ទាល់សម្រាប់ការអភិរក្ស និងធ្វើឌីជីថលនីយកម្មឯកសារប្រវត្តិសាស្ត្រនៅប្រទេសកម្ពុជា។
ជារួម ការប្រើប្រាស់បច្ចេកវិទ្យា Deep Learning ដូចជា Tesseract LSTM រួមផ្សំជាមួយដំណើរការសម្អាតរូបភាពយ៉ាងប្រុងប្រយ័ត្ន នឹងជួយសង្គ្រោះ និងធ្វើទំនើបកម្មបេតិកភណ្ឌអក្សរសាស្ត្រកម្ពុជាបានយ៉ាងមានប្រសិទ្ធភាព។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Image Binarization | វាគឺជាដំណើរការបំប្លែងរូបភាពដែលមានពណ៌ ឬស្រមោលប្រផេះច្រើនកម្រិត ទៅជារូបភាពដែលមានតែពីរពណ៌ប៉ុណ្ណោះ គឺស និងខ្មៅ។ ដំណើរការនេះជួយកាត់បន្ថយភាពរញ៉េរញ៉ៃ (ដូចជាស្នាមប្រឡាក់លើក្រដាស) ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលផ្ដោតតែទៅលើតួអក្សរសម្រាប់ការវិភាគបន្ត។ | ដូចជាការយកប៉ិចហ្វឺតពណ៌ខ្មៅទៅគូសពីលើអក្សរស្រាលៗ រួចលុបពណ៌ផ្ទៃខាងក្រោយចោលឱ្យសក្បុស ដើម្បីឱ្យមើលឃើញអក្សរដាច់ច្បាស់ល្អ។ |
| Skew Estimation | គឺជាដំណើរការគណនា និងស្វែងរកមុំទ្រេតនៃអត្ថបទនៅក្នុងរូបភាពឯកសារដែលបានស្កេន ដើម្បីធ្វើការកែតម្រូវឱ្យបន្ទាត់អត្ថបទត្រឡប់មកត្រង់ផ្ដេកវិញ មុននឹងបញ្ជូនទិន្នន័យនោះទៅកាន់ម៉ាស៊ីនស្គាល់អក្សរ (OCR)។ | ដូចជាការសារេកែតម្រូវស៊ុមរូបថតដែលព្យួរវៀចនៅលើជញ្ជាំង ឱ្យត្រឡប់មកត្រង់ស្មើល្អវិញ។ |
| Long Short-Term Memory (LSTM) | ជាប្រភេទមួយនៃបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (RNN) ដែលមានសមត្ថភាពចងចាំព័ត៌មានពីមុនៗក្នុងរយៈពេលវែង និងដឹងថាព័ត៌មានណាគួររក្សាទុក ឬគួរលុបចោល ដែលស័ក្តិសមបំផុតសម្រាប់ការទាញយកលក្ខណៈពិសេសពីតួអក្សរដែលសរសេរតជាប់គ្នាជាបន្ទាត់។ | ដូចជាមនុស្សម្នាក់ដែលកំពុងអានសៀវភៅ ដោយអាចចងចាំពាក្យនៅដើមប្រយោគ ដើម្បីយល់ន័យនៃពាក្យបន្ទាប់ និងបំភ្លេចចោលរឿងដែលមិនសំខាន់។ |
| Page Layout Analysis | គឺជាការវិភាគរចនាសម្ព័ន្ធនៃទំព័រឯកសារដើម្បីបំបែក និងចំណាត់ថ្នាក់តំបន់ផ្សេងៗគ្នានៅលើក្រដាស ដូចជា កថាខណ្ឌអត្ថបទ រូបភាព ឬគំនូរ និងរឹមទំព័រ ដើម្បីឱ្យកុំព្យូទ័រដឹងថាផ្នែកណាខ្លះដែលវាត្រូវទាញយកអត្ថបទ។ | ដូចជាការយកបន្ទាត់ទៅគូសស៊ុមព័ទ្ធជុំវិញរូបភាព និងអត្ថបទដោយឡែកពីគ្នា នៅក្នុងទំព័រកាសែត ដើម្បីកុំឱ្យអានរំលងចូលគ្នា។ |
| Connectionist Temporal Classification (CTC) | គឺជាក្បួនដោះស្រាយដែលអនុញ្ញាតឱ្យបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតអាចទស្សន៍ទាយលំដាប់នៃតួអក្សរពីទិន្នន័យ (ដូចជាលំដាប់នៃរូបភាពបន្ទាត់អត្ថបទ) ដោយមិនចាំបាច់ត្រូវមានអ្នកកាត់បំបែករូបភាពតួអក្សរនីមួយៗជាមុនឡើយ។ | ដូចជាអ្នកបកប្រែដែលអាចស្ដាប់យល់ និងសរសេរចេញជាប្រយោគបានភ្លាមៗ ទោះបីជាអ្នកនិយាយនិយាយលឿនរអិលមាត់មិនដកដង្ហើមក៏ដោយ។ |
| Ground truth | ជាសំណុំទិន្នន័យដើមដែលត្រូវបានផ្ទៀងផ្ទាត់ និងចាត់ទុកថាត្រឹមត្រូវ១០០% (ជាទូទៅវាយបញ្ចូលដោយមនុស្ស) ដែលប្រើសម្រាប់បង្វឹកម៉ូដែលបញ្ញាសិប្បនិម្មិត និងសម្រាប់ប្រៀបធៀបវាស់ស្ទង់ភាពត្រឹមត្រូវនៃលទ្ធផលដែលម៉ូដែលទាយបាន។ | ដូចជាសៀវភៅចម្លើយ (Answer Key) នៅខាងចុងសៀវភៅលំហាត់ ដែលគ្រូប្រើសម្រាប់កែពិន្ទុសិស្ស។ |
| Character Error Rate (CER) | ជារង្វាស់សម្រាប់វាយតម្លៃគុណភាពនៃប្រព័ន្ធទទួលស្គាល់អក្សរ (OCR) ដោយគណនាអត្រានៃការទាយខុស (ការបញ្ចូលអក្សរលើស ការបាត់អក្សរ ឬការជំនួសអក្សរខុស) ធៀបនឹងចំនួនតួអក្សរសរុប។ | ដូចជាការរាប់ចំនួនអក្ខរាវិរុទ្ធដែលសិស្សសរសេរខុសនៅក្នុងការប្រឡងសរសេរតាមអាន ដើម្បីយកមកកាត់ពិន្ទុអញ្ចឹងដែរ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖