Original Title: Khmer Historical Document Image Restoration Using U-Net’s Variants
Source: doi.org/10.61945/cjbar.2025.7.3.02
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការស្តាររូបភាពឯកសារប្រវត្តិសាស្ត្រខ្មែរដោយប្រើប្រាស់ទម្រង់ផ្សេងៗនៃ U-Net

ចំណងជើងដើម៖ Khmer Historical Document Image Restoration Using U-Net’s Variants

អ្នកនិពន្ធ៖ Darayut Nhem (Department of Information Technology Engineering, Royal University of Phnom Penh), Bunchhun Chhim (Department of Information Technology Engineering, Royal University of Phnom Penh)

ឆ្នាំបោះពុម្ព៖ 2025, The Cambodia Journal of Basic and Applied Research

វិស័យសិក្សា៖ Computer Vision and Deep Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ សាស្ត្រាស្លឹករឹតខ្មែរប្រវត្តិសាស្ត្រតែងតែទទួលរងការខូចខាតយ៉ាងខ្លាំងដោយសារអាយុកាល បរិស្ថាន និងបញ្ហាផ្សេងៗដែលធ្វើឱ្យពិបាកក្នុងការអាន។ ការស្រាវជ្រាវនេះមានគោលបំណងប្រើប្រាស់បច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតដើម្បីសម្អាត និងស្តារគុណភាពរូបភាពឯកសារទាំងនេះឡើងវិញដោយស្វ័យប្រវត្តិសម្រាប់ការអភិរក្សតាមបែបឌីជីថល។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតទិន្នន័យគោលថ្មីពីសំណុំទិន្នន័យ SleukRith រួចបង្វឹក និងប្រៀបធៀបម៉ូដែល Deep Learning ផ្សេងៗគ្នាដើម្បីកែលម្អគុណភាពរូបភាព។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Residual Attention U-Net
បណ្តាញ Residual Attention U-Net
មានសមត្ថភាពខ្ពស់ក្នុងការរក្សាព័ត៌មានលម្អិតនៃអក្សរ និងកាត់បន្ថយស្នាមរំខាន (Noise) បានល្អប្រសើរដោយប្រើប្រាស់យន្តការ Attention និងតំណភ្ជាប់ Residual។ ត្រូវការកម្លាំងម៉ាស៊ីន និងពេលវេលាបង្វឹកច្រើនជាងម៉ូដែលធម្មតា។ លទ្ធផលអាចធ្លាក់ចុះបន្តិចបន្តួចនៅពេលពង្រីកទំហំរូបភាព (64x64) បើធៀបនឹង cGAN។ ទទួលបានតម្លៃ PSNR ខ្ពស់បំផុតរហូតដល់ 28.70 dB និង SSIM 85.51% នៅលើទំហំចំណែករូបភាព 48x48។
Pix2Pix Conditional GAN (cGAN)
បណ្តាញ Pix2Pix cGAN
មានភាពលេចធ្លោក្នុងការស្ដាររូបភាពក្នុងទំហំធំ (64x64) ដោយសារវាអាចរៀនពីបរិបទជុំវិញបានទូលំទូលាយ។ ទាមទារធនធានកុំព្យូទ័រខ្លាំងបំផុត (ត្រូវកំណត់ Batch size ត្រឹមតែ 1) និងមានភាពស្មុគស្មាញក្នុងការបង្វឹកម៉ូដែល Discriminator និង Generator ក្នុងពេលតែមួយ។ ទទួលបានតម្លៃ PSNR ខ្ពស់បំផុតរហូតដល់ 29.15 dB នៅលើទំហំចំណែករូបភាព 64x64។
Convolutional Autoencoders (CAE)
បណ្តាញ Convolutional Autoencoders
ងាយស្រួលក្នុងការបង្កើត និងប្រើប្រាស់ធនធានកុំព្យូទ័រតិចជាងម៉ូដែល U-Net និង GAN។ រូបភាពដែលស្តារចេញមកមានសភាពព្រិល (Blurry) និងបាត់បង់ព័ត៌មានលម្អិតនៃអក្សរ ពិសេសនៅពេលអនុវត្តលើរូបភាពដែលម៉ូដែលមិនធ្លាប់ជួប (Unseen data)។ ទទួលបានកម្រិត SSIM ទាបជាងម៉ូដែលផ្សេងទៀត (76.24% - 79.21% លើទំហំ 64x64) បើទោះជាមាន MSE ទាបក្នុងករណីខ្លះក៏ដោយ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារកម្លាំងម៉ាស៊ីនកុំព្យូទ័រខ្លាំង (GPU) សម្រាប់ការបង្វឹកម៉ូដែល Deep Learning ព្រមទាំងទាមទារពេលវេលានិងកម្លាំងមនុស្សច្រើនក្នុងការរៀបចំទិន្នន័យគោលដោយផ្ទាល់ដៃ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យពី SleukRith Set ដែលផ្តោតជាចម្បងលើសាស្ត្រាស្លឹករឹតប្រមូលពីភ្នំពេញ កណ្តាល និងសៀមរាប។ ដោយសារកង្វះធនធានកុំព្យូទ័រ និងការលំបាកក្នុងការសម្អាតរូបភាពដោយដៃ ទិន្នន័យគោល (Ground truth) ត្រូវបានកំណត់ត្រឹមតែ ២០ សន្លឹកប៉ុណ្ណោះ ដែលនេះអាចធ្វើឱ្យម៉ូដែលជួបការលំបាកនៅពេលត្រូវស្តារទម្រង់អក្សរ ឬប្រភេទស្លឹករឹតដែលខុសប្លែកពីតំបន់ផ្សេងៗទៀតក្នុងប្រទេសកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យានេះមានសារៈសំខាន់ និងមានសក្តានុពលខ្ពស់សម្រាប់កម្ពុជាក្នុងការសង្គ្រោះ និងធ្វើឌីជីតូបនីយកម្មឯកសារប្រវត្តិសាស្ត្រដែលកំពុងរិចរិល។

ការរួមបញ្ចូលបញ្ញាសិប្បនិម្មិត (AI) ក្នុងការងារអភិរក្ស នឹងជួយសន្សំពេលវេលាច្រើនសន្ធឹកសន្ធាប់ និងបង្កើនគុណភាពនៃការថែរក្សាមរតកវប្បធម៌ខ្មែរឱ្យបានគង់វង្សសម្រាប់អ្នកជំនាន់ក្រោយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាពីមូលដ្ឋានគ្រឹះនៃ Computer Vision: ចាប់ផ្តើមរៀនសរសេរកូដដោយប្រើភាសា Python និងស្វែងយល់ពីរបៀបប្រើប្រាស់ PyTorch ព្រមទាំងសិក្សាពីស្ថាបត្យកម្ម Convolutional Neural Networks (CNNs) និង U-Net
  2. រៀនពីបច្ចេកទេស Image Processing: អនុវត្តការបំប្លែងរូបភាពពីពណ៌ទៅជាសខ្មៅ (Binarization) ដោយប្រើប្រាស់កូដ OpenCV ដើម្បីសាកល្បងវិធីសាស្ត្រ Otsu's និង Sauvola's Method ក្នុងការបំបែកតួអក្សរពីផ្ទៃខាងក្រោយស្លឹករឹត។
  3. ការរៀបចំ និងសម្អាតទិន្នន័យ (Data Preparation): ទាញយកទិន្នន័យ SleukRith Set និងប្រើប្រាស់កម្មវិធី Adobe Photoshop ដើម្បីលុបស្នាមព្រាលៗ បង្កើតជាទិន្នន័យគោល (Ground Truth) បន្ទាប់មកសរសេរកូដកាត់រូបភាពជាចំណែកតូចៗ (Patches) ទំហំ 48x48 ឬ 64x64។
  4. ការបង្វឹក និងវាយតម្លៃម៉ូដែល (Training & Evaluation): ប្រើប្រាស់ Google ColabAWS SageMaker (ប្រសិនបើមានថវិកា) ដើម្បីដំណើរការបង្វឹកម៉ូដែល Residual Attention U-Net។ បន្ទាប់មក វាយតម្លៃលទ្ធផលដោយសរសេរកូដគណនារង្វាស់ MSE, PSNR, និង SSIM
  5. ការបង្កើតប្រព័ន្ធស្វ័យប្រវត្តិ (Deployment): យកម៉ូដែលដែលហ្វឹកហាត់រួច ទៅភ្ជាប់ជាមួយកម្មវិធីវេបសាយ ឬកូដ Python Script ដែលអាចទទួលរូបភាពដើម (បញ្ចូលពណ៌វិញ) ដើម្បីបង្កើតជារូបភាពសាស្ត្រាស្លឹករឹតដែលសម្អាតរួចរាល់ទាំងស្រុង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
U-Net ជាស្ថាបត្យកម្មនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (CNN) ដែលមានរាងដូចអក្សរ U ត្រូវបានរចនាឡើងដំបូងសម្រាប់វិភាគរូបភាពវេជ្ជសាស្ត្រ ហើយបច្ចុប្បន្នប្រើសម្រាប់សម្អាត និងស្តាររូបភាពឯកសារចាស់ៗតាមរយៈដំណើរការបង្រួមនិងពង្រីកទិន្នន័យរូបភាព។ ដូចជាម៉ាស៊ីនច្រោះទឹក ដែលដំបូងវាបង្រួមទឹកច្រោះយកក្អែលចេញ រួចពង្រីកវាបញ្ចេញមកវិញជាទឹកស្អាតបរិសុទ្ធ។
Attention Mechanism ជាយន្តការនៅក្នុង Deep Learning ដែលជួយឱ្យម៉ូដែលបញ្ញាសិប្បនិម្មិតផ្តោតការយកចិត្តទុកដាក់តែទៅលើចំណុចសំខាន់ៗនៃរូបភាព (ដូចជាតួអក្សរ) និងកាត់បន្ថយការចាប់យកចំណុចមិនសំខាន់ (ដូចជាស្នាមប្រឡាក់ ឬពន្លឺមិនស្មើគ្នា)។ ដូចជាពេលយើងកំពុងស្តាប់មិត្តភក្តិនិយាយក្នុងពិធីជប់លៀងដែលមានសំឡេងរំខានខ្លាំង ខួរក្បាលយើងផ្តោតតែលើសំឡេងមិត្តភក្តិ និងកាត់ចោលសំឡេងរំខានជុំវិញ។
Conditional Generative Adversarial Network (cGAN) ប្រព័ន្ធ AI ដែលមានបណ្តាញពីរប្រកួតប្រជែងគ្នាគឺ Generator (អ្នកបង្កើតរូបភាព) និង Discriminator (អ្នកចាប់កំហុស) ដែលពួកវាធ្វើការរួមគ្នាដើម្បីបង្កើតរូបភាពថ្មីមួយឱ្យកាន់តែដូចការពិត និងស្របតាមលក្ខខណ្ឌដែលបានកំណត់។ ដូចជាជាងគំនូរខិតខំគូររូបក្លែងក្លាយឱ្យដូចមែនទែន ហើយប៉ូលិសខិតខំពិនិត្យរកមើលកំហុស រហូតដល់ជាងគំនូរនោះគូរបានល្អឥតខ្ចោះដែលប៉ូលិសចាប់កំហុសលែងបាន។
Skip Connections ជាខ្សែតភ្ជាប់នៅក្នុងបណ្តាញសរសៃប្រសាទ (Neural Network) ដែលបញ្ជូនព័ត៌មានលម្អិតនៃរូបភាពពីស្រទាប់ដើម រំលងស្រទាប់កណ្តាល ទៅកាន់ស្រទាប់ចុងក្រោយ ដើម្បីការពារកុំឱ្យបាត់បង់ទិន្នន័យសំខាន់ៗពេលកំពុងបង្រួមរូបភាព។ ដូចជាការថតចម្លងឯកសារដើមទុកមួយច្បាប់ មុននឹងយកវាទៅសង្ខេប ដើម្បីធានាថានៅពេលសរសេរពង្រីកអត្ថបទនោះឡើងវិញ យើងនៅតែមានឯកសារដើមសម្រាប់ផ្ទៀងផ្ទាត់មិនឱ្យបាត់ន័យ។
Peak Signal-to-Noise Ratio (PSNR) ជារង្វាស់គណិតវិទ្យាសម្រាប់វាយតម្លៃគុណភាពរូបភាពដែលត្រូវបានស្តារឡើងវិញ ដោយប្រៀបធៀបសញ្ញាដើម (តួអក្សរ) ទៅនឹងទំហំនៃរំខាន (ស្នាមប្រឡាក់/Noise)។ តម្លៃគិតជា dB នេះកាន់តែខ្ពស់មានន័យថារូបភាពកាន់តែច្បាស់។ ដូចជារង្វាស់នៃភាពច្បាស់របស់សំឡេងវិទ្យុ ដែលសំឡេងអ្នកនិយាយ (Signal) ត្រូវតែខ្លាំងជាងសំឡេងរ៉ែៗ (Noise) ទើបស្តាប់បានច្បាស់ល្អ។
Structural Similarity Index Measure (SSIM) ជាវិធីសាស្ត្រវាស់ស្ទង់ភាពស្រដៀងគ្នារវាងរូបភាពពីរ (រូបភាពដើម និងរូបភាពដែលស្តាររួច) ដោយផ្អែកលើពន្លឺ កម្រិតពណ៌ និងរចនាសម្ព័ន្ធនៃរូបភាព ដែលវាឆ្លុះបញ្ចាំងពីការមើលឃើញរបស់ភ្នែកមនុស្សពិតៗ។ ដូចជាការឱ្យមនុស្សម្នាក់មើលរូបថតពីរ និងវាយតម្លៃថាពួកវាស្រដៀងគ្នាដល់កម្រិតណា ដោយមើលលើទម្រង់ និងពន្លឺរួម ជាជាងការអង្គុយរាប់គ្រាប់ភីកសែលម្តងមួយៗ។
Ground Truth ជាទិន្នន័យគោល ឬចម្លើយត្រឹមត្រូវឥតខ្ចោះ (ក្នុងទីនេះជារូបភាពដែលត្រូវបានសម្អាតស្នាមប្រឡាក់ដោយដៃយ៉ាងម៉ត់ចត់) ដែលត្រូវបានប្រើសម្រាប់បង្វឹកម៉ូដែល AI ឱ្យរៀនសម្អាតរូបភាពផ្សេងៗទៀតឱ្យបានដូចទិន្នន័យគោលនេះ។ ដូចជាសៀវភៅចម្លើយ (Answer Key) ដែលគ្រូផ្តល់ឱ្យសិស្ស ដើម្បីឱ្យសិស្សរៀនផ្ទៀងផ្ទាត់ និងកែតម្រូវកំហុសរបស់ខ្លួនពេលកំពុងធ្វើលំហាត់។
Image Binarization (Otsu's Method) ជាដំណើរការបំប្លែងរូបភាពឱ្យទៅជាមានតែពីរពណ៌គត់ (ស និងខ្មៅ) ដោយវិធីសាស្ត្រ Otsu ជួយស្វែងរកចំណុចកាត់ផ្តាច់ (Threshold) ល្អបំផុតដោយស្វ័យប្រវត្តិ ដើម្បីបំបែកតួអក្សរខ្មៅចេញពីផ្ទៃខាងក្រោយស្លឹករឹត។ ដូចជាការយកទឹកថ្នាំពណ៌ខ្មៅសុទ្ធមកផាត់ពីលើអក្សរ និងយកពណ៌សមកលាបលុបផ្ទៃខាងក្រោយទាំងអស់ ដើម្បីឱ្យអក្សរលេចធ្លោឡើងមើលឃើញដាច់ស្រឡះពីគ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖