Original Title: Khmer Historical Document Image Restoration Using U-Net’s Variants
Source: doi.org/10.61945/cjbar.2025.7.3.02
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការស្តាររូបភាពឯកសារប្រវត្តិសាស្ត្រខ្មែរដោយប្រើប្រាស់ទម្រង់ផ្សេងៗនៃ U-Net

ចំណងជើងដើម៖ Khmer Historical Document Image Restoration Using U-Net’s Variants

អ្នកនិពន្ធ៖ Darayut Nhem (Department of Information Technology Engineering, Royal University of Phnom Penh), Bunchhun Chhim (Department of Information Technology Engineering, Royal University of Phnom Penh)

ឆ្នាំបោះពុម្ព៖ 2025, The Cambodia Journal of Basic and Applied Research

វិស័យសិក្សា៖ Computer Vision and Deep Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ សាស្ត្រាស្លឹករឹតខ្មែរប្រវត្តិសាស្ត្រតែងតែទទួលរងការខូចខាតយ៉ាងខ្លាំងដោយសារអាយុកាល បរិស្ថាន និងបញ្ហាផ្សេងៗដែលធ្វើឱ្យពិបាកក្នុងការអាន។ ការស្រាវជ្រាវនេះមានគោលបំណងប្រើប្រាស់បច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតដើម្បីសម្អាត និងស្តារគុណភាពរូបភាពឯកសារទាំងនេះឡើងវិញដោយស្វ័យប្រវត្តិសម្រាប់ការអភិរក្សតាមបែបឌីជីថល។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតទិន្នន័យគោលថ្មីពីសំណុំទិន្នន័យ SleukRith រួចបង្វឹក និងប្រៀបធៀបម៉ូដែល Deep Learning ផ្សេងៗគ្នាដើម្បីកែលម្អគុណភាពរូបភាព។

ការបង្កើតទិន្នន័យគោល (Ground Truth Generation) ដោយប្រើវិធីសាស្ត្រ Otsu's Binarization និងសម្អាតដោយដៃ។
ការកាត់ចំណែករូបភាព (Patch Extraction) ជាទំហំ 48x48 និង 64x64 ភីកសែល សម្រាប់យកទៅបង្វឹកម៉ូដែល។
ការបង្វឹកបណ្តាញសរសៃប្រសាទ (Neural Network Training) ដែលប្រើម៉ូដែល U-Net, Attention U-Net, Residual Attention U-Net, Convolutional Autoencoders និង cGAN។
ការវាយតម្លៃគុណភាពរូបភាព (Image Quality Assessment) តាមរយៈរង្វាស់ MSE, PSNR, និង SSIM។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ចំពោះទំហំចំណែករូបភាព 48x48 ម៉ូដែល Residual Attention U-Net ផ្តល់លទ្ធផលល្អបំផុត ដោយមានកម្រិត PSNR 28.70 dB និង SSIM 85.51%។
ចំពោះទំហំចំណែករូបភាព 64x64 ម៉ូដែល Pix2Pix cGAN ទទួលបានតម្លៃ PSNR ខ្ពស់បំផុត (29.15 dB) ខណៈដែល U-Net ធម្មតាទទួលបានតម្លៃ SSIM ខ្ពស់ជាងគេ (85.97%)។
ការប្រើប្រាស់បណ្តាញយន្តការ Attention និង Residual នៅក្នុងទម្រង់ U-Net អាចជួយរក្សាព័ត៌មានលម្អិតនៃអក្សរនិងលុបរំខាន (Noise) បានល្អជាងម៉ូដែល Autoencoders ដែលជាការបើកផ្លូវថ្មីមួយក្នុងការអភិរក្សបេតិកភណ្ឌវប្បធម៌ខ្មែរ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Residual Attention U-Net បណ្តាញ Residual Attention U-Net	មានសមត្ថភាពខ្ពស់ក្នុងការរក្សាព័ត៌មានលម្អិតនៃអក្សរ និងកាត់បន្ថយស្នាមរំខាន (Noise) បានល្អប្រសើរដោយប្រើប្រាស់យន្តការ Attention និងតំណភ្ជាប់ Residual។	ត្រូវការកម្លាំងម៉ាស៊ីន និងពេលវេលាបង្វឹកច្រើនជាងម៉ូដែលធម្មតា។ លទ្ធផលអាចធ្លាក់ចុះបន្តិចបន្តួចនៅពេលពង្រីកទំហំរូបភាព (64x64) បើធៀបនឹង cGAN។	ទទួលបានតម្លៃ PSNR ខ្ពស់បំផុតរហូតដល់ 28.70 dB និង SSIM 85.51% នៅលើទំហំចំណែករូបភាព 48x48។
Pix2Pix Conditional GAN (cGAN) បណ្តាញ Pix2Pix cGAN	មានភាពលេចធ្លោក្នុងការស្ដាររូបភាពក្នុងទំហំធំ (64x64) ដោយសារវាអាចរៀនពីបរិបទជុំវិញបានទូលំទូលាយ។	ទាមទារធនធានកុំព្យូទ័រខ្លាំងបំផុត (ត្រូវកំណត់ Batch size ត្រឹមតែ 1) និងមានភាពស្មុគស្មាញក្នុងការបង្វឹកម៉ូដែល Discriminator និង Generator ក្នុងពេលតែមួយ។	ទទួលបានតម្លៃ PSNR ខ្ពស់បំផុតរហូតដល់ 29.15 dB នៅលើទំហំចំណែករូបភាព 64x64។
Convolutional Autoencoders (CAE) បណ្តាញ Convolutional Autoencoders	ងាយស្រួលក្នុងការបង្កើត និងប្រើប្រាស់ធនធានកុំព្យូទ័រតិចជាងម៉ូដែល U-Net និង GAN។	រូបភាពដែលស្តារចេញមកមានសភាពព្រិល (Blurry) និងបាត់បង់ព័ត៌មានលម្អិតនៃអក្សរ ពិសេសនៅពេលអនុវត្តលើរូបភាពដែលម៉ូដែលមិនធ្លាប់ជួប (Unseen data)។	ទទួលបានកម្រិត SSIM ទាបជាងម៉ូដែលផ្សេងទៀត (76.24% - 79.21% លើទំហំ 64x64) បើទោះជាមាន MSE ទាបក្នុងករណីខ្លះក៏ដោយ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារកម្លាំងម៉ាស៊ីនកុំព្យូទ័រខ្លាំង (GPU) សម្រាប់ការបង្វឹកម៉ូដែល Deep Learning ព្រមទាំងទាមទារពេលវេលានិងកម្លាំងមនុស្សច្រើនក្នុងការរៀបចំទិន្នន័យគោលដោយផ្ទាល់ដៃ។

Hardware: ត្រូវការម៉ាស៊ីនដែលមានក្រាហ្វិកកាត (GPU) ខ្លាំង ដូចជា Amazon SageMaker (g5.2xlarge instance) ដើម្បីអាចបង្វឹកម៉ូដែលចំនួនច្រើនជុំ។
Software: ប្រើប្រាស់ PyTorch framework សម្រាប់ការសរសេរកូដបង្វឹកម៉ូដែល និង Adobe Photoshop សម្រាប់លុបស្នាម និងសម្អាតរូបភាពដោយផ្ទាល់ដៃដើម្បីធ្វើជា Ground Truth។
Dataset: ទាមទារសំណុំទិន្នន័យ SleukRith Set និងត្រូវកាត់ជាចំណែកតូចៗរាប់សែនបន្ទះ (Patches) ព្រមទាំងការចំណាយពេលសម្អាតរូបភាពចំនួន ២០សន្លឹកដោយដៃយ៉ាងម៉ត់ចត់បំផុត។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យពី SleukRith Set ដែលផ្តោតជាចម្បងលើសាស្ត្រាស្លឹករឹតប្រមូលពីភ្នំពេញ កណ្តាល និងសៀមរាប។ ដោយសារកង្វះធនធានកុំព្យូទ័រ និងការលំបាកក្នុងការសម្អាតរូបភាពដោយដៃ ទិន្នន័យគោល (Ground truth) ត្រូវបានកំណត់ត្រឹមតែ ២០ សន្លឹកប៉ុណ្ណោះ ដែលនេះអាចធ្វើឱ្យម៉ូដែលជួបការលំបាកនៅពេលត្រូវស្តារទម្រង់អក្សរ ឬប្រភេទស្លឹករឹតដែលខុសប្លែកពីតំបន់ផ្សេងៗទៀតក្នុងប្រទេសកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យានេះមានសារៈសំខាន់ និងមានសក្តានុពលខ្ពស់សម្រាប់កម្ពុជាក្នុងការសង្គ្រោះ និងធ្វើឌីជីតូបនីយកម្មឯកសារប្រវត្តិសាស្ត្រដែលកំពុងរិចរិល។

ក្រសួងវប្បធម៌ និងវិចិត្រសិល្បៈ (Ministry of Culture and Fine Arts): អាចប្រើប្រាស់វិធីសាស្ត្រនេះដើម្បីបង្កើតជាគម្រោងថ្នាក់ជាតិ សម្រាប់ការស្តារ និងអភិរក្សឯកសារប្រវត្តិសាស្ត្រ និងសាស្ត្រាស្លឹករឹតទូទាំងប្រទេសដោយស្វ័យប្រវត្តិ។
បណ្ណាល័យជាតិកម្ពុជា និងមជ្ឈមណ្ឌល BDRC: ស្ថាប័នទាំងនេះអាចប្រើប្រាស់ម៉ូដែល U-Net ដើម្បីសម្អាតរូបភាពឯកសារចាស់ៗដែលមានក្នុងបណ្ណសាររបស់ខ្លួន ធ្វើឱ្យអ្នកស្រាវជ្រាវ និងសាធារណជនងាយស្រួលអានតាមប្រព័ន្ធអនឡាញ។
វត្តអារាមទូទាំងប្រទេសកម្ពុជា: បណ្ណាល័យវត្តអារាមជាច្រើនដែលនៅសេសសល់សាស្ត្រាស្លឹករឹត អាចសហការជាមួយសាកលវិទ្យាល័យដើម្បីថតចម្លង និងស្តារអត្ថបទទាំងនោះឡើងវិញ ជៀសវាងការបាត់បង់ដោយសារអាយុកាល ឬសត្វល្អិតស៊ី។

ការរួមបញ្ចូលបញ្ញាសិប្បនិម្មិត (AI) ក្នុងការងារអភិរក្ស នឹងជួយសន្សំពេលវេលាច្រើនសន្ធឹកសន្ធាប់ និងបង្កើនគុណភាពនៃការថែរក្សាមរតកវប្បធម៌ខ្មែរឱ្យបានគង់វង្សសម្រាប់អ្នកជំនាន់ក្រោយ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីមូលដ្ឋានគ្រឹះនៃ Computer Vision: ចាប់ផ្តើមរៀនសរសេរកូដដោយប្រើភាសា Python និងស្វែងយល់ពីរបៀបប្រើប្រាស់ PyTorch ព្រមទាំងសិក្សាពីស្ថាបត្យកម្ម Convolutional Neural Networks (CNNs) និង U-Net។
រៀនពីបច្ចេកទេស Image Processing: អនុវត្តការបំប្លែងរូបភាពពីពណ៌ទៅជាសខ្មៅ (Binarization) ដោយប្រើប្រាស់កូដ OpenCV ដើម្បីសាកល្បងវិធីសាស្ត្រ Otsu's និង Sauvola's Method ក្នុងការបំបែកតួអក្សរពីផ្ទៃខាងក្រោយស្លឹករឹត។
ការរៀបចំ និងសម្អាតទិន្នន័យ (Data Preparation): ទាញយកទិន្នន័យ SleukRith Set និងប្រើប្រាស់កម្មវិធី Adobe Photoshop ដើម្បីលុបស្នាមព្រាលៗ បង្កើតជាទិន្នន័យគោល (Ground Truth) បន្ទាប់មកសរសេរកូដកាត់រូបភាពជាចំណែកតូចៗ (Patches) ទំហំ 48x48 ឬ 64x64។
ការបង្វឹក និងវាយតម្លៃម៉ូដែល (Training & Evaluation): ប្រើប្រាស់ Google Colab ឬ AWS SageMaker (ប្រសិនបើមានថវិកា) ដើម្បីដំណើរការបង្វឹកម៉ូដែល Residual Attention U-Net។ បន្ទាប់មក វាយតម្លៃលទ្ធផលដោយសរសេរកូដគណនារង្វាស់ MSE, PSNR, និង SSIM។
ការបង្កើតប្រព័ន្ធស្វ័យប្រវត្តិ (Deployment): យកម៉ូដែលដែលហ្វឹកហាត់រួច ទៅភ្ជាប់ជាមួយកម្មវិធីវេបសាយ ឬកូដ Python Script ដែលអាចទទួលរូបភាពដើម (បញ្ចូលពណ៌វិញ) ដើម្បីបង្កើតជារូបភាពសាស្ត្រាស្លឹករឹតដែលសម្អាតរួចរាល់ទាំងស្រុង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
U-Net	ជាស្ថាបត្យកម្មនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (CNN) ដែលមានរាងដូចអក្សរ U ត្រូវបានរចនាឡើងដំបូងសម្រាប់វិភាគរូបភាពវេជ្ជសាស្ត្រ ហើយបច្ចុប្បន្នប្រើសម្រាប់សម្អាត និងស្តាររូបភាពឯកសារចាស់ៗតាមរយៈដំណើរការបង្រួមនិងពង្រីកទិន្នន័យរូបភាព។	ដូចជាម៉ាស៊ីនច្រោះទឹក ដែលដំបូងវាបង្រួមទឹកច្រោះយកក្អែលចេញ រួចពង្រីកវាបញ្ចេញមកវិញជាទឹកស្អាតបរិសុទ្ធ។
Attention Mechanism	ជាយន្តការនៅក្នុង Deep Learning ដែលជួយឱ្យម៉ូដែលបញ្ញាសិប្បនិម្មិតផ្តោតការយកចិត្តទុកដាក់តែទៅលើចំណុចសំខាន់ៗនៃរូបភាព (ដូចជាតួអក្សរ) និងកាត់បន្ថយការចាប់យកចំណុចមិនសំខាន់ (ដូចជាស្នាមប្រឡាក់ ឬពន្លឺមិនស្មើគ្នា)។	ដូចជាពេលយើងកំពុងស្តាប់មិត្តភក្តិនិយាយក្នុងពិធីជប់លៀងដែលមានសំឡេងរំខានខ្លាំង ខួរក្បាលយើងផ្តោតតែលើសំឡេងមិត្តភក្តិ និងកាត់ចោលសំឡេងរំខានជុំវិញ។
Conditional Generative Adversarial Network (cGAN)	ប្រព័ន្ធ AI ដែលមានបណ្តាញពីរប្រកួតប្រជែងគ្នាគឺ Generator (អ្នកបង្កើតរូបភាព) និង Discriminator (អ្នកចាប់កំហុស) ដែលពួកវាធ្វើការរួមគ្នាដើម្បីបង្កើតរូបភាពថ្មីមួយឱ្យកាន់តែដូចការពិត និងស្របតាមលក្ខខណ្ឌដែលបានកំណត់។	ដូចជាជាងគំនូរខិតខំគូររូបក្លែងក្លាយឱ្យដូចមែនទែន ហើយប៉ូលិសខិតខំពិនិត្យរកមើលកំហុស រហូតដល់ជាងគំនូរនោះគូរបានល្អឥតខ្ចោះដែលប៉ូលិសចាប់កំហុសលែងបាន។
Skip Connections	ជាខ្សែតភ្ជាប់នៅក្នុងបណ្តាញសរសៃប្រសាទ (Neural Network) ដែលបញ្ជូនព័ត៌មានលម្អិតនៃរូបភាពពីស្រទាប់ដើម រំលងស្រទាប់កណ្តាល ទៅកាន់ស្រទាប់ចុងក្រោយ ដើម្បីការពារកុំឱ្យបាត់បង់ទិន្នន័យសំខាន់ៗពេលកំពុងបង្រួមរូបភាព។	ដូចជាការថតចម្លងឯកសារដើមទុកមួយច្បាប់ មុននឹងយកវាទៅសង្ខេប ដើម្បីធានាថានៅពេលសរសេរពង្រីកអត្ថបទនោះឡើងវិញ យើងនៅតែមានឯកសារដើមសម្រាប់ផ្ទៀងផ្ទាត់មិនឱ្យបាត់ន័យ។
Peak Signal-to-Noise Ratio (PSNR)	ជារង្វាស់គណិតវិទ្យាសម្រាប់វាយតម្លៃគុណភាពរូបភាពដែលត្រូវបានស្តារឡើងវិញ ដោយប្រៀបធៀបសញ្ញាដើម (តួអក្សរ) ទៅនឹងទំហំនៃរំខាន (ស្នាមប្រឡាក់/Noise)។ តម្លៃគិតជា dB នេះកាន់តែខ្ពស់មានន័យថារូបភាពកាន់តែច្បាស់។	ដូចជារង្វាស់នៃភាពច្បាស់របស់សំឡេងវិទ្យុ ដែលសំឡេងអ្នកនិយាយ (Signal) ត្រូវតែខ្លាំងជាងសំឡេងរ៉ែៗ (Noise) ទើបស្តាប់បានច្បាស់ល្អ។
Structural Similarity Index Measure (SSIM)	ជាវិធីសាស្ត្រវាស់ស្ទង់ភាពស្រដៀងគ្នារវាងរូបភាពពីរ (រូបភាពដើម និងរូបភាពដែលស្តាររួច) ដោយផ្អែកលើពន្លឺ កម្រិតពណ៌ និងរចនាសម្ព័ន្ធនៃរូបភាព ដែលវាឆ្លុះបញ្ចាំងពីការមើលឃើញរបស់ភ្នែកមនុស្សពិតៗ។	ដូចជាការឱ្យមនុស្សម្នាក់មើលរូបថតពីរ និងវាយតម្លៃថាពួកវាស្រដៀងគ្នាដល់កម្រិតណា ដោយមើលលើទម្រង់ និងពន្លឺរួម ជាជាងការអង្គុយរាប់គ្រាប់ភីកសែលម្តងមួយៗ។
Ground Truth	ជាទិន្នន័យគោល ឬចម្លើយត្រឹមត្រូវឥតខ្ចោះ (ក្នុងទីនេះជារូបភាពដែលត្រូវបានសម្អាតស្នាមប្រឡាក់ដោយដៃយ៉ាងម៉ត់ចត់) ដែលត្រូវបានប្រើសម្រាប់បង្វឹកម៉ូដែល AI ឱ្យរៀនសម្អាតរូបភាពផ្សេងៗទៀតឱ្យបានដូចទិន្នន័យគោលនេះ។	ដូចជាសៀវភៅចម្លើយ (Answer Key) ដែលគ្រូផ្តល់ឱ្យសិស្ស ដើម្បីឱ្យសិស្សរៀនផ្ទៀងផ្ទាត់ និងកែតម្រូវកំហុសរបស់ខ្លួនពេលកំពុងធ្វើលំហាត់។
Image Binarization (Otsu's Method)	ជាដំណើរការបំប្លែងរូបភាពឱ្យទៅជាមានតែពីរពណ៌គត់ (ស និងខ្មៅ) ដោយវិធីសាស្ត្រ Otsu ជួយស្វែងរកចំណុចកាត់ផ្តាច់ (Threshold) ល្អបំផុតដោយស្វ័យប្រវត្តិ ដើម្បីបំបែកតួអក្សរខ្មៅចេញពីផ្ទៃខាងក្រោយស្លឹករឹត។	ដូចជាការយកទឹកថ្នាំពណ៌ខ្មៅសុទ្ធមកផាត់ពីលើអក្សរ និងយកពណ៌សមកលាបលុបផ្ទៃខាងក្រោយទាំងអស់ ដើម្បីឱ្យអក្សរលេចធ្លោឡើងមើលឃើញដាច់ស្រឡះពីគ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖