បញ្ហា (The Problem)៖ សាស្ត្រាស្លឹករឹតខ្មែរប្រវត្តិសាស្ត្រតែងតែទទួលរងការខូចខាតយ៉ាងខ្លាំងដោយសារអាយុកាល បរិស្ថាន និងបញ្ហាផ្សេងៗដែលធ្វើឱ្យពិបាកក្នុងការអាន។ ការស្រាវជ្រាវនេះមានគោលបំណងប្រើប្រាស់បច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតដើម្បីសម្អាត និងស្តារគុណភាពរូបភាពឯកសារទាំងនេះឡើងវិញដោយស្វ័យប្រវត្តិសម្រាប់ការអភិរក្សតាមបែបឌីជីថល។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតទិន្នន័យគោលថ្មីពីសំណុំទិន្នន័យ SleukRith រួចបង្វឹក និងប្រៀបធៀបម៉ូដែល Deep Learning ផ្សេងៗគ្នាដើម្បីកែលម្អគុណភាពរូបភាព។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Residual Attention U-Net បណ្តាញ Residual Attention U-Net |
មានសមត្ថភាពខ្ពស់ក្នុងការរក្សាព័ត៌មានលម្អិតនៃអក្សរ និងកាត់បន្ថយស្នាមរំខាន (Noise) បានល្អប្រសើរដោយប្រើប្រាស់យន្តការ Attention និងតំណភ្ជាប់ Residual។ | ត្រូវការកម្លាំងម៉ាស៊ីន និងពេលវេលាបង្វឹកច្រើនជាងម៉ូដែលធម្មតា។ លទ្ធផលអាចធ្លាក់ចុះបន្តិចបន្តួចនៅពេលពង្រីកទំហំរូបភាព (64x64) បើធៀបនឹង cGAN។ | ទទួលបានតម្លៃ PSNR ខ្ពស់បំផុតរហូតដល់ 28.70 dB និង SSIM 85.51% នៅលើទំហំចំណែករូបភាព 48x48។ |
| Pix2Pix Conditional GAN (cGAN) បណ្តាញ Pix2Pix cGAN |
មានភាពលេចធ្លោក្នុងការស្ដាររូបភាពក្នុងទំហំធំ (64x64) ដោយសារវាអាចរៀនពីបរិបទជុំវិញបានទូលំទូលាយ។ | ទាមទារធនធានកុំព្យូទ័រខ្លាំងបំផុត (ត្រូវកំណត់ Batch size ត្រឹមតែ 1) និងមានភាពស្មុគស្មាញក្នុងការបង្វឹកម៉ូដែល Discriminator និង Generator ក្នុងពេលតែមួយ។ | ទទួលបានតម្លៃ PSNR ខ្ពស់បំផុតរហូតដល់ 29.15 dB នៅលើទំហំចំណែករូបភាព 64x64។ |
| Convolutional Autoencoders (CAE) បណ្តាញ Convolutional Autoencoders |
ងាយស្រួលក្នុងការបង្កើត និងប្រើប្រាស់ធនធានកុំព្យូទ័រតិចជាងម៉ូដែល U-Net និង GAN។ | រូបភាពដែលស្តារចេញមកមានសភាពព្រិល (Blurry) និងបាត់បង់ព័ត៌មានលម្អិតនៃអក្សរ ពិសេសនៅពេលអនុវត្តលើរូបភាពដែលម៉ូដែលមិនធ្លាប់ជួប (Unseen data)។ | ទទួលបានកម្រិត SSIM ទាបជាងម៉ូដែលផ្សេងទៀត (76.24% - 79.21% លើទំហំ 64x64) បើទោះជាមាន MSE ទាបក្នុងករណីខ្លះក៏ដោយ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារកម្លាំងម៉ាស៊ីនកុំព្យូទ័រខ្លាំង (GPU) សម្រាប់ការបង្វឹកម៉ូដែល Deep Learning ព្រមទាំងទាមទារពេលវេលានិងកម្លាំងមនុស្សច្រើនក្នុងការរៀបចំទិន្នន័យគោលដោយផ្ទាល់ដៃ។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យពី SleukRith Set ដែលផ្តោតជាចម្បងលើសាស្ត្រាស្លឹករឹតប្រមូលពីភ្នំពេញ កណ្តាល និងសៀមរាប។ ដោយសារកង្វះធនធានកុំព្យូទ័រ និងការលំបាកក្នុងការសម្អាតរូបភាពដោយដៃ ទិន្នន័យគោល (Ground truth) ត្រូវបានកំណត់ត្រឹមតែ ២០ សន្លឹកប៉ុណ្ណោះ ដែលនេះអាចធ្វើឱ្យម៉ូដែលជួបការលំបាកនៅពេលត្រូវស្តារទម្រង់អក្សរ ឬប្រភេទស្លឹករឹតដែលខុសប្លែកពីតំបន់ផ្សេងៗទៀតក្នុងប្រទេសកម្ពុជា។
បច្ចេកវិទ្យានេះមានសារៈសំខាន់ និងមានសក្តានុពលខ្ពស់សម្រាប់កម្ពុជាក្នុងការសង្គ្រោះ និងធ្វើឌីជីតូបនីយកម្មឯកសារប្រវត្តិសាស្ត្រដែលកំពុងរិចរិល។
ការរួមបញ្ចូលបញ្ញាសិប្បនិម្មិត (AI) ក្នុងការងារអភិរក្ស នឹងជួយសន្សំពេលវេលាច្រើនសន្ធឹកសន្ធាប់ និងបង្កើនគុណភាពនៃការថែរក្សាមរតកវប្បធម៌ខ្មែរឱ្យបានគង់វង្សសម្រាប់អ្នកជំនាន់ក្រោយ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| U-Net | ជាស្ថាបត្យកម្មនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (CNN) ដែលមានរាងដូចអក្សរ U ត្រូវបានរចនាឡើងដំបូងសម្រាប់វិភាគរូបភាពវេជ្ជសាស្ត្រ ហើយបច្ចុប្បន្នប្រើសម្រាប់សម្អាត និងស្តាររូបភាពឯកសារចាស់ៗតាមរយៈដំណើរការបង្រួមនិងពង្រីកទិន្នន័យរូបភាព។ | ដូចជាម៉ាស៊ីនច្រោះទឹក ដែលដំបូងវាបង្រួមទឹកច្រោះយកក្អែលចេញ រួចពង្រីកវាបញ្ចេញមកវិញជាទឹកស្អាតបរិសុទ្ធ។ |
| Attention Mechanism | ជាយន្តការនៅក្នុង Deep Learning ដែលជួយឱ្យម៉ូដែលបញ្ញាសិប្បនិម្មិតផ្តោតការយកចិត្តទុកដាក់តែទៅលើចំណុចសំខាន់ៗនៃរូបភាព (ដូចជាតួអក្សរ) និងកាត់បន្ថយការចាប់យកចំណុចមិនសំខាន់ (ដូចជាស្នាមប្រឡាក់ ឬពន្លឺមិនស្មើគ្នា)។ | ដូចជាពេលយើងកំពុងស្តាប់មិត្តភក្តិនិយាយក្នុងពិធីជប់លៀងដែលមានសំឡេងរំខានខ្លាំង ខួរក្បាលយើងផ្តោតតែលើសំឡេងមិត្តភក្តិ និងកាត់ចោលសំឡេងរំខានជុំវិញ។ |
| Conditional Generative Adversarial Network (cGAN) | ប្រព័ន្ធ AI ដែលមានបណ្តាញពីរប្រកួតប្រជែងគ្នាគឺ Generator (អ្នកបង្កើតរូបភាព) និង Discriminator (អ្នកចាប់កំហុស) ដែលពួកវាធ្វើការរួមគ្នាដើម្បីបង្កើតរូបភាពថ្មីមួយឱ្យកាន់តែដូចការពិត និងស្របតាមលក្ខខណ្ឌដែលបានកំណត់។ | ដូចជាជាងគំនូរខិតខំគូររូបក្លែងក្លាយឱ្យដូចមែនទែន ហើយប៉ូលិសខិតខំពិនិត្យរកមើលកំហុស រហូតដល់ជាងគំនូរនោះគូរបានល្អឥតខ្ចោះដែលប៉ូលិសចាប់កំហុសលែងបាន។ |
| Skip Connections | ជាខ្សែតភ្ជាប់នៅក្នុងបណ្តាញសរសៃប្រសាទ (Neural Network) ដែលបញ្ជូនព័ត៌មានលម្អិតនៃរូបភាពពីស្រទាប់ដើម រំលងស្រទាប់កណ្តាល ទៅកាន់ស្រទាប់ចុងក្រោយ ដើម្បីការពារកុំឱ្យបាត់បង់ទិន្នន័យសំខាន់ៗពេលកំពុងបង្រួមរូបភាព។ | ដូចជាការថតចម្លងឯកសារដើមទុកមួយច្បាប់ មុននឹងយកវាទៅសង្ខេប ដើម្បីធានាថានៅពេលសរសេរពង្រីកអត្ថបទនោះឡើងវិញ យើងនៅតែមានឯកសារដើមសម្រាប់ផ្ទៀងផ្ទាត់មិនឱ្យបាត់ន័យ។ |
| Peak Signal-to-Noise Ratio (PSNR) | ជារង្វាស់គណិតវិទ្យាសម្រាប់វាយតម្លៃគុណភាពរូបភាពដែលត្រូវបានស្តារឡើងវិញ ដោយប្រៀបធៀបសញ្ញាដើម (តួអក្សរ) ទៅនឹងទំហំនៃរំខាន (ស្នាមប្រឡាក់/Noise)។ តម្លៃគិតជា dB នេះកាន់តែខ្ពស់មានន័យថារូបភាពកាន់តែច្បាស់។ | ដូចជារង្វាស់នៃភាពច្បាស់របស់សំឡេងវិទ្យុ ដែលសំឡេងអ្នកនិយាយ (Signal) ត្រូវតែខ្លាំងជាងសំឡេងរ៉ែៗ (Noise) ទើបស្តាប់បានច្បាស់ល្អ។ |
| Structural Similarity Index Measure (SSIM) | ជាវិធីសាស្ត្រវាស់ស្ទង់ភាពស្រដៀងគ្នារវាងរូបភាពពីរ (រូបភាពដើម និងរូបភាពដែលស្តាររួច) ដោយផ្អែកលើពន្លឺ កម្រិតពណ៌ និងរចនាសម្ព័ន្ធនៃរូបភាព ដែលវាឆ្លុះបញ្ចាំងពីការមើលឃើញរបស់ភ្នែកមនុស្សពិតៗ។ | ដូចជាការឱ្យមនុស្សម្នាក់មើលរូបថតពីរ និងវាយតម្លៃថាពួកវាស្រដៀងគ្នាដល់កម្រិតណា ដោយមើលលើទម្រង់ និងពន្លឺរួម ជាជាងការអង្គុយរាប់គ្រាប់ភីកសែលម្តងមួយៗ។ |
| Ground Truth | ជាទិន្នន័យគោល ឬចម្លើយត្រឹមត្រូវឥតខ្ចោះ (ក្នុងទីនេះជារូបភាពដែលត្រូវបានសម្អាតស្នាមប្រឡាក់ដោយដៃយ៉ាងម៉ត់ចត់) ដែលត្រូវបានប្រើសម្រាប់បង្វឹកម៉ូដែល AI ឱ្យរៀនសម្អាតរូបភាពផ្សេងៗទៀតឱ្យបានដូចទិន្នន័យគោលនេះ។ | ដូចជាសៀវភៅចម្លើយ (Answer Key) ដែលគ្រូផ្តល់ឱ្យសិស្ស ដើម្បីឱ្យសិស្សរៀនផ្ទៀងផ្ទាត់ និងកែតម្រូវកំហុសរបស់ខ្លួនពេលកំពុងធ្វើលំហាត់។ |
| Image Binarization (Otsu's Method) | ជាដំណើរការបំប្លែងរូបភាពឱ្យទៅជាមានតែពីរពណ៌គត់ (ស និងខ្មៅ) ដោយវិធីសាស្ត្រ Otsu ជួយស្វែងរកចំណុចកាត់ផ្តាច់ (Threshold) ល្អបំផុតដោយស្វ័យប្រវត្តិ ដើម្បីបំបែកតួអក្សរខ្មៅចេញពីផ្ទៃខាងក្រោយស្លឹករឹត។ | ដូចជាការយកទឹកថ្នាំពណ៌ខ្មៅសុទ្ធមកផាត់ពីលើអក្សរ និងយកពណ៌សមកលាបលុបផ្ទៃខាងក្រោយទាំងអស់ ដើម្បីឱ្យអក្សរលេចធ្លោឡើងមើលឃើញដាច់ស្រឡះពីគ្នា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖