Original Title: Discovering the ancient Egyptian hieroglyphs with Deep Learning
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការស្វែងយល់ពីអក្សរផ្ចង់អេស៊ីបបុរាណដោយប្រើប្រាស់ Deep Learning

ចំណងជើងដើម៖ Discovering the ancient Egyptian hieroglyphs with Deep Learning

អ្នកនិពន្ធ៖ Andrea Barucci, Michela Amendola, Fabrizio Argenti, Chiara Canfailla, Costanza Cucci, Tommaso Guidi, Lorenzo Python, Massimiliano Franci

ឆ្នាំបោះពុម្ព៖ 2023

វិស័យសិក្សា៖ Artificial Intelligence / Egyptology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាប្រឈមក្នុងការប្រើប្រាស់បច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត (AI) ដើម្បីជួយដល់អ្នកស្រាវជ្រាវអេស៊ីបវិទ្យាក្នុងការកំណត់អត្តសញ្ញាណ ចាត់ថ្នាក់ និងបំបែក (Segment) អក្សរផ្ចង់អេស៊ីបបុរាណពីវត្ថុបុរាណដែលរងការខូចខាតតាមពេលវេលា។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើត និងអនុវត្តបណ្ដាញសរសៃប្រសាទកុំព្យូទ័រ (Deep Convolutional Neural Networks) ដោយធ្វើតេស្តលើរូបភាពវត្ថុបុរាណពិតប្រាកដពីសារមន្ទីរធំៗនានា។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Glyphnet (Single Hieroglyph Classification)
ម៉ូដែល Glyphnet (ចំណាត់ថ្នាក់អក្សរទោល)
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់ខ្លាំងសម្រាប់ការសម្គាល់តួអក្សរនីមួយៗដាច់ដោយឡែក។ ដំណើរការបានតែលើរូបភាពស-ខ្មៅដែលមានអក្សរតែមួយប៉ុណ្ណោះ មិនស័ក្តិសមសម្រាប់វត្ថុបុរាណជាក់ស្តែងដែលមានអក្សរច្រើន។ ទទួលបានភាពត្រឹមត្រូវរហូតដល់ ៩៧,៦% លើសំណុំទិន្នន័យរូបភាពអក្សរទោល។
Detectron2 / Mask R-CNN (Instance Segmentation)
ម៉ូដែល Detectron2 / Mask R-CNN (ការបំបែករូបភាពអក្សរច្រើនតួ)
អាចកំណត់ទីតាំង និងបំបែកអក្សរច្រើនតួក្នុងពេលតែមួយលើរូបភាពវត្ថុបុរាណជាក់ស្តែង (ពហុពណ៌) និងទាញអត្ថប្រយោជន៍ពី Transfer Learning បានយ៉ាងល្អ។ ជួបការលំបាកនៅពេលវត្ថុបុរាណមានកម្រិតពន្លឺខ្សោយ អក្សរមានទំហំខុសៗគ្នាខ្លាំង និងត្រូវការទិន្នន័យរូបភាពដែលបានគូសចំណាំ (Annotated data) ច្រើន។ ទទួលបានលទ្ធផលបំបែករូបភាព (Segmentation) ល្អប្រសើរនៅពេលហ្វឹកហាត់ចំនួន ៣០០០ ដង និងកម្រិត Threshold ចន្លោះ ៥០%-៧០%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ក្នុងការហ្វឹកហាត់ម៉ូដែល Deep Learning និងទិន្នន័យរូបភាពវត្ថុបុរាណដែលមានការកត់សម្គាល់ (Annotation) ច្បាស់លាស់ពីអ្នកជំនាញ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះផ្អែកលើទិន្នន័យរូបភាពអក្សរផ្ចង់អេស៊ីបពីពីរ៉ាមីត Unas និងវត្ថុបុរាណដែលរក្សាទុកនៅសារមន្ទីរនៅអឺរ៉ុប និងអាមេរិក ដោយទិន្នន័យសម្រាប់ហ្វឹកហាត់ (Training dataset) មានចំនួនកំណត់នៅឡើយ។ សម្រាប់កម្ពុជា បញ្ហានេះរំលេចពីភាពចាំបាច់ក្នុងការប្រមូលផ្តុំ និងបង្កើតសំណុំទិន្នន័យ (Dataset) រូបភាពសិលាចារឹកខ្មែរបុរាណដោយផ្ទាល់ ដើម្បីចៀសវាងភាពលម្អៀងក្នុងការយកម៉ូដែលពីបរទេសមកប្រើ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ខ្លាំង និងអាចយកមកអនុវត្តដោយផ្ទាល់សម្រាប់កម្ពុជាក្នុងការអភិរក្ស និងស្រាវជ្រាវសិលាចារឹកខ្មែរបុរាណ។

ការអនុវត្តបច្ចេកវិទ្យា Instance Segmentation លើបេតិកភណ្ឌកម្ពុជានឹងជួយពន្លឿនការបកប្រែសិលាចារឹក ព្រមទាំងជួយសង្គ្រោះភស្តុតាងប្រវត្តិសាស្ត្រដែលកំពុងសឹករេចរឹលលើផ្ទាំងថ្មឱ្យឋិតថេរជាទម្រង់ឌីជីថល។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ Computer Vision សម្រាប់វត្ថុបុរាណ: ស្វែងយល់ពីរបៀបដំណើរការរបស់ Convolutional Neural Networks (CNNs) ជាពិសេស ResNet និង Mask R-CNN ដែលមានប្រសិទ្ធភាពខ្ពស់ក្នុងការកាត់បំបែករូបភាព (Image Segmentation)។
  2. បង្កើតសំណុំទិន្នន័យ (Dataset) ផ្ទាល់ខ្លួនជាមួយ Image Annotators: ប្រមូលរូបភាពសិលាចារឹកខ្មែរបុរាណ រួចប្រើប្រាស់ឧបករណ៍ដូចជា VGG Image Annotator (VIA)CVAT ដើម្បីគូសចំណាំ (Bounding boxes/Polygons) លើតួអក្សរនីមួយៗ។
  3. អនុវត្តការហ្វឹកហាត់ដោយប្រើ Transfer Learning: ដំឡើង Detectron2 framework របស់ Facebook AI រួចទាញយក Pre-trained weights (COCO Dataset) មកហ្វឹកហាត់បន្តលើទិន្នន័យសិលាចារឹកខ្មែរ ដើម្បីកាត់បន្ថយពេលវេលា និងទិន្នន័យដែលត្រូវការ។
  4. កែសម្រួល Hyperparameters (Fine-tuning): សាកល្បងផ្លាស់ប្តូរចំនួន Iterations (ឧទាហរណ៍ ៣០០០ ដង) និងបន្ថយកម្រិត Threshold មកត្រឹម ៥០% ឬ ៧០% ដើម្បីបង្កើនសមត្ថភាពចាប់យកតួអក្សរដែលស្រអាប់ ឬខូចខាតខ្លាំង។
  5. សហការវាយតម្លៃជាមួយអ្នកជំនាញសិលាចារឹក: យកលទ្ធផលដែលម៉ូដែលទាយបាន (Predicted masks) ទៅប្រឹក្សាជាមួយអ្នកបុរាណវិទ្យា ឬអ្នកអានសិលាចារឹក ដើម្បីផ្ទៀងផ្ទាត់ភាពត្រឹមត្រូវ និងកែតម្រូវទិន្នន័យកំហុស (Error correction) សម្រាប់ការហ្វឹកហាត់ជុំក្រោយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Deep Convolutional Neural Networks ជាប្រភេទបណ្ដាញសរសៃប្រសាទកុំព្យូទ័រ (AI) ដ៏ស្មុគស្មាញដែលរចនាឡើងពិសេសសម្រាប់វិភាគ និងសម្គាល់លក្ខណៈ (patterns) នៅក្នុងទិន្នន័យរូបភាព ដូចជាទម្រង់ ពណ៌ កម្រិតពន្លឺ និងវាយនភាព (textures) នៃតួអក្សរពីផ្ទៃខាងក្រោយ។ ប្រៀបដូចជាភ្នែកនិងខួរក្បាលរបស់មនុស្សដែលចេះសង្កេតមើលរូបភាព ហើយអាចប្រាប់បានថាក្នុងរូបភាពនោះមានអ្វីខ្លះទោះជារូបភាពនោះស្រអាប់ក៏ដោយ។
Transfer Learning ជាបច្ចេកទេសបង្វឹកបញ្ញាសិប្បនិម្មិតដោយយកចំណេះដឹងពីម៉ូដែលដែលធ្លាប់បានហ្វឹកហាត់លើសំណុំទិន្នន័យទូទៅដ៏ធំរួចមកហើយ (ដូចជា COCO dataset) មកអនុវត្តបន្តលើបញ្ហាថ្មីដែលមានទិន្នន័យតិចតួច ដូចជារូបភាពអក្សរផ្ចង់បុរាណ ដើម្បីចំណេញពេល និងបង្កើនភាពត្រឹមត្រូវ។ ប្រៀបដូចជាអ្នកដែលចេះជិះកង់រួចហើយ យកជំនាញរក្សាលំនឹងនោះទៅរៀនជិះម៉ូតូ ដែលធ្វើឱ្យពួកគេឆាប់ចេះជាងអ្នកដែលមិនធ្លាប់ជិះអ្វីសោះ។
Instance Segmentation ដំណើរការនៃប្រព័ន្ធ Computer Vision ក្នុងការមិនត្រឹមតែកំណត់ទីតាំងវត្ថុ និងប្រាប់ថាវាជាប្រភេទអ្វីប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងអាចគូសបន្ទាត់កាត់តាមព្រំប្រទល់ (contour) នៃវត្ថុនីមួយៗយ៉ាងជាក់លាក់ ដាច់ដោយឡែកពីគ្នានៅក្នុងរូបភាពតែមួយ។ ដូចជាការយកកន្ត្រៃមកកាត់យករូបភាពមនុស្សឬសត្វចេញពីទស្សនាវដ្ដីយ៉ាងមានរបៀបតាមគែមរាងកាយរបស់វាដាច់ៗពីគ្នា។
Mask R-CNN ជាស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទកុំព្យូទ័រលំដាប់ខ្ពស់មួយដែលប្រើប្រាស់សម្រាប់ធ្វើ Instance Segmentation ដោយវាមានសមត្ថភាពអាចសម្គាល់វត្ថុច្រើនក្នុងរូបភាពតែមួយ និងបង្កើតស្រទាប់ (mask) បិទពីលើវត្ថុទាំងនោះដើម្បីបំបែកពួកវាចេញពីផ្ទៃខាងក្រោយ។ ដូចជាពុម្ពកាត់នំខេក ដែលអាចស្វែងរករកនំលើថាស ហើយកាត់វាចេញតាមរូបរាងជាក់លាក់នីមួយៗ។
Region Proposal Network (RPN) ជាផ្នែកមួយនៃបណ្ដាញកុំព្យូទ័រ (Module) ដែលមានតួនាទីស្កេនរូបភាពជាមុន រួចស្នើឡើងនូវតំបន់ឬកន្លែងណាដែលអាចមានវត្ថុដែលយើងចង់រក (ដូចជាតួអក្សរផ្ចង់) មុននឹងបញ្ជូនព័ត៌មានទាំងនោះទៅឱ្យម៉ូដែលធំធ្វើការវិភាគលម្អិតបន្ត។ ប្រៀបដូចជាអ្នកសង្កេតការណ៍ដែលប្រើកែវយឹតជួយចង្អុលប្រាប់ថា "ត្រង់កន្លែងនេះអាចមានសត្វ" មុនពេលយើងប្រើកែវពង្រីកសម្លឹងមើលឱ្យច្បាស់ថាវាជាសត្វអ្វីឱ្យប្រាកដ។
Toposyntax នៅក្នុងបរិបទនៃការសិក្សាភាសាបុរាណ វាជាការវិភាគអំពីក្បួនច្បាប់នៃការរៀបចំតួអក្សរ ទំហំ និងទីតាំងរបស់វា ដែលជាព័ត៌មានចាំបាច់ជួយឱ្យ AI យល់ពីទំនាក់ទំនងអត្ថន័យ និងទម្រង់ប្រយោគនៃសិលាចារឹក។ ប្រៀបដូចជាការរៀបចំគ្រឿងសង្ហារិមក្នុងផ្ទះ ដែលទីតាំង និងទិសដៅរបស់វាអាចប្រាប់ពីរបៀបរស់នៅ ឬគោលបំណងនៃបន្ទប់នោះ។
Semagram ជាតួអក្សរ ឬនិមិត្តសញ្ញាក្នុងប្រព័ន្ធសំណេរអេស៊ីបបុរាណ ដែលតំណាងឱ្យអត្ថន័យ គំនិត ឬវត្ថុផ្ទាល់តែម្ដង ជាជាងតំណាងឱ្យសម្លេងបញ្ចេញសំឡេង (Phonogram)។ ដូចជារូបតំណាង (Emoji) 😊 ដែលបង្ហាញពីភាពសប្បាយរីករាយ ដោយអ្នកមិនបាច់សរសេរជាអក្សរថា "សប្បាយ" នោះទេ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖