បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហាប្រឈមក្នុងការប្រើប្រាស់បច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត (AI) ដើម្បីជួយដល់អ្នកស្រាវជ្រាវអេស៊ីបវិទ្យាក្នុងការកំណត់អត្តសញ្ញាណ ចាត់ថ្នាក់ និងបំបែក (Segment) អក្សរផ្ចង់អេស៊ីបបុរាណពីវត្ថុបុរាណដែលរងការខូចខាតតាមពេលវេលា។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើត និងអនុវត្តបណ្ដាញសរសៃប្រសាទកុំព្យូទ័រ (Deep Convolutional Neural Networks) ដោយធ្វើតេស្តលើរូបភាពវត្ថុបុរាណពិតប្រាកដពីសារមន្ទីរធំៗនានា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Glyphnet (Single Hieroglyph Classification) ម៉ូដែល Glyphnet (ចំណាត់ថ្នាក់អក្សរទោល) |
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់ខ្លាំងសម្រាប់ការសម្គាល់តួអក្សរនីមួយៗដាច់ដោយឡែក។ | ដំណើរការបានតែលើរូបភាពស-ខ្មៅដែលមានអក្សរតែមួយប៉ុណ្ណោះ មិនស័ក្តិសមសម្រាប់វត្ថុបុរាណជាក់ស្តែងដែលមានអក្សរច្រើន។ | ទទួលបានភាពត្រឹមត្រូវរហូតដល់ ៩៧,៦% លើសំណុំទិន្នន័យរូបភាពអក្សរទោល។ |
| Detectron2 / Mask R-CNN (Instance Segmentation) ម៉ូដែល Detectron2 / Mask R-CNN (ការបំបែករូបភាពអក្សរច្រើនតួ) |
អាចកំណត់ទីតាំង និងបំបែកអក្សរច្រើនតួក្នុងពេលតែមួយលើរូបភាពវត្ថុបុរាណជាក់ស្តែង (ពហុពណ៌) និងទាញអត្ថប្រយោជន៍ពី Transfer Learning បានយ៉ាងល្អ។ | ជួបការលំបាកនៅពេលវត្ថុបុរាណមានកម្រិតពន្លឺខ្សោយ អក្សរមានទំហំខុសៗគ្នាខ្លាំង និងត្រូវការទិន្នន័យរូបភាពដែលបានគូសចំណាំ (Annotated data) ច្រើន។ | ទទួលបានលទ្ធផលបំបែករូបភាព (Segmentation) ល្អប្រសើរនៅពេលហ្វឹកហាត់ចំនួន ៣០០០ ដង និងកម្រិត Threshold ចន្លោះ ៥០%-៧០%។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ក្នុងការហ្វឹកហាត់ម៉ូដែល Deep Learning និងទិន្នន័យរូបភាពវត្ថុបុរាណដែលមានការកត់សម្គាល់ (Annotation) ច្បាស់លាស់ពីអ្នកជំនាញ។
ការសិក្សានេះផ្អែកលើទិន្នន័យរូបភាពអក្សរផ្ចង់អេស៊ីបពីពីរ៉ាមីត Unas និងវត្ថុបុរាណដែលរក្សាទុកនៅសារមន្ទីរនៅអឺរ៉ុប និងអាមេរិក ដោយទិន្នន័យសម្រាប់ហ្វឹកហាត់ (Training dataset) មានចំនួនកំណត់នៅឡើយ។ សម្រាប់កម្ពុជា បញ្ហានេះរំលេចពីភាពចាំបាច់ក្នុងការប្រមូលផ្តុំ និងបង្កើតសំណុំទិន្នន័យ (Dataset) រូបភាពសិលាចារឹកខ្មែរបុរាណដោយផ្ទាល់ ដើម្បីចៀសវាងភាពលម្អៀងក្នុងការយកម៉ូដែលពីបរទេសមកប្រើ។
វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ខ្លាំង និងអាចយកមកអនុវត្តដោយផ្ទាល់សម្រាប់កម្ពុជាក្នុងការអភិរក្ស និងស្រាវជ្រាវសិលាចារឹកខ្មែរបុរាណ។
ការអនុវត្តបច្ចេកវិទ្យា Instance Segmentation លើបេតិកភណ្ឌកម្ពុជានឹងជួយពន្លឿនការបកប្រែសិលាចារឹក ព្រមទាំងជួយសង្គ្រោះភស្តុតាងប្រវត្តិសាស្ត្រដែលកំពុងសឹករេចរឹលលើផ្ទាំងថ្មឱ្យឋិតថេរជាទម្រង់ឌីជីថល។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Deep Convolutional Neural Networks | ជាប្រភេទបណ្ដាញសរសៃប្រសាទកុំព្យូទ័រ (AI) ដ៏ស្មុគស្មាញដែលរចនាឡើងពិសេសសម្រាប់វិភាគ និងសម្គាល់លក្ខណៈ (patterns) នៅក្នុងទិន្នន័យរូបភាព ដូចជាទម្រង់ ពណ៌ កម្រិតពន្លឺ និងវាយនភាព (textures) នៃតួអក្សរពីផ្ទៃខាងក្រោយ។ | ប្រៀបដូចជាភ្នែកនិងខួរក្បាលរបស់មនុស្សដែលចេះសង្កេតមើលរូបភាព ហើយអាចប្រាប់បានថាក្នុងរូបភាពនោះមានអ្វីខ្លះទោះជារូបភាពនោះស្រអាប់ក៏ដោយ។ |
| Transfer Learning | ជាបច្ចេកទេសបង្វឹកបញ្ញាសិប្បនិម្មិតដោយយកចំណេះដឹងពីម៉ូដែលដែលធ្លាប់បានហ្វឹកហាត់លើសំណុំទិន្នន័យទូទៅដ៏ធំរួចមកហើយ (ដូចជា COCO dataset) មកអនុវត្តបន្តលើបញ្ហាថ្មីដែលមានទិន្នន័យតិចតួច ដូចជារូបភាពអក្សរផ្ចង់បុរាណ ដើម្បីចំណេញពេល និងបង្កើនភាពត្រឹមត្រូវ។ | ប្រៀបដូចជាអ្នកដែលចេះជិះកង់រួចហើយ យកជំនាញរក្សាលំនឹងនោះទៅរៀនជិះម៉ូតូ ដែលធ្វើឱ្យពួកគេឆាប់ចេះជាងអ្នកដែលមិនធ្លាប់ជិះអ្វីសោះ។ |
| Instance Segmentation | ដំណើរការនៃប្រព័ន្ធ Computer Vision ក្នុងការមិនត្រឹមតែកំណត់ទីតាំងវត្ថុ និងប្រាប់ថាវាជាប្រភេទអ្វីប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងអាចគូសបន្ទាត់កាត់តាមព្រំប្រទល់ (contour) នៃវត្ថុនីមួយៗយ៉ាងជាក់លាក់ ដាច់ដោយឡែកពីគ្នានៅក្នុងរូបភាពតែមួយ។ | ដូចជាការយកកន្ត្រៃមកកាត់យករូបភាពមនុស្សឬសត្វចេញពីទស្សនាវដ្ដីយ៉ាងមានរបៀបតាមគែមរាងកាយរបស់វាដាច់ៗពីគ្នា។ |
| Mask R-CNN | ជាស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទកុំព្យូទ័រលំដាប់ខ្ពស់មួយដែលប្រើប្រាស់សម្រាប់ធ្វើ Instance Segmentation ដោយវាមានសមត្ថភាពអាចសម្គាល់វត្ថុច្រើនក្នុងរូបភាពតែមួយ និងបង្កើតស្រទាប់ (mask) បិទពីលើវត្ថុទាំងនោះដើម្បីបំបែកពួកវាចេញពីផ្ទៃខាងក្រោយ។ | ដូចជាពុម្ពកាត់នំខេក ដែលអាចស្វែងរករកនំលើថាស ហើយកាត់វាចេញតាមរូបរាងជាក់លាក់នីមួយៗ។ |
| Region Proposal Network (RPN) | ជាផ្នែកមួយនៃបណ្ដាញកុំព្យូទ័រ (Module) ដែលមានតួនាទីស្កេនរូបភាពជាមុន រួចស្នើឡើងនូវតំបន់ឬកន្លែងណាដែលអាចមានវត្ថុដែលយើងចង់រក (ដូចជាតួអក្សរផ្ចង់) មុននឹងបញ្ជូនព័ត៌មានទាំងនោះទៅឱ្យម៉ូដែលធំធ្វើការវិភាគលម្អិតបន្ត។ | ប្រៀបដូចជាអ្នកសង្កេតការណ៍ដែលប្រើកែវយឹតជួយចង្អុលប្រាប់ថា "ត្រង់កន្លែងនេះអាចមានសត្វ" មុនពេលយើងប្រើកែវពង្រីកសម្លឹងមើលឱ្យច្បាស់ថាវាជាសត្វអ្វីឱ្យប្រាកដ។ |
| Toposyntax | នៅក្នុងបរិបទនៃការសិក្សាភាសាបុរាណ វាជាការវិភាគអំពីក្បួនច្បាប់នៃការរៀបចំតួអក្សរ ទំហំ និងទីតាំងរបស់វា ដែលជាព័ត៌មានចាំបាច់ជួយឱ្យ AI យល់ពីទំនាក់ទំនងអត្ថន័យ និងទម្រង់ប្រយោគនៃសិលាចារឹក។ | ប្រៀបដូចជាការរៀបចំគ្រឿងសង្ហារិមក្នុងផ្ទះ ដែលទីតាំង និងទិសដៅរបស់វាអាចប្រាប់ពីរបៀបរស់នៅ ឬគោលបំណងនៃបន្ទប់នោះ។ |
| Semagram | ជាតួអក្សរ ឬនិមិត្តសញ្ញាក្នុងប្រព័ន្ធសំណេរអេស៊ីបបុរាណ ដែលតំណាងឱ្យអត្ថន័យ គំនិត ឬវត្ថុផ្ទាល់តែម្ដង ជាជាងតំណាងឱ្យសម្លេងបញ្ចេញសំឡេង (Phonogram)។ | ដូចជារូបតំណាង (Emoji) 😊 ដែលបង្ហាញពីភាពសប្បាយរីករាយ ដោយអ្នកមិនបាច់សរសេរជាអក្សរថា "សប្បាយ" នោះទេ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖