បញ្ហា (The Problem)៖ ក្រដាសស្រាវជ្រាវនេះដោះស្រាយពីបញ្ហាប្រឈមក្នុងការគ្រប់គ្រង និងទាញយកទិន្នន័យចម្រុះទ្រង់ទ្រាយធំ ដោយផ្តោតលើការកែលម្អការកសាង និងការវែកញែកក្រាហ្វចំណេះដឹង (Knowledge Graphs) តាមរយៈបច្ចេកវិទ្យារៀនស៊ីជម្រៅ (Deep Learning)។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានធ្វើការត្រួតពិនិត្យ និងសង្ខេបយ៉ាងទូលំទូលាយនូវទ្រឹស្តី និងសមិទ្ធិផលស្រាវជ្រាវចុងក្រោយបំផុតនៃការរួមបញ្ចូលបច្ចេកវិទ្យារៀនស៊ីជម្រៅទៅក្នុងដំណើរការនៃក្រាហ្វចំណេះដឹង។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Semi-GDNER (Semi-supervised Entity Recognition) ការទាញយកអង្គភាពដោយប្រើការរៀនពាក់កណ្តាលមានការត្រួតពិនិត្យ |
ប្រើប្រាស់ទិន្នន័យដែលមានស្លាក (Labeled data) តិចតួចបានយ៉ាងមានប្រសិទ្ធភាព និងជួយពង្រឹងសមត្ថភាពម៉ូដែលតាមរយៈទិន្នន័យគ្មានស្លាក។ | មានភាពស្មុគស្មាញក្នុងការគណនាខ្ពស់ ដែលធ្វើឱ្យចំណាយពេលយូរក្នុងការហ្វឹកហាត់នៅពេលទិន្នន័យមានទំហំធំ។ | អាចធ្វើការទាញយកឈ្មោះអង្គភាព (Named Entity Recognition) បានយ៉ាងល្អក្នុងលក្ខខណ្ឌដែលខ្វះខាតទិន្នន័យ (Few-shot condition)។ |
| ENPAR (Joint Entity and Relation Extraction) ការទាញយកអង្គភាព និងទំនាក់ទំនងរួមគ្នា |
ទាញយកប្រយោជន៍ពីចំណារពន្យល់អង្គភាពបន្ថែម ដែលងាយស្រួលប្រមូលដោយមិនត្រូវការការបិទស្លាកស្មុគស្មាញ។ | អាចជួបប្រទះបញ្ហាប្រឈម និងកំហុសនៅពេលដោះស្រាយជាមួយអត្ថបទដែលមានទំនាក់ទំនងស្មុគស្មាញ ឬមានអង្គភាពត្រួតស៊ីគ្នា។ | បង្កើនប្រសិទ្ធភាពនៃការទាញយកអង្គភាពនិងទំនាក់ទំនងព្រមគ្នាក្នុងកញ្ចប់តែមួយ (Joint extraction)។ |
| MKGformer (Multimodal KG Reasoning) ការវែកញែកក្រាហ្វចំណេះដឹងពហុគំរូដោយប្រើ Transformer |
អាចធ្វើសមាហរណកម្មព័ត៌មានប្រភេទផ្សេងៗគ្នា (អត្ថបទ រូបភាព) យ៉ាងមានប្រសិទ្ធភាព ដើម្បីបង្កើនភាពត្រឹមត្រូវនៃការវែកញែក។ | នៅមានកម្រិតដោយសារភាពរាយប៉ាយនៃទិន្នន័យ និងការរំខានដោយសំឡេង (Noise) ដែលធ្វើឱ្យសមត្ថភាពទូទៅ (Generalization) នៅមានកម្រិត។ | សម្រេចបានការទស្សន៍ទាយទំនាក់ទំនង និងអង្គភាពដែលមានភាពសុក្រឹតខ្ពស់នៅក្នុងទិន្នន័យពហុគំរូ (Multimodal Data)។ |
| RGHAT (Relational Graph Attention Network) បណ្តាញសរសៃប្រសាទក្រាហ្វដោយផ្តោតលើទំនាក់ទំនង |
ប្រើប្រាស់យន្តការយកចិត្តទុកដាក់តាមឋានានុក្រម (Hierarchical attention) ដើម្បីធ្វើម៉ូដែលទំនាក់ទំនងស្មុគស្មាញរវាងថ្នាំងបានល្អប្រសើរ។ | ផ្តោតខ្លាំងពេកលើការបែងចែកទម្ងន់អង្គភាពរវាងទំនាក់ទំនងខុសគ្នា តែខ្វះការយកចិត្តទុកដាក់ចំពោះអង្គភាពក្នុងទំនាក់ទំនងដូចគ្នា។ | អាចចាប់យកសារៈសំខាន់នៃអង្គភាពជិតខាង និងបង្កើនប្រសិទ្ធភាពនៃការទស្សន៍ទាយអង្គភាពដែលបាត់បង់ (Entity Prediction)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការកសាង និងការវែកញែកក្រាហ្វចំណេះដឹងដោយប្រើបច្ចេកវិទ្យា Deep Learning ជាទូទៅទាមទារធនធានកុំព្យូទ័រ និងទិន្នន័យយ៉ាងសន្ធឹកសន្ធាប់។
ការសិក្សានេះគឺជាអត្ថបទត្រួតពិនិត្យដែលសង្ខេបម៉ូដែលស្រាវជ្រាវទូទាំងពិភពលោក ដែលភាគច្រើនត្រូវបានហ្វឹកហាត់នៅលើសំណុំទិន្នន័យភាសាអង់គ្លេស និងចិន។ សម្រាប់ប្រទេសកម្ពុជា ការយកម៉ូដែលទាំងនេះមកអនុវត្តផ្ទាល់នឹងជួបប្រទះបញ្ហាធំ ដោយសារតែសំណុំទិន្នន័យភាសាខ្មែរ (Khmer corpus) នៅមានកម្រិត ខ្វះខាតការបិទស្លាកត្រឹមត្រូវ និងមានភាពស្មុគស្មាញផ្នែកវេយ្យាករណ៍។
ទោះបីជាមានបញ្ហាប្រឈមផ្នែកទិន្នន័យក៏ដោយ បច្ចេកទេសកសាងក្រាហ្វចំណេះដឹងនេះមានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធឆ្លាតវៃនៅកម្ពុជា។
សរុបមក ការវិនិយោគលើការស្រាវជ្រាវក្រាហ្វចំណេះដឹងដោយប្រើ Deep Learning នឹងក្លាយជាកាតាលីករដ៏សំខាន់សម្រាប់ការផ្លាស់ប្តូរឌីជីថលនៅកម្ពុជា ប្រសិនបើយើងអាចបង្កើតទិន្នន័យគោលភាសាខ្មែរបានគ្រប់គ្រាន់។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Knowledge Graph | ប្រព័ន្ធផ្ទុកទិន្នន័យដែលរៀបចំព័ត៌មានជាទម្រង់បណ្ដាញ (Network) ដោយភ្ជាប់អង្គភាព (Entities) ផ្សេងៗទៅនឹងទំនាក់ទំនង (Relationships) របស់ពួកវា ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ពីអត្ថន័យ និងបរិបទនៃទិន្នន័យ។ | ដូចជាផែនទីខួរក្បាល (Mind map) ដ៏ធំមួយដែលប្រាប់យើងថា 'នរណា' ទាក់ទងជាមួយ 'នរណា' និង 'អ្វី' ទាក់ទងជាមួយ 'អ្វី' ក្នុងពិភពពិត។ |
| Graph Neural Network | ប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលត្រូវបានរចនាឡើងយ៉ាងពិសេសសម្រាប់ដំណើរការទិន្នន័យដែលមានទម្រង់ជាក្រាហ្វ (មានថ្នាំង និងគែម) ដើម្បីរៀនពីលក្ខណៈ និងទំនាក់ទំនងរវាងទិន្នន័យទាំងនោះ។ | ដូចជាអ្នកស៊ើបអង្កេតដែលមិនត្រឹមតែមើលលើប្រវត្តិរូបរបស់ជនសង្ស័យម្នាក់ៗប៉ុណ្ណោះទេ តែថែមទាំងមើលលើបណ្ដាញទំនាក់ទំនងរបស់ពួកគេជាមួយអ្នកដទៃទៀតផង។ |
| Knowledge Extraction | ដំណើរការនៃការទាញយកព័ត៌មានជាក់លាក់ (ដូចជាឈ្មោះមនុស្ស ទីកន្លែង ឬព្រឹត្តិការណ៍) និងទំនាក់ទំនងរបស់វាចេញពីអត្ថបទដែលមិនមានរចនាសម្ព័ន្ធ (Unstructured text) ដើម្បីយកមកបញ្ចូលក្នុងក្រាហ្វចំណេះដឹង។ | ដូចជាការអានសៀវភៅមួយក្បាល រួចស្រង់យកតែឈ្មោះតួអង្គ និងសកម្មភាពសំខាន់ៗមកសរសេរជាតារាងសង្ខេប។ |
| Entity Alignment | ដំណើរការនៃការផ្ទៀងផ្ទាត់ និងផ្គូផ្គងអង្គភាព (Entities) ដែលមកពីប្រភពទិន្នន័យខុសៗគ្នា ឬភាសាខុសៗគ្នា ប៉ុន្តែសំដៅទៅលើវត្ថុ ឬបុគ្គលតែមួយ ដើម្បីបញ្ចូលពួកវាជាធុងទិន្នន័យតែមួយ។ | ដូចជាការដឹងថា 'សហរដ្ឋអាមេរិក' 'USA' និង 'ស.រ.អ' គឺសុទ្ធតែសំដៅទៅលើប្រទេសតែមួយ ហើយចងក្រងវាបញ្ចូលគ្នា។ |
| Knowledge Reasoning | សមត្ថភាពរបស់ប្រព័ន្ធកុំព្យូទ័រក្នុងការប្រើប្រាស់ព័ត៌មាន និងវិធានដែលមានស្រាប់នៅក្នុងក្រាហ្វចំណេះដឹង ដើម្បីទស្សន៍ទាយទំនាក់ទំនងថ្មីៗដែលបាត់បង់ ឬស្វែងរកកំហុស (Denoising) នៅក្នុងទិន្នន័យ។ | ដូចជាការសន្និដ្ឋានថា បើ 'ក ជាឪពុករបស់ ខ' ហើយ 'ខ ជាឪពុករបស់ គ' នោះប្រព័ន្ធអាចទស្សន៍ទាយដឹងដោយស្វ័យប្រវត្តិថា 'ក ជាជីតារបស់ គ'។ |
| Contrastive Learning | បច្ចេកទេសរៀនរបស់ម៉ាស៊ីន (Machine Learning) ដែលបង្រៀនម៉ូដែលឱ្យយល់ពីទិន្នន័យ តាមរយៈការប្រៀបធៀបចំណុចដូចគ្នានៃទិន្នន័យវិជ្ជមាន និងចំណុចខុសគ្នានៃទិន្នន័យអវិជ្ជមាន ដើម្បីបង្កើនភាពសុក្រឹតនៃការបែងចែក។ | ដូចជាការបង្រៀនក្មេងឱ្យស្គាល់សត្វឆ្កែ ដោយបង្ហាញរូបឆ្កែពីរប្រភេទឱ្យគេរកចំណុចដូចគ្នា រួចបង្ហាញរូបឆ្មាដើម្បីឱ្យគេដឹងពីចំណុចខុសគ្នា។ |
| Ontology Matching | ការស្វែងរកភាពស៊ីសង្វាក់គ្នា និងការផ្គូផ្គងរវាងរចនាសម្ព័ន្ធគោលគំនិត (Concepts) នៃចំណេះដឹងដែលមកពីប្រព័ន្ធខុសៗគ្នា ដើម្បីអាចធ្វើសមាហរណកម្មទិន្នន័យចូលគ្នាបានយ៉ាងរលូន។ | ដូចជាការបកប្រែវចនានុក្រមមុខរបររបស់ក្រុមហ៊ុនពីរផ្សេងគ្នា ដើម្បីដឹងថា 'បុគ្គលិកផ្នែកលក់' នៅក្រុមហ៊ុន A គឺមានតួនាទីដូចគ្នានឹង 'អ្នកតំណាងផ្នែកពាណិជ្ជកម្ម' នៅក្រុមហ៊ុន B អញ្ចឹង។ |
| Few-shot Learning | បច្ចេកទេសហ្វឹកហាត់ម៉ូដែល AI ដែលអនុញ្ញាតឱ្យប្រព័ន្ធអាចរៀន និងធ្វើការទស្សន៍ទាយបានយ៉ាងត្រឹមត្រូវ ទោះបីជាមានទិន្នន័យគំរូ (Training data) សម្រាប់រៀនតិចតួចបំផុតក៏ដោយ។ | ដូចជាមនុស្សឆ្លាតម្នាក់ដែលគ្រាន់តែមើលឧទាហរណ៍នៃការដោះស្រាយលំហាត់គណិតវិទ្យាតែ ២ ឬ ៣ ប៉ុណ្ណោះ ក៏អាចចេះដោះស្រាយលំហាត់ស្រដៀងគ្នាបានដោយខ្លួនឯង។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖