បញ្ហា (The Problem)៖ អ្នកប្រើប្រាស់ទូទៅជួបប្រទះការលំបាកក្នុងការទាញយកទិន្នន័យពីបណ្ដាញទិន្នន័យទំនាក់ទំនង (Linked Data) ដោយសារពួកគេមិនមានចំណេះដឹងស៊ីជម្រៅអំពីភាសាសំណួរ SPARQL សម្រាប់កម្មវិធីវិបសេម៉ង់ទិច (Semantic Web)។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវក្របខណ្ឌបកប្រែសំណួរពីភាសាធម្មជាតិទៅជា SPARQL ដោយប្រើប្រាស់វិធីសាស្ត្រផ្អែកលើការវិភាគវាក្យសម្ព័ន្ធ (Syntactic parsing) តាមរយៈការបំបែកដំណើរការជាកិច្ចការតូចៗ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Dependency-based SPARQL Query Builder (Proposed) កម្មវិធីកសាងសំណួរ SPARQL ផ្អែកលើភាពអាស្រ័យ (វិធីសាស្ត្រដែលបានស្នើ) |
មិនតម្រូវឱ្យមានការរៀបចំលក្ខណៈទិន្នន័យស្មុគស្មាញ (Laborious feature engineering) និងងាយស្រួលបន្សាំទៅនឹងដែនកម្មវិធីផ្សេងៗ។ | បច្ចុប្បន្នគាំទ្រត្រឹមតែសំណួរសាមញ្ញ (Single fact, Single fact with type, ASK queries) មិនទាន់អាចដោះស្រាយសំណួរស្មុគស្មាញបាននៅឡើយ។ | បានសាកល្បងដោយជោគជ័យ និងអាចទាញយកចម្លើយបានត្រឹមត្រូវនៅក្នុងកម្មវិធីផ្តល់ប្រឹក្សាដល់និស្សិតដោយប្រើអុនតូឡូស៊ីបិទ (Closed-domain ontology)។ |
| Traditional Information Extraction & Semantic Parsing ប្រព័ន្ធទាញយកព័ត៌មាន និងការវិភាគអត្ថន័យតាមបែបប្រពៃណី |
អាចទាញយកចម្លើយបានយ៉ាងសុក្រឹតតាមរយៈគំរូដែលបានកំណត់ទុកជាមុន (Pre-defined templates) សម្រាប់ដែនទិន្នន័យជាក់លាក់។ | ទាមទារការរៀបចំលក្ខណៈទិន្នន័យ និងការផ្គូផ្គងគំរូយ៉ាងស្មុគស្មាញ ដែលធ្វើឱ្យពិបាកក្នុងការយកទៅអនុវត្តលើវិស័យផ្សេងទៀត។ | ទាមទារចំណេះដឹងស៊ីជម្រៅពីអ្នកជំនាញដើម្បីបង្កើត និងពង្រីកប្រព័ន្ធទៅកាន់ដែនថ្មី។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះបានបញ្ជាក់យ៉ាងច្បាស់អំពីកម្មវិធីកុំព្យូទ័រ និងបណ្ណាល័យកូដ (Libraries) ដែលចាំបាច់សម្រាប់ដំណើរការប្រព័ន្ធនេះ ក៏ដូចជាធនធានទិន្នន័យជាក់លាក់ផងដែរ។
ការសិក្សានេះត្រូវបានសាកល្បងតែលើសំណុំទិន្នន័យតូចចង្អៀត (Closed-domain) នៃសាកលវិទ្យាល័យមួយប៉ុណ្ណោះ ដែលផ្តោតលើកម្មវិធីសិក្សា មុខវិជ្ជា និងសាស្ត្រាចារ្យ។ វាមិនទាន់ត្រូវបានវាយតម្លៃលើសំណុំទិន្នន័យទូលំទូលាយ (Open-domain) ដូចជា LC-QuAD នោះទេ។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តប្រព័ន្ធនេះទាមទារការកសាង Ontology ថ្មីទាំងស្រុងដែលស្របតាមបរិបទអប់រំក្នុងស្រុក។
វិធីសាស្ត្រនេះមានសក្ដានុពលខ្ពស់សម្រាប់ស្ថាប័នអប់រំ និងទីភ្នាក់ងាររដ្ឋាភិបាលនៅកម្ពុជា ក្នុងការបង្កើតប្រព័ន្ធឆ្លើយតបសំណួរដោយស្វ័យប្រវត្តិ (QA Systems) លើសំណុំទិន្នន័យរបស់ពួកគេ។
ជារួម បច្ចេកវិទ្យានេះអាចជួយសម្រួលដល់ការទាញយកព័ត៌មានពីប្រព័ន្ធទិន្នន័យស្មុគស្មាញ (Linked Data) ឱ្យកាន់តែមានភាពងាយស្រួល និងចំណាយធនធានមនុស្សតិចក្នុងការគ្រប់គ្រងការផ្តល់សេវាព័ត៌មាននៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| SPARQL | ភាសាសំណួរសម្រាប់ទាញយកនិងកែប្រែទិន្នន័យដែលរក្សាទុកក្នុងទម្រង់ RDF នៅលើ Semantic Web។ វាអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ស្វែងរកទិន្នន័យដែលទាក់ទងគ្នាតាមរយៈលក្ខខណ្ឌជាក់លាក់។ | ដូចជាការបញ្ជាសួរទៅកាន់បណ្ណាល័យដ៏ធំមួយដែលមានសៀវភៅភ្ជាប់គ្នាទៅវិញទៅមក ដើម្បីរកចម្លើយជាក់លាក់ណាមួយ។ |
| Semantic Web | បណ្តាញអ៊ីនធឺណិតជំនាន់ថ្មីដែលផ្ទុកទិន្នន័យក្នុងទម្រង់ដែលអាចឱ្យម៉ាស៊ីន (កុំព្យូទ័រ) យល់ពីអត្ថន័យ និងទំនាក់ទំនងរវាងទិន្នន័យទាំងនោះ មិនមែនត្រឹមតែបង្ហាញជាអត្ថបទធម្មតាឡើយ។ | ដូចជាការរៀបចំឯកសារក្នុងទូដោយមានបិទស្លាកឈ្មោះនិងប្រាប់ពីទំនាក់ទំនងគ្នា ដែលធ្វើឱ្យមនុស្សយន្តអាចរៀបចំនិងរកឯកសារបានដោយខ្លួនឯង។ |
| Ontology | ការរៀបចំនិងចាត់ថ្នាក់ពាក្យ ឬគំនិតនៅក្នុងវិស័យណាមួយ ដើម្បីបង្ហាញពីទំនាក់ទំនងរវាងពួកវាឱ្យម៉ាស៊ីនអាចយល់បាន (ឧទាហរណ៍៖ 'សាស្ត្រាចារ្យ' បង្រៀន 'មុខវិជ្ជា')។ | ដូចជាផែនទីគំនិត (Mind map) ដែលប្រាប់កុំព្យូទ័រថាអ្នកណាធ្វើអ្វី និងមានទំនាក់ទំនងអ្វីខ្លះជាមួយអ្នកដទៃ។ |
| RDF (Resource Description Framework) | ទម្រង់ស្តង់ដារសម្រាប់សរសេរទិន្នន័យនៅលើបណ្តាញអ៊ីនធឺណិត ដោយប្រើរចនាសម្ព័ន្ធ 'ប្រធានបទ-កិរិយា-កម្មបទ' (Subject-Predicate-Object) ដែលគេហៅថា Triple។ | ដូចជាការបង្កើតប្រយោគខ្លីៗដើម្បីពន្យល់រឿងអ្វីមួយ ឧទាហរណ៍ 'សិស្ស (ប្រធាន) - រៀន (កិរិយា) - គណិតវិទ្យា (កម្មបទ)'។ |
| Dependency Parsing | ដំណើរការវិភាគវេយ្យាករណ៍នៃប្រយោគ ដើម្បីស្វែងយល់ពីទំនាក់ទំនងរវាងពាក្យនីមួយៗ (ឧទាហរណ៍៖ ពាក្យណាជាប្រធាន ពាក្យណាជាកិរិយាសព្ទ)។ | ដូចជាការវះកាត់ប្រយោគមួយដើម្បីមើលថាតើពាក្យនីមួយៗតភ្ជាប់គ្នានិងបំពេញន័យឱ្យគ្នាទៅវិញទៅមកយ៉ាងដូចម្តេច។ |
| Sentence-BERT (SBERT) | បច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត (AI) ដែលប្រើសម្រាប់បំប្លែងប្រយោគទៅជាលេខ (វ៉ិចទ័រ) ដើម្បីប្រៀបធៀបអត្ថន័យរបស់វាទោះបីជាវាប្រើពាក្យខុសគ្នាក៏ដោយ។ | ដូចជាអ្នកបកប្រែដែលដឹងថាប្រយោគ 'ខ្ញុំឃ្លាន' និង 'ខ្ញុំចង់ញ៉ាំបាយ' មានអត្ថន័យដូចគ្នា ទោះបីជាសរសេរខុសគ្នាក៏ដោយ។ |
| Named Entity Recognition | បច្ចេកទេសទាញយកព័ត៌មានដែលស្វែងរកនិងចាត់ថ្នាក់ពាក្យសំខាន់ៗក្នុងអត្ថបទទៅជាប្រភេទជាក់លាក់ ដូចជាឈ្មោះមនុស្ស ទីកន្លែង ឬស្ថាប័ន។ | ដូចជាការប្រើហ្វឺតគូសចំណាំ (Highlight) លើពាក្យសំខាន់ៗក្នុងសៀវភៅ រួចដាក់ស្លាកថាវាជាឈ្មោះមនុស្ស ឬឈ្មោះទីក្រុង។ |
| Description Logics (DLs) | ទម្រង់តក្កវិទ្យាគណិតវិទ្យាដែលប្រើសម្រាប់តំណាងចំណេះដឹងនៅក្នុង Semantic Web ដែលអនុញ្ញាតឱ្យកម្មវិធីកុំព្យូទ័រធ្វើការវែកញែក (Reasoning) រកព័ត៌មានថ្មីៗពីទិន្នន័យដែលមានស្រាប់។ | ដូចជាការបង្រៀនក្បួនគិតដល់កុំព្យូទ័រ ឧទាហរណ៍៖ បើ A ជាឪពុករបស់ B ហើយ B ជាឪពុករបស់ C នោះកុំព្យូទ័រអាចទាយដឹងថា A ជាជីតារបស់ C។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖