Original Title: OWL & SPARQL based Mediator for Integration of OWL/RDF Information Sources
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

កម្មវិធីសម្របសម្រួលផ្អែកលើ OWL & SPARQL សម្រាប់ការធ្វើសមាហរណកម្មប្រភពព័ត៌មាន OWL/RDF

ចំណងជើងដើម៖ OWL & SPARQL based Mediator for Integration of OWL/RDF Information Sources

អ្នកនិពន្ធ៖ Antonia Georgaraki (Technical University of Crete)

ឆ្នាំបោះពុម្ព៖ 2010

វិស័យសិក្សា៖ Computer Science / Semantic Web

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការទទួលបានទិន្នន័យរួមគ្នានៅក្នុងប្រព័ន្ធបណ្ណាល័យឌីជីថល និងប្រភពព័ត៌មានចម្រុះ ជួបប្រទះបញ្ហាប្រឈមនៃភាពមិនស៊ីគ្នានៃរចនាសម្ព័ន្ធនិងអត្ថន័យ (Semantic Interoperability) រវាងអនតូឡូស៊ី (Ontologies) ផ្សេងៗគ្នាដែលត្រូវបានប្រើប្រាស់។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានរចនានិងអភិវឌ្ឍកម្មវិធីសម្របសម្រួល (Mediator) ផ្អែកលើអនតូឡូស៊ី ដើម្បីបំប្លែងសំណួរ SPARQL ពីកម្រិតសកលទៅកាន់ប្រភពទិន្នន័យមូលដ្ឋានផ្សេងៗ។

ការបង្កើតផែនទីអនតូឡូស៊ី (Ontology Mapping) រវាងប្រភពព័ត៌មានសកលនិងមូលដ្ឋាន
ការធ្វើប្រក្រតីកម្មសំណួរ (Query Normalization) ទៅជាទម្រង់គំរូក្រាហ្វដែលគ្មានសហជីព (UNION-free well-designed graph patterns)
ការអនុវត្តការបន្ធូរបន្ថយសំណួរ (Query Relaxation) ចំនួន ៤ កម្រិត សម្រាប់ដោះស្រាយការបាត់បង់ទិន្នន័យនៅពេលគ្មានការផ្គូផ្គងពេញលេញ
ការសរសេរទម្រង់សំណួរឡើងវិញ (Query Reformulation) និងការប្រតិបត្តិ (Execution) តាមរយៈ Jena Framework ដោយប្រើប្រាស់ Java 2SE

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ប្រព័ន្ធសម្របសម្រួលអាចធ្វើសមាហរណកម្មប្រភពទិន្នន័យ OWL/RDF ចម្រុះបានយ៉ាងមានប្រសិទ្ធភាពតាមរយៈយន្តការបំប្លែងសំណួរ SPARQL។
ការអនុវត្តវិធីសាស្ត្រ Query Relaxation ចំនួន ៤ កម្រិត ជួយឲ្យអ្នកប្រើប្រាស់អាចទទួលបានចម្លើយតាមតម្រូវការជាក់លាក់ ទោះបីជាប្រភពព័ត៌មាននោះមិនមានការផ្គូផ្គង (Mappings) ពេញលេញក៏ដោយ។
ក្បួនដោះស្រាយការកែទម្រង់សំណួរ (Query Reformulation algorithms) អាចធានាបាននូវការរក្សាអត្ថន័យដើមនៃសំណួរ ខណៈពេលបំបែកនិងទាញយកទិន្នន័យពីប្រព័ន្ធស្វយ័តដាច់ដោយឡែកពីគ្នា។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Proposed OWL/SPARQL Mediator កម្មវិធីសម្របសម្រួលផ្អែកលើ OWL & SPARQL ជាមួយនឹងយន្តការបន្ធូរបន្ថយ ៤ កម្រិត	មានភាពបត់បែនខ្ពស់ដោយអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ជ្រើសរើសកម្រិតនៃការបន្ធូរបន្ថយសំណួរ (Relaxation Levels) និងអាចដោះស្រាយអថេរប្រភេទ OPTIONAL បានយ៉ាងល្អ។	ទាមទារការកំណត់ផែនទី (Mappings) និង Articulations រវាងអនតូឡូស៊ីដោយដៃឬពាក់កណ្តាលស្វ័យប្រវត្តិនៅពេលចាប់ផ្តើមប្រព័ន្ធ។	អាចធ្វើការបំប្លែងសំណួរ ទាញយក និងចងក្រងទិន្នន័យពីប្រភពផ្សេងៗគ្នាបានជោគជ័យ ទោះបីជាមានភាពមិនស៊ីគ្នានៃរចនាសម្ព័ន្ធទិន្នន័យមួយចំនួនក៏ដោយ (Exact ដល់ Incomplete answers)។
MOMIS System (Mediator envirOnment for Multiple Information Sources) ប្រព័ន្ធ MOMIS ប្រើប្រាស់ ODL-I3 និង WordNet សម្រាប់សមាហរណកម្ម	ប្រើប្រាស់ WordNet និង Clustering ដើម្បីបង្កើត Global Virtual View ដោយស្វ័យប្រវត្តិពាក់កណ្តាល។	ប្រើប្រាស់ចំណេះដឹងខាងក្រៅ (Extensional knowledge) ជាជាងផ្តោតលើការកែសម្រួលសំណួរ SPARQL ផ្ទាល់។	អាចផ្តល់នូវទិដ្ឋភាពទិន្នន័យរួម (Global Virtual View) ប៉ុន្តែខ្វះយន្តការបន្ធូរបន្ថយសំណួរ SPARQL តាមតម្រូវការជាក់លាក់របស់អ្នកប្រើប្រាស់។
SWIM (Semantic Web Integration Middleware) ប្រព័ន្ធកណ្តាល SWIM សម្រាប់បំប្លែង XML/RDB ទៅជាទិន្នន័យ RDF	មានសមត្ថភាពខ្ពស់ក្នុងការធ្វើសមាហរណកម្មទិន្នន័យប្រពៃណី (Relational Databases និង XML) ទៅក្នុងទម្រង់ Semantic Web។	ប្រើប្រាស់ភាសាសំណួរ RQL/RVL ជំនួសឱ្យស្តង់ដារ SPARQL ដែលធ្វើឱ្យវាមានកម្រិតក្នុងការប្រើប្រាស់ជាមួយប្រព័ន្ធថ្មីៗ។	អាចមើលឃើញប្រភពទិន្នន័យដើមជាឃ្លាំងផ្ទុកទិន្នន័យ RDF និម្មិត ប៉ុន្តែមិនប្រើប្រាស់ SPARQL សម្រាប់ការទាញយកទិន្នន័យឡើយ។
SemWIQ ស្ថាបត្យកម្ម Mediator-Wrapper ស្តង់ដារ	ដំណើរការបានលឿនដោយប្រើប្រាស់ប្រព័ន្ធកាតាឡុក (Catalogs) ដើម្បីតាមដាន និងជ្រើសរើសប្រភពទិន្នន័យ។	មានការរឹតត្បិតច្រើនលើការសរសេរសំណួរ SPARQL ស្តង់ដារ (ឧ. តម្រូវឱ្យ Subject ទាំងអស់ត្រូវតែជាអថេរ)។	អាចបំបែកសំណួរទៅកាន់ប្រភពផ្សេងៗ ប៉ុន្តែនៅមានកម្រិតក្នុងការគាំទ្រមុខងារចាំបាច់មួយចំនួននៃសំណួរ SPARQL ដូចជា DESCRIBE ជាដើម។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនបានបញ្ជាក់លម្អិតពីតម្លៃធនធានកុំព្យូទ័រ (Hardware) ធំដុំនោះទេ ប៉ុន្តែទាមទារនូវប្រព័ន្ធសូហ្វវែរជាក់លាក់ និងចំណេះដឹងផ្នែក Semantic Web ច្បាស់លាស់ដើម្បីដំណើរការ។

Software: ត្រូវការប្រើប្រាស់ Java 2SE Platform ព្រមទាំង Jena Framework សម្រាប់ដំណើរការ និងបំប្លែងសំណួរ SPARQL។
Hardware: កុំព្យូទ័រ ឬម៉ាស៊ីនមេ (Server) ធម្មតាដែលគាំទ្រការរត់កម្មវិធី Java និងការផ្ទុកទិន្នន័យក្នុងអង្គចងចាំ (In-memory storage)។
Dataset: ទិន្នន័យត្រូវតែមានទម្រង់ជា OWL/RDF ក៏ដូចជាត្រូវការឯកសារគូសផែនទី (Alignment/Mapping rules) ដែលសរសេរជាទម្រង់ EDOAL3។
Expertise: ទាមទារចំណេះដឹងស៊ីជម្រៅលើ SPARQL, RDF/XML, ការសរសេរ Ontology និងបច្ចេកទេស Database Query Optimization។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះផ្អែកលើការធ្វើគំរូសាកល្បង (Proof-of-concept) ដោយប្រើប្រាស់សំណុំទិន្នន័យបណ្ណាល័យនិងបណ្ណាគារ (Bookstores)។ ភាពលំអៀងនៅក្នុងប្រព័ន្ធនេះមិនស្ថិតលើទិន្នន័យប្រជាសាស្ត្រទេ ប៉ុន្តែវាស្ថិតលើ 'រចនាសម្ព័ន្ធអនតូឡូស៊ី' (Schema bias) ពោលគឺប្រព័ន្ធអាចផ្តល់ចម្លើយបានល្អ លុះត្រាតែអនតូឡូស៊ីគោល (Main Ontology) ត្រូវបានរចនាឡើងគ្របដណ្តប់គ្រប់ជ្រុងជ្រោយនៃប្រភពទិន្នន័យមូលដ្ឋាន។ ប្រសិនបើអនុវត្តនៅកម្ពុជា ការរចនាអនតូឡូស៊ីគោលនេះត្រូវតែឆ្លុះបញ្ចាំងពីបរិបទស្ថាប័នក្នុងស្រុកឱ្យបានច្បាស់លាស់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ប្រព័ន្ធកម្មវិធីសម្របសម្រួល (Mediator System) នេះមានសក្តានុពលខ្ពស់សម្រាប់ការដោះស្រាយបញ្ហាសមាហរណកម្មទិន្នន័យរវាងស្ថាប័នរដ្ឋ ឬឯកជននៅក្នុងប្រទេសកម្ពុជា ដែលបច្ចុប្បន្នភាគច្រើនដំណើរការជាលក្ខណៈដាច់ដោយឡែកពីគ្នា (Siloed systems)។

E-Government / ក្រសួងស្ថាប័នរដ្ឋ: អាចប្រើដើម្បីទាញយកទិន្នន័យរួមពីរចនាសម្ព័ន្ធផ្ទុកទិន្នន័យផ្សេងគ្នារបស់ក្រសួងនានា (ឧ. ក្រសួងសុខាភិបាល និងក្រសួងមហាផ្ទៃ) ដោយមិនចាំបាច់ផ្លាស់ប្តូរប្រព័ន្ធ Database ដើមរបស់ពួកគេ។
បណ្តាញបណ្ណាល័យសាកលវិទ្យាល័យ (University Libraries): អាចបង្កើតជាប្រព័ន្ធស្វែងរកឯកសាររួម (Unified Search Portal) សម្រាប់សាកលវិទ្យាល័យផ្សេងៗ (ដូចជា RUPP, ITC, RULE) ដែលកំពុងប្រើប្រាស់ប្រព័ន្ធគ្រប់គ្រងបណ្ណាល័យខុសៗគ្នា។
វិស័យកសិកម្ម និងការផ្គត់ផ្គង់ (Agricultural Supply Chain): អាចរួមបញ្ចូលទិន្នន័យពីអង្គការក្រៅរដ្ឋាភិបាល និងស្ថាប័នរដ្ឋពាក់ព័ន្ធនឹងតម្លៃកសិផល អាកាសធាតុ និងបច្ចេកទេសដាំដុះ ដែលមានទម្រង់ទិន្នន័យខុសៗគ្នា ឱ្យទៅជាប្រភពចំណេះដឹងតែមួយ។

សរុបសេចក្តីមក វាផ្តល់នូវមូលដ្ឋានគ្រឹះបច្ចេកទេសដ៏រឹងមាំ និងសន្សំសំចៃមួយ ក្នុងការកសាងប្រព័ន្ធទិន្នន័យជាតិ ឬប្រព័ន្ធចែករំលែកព័ត៌មានអន្តរស្ថាប័ននៅកម្ពុជា ដោយប្រើប្រាស់បច្ចេកវិទ្យា Semantic Web។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Semantic Web: ចាប់ផ្តើមរៀនអំពី RDF, RDFS, និង OWL ដើម្បីយល់ពីរបៀបរៀបចំរចនាសម្ព័ន្ធទិន្នន័យ។ និស្សិតគួរតែប្រើប្រាស់កម្មវិធី Protégé ដើម្បីសាកល្បងបង្កើត Ontology ផ្ទាល់ខ្លួនជាទម្រង់ OWL សម្រាប់ករណីសិក្សាតូចមួយ (ឧ. ការគ្រប់គ្រងទិន្នន័យនិស្សិត)។
អនុវត្តការសរសេរសំណួរ SPARQL និងរៀនប្រើ Jena: រៀនសរសេរសំណួរ SPARQL កម្រិតមូលដ្ឋានដល់កម្រិតខ្ពស់។ ដំឡើង Java និង Apache Jena Framework នៅក្នុងម៉ាស៊ីនកុំព្យូទ័រ ដើម្បីសាកល្បង Load ទិន្នន័យ RDF និងរត់សំណួរ SPARQL តាមរយៈកូដ Java ដោយប្រើ Jena ARQ។
សិក្សាពីការធ្វើប្រក្រតីកម្មសំណួរ (Query Normalization): អាននិងយល់ពីក្បួនគណិតវិទ្យា (Algebraic rules) ដែលប្រើក្នុងឯកសារនេះ ដើម្បីបំប្លែងសំណួរ SPARQL ស្មុគស្មាញឱ្យទៅជាទម្រង់ធម្មតា (UNION-free well-designed graph patterns) ដើម្បីងាយស្រួលក្នុងការទាញយកទិន្នន័យពីប្រភពច្រើន។
សាកល្បងបង្កើតប្រព័ន្ធ Mediator ខ្នាតតូច: សរសេរកូដបង្កើត Mediator សាមញ្ញមួយ ដោយប្រើប្រាស់ Java ដែលអាចទទួលសំណួរ SPARQL ពីអ្នកប្រើប្រាស់ រួចធ្វើការបំបែក (Decompose) និងបញ្ជូនទៅកាន់ប្រភពទិន្នន័យ RDF និម្មិតចំនួនពីរផ្សេងគ្នា។
អនុវត្តយន្តការបន្ធូរបន្ថយសំណួរ (Query Relaxation): បន្ថែមមុខងារ ៤ កម្រិតនៃការបន្ធូរបន្ថយសំណួរទៅក្នុងប្រព័ន្ធ Mediator របស់អ្នក ដើម្បីដោះស្រាយបញ្ហាអថេរ (Variables) ដែលមិនមានទិន្នន័យពេញលេញនៅតាមប្រភពនីមួយៗ និងរៀបចំបង្កើតចំណុចប្រទាក់ (GUI) សាមញ្ញមួយដើម្បីបង្ហាញលទ្ធផលដែលបានចងក្រងនិងដាក់ពិន្ទុ (Ranking) រួចរាល់។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Mediator	កម្មវិធីឬប្រព័ន្ធកណ្តាលដែលទទួលសំណួរពីអ្នកប្រើប្រាស់ រួចធ្វើការបកប្រែនិងបញ្ជូនសំណួរនោះទៅកាន់ប្រភពទិន្នន័យផ្សេងៗគ្នា បន្ទាប់មកប្រមូលនិងចងក្រងចម្លើយយកមកបង្ហាញអ្នកប្រើប្រាស់វិញជាទម្រង់តែមួយរួមគ្នា។	ដូចជាអ្នកបកប្រែភាសាដែលជួយសម្រួលការទាក់ទងរវាងមនុស្សច្រើននាក់ដែលនិយាយភាសាខុសៗគ្នាឱ្យយល់គ្នាបាន។
Ontology	ការរៀបចំនិងចាត់ថ្នាក់ពាក្យបច្ចេកទេស (Concepts) និងទំនាក់ទំនងរវាងពាក្យទាំងនោះនៅក្នុងវិស័យណាមួយ ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ពីអត្ថន័យនិងរចនាសម្ព័ន្ធនៃទិន្នន័យតំណាងឱ្យពិភពពិត។	ដូចជាប្លង់មេនៃបណ្ណាល័យដែលបែងចែកសៀវភៅតាមប្រភេទ និងបង្ហាញពីរបៀបដែលប្រធានបទនីមួយៗទាក់ទងគ្នា។
SPARQL	ភាសាកម្មវិធីពិសេសមួយដែលគេប្រើសម្រាប់ទាញយក កែប្រែ និងវិភាគទិន្នន័យ ដែលត្រូវបានរក្សាទុកក្នុងទម្រង់ RDF នៅលើប្រព័ន្ធបណ្តាញអ៊ីនធឺណិតសេមែនទិក (Semantic Web)។	ដូចជាការសរសេរប្រយោគបញ្ជាអ្នកបណ្ណារក្សឱ្យដើររកសៀវភៅតាមលក្ខខណ្ឌជាក់លាក់ណាមួយដែលយើងចង់បាន។
RDF (Resource Description Framework)	ទម្រង់ស្តង់ដារសម្រាប់ការរក្សាទុកទិន្នន័យ ដោយភ្ជាប់ព័ត៌មានជាទម្រង់ ៣ ផ្នែក (ប្រធានបទ កិរិយា កម្មវត្ថុ) ដើម្បីបញ្ជាក់ពីទំនាក់ទំនងរវាងធនធាននានានៅលើប្រព័ន្ធអ៊ីនធឺណិត។	ដូចជាការសរសេរប្រយោគខ្លីៗថា "សុខ (ប្រធានបទ) ស្គាល់ (កិរិយា) សៅ (កម្មវត្ថុ)" ដើម្បីភ្ជាប់ព័ត៌មានពីមនុស្សម្នាក់ទៅមនុស្សម្នាក់ទៀត។
Query Normalization	ដំណើរការកែសម្រួល និងរៀបចំទម្រង់សំណួរដ៏ស្មុគស្មាញរបស់អ្នកប្រើប្រាស់ ឱ្យទៅជាទម្រង់ស្តង់ដារសាមញ្ញ (ឧ. លុបបំបាត់ប្រតិបត្តិការ UNION ដែលស្មុគស្មាញ) ដើម្បីងាយស្រួលក្នុងការបញ្ជូនទៅស្វែងរកទិន្នន័យ។	ដូចជាការរៀបចំសម្លៀកបំពាក់ដែលញាត់ចូលគ្នាញ៉េចញ៉ាច ឱ្យមានសណ្តាប់ធ្នាប់ងាយស្រួលក្នុងការទាញយកមកស្លៀកពាក់។
Query Relaxation	ការបន្ធូរបន្ថយលក្ខខណ្ឌតឹងរ៉ឹងនៅក្នុងសំណួរ ដើម្បីអនុញ្ញាតឱ្យប្រព័ន្ធអាចទាញយកចម្លើយដែលប្រហាក់ប្រហែលមកបន្ថែម ក្នុងករណីដែលប្រភពទិន្នន័យគ្មានចម្លើយដែលផ្គូផ្គងត្រូវគ្នាទាំងស្រុង ១០០%។	ដូចជាការសុំទិញអាវពណ៌ក្រហមម៉ាកល្បី តែបើគ្មានស្តុក អ្នកលក់អាចដកលក្ខខណ្ឌម៉ាកល្បីចេញ ហើយយកអាវពណ៌ក្រហមម៉ាកផ្សេងមកលក់ជំនួសវិញ។
Articulations	សំណុំនៃចំណងទំនាក់ទំនងដែលត្រូវបានកំណត់ទុកជាមុន ដើម្បីតភ្ជាប់ពាក្យបច្ចេកទេសនៅក្នុងអនតូឡូស៊ីគោល (Global Ontology) ទៅនឹងពាក្យដែលប្រើប្រាស់នៅក្នុងប្រភពទិន្នន័យមូលដ្ឋាននីមួយៗ (Local Ontology)។	ដូចជាវចនានុក្រមដែលជួយប្រាប់ថាពាក្យ "ឡាន" ក្នុងតំបន់មួយ មានន័យដូចគ្នានឹងពាក្យ "រថយន្ត" នៅតំបន់មួយទៀតអញ្ចឹងដែរ។
Query Reformulation	ការសរសេរសំណួរឡើងវិញ ដោយបំប្លែងពាក្យពេចន៍ពីសំណួរក្នុងប្រព័ន្ធគោល ទៅជាពាក្យពេចន៍ដែលប្រព័ន្ធផ្ទុកទិន្នន័យមូលដ្ឋានអាចយល់បាន ដើម្បីអាចធ្វើការស្វែងរកនិងទាញយកទិន្នន័យបានត្រឹមត្រូវ។	ដូចជាការប្តូរពាក្យពេចន៍សាមញ្ញដែលកូនក្មេងសួរ ទៅជាពាក្យពេចន៍ផ្លូវការនៅពេលយកសំណួរនោះទៅសួរគ្រូពេទ្យ ដើម្បីឱ្យគ្រូពេទ្យងាយឆ្លើយ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖