Original Title: Managing Uncertainty and Vagueness in Semantic Web
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការគ្រប់គ្រងភាពមិនប្រាកដប្រជា និងភាពស្រពិចស្រពិលនៅក្នុងបណ្តាញសេមែនទិក (Semantic Web)

ចំណងជើងដើម៖ Managing Uncertainty and Vagueness in Semantic Web

អ្នកនិពន្ធ៖ Loukia P. Karanikola (National and Kapodistrian University of Athens)

ឆ្នាំបោះពុម្ព៖ 2018

វិស័យសិក្សា៖ Computer Science / Semantic Web

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃភាពមិនពេញលេញនៃព័ត៌មាន (Information Incompleteness) នៅក្នុងបណ្ដាញសេមែនទិក (Semantic Web) ដែលរួមមានភាពមិនប្រាកដប្រជា (Uncertainty) និងភាពស្រពិចស្រពិល (Vagueness) ដោយសារតែបច្ចុប្បន្នមិនទាន់មានក្របខ័ណ្ឌរួមមួយដែលអាចតំណាងឱ្យបញ្ហាទាំងពីរនេះក្នុងពេលតែមួយបាន។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានស្នើឡើងនូវក្របខ័ណ្ឌថ្មីមួយដោយរួមបញ្ចូលគ្នានូវទ្រឹស្តីតក្កវិទ្យាពណ៌នាបុរាណជាមួយនឹងគំរូនៃភាពមិនប្រាកដប្រជានិងភាពស្រពិចស្រពិលដើម្បីបង្កើតជាប្រព័ន្ធទិន្នន័យ (Ontologies)។

ការប្រើប្រាស់គំរូ Dempster-Shafer (Dempster-Shafer Model) ដើម្បីតំណាងឱ្យភាពមិនប្រាកដប្រជានៃទិន្នន័យ
ការអនុវត្តតក្កវិទ្យាស្រពិចស្រពិល និងសំណុំស្រពិចស្រពិល (Fuzzy Logic and Fuzzy Sets) សម្រាប់ដោះស្រាយភាពស្រពិចស្រពិល
ការរួមបញ្ចូលគ្នានៃតក្កវិទ្យាពណ៌នាច្បាស់លាស់ (Crisp Description Logics - DL ALC) ជាមួយនឹងម៉ូឌុល Dempster-Shafer
ការបង្កើតជាបណ្ដុំចំណេះដឹង (Meta-ontologies) និងការសាកល្បងវាយតម្លៃលើប្រព័ន្ធផ្តល់អនុសាសន៍ (Recommender Systems) និងប្រព័ន្ធផ្គូផ្គង (Matchmaking Environments)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

អ្នកស្រាវជ្រាវបានបង្កើតដោយជោគជ័យនូវក្របខ័ណ្ឌតក្កវិទ្យាពណ៌នា Dempster-Shafer Fuzzy (Dempster-Shafer Fuzzy Description Logic) ក្រោមប្រព័ន្ធតែមួយដែលរួមបញ្ចូលទាំងការដោះស្រាយភាពមិនប្រាកដប្រជានិងភាពស្រពិចស្រពិល។
ប្រព័ន្ធដែលបានស្នើឡើងអាចត្រូវបានយកទៅអនុវត្តជាក់ស្តែងប្រកបដោយប្រសិទ្ធភាព ដូចជាការបង្កើតប្រព័ន្ធណែនាំសណ្ឋាគារ (Hotel Recommender System) និងប្រព័ន្ធផ្គូផ្គងការងារ (Job Matchmaking System) ដោយផ្អែកលើលក្ខខណ្ឌស្រពិចស្រពិលនិងប្រភពទិន្នន័យផ្សេងៗគ្នា។
ការវាយតម្លៃបង្ហាញថាប្រព័ន្ធផ្តល់នូវលទ្ធផលគួរជាទីគាប់ចិត្តក្នុងកម្រិតភាពត្រឹមត្រូវ (Precision) និងការទាញយកទិន្នន័យ (Recall) ដោយប្រើប្រាស់ច្បាប់រួមបញ្ចូលគ្នារបស់ Dempster (Dempster's Rule of Combination) ទោះបីជាមានភាពស្មុគស្មាញក្នុងការគណនាក៏ដោយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Crisp Description Logics (ALC) តក្កវិទ្យាពណ៌នាច្បាស់លាស់ (Crisp DL ALC)	មានភាពច្បាស់លាស់ខាងទ្រឹស្តី ដំណើរការលឿន និងមានឧបករណ៍គាំទ្រច្រើនសម្រាប់ការវែកញែក (Reasoning) ទិន្នន័យ។	មិនអាចដោះស្រាយបញ្ហាទិន្នន័យដែលបាត់បង់ (ភាពមិនប្រាកដប្រជា) ឬលក្ខខណ្ឌដែលមិនច្បាស់លាស់ (ភាពស្រពិចស្រពិល) បានទេ។	ត្រូវបានប្រើប្រាស់ជាមូលដ្ឋានគ្រឹះសម្រាប់ការអភិវឌ្ឍតក្កវិទ្យាផ្សេងទៀត តែមិនអាចឆ្លើយតបនឹងសំណួរស្មុគស្មាញបាន។
Fuzzy Description Logics តក្កវិទ្យាពណ៌នាស្រពិចស្រពិល (Fuzzy DL)	អាចតំណាងឱ្យគោលគំនិតដែលមិនច្បាស់លាស់ (ឧទាហរណ៍៖ 'សណ្ឋាគារតម្លៃថោក') តាមរយៈកម្រិតនៃសមាជិកភាព (Membership degrees)។	នៅតែមិនអាចធ្វើការសម្រេចចិត្តបានល្អ នៅពេលដែលប្រភពព័ត៌មានមានភាពខ្វះចន្លោះ ឬមិនពេញលេញ (Ignorance)។	ជួយបំប្លែងលក្ខខណ្ឌស្វែងរករបស់មនុស្សទៅជាទម្រង់កុំព្យូទ័របាន តែតម្រូវឱ្យមានការរួមបញ្ចូលបន្ថែមដើម្បីដោះស្រាយភាពមិនប្រាកដប្រជា។
Dempster-Shafer Fuzzy Description Logic (Proposed) តក្កវិទ្យាពណ៌នា Dempster-Shafer ស្រពិចស្រពិល (វិធីសាស្ត្រស្នើឡើង)	ដោះស្រាយបានទាំងភាពស្រពិចស្រពិល និងភាពមិនប្រាកដប្រជាក្នុងពេលតែមួយ ដោយរួមបញ្ចូលប្រភពទិន្នន័យផ្សេងៗគ្នាប្រកបដោយប្រសិទ្ធភាព។	មានភាពស្មុគស្មាញខ្ពស់ក្នុងការគណនា (PSPACE-complete) ដែលទាមទារកម្លាំងម៉ាស៊ីនខ្លាំងនៅពេលទិន្នន័យមានទំហំធំ។	ទទួលបានអត្រាទាញយកទិន្នន័យ (Recall) ៨៥% និងកម្រិតភាពត្រឹមត្រូវ (Precision) ៩៦% ក្នុងការធ្វើតេស្តលើប្រព័ន្ធណែនាំសណ្ឋាគារក្នុងពិភពពិត។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធនេះទាមទារចំណេះដឹងផ្នែកសរសេរកូដកម្រិតខ្ពស់ និងការប្រើប្រាស់បណ្ណាល័យកម្មវិធីជាក់លាក់សម្រាប់ Semantic Web និង Fuzzy Logic។

Software: កម្មវិធី Protégé សម្រាប់បង្កើត Ontology រួមជាមួយនឹង Protégé Rules Plugin និងភាសា Java ដែលប្រើប្រាស់បណ្ណាល័យ jFuzzyLogic សម្រាប់ការគណនាតក្កវិទ្យាស្រពិចស្រពិល។
Dataset: ទិន្នន័យសណ្ឋាគារ (Hotel attributes) ដែលត្រូវប្រមូលផ្តុំពីគេហទំព័រផ្តល់អនុសាសន៍ផ្សេងៗគ្នា (ត្រូវការការធ្វើ Web Scraping)។
Hardware: កុំព្យូទ័រដែលមានសមត្ថភាពផ្ទុកទិន្នន័យនិងអង្គចងចាំខ្ពស់ (RAM) ដើម្បីដំណើរការច្បាប់រួមបញ្ចូលគ្នារបស់ Dempster លើទិន្នន័យធំៗ។
Expertise: អ្នកជំនាញផ្នែក Description Logics, Semantic Web (OWL), ទ្រឹស្តី Dempster-Shafer និងគណិតវិទ្យាសំណុំស្រពិចស្រពិល (Fuzzy Sets)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសណ្ឋាគារចំនួន ២,៨៥៤ កន្លែងនៅទីក្រុងឡុងដ៍ ដែលប្រមូលបានពីគេហទំព័រផ្តល់អនុសាសន៍អន្តរជាតិ (Booking.com, ល)។ សម្រាប់បរិបទប្រទេសកម្ពុជា ទិន្នន័យពីប្រភពក្នុងស្រុកអាចមានរចនាសម្ព័ន្ធខុសគ្នា គុណភាពទាប ឬខ្វះចន្លោះច្រើន ដែលទាមទារឱ្យមានការកែសម្រួលគំរូ និងការកំណត់អនុគមន៍សមាជិកភាព (Membership functions) ឡើងវិញឱ្យស្របតាមទម្លាប់អ្នកប្រើប្រាស់ក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្លាំងសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធផ្តល់អនុសាសន៍ឆ្លាតវៃ និងប្រព័ន្ធរដ្ឋាភិបាលអេឡិចត្រូនិកនៅកម្ពុជា ដែលទិន្នន័យពីស្ថាប័នផ្សេងៗច្រើនតែមិនពេញលេញ និងមិនស៊ីសង្វាក់គ្នា។

វិស័យទេសចរណ៍នៅសៀមរាប និងភ្នំពេញ: អាចប្រើដើម្បីបង្កើតថ្នាលរួមមួយដែលផ្តល់អនុសាសន៍សណ្ឋាគារ ភោជនីយដ្ឋាន និងសេវាកម្មទេសចរណ៍ ដោយទាញយកនិងច្របាច់បញ្ចូលទិន្នន័យពីភ្នាក់ងារផ្សេងៗគ្នា ជួយសម្រួលដល់ការសម្រេចចិត្តរបស់ភ្ញៀវទេសចរ។
ទីភ្នាក់ងារជាតិមុខរបរ និងការងារ (NEA): អាចប្រើក្នុងប្រព័ន្ធផ្គូផ្គងការងារ (Job Matchmaking System) ដើម្បីផ្គូផ្គងអ្នកស្វែងរកការងារនិងនិយោជក ទោះបីជាលក្ខខណ្ឌប្រាក់ខែ ឬបទពិសោធន៍ដែលពួកគេចង់បានមានភាពស្រពិចស្រពិលក៏ដោយ។
វិស័យអចលនទ្រព្យ (Real Estate platforms): សម្រាប់វាយតម្លៃ និងណែនាំអចលនទ្រព្យដល់អតិថិជន ដោយផ្អែកលើលក្ខខណ្ឌដែលមិនមានតម្លៃថេរ ដូចជា 'ទីតាំងជិតកន្លែងធ្វើការ' ឬ 'តម្លៃសមរម្យ' គួបផ្សំនឹងភាពជឿជាក់នៃប្រភពព័ត៌មានអចលនទ្រព្យ។

ការអនុវត្តក្របខ័ណ្ឌនេះនឹងជួយឱ្យក្រុមហ៊ុននិងស្ថាប័នរដ្ឋនៅកម្ពុជាអាចទាញយកប្រយោជន៍អតិបរមាពីទិន្នន័យចម្រុះនិងមិនច្បាស់លាស់ ដើម្បីធ្វើសេចក្តីសម្រេចចិត្ត និងផ្តល់សេវាកម្មកាន់តែប្រសើរ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

១. សិក្សាមូលដ្ឋានគ្រឹះនៃ Semantic Web និង Ontologies: ចាប់ផ្តើមដោយការស្វែងយល់ពីបច្ចេកវិទ្យា RDF, RDFS, និង OWL រួចប្រើប្រាស់កម្មវិធី Protégé ដើម្បីអនុវត្តការបង្កើត Ontology សាមញ្ញមួយសម្រាប់វិស័យជាក់លាក់ណាមួយ (ឧ. ការអប់រំ ឬទេសចរណ៍)។
២. ស្វែងយល់ពី Fuzzy Logic និងកូដគណនា: សិក្សាពីទ្រឹស្តីតក្កវិទ្យាស្រពិចស្រពិល (Fuzzy Sets) រួចសាកល្បងសរសេរកូដក្នុងភាសា Java ដោយប្រើប្រាស់បណ្ណាល័យ jFuzzyLogic ដើម្បីបង្កើតគំរូវាយតម្លៃទិន្នន័យតូចៗ។
៣. រៀបចំសំណុំទិន្នន័យជាក់ស្តែងពីកម្ពុជា: ប្រើប្រាស់ឧបករណ៍ Web Scraping ដើម្បីប្រមូលទិន្នន័យពិតពីគេហទំព័រក្នុងស្រុក (ឧទាហរណ៍៖ ទិន្នន័យសណ្ឋាគារកម្ពុជា ឬការប្រកាសជ្រើសរើសបុគ្គលិក) រួចសម្អាតទិន្នន័យនោះជាទម្រង់ដែលអាចប្រើប្រាស់បាន។
៤. អភិវឌ្ឍប្រព័ន្ធផ្គូផ្គងសាកល្បង (Prototype): រៀបចំប្រព័ន្ធគំរូមួយដែលអនុវត្ត Dempster-Shafer theory ដើម្បីច្របាច់បញ្ចូលទិន្នន័យពីប្រភព២ផ្សេងគ្នា ដោយប្រើប្រាស់ Protégé Rules Plugin ដើម្បីបង្កើតវិធានសម្រេចចិត្ត (Inference Rules)។
៥. វាយតម្លៃ និងស្វែងរកវិធីបង្កើនល្បឿនប្រតិបត្តិការ: វាស់ស្ទង់ប្រសិទ្ធភាពនៃប្រព័ន្ធសាកល្បងដោយប្រើប្រាស់រង្វាស់ Precision និង Recall សម្រាប់ Fuzzy sets ហើយចាប់ផ្តើមសិក្សាពីក្បួនដោះស្រាយ Monte Carlo algorithms ដើម្បីដោះស្រាយបញ្ហាភាពយឺតយ៉ាវនៅពេលទិន្នន័យមានទំហំធំ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Semantic Web	បណ្ដាញសេមែនទិក គឺជាផ្នែកមួយនៃវើលវ៉ាយវ៉េប (WWW) ដែលរៀបចំទិន្នន័យក្នុងទម្រង់មួយដែលម៉ាស៊ីន (កុំព្យូទ័រ ឬ AI) អាចយល់ អាន និងទាញយកទៅប្រើប្រាស់បានដោយស្វ័យប្រវត្តិ ដើម្បីបង្កើតជាសេចក្តីសម្រេចចិត្ត ដោយមិនបាច់មានមនុស្សចាំបញ្ជា។	ដូចជាការបិទស្លាកឈ្មោះនិងអត្ថន័យលើរបស់របរក្នុងផ្ទះ ដើម្បីឱ្យរ៉ូបូតដឹងថាវាជាអ្វី និងត្រូវប្រើប្រាស់យ៉ាងដូចម្តេច។
Ontology	អុនតូឡូស៊ី គឺជាការរៀបចំប្រព័ន្ធចំណេះដឹងដែលកំណត់ពីប្រភេទនៃវត្ថុ ព្រមទាំងទំនាក់ទំនងរវាងវត្ថុទាំងនោះនៅក្នុងវិស័យជាក់លាក់ណាមួយ ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ពីអត្ថន័យ និងបរិបទនៃទិន្នន័យ។	ដូចជាផែនទីមែកធាងគ្រួសារ ដែលប្រាប់កុំព្យូទ័រថាអ្នកណាជាតាកង អ្នកណាជាឪពុក និងមានទំនាក់ទំនងគ្នាបែបណា។
Description Logics	ជាគ្រួសារនៃភាសាតក្កវិទ្យាសម្រាប់ប្រើប្រាស់ក្នុងការបង្កើត Ontologies ដោយវាជួយពណ៌នាពីចំណេះដឹងតាមរយៈរូបមន្តគណិតវិទ្យា ដើម្បីឱ្យកុំព្យូទ័រអាចទាញរកសេចក្តីសន្និដ្ឋានថ្មីៗពីទិន្នន័យដែលមានស្រាប់បាន (Reasoning)។	ដូចជាការបង្រៀនរូបមន្តនិងក្បួនច្បាប់ដល់កុំព្យូទ័រ ដើម្បីឱ្យវាចេះគិតនិងទាញរកចម្លើយថ្មីដោយខ្លួនឯង។
Dempster-Shafer Theory	ជាទ្រឹស្តីគណិតវិទ្យាមួយសម្រាប់ដោះស្រាយបញ្ហាទិន្នន័យដែលមិនពេញលេញ (Uncertainty) ដោយវាអនុញ្ញាតឱ្យយើងរួមបញ្ចូលប្រភពព័ត៌មានច្រើនបញ្ចូលគ្នា ដើម្បីទាញរកកម្រិតនៃជំនឿ (Belief) ទៅលើភាពពិតនៃរឿងអ្វីមួយ ទោះបីជាយើងខ្វះចន្លោះព័ត៌មានក៏ដោយ។	ដូចជាការសួរមតិពីមិត្តភក្តិ៣នាក់អំពីភោជនីយដ្ឋានមួយ រួចយកមតិទាំង៣នោះមកថ្លឹងថ្លែងបញ្ចូលគ្នាដើម្បីសម្រេចចិត្តថាគួរទៅញ៉ាំឬអត់។
Fuzzy Logic	ជាតក្កវិទ្យាដែលប្រើសម្រាប់ដោះស្រាយការវាយតម្លៃលក្ខខណ្ឌដែលមិនច្បាស់លាស់ (Vagueness) ដោយមិនកំណត់ត្រឹមតែ "ពិត(1)" ឬ "មិនពិត(0)" ប៉ុន្តែវាផ្តល់តម្លៃជាកម្រិតភាគរយចន្លោះពី 0 ទៅ 1 (ឧទាហរណ៍៖ ការវាស់វែងពាក្យថា ថោក ថ្លៃ ក្មេង ចាស់)។	ដូចជាការពិពណ៌នាពីអាកាសធាតុថាមិនមែនគ្រាន់តែមានពាក្យ "ក្តៅ" ឬ "រងា" ទេ តែមានកម្រិត "ក្តៅល្មម" ដែលធ្វើឱ្យកុំព្យូទ័រយល់បានដូចការគិតរបស់មនុស្ស។
Basic probability assignment	គឺជាមុខងារនៅក្នុងទ្រឹស្តី Dempster-Shafer ដែលវាធ្វើការបែងចែកឬផ្តល់តម្លៃទំនុកចិត្ត (Mass degree) ទៅលើសំណុំនៃព្រឹត្តិការណ៍ដែលអាចកើតឡើង ដោយផ្អែកលើភស្តុតាងជាក់ស្តែងដែលយើងមាននៅក្នុងដៃនៅពេលនោះ។	ដូចជាការបែងចែកប្រាក់របស់អ្នកដើម្បីចាក់ភ្នាល់លើសេះច្រើនក្បាល ទៅតាមកម្រិតដែលអ្នកជឿថាសេះណាមានភាគរយឈ្នះខ្ពស់ជាងគេ។
Frame of discernment	ជាសំណុំនៃព្រឹត្តិការណ៍ ឬលទ្ធផលទាំងអស់ដែលអាចកើតមានឡើងនៅក្នុងបញ្ហាណាមួយ ដែលលទ្ធផលទាំងនេះគឺដាច់ដោយឡែកពីគ្នា និងមិនអាចកើតឡើងជាន់គ្នាទេ (Mutually exclusive) សម្រាប់យកមកធ្វើការគណនាកម្រិតជំនឿ។	ដូចជាបញ្ជីឈ្មោះបេក្ខជនទាំងអស់ដែលកំពុងឈរឈ្មោះបោះឆ្នោត ដែលចុងក្រោយកំណត់ថាមានតែម្នាក់ប៉ុណ្ណោះអាចឈ្នះ។
Matchmaking	គឺជាដំណើរការនៅក្នុងប្រព័ន្ធកុំព្យូទ័រដែលធ្វើការប្រៀបធៀប និងផ្គូផ្គងរវាងតម្រូវការរបស់អ្នកស្វែងរក និងលក្ខខណ្ឌរបស់អ្នកផ្តល់សេវា (ឧទាហរណ៍៖ ការស្វែងរកការងារ ឬការរកសណ្ឋាគារ) ដើម្បីផ្តល់ចំណាត់ថ្នាក់និងរកមើលជម្រើសដែលស័ក្តិសមបំផុត។	ដូចជាអ្នករៀបអភិសេក (មេអណ្តើក) ដែលយកលក្ខណៈសម្បត្តិ និងចំណង់ចំណូលចិត្តរបស់មនុស្សពីរនាក់មកផ្ទៀងផ្ទាត់គ្នា ដើម្បីមើលថាពួកគេត្រូវគ្នាឬអត់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖