Original Title: 基于证据理论的上下文本体建模以及不确定性推理方法
Source: doi.org/10.3724/SP.J.1146.2009.01015
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្រនៃការធ្វើគំរូអុនតូឡូស៊ីបរិបទមិនច្បាស់លាស់ និងការវែកញែកដោយផ្អែកលើទ្រឹស្តី D-S

ចំណងជើងដើម៖ 基于证据理论的上下文本体建模以及不确定性推理方法

អ្នកនិពន្ធ៖ Li Yan-na (State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications), Qiao Xiu-quan, Li Xiao-feng

ឆ្នាំបោះពុម្ព៖ 2010 Journal of Electronics & Information Technology

វិស័យសិក្សា៖ Computer Science / Pervasive Computing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាប្រឈមនៃការតំណាង និងការវែកញែកជាមួយនឹងព័ត៌មានបរិបទមិនច្បាស់លាស់ (Uncertain Context Information) នៅក្នុងបរិស្ថានកុំព្យូទ័រដែលប្រើប្រាស់គ្រប់ទីកន្លែង (Pervasive Computing)។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធស្នើឡើងនូវវិធីសាស្ត្រដែលរួមបញ្ចូលទ្រឹស្តី Dempster-Shafer (D-S) ជាមួយនឹងការធ្វើគំរូអុនតូឡូស៊ី (Ontology Model) និងបង្កើតច្បាប់បន្សំភស្តុតាងដែលត្រូវបានកែលម្អ។

ការធ្វើគំរូអុនតូឡូស៊ីបរិបទ (Context Ontology Modeling): បន្ថែមថ្នាក់ភស្តុតាង និងសេចក្តីសន្និដ្ឋានទៅក្នុងគំរូអុនតូឡូស៊ីជាមូលដ្ឋាន។
ក្បួនបន្សំភស្តុតាងដែលបានកែលម្អ (Improved Evidence Combination Rule): ដោះស្រាយបញ្ហាភស្តុតាងដែលមានជម្លោះខ្ពស់ និងផ្តល់នូវលទ្ធភាពបន្សាំខ្លួន (Self-adaptability)។
ក្បួនដោះស្រាយការវែកញែកមិនច្បាស់លាស់ (Uncertain Reasoning Algorithm): រចនា និងអនុវត្តការវែកញែកដោយផ្អែកលើការកែតម្រូវមេគុណដែលអាចទុកចិត្តបាន (Belief function)។
ការអនុវត្តក្នុងវិស័យសុខាភិបាល (e-Health Use Case): សាកល្បងប្រព័ន្ធគំរូជាមួយទិន្នន័យសរីរវិទ្យាដូចជា សីតុណ្ហភាព និងសម្ពាធឈាម ដើម្បីធ្វើការវិភាគជំងឺពីចម្ងាយ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្ត្រ UCOMRADS ដែលបានស្នើឡើងអាចធ្វើគំរូព័ត៌មានបរិបទមិនច្បាស់លាស់បានយ៉ាងមានប្រសិទ្ធភាព ដោយរួមបញ្ចូលទ្រឹស្តី D-S ទៅក្នុងអុនតូឡូស៊ី (Ontology) ប្រកបដោយជោគជ័យ។
ក្បួនបន្សំដែលបានកែលម្អជួយកាត់បន្ថយឥទ្ធិពលអវិជ្ជមាននៃភស្តុតាងដែលមានជម្លោះ (Conflicting evidence) ដែលធ្វើឱ្យការវែកញែកមានភាពត្រឹមត្រូវ និងអាចបន្សាំខ្លួនបានទៅនឹងបរិបទដែលផ្លាស់ប្តូរ។
ការធ្វើតេស្តលើទិន្នន័យគំរូចំនួន ៨០០០ ករណី បង្ហាញថាអត្រានៃភាពត្រឹមត្រូវមានការកើនឡើង និងមានស្ថិរភាពខ្ពស់ជាងវិធីសាស្ត្រមុនៗ ដោយបញ្ជាក់ពីភាពសមហេតុផល និងប្រសិទ្ធភាពនៃប្រព័ន្ធនៅក្នុងការអនុវត្តជាក់ស្តែង។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
UCOMRADS (Proposed Improved D-S Theory) វិធីសាស្ត្រ UCOMRADS (ផ្អែកលើទ្រឹស្តី D-S ដែលបានកែលម្អ)	អាចដោះស្រាយបញ្ហា 'វីតូសំឡេងតែមួយ' ពេលមានជម្លោះភស្តុតាង និងមានលទ្ធភាពបន្សាំខ្លួន (Self-adaptability) ទៅនឹងការផ្លាស់ប្តូរបរិបទ។ វាទាញយកប្រយោជន៍ពីទិន្នន័យប្រវត្តិដើម្បីបង្កើនភាពត្រឹមត្រូវ។	ត្រូវការការពឹងផ្អែកលើកំណត់ត្រាប្រវត្តិទិន្នន័យ (Historical Data) ដើម្បីធ្វើបច្ចុប្បន្នភាពមេគុណដែលអាចទុកចិត្តបាន (Belief coefficient) ជាប្រចាំ។	អត្រានៃភាពត្រឹមត្រូវក្នុងការវែកញែកមានការកើនឡើង និងរក្សាបានស្ថិរភាពល្អ នៅពេលចំនួនករណីសាកល្បងកើនដល់ប្រមាណ ៨០០០ ករណី (ចាប់ផ្តើមពី ៧៥% សម្រាប់ ១០០០ ករណី)។
Distance-based combination rule (Ref [12]) វិធានបន្សំផ្អែកលើចម្ងាយភស្តុតាង (វិធីសាស្ត្រឯកសារយោង [១២])	អាចដោះស្រាយចំណុចខ្សោយនៃទ្រឹស្តី D-S ស្តង់ដារបានមួយកម្រិត នៅពេលប្រឈមមុខនឹងភស្តុតាងដែលមានកម្រិតជម្លោះខ្ពស់។	មិនមានលទ្ធភាពបន្សាំខ្លួន (Lack of self-adaptability) ដែលធ្វើឱ្យម៉ូដែលមិនអាចកែតម្រូវឥរិយាបថរបស់ខ្លួនទៅតាមទិន្នន័យថ្មីៗបាន។	អត្រានៃភាពត្រឹមត្រូវមានការប្រែប្រួលឡើងចុះ និងមិនមានទំនាក់ទំនងជាវិជ្ជមានច្បាស់លាស់ជាមួយការកើនឡើងនៃទំហំទិន្នន័យសាកល្បងនោះទេ។
Bayesian Networks (Baseline mentioned) បណ្តាញ Bayesian (វិធីសាស្ត្រមូលដ្ឋានដែលត្រូវបានលើកឡើង)	ជារឿយៗត្រូវបានប្រើប្រាស់សម្រាប់ការធ្វើគំរូ និងវែកញែកបរិបទដែលមានភាពមិនច្បាស់លាស់ដោយផ្អែកលើប្រូបាប៊ីលីតេ។	ទាមទារឱ្យមានប្រូបាប៊ីលីតេជាមុន (Prior probabilities) ពេញលេញ និងសន្មតថាលទ្ធផលទាំងអស់មិនត្រូវត្រួតស៊ីគ្នា ដែលពិបាកអនុវត្តក្នុងស្ថានភាពជាក់ស្តែង។	មិនត្រូវបានធ្វើតេស្តផ្ទាល់នៅក្នុងការពិសោធន៍នេះទេ ប៉ុន្តែត្រូវបានចាត់ទុកថាមានសមត្ថភាពខ្សោយជាងទ្រឹស្តី D-S ក្នុងការដោះស្រាយភាពមិនច្បាស់លាស់។

ការចំណាយលើធនធាន (Resource Cost)៖ ដើម្បីអនុវត្តប្រព័ន្ធនេះ (CASDSR) តម្រូវឱ្យមានការរៀបចំហេដ្ឋារចនាសម្ព័ន្ធបណ្តាញសេនស័រ និងប្រព័ន្ធម៉ាស៊ីនមេសម្រាប់ដំណើរការទិន្នន័យបរិបទ ព្រមទាំងទិន្នន័យប្រវត្តិសាស្រ្តសម្រាប់ការគណនា។

Hardware: ឧបករណ៍សេនស័រ IoT សម្រាប់វាស់ស្ទង់ទិន្នន័យរូបវន្ត (សីតុណ្ហភាព, សម្ពាធឈាម, ចង្វាក់បេះដូង) និងម៉ាស៊ីនមេ (Application Server) សម្រាប់ដំណើរការប្រព័ន្ធ CASDSR។
Software: ភាសាអភិវឌ្ឍន៍អុនតូឡូស៊ីដូចជា OWL (Web Ontology Language) និងប្រព័ន្ធវែកញែក (Reasoning Engine/Agent) ដើម្បីគណនាក្បួនបន្សំភស្តុតាង D-S។
Dataset: កំណត់ត្រាប្រវត្តិវេជ្ជសាស្ត្ររបស់អ្នកជំងឺ (Historical medical records) និងករណីសាកល្បង (រហូតដល់ ១០០០០ ករណីក្នុងការសិក្សានេះ) ដើម្បីអាប់ដេតមេគុណ Belief។
Expertise: ចំណេះដឹងពីអ្នកជំនាញផ្នែកវេជ្ជសាស្ត្រ ដើម្បីកំណត់តម្លៃមូលដ្ឋាននៃប្រូបាប៊ីលីតេ (BPA) និងច្បាប់វិភាគរោគសញ្ញានៅដំណាក់កាលដំបូង។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងមន្ទីរពិសោធន៍នៃសាកលវិទ្យាល័យប្រៃសណីយ៍ និងទូរគមនាគមន៍ទីក្រុងប៉េកាំង ដោយប្រើប្រាស់ទិន្នន័យត្រាប់តាម (Simulated test cases) និងច្បាប់កំណត់ដោយអ្នកជំនាញពេទ្យចិន។ សម្រាប់ប្រទេសកម្ពុជា ការកំណត់តម្លៃ BPA ត្រូវតែធ្វើឡើងដោយអ្នកជំនាញពេទ្យក្នុងស្រុក (ឧទាហរណ៍ វេជ្ជបណ្ឌិតនៅមន្ទីរពេទ្យកាល់ម៉ែត) ព្រោះអត្រាប្រេវ៉ាឡង់នៃជំងឺ និងលក្ខណៈសរីរវិទ្យាអាចមានភាពខុសគ្នា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៃការវែកញែកទិន្នន័យមិនច្បាស់លាស់នេះ មានសក្តានុពលខ្ពស់ក្នុងការដោះស្រាយបញ្ហាទិន្នន័យសេនស័រដែលរអាក់រអួល ឬមានកំហុសនៅក្នុងប្រទេសកម្ពុជា។

វិស័យសុខាភិបាល (e-Health in Rural Areas): អាចប្រើប្រាស់សម្រាប់ការតាមដានសុខភាពអ្នកជំងឺពីចម្ងាយនៅតំបន់ដាច់ស្រយាល (ដូចជាខេត្តរតនគិរី ឬមណ្ឌលគិរី) ដែលសេវាអ៊ីនធឺណិតមិនសូវមានស្ថិរភាព ធ្វើឱ្យទិន្នន័យសេនស័រពេលខ្លះបាត់បង់ ឬមានភាពមិនច្បាស់លាស់។
កសិកម្មឆ្លាតវៃ (Smart Agriculture in Battambang): អាចអនុវត្តក្នុងប្រព័ន្ធតាមដានអាកាសធាតុ និងសំណើមដី ដោយប្រព័ន្ធនេះអាចសម្រេចចិត្តបានត្រឹមត្រូវ ទោះបីជាសេនស័រ២ ឬ៣ ផ្តល់ទិន្នន័យផ្ទុយគ្នាក៏ដោយ (ជម្លោះភស្តុតាង)។
ទីក្រុងឆ្លាតវៃ (Smart City in Phnom Penh): ប្រើប្រាស់សម្រាប់ការគ្រប់គ្រងចរាចរណ៍ដែលប្រមូលទិន្នន័យពីកាមេរ៉ា និងសេនស័រផ្សេងៗគ្នា ដែលជារឿយៗផ្តល់ព័ត៌មានមិនស៊ីសង្វាក់គ្នាអំពីការកកស្ទះ។

សរុបមក វាផ្តល់នូវក្របខ័ណ្ឌដ៏រឹងមាំមួយសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធ IoT ដែលអាចទុកចិត្តបាន នៅក្នុងបរិស្ថានដែលប្រឈមនឹងការរំខានផ្នែកបណ្តាញ និងការប្រើប្រាស់ឧបករណ៍សេនស័រដែលមានតម្លៃថោក។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីការធ្វើគំរូអុនតូឡូស៊ី (Ontology Modeling): ចាប់ផ្តើមសិក្សាពីគំរូទិន្នន័យចំណេះដឹង ដោយប្រើប្រាស់ភាសា OWL និងអនុវត្តការបង្កើតគំរូ Ontology ជាមូលដ្ឋានតាមរយៈកម្មវិធី Protégé ដើម្បីកំណត់ទំនាក់ទំនងនៃបរិបទ (Contexts)។
ស្វែងយល់ពីទ្រឹស្តី Dempster-Shafer (D-S Theory): សិក្សាស៊ីជម្រៅលើគណិតវិទ្យានៃទ្រឹស្តី D-S ជាពិសេសរបៀបកំណត់ Basic Probability Assignment (BPA) និងការគណនា Belief function (Bel) សម្រាប់វាស់ស្ទង់កម្រិតនៃភាពជឿជាក់លើទិន្នន័យណាមួយ។
អភិវឌ្ឍប្រព័ន្ធទទួលទិន្នន័យ IoT (IoT Data Ingestion): បង្កើតប្រព័ន្ធសាមញ្ញមួយ (Prototype) ដោយប្រើប្រាស់ Python ឬ Java ដើម្បីប្រមូលទិន្នន័យពីសេនស័រច្រើនប្រភេទ (ឧ. សេនស័រសីតុណ្ហភាព និងសំណើម) ដែលតំណាងឱ្យប្រភពភស្តុតាងផ្សេងៗគ្នា (Evidences)។
សរសេរកូដអនុវត្តក្បួនបន្សំដែលបានកែលម្អ (Improved D-S Algorithm): សរសេរកូដបញ្ចូលរូបមន្តបន្សំ D-S ដែលមានកែតម្រូវទម្ងន់ (Weighted combination) ដូចមានក្នុងឯកសារស្រាវជ្រាវ ដើម្បីឱ្យប្រព័ន្ធអាចដោះស្រាយទិន្នន័យសេនស័រដែលផ្តល់តម្លៃផ្ទុយគ្នា។
អនុវត្តគម្រោងសាកល្បង (Pilot Project Implementation): សហការជាមួយសិស្សពេទ្យ ឬសិស្សកសិកម្ម ដើម្បីកំណត់ច្បាប់ (Rules) និងសាកល្បងប្រព័ន្ធវែកញែកនេះជាមួយនឹងសំណុំទិន្នន័យជាក់ស្តែង (ឧទាហរណ៍ ការវិភាគរោគសញ្ញាសាមញ្ញ ឬការកំណត់ការស្រោចស្រពដំណាំ) រួចវាស់ស្ទង់អត្រានៃភាពត្រឹមត្រូវ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Ontology	គឺជាការធ្វើគំរូទិន្នន័យដែលកំណត់ពីឈ្មោះ លក្ខណៈ និងទំនាក់ទំនងនៃគោលគំនិតផ្សេងៗនៅក្នុងវិស័យណាមួយ ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ និងទាញយកចំណេះដឹងមកប្រើប្រាស់រួមគ្នាបាន។	ដូចជាវចនានុក្រមនិងផែនទីបណ្តាញគ្រួសារដែលប្រាប់កុំព្យូទ័រថា 'អ្នកណាជាអ្នកណា' និង 'ទាក់ទងគ្នាដូចម្តេច' នៅក្នុងពិភពលោក។
Dempster-Shafer (D-S) theory	គឺជាទ្រឹស្តីគណិតវិទ្យាសម្រាប់វាស់ស្ទង់ភាពប្រាកដប្រជា ដោយប្រមូលផ្តុំភស្តុតាងពីប្រភពផ្សេងៗគ្នា ដើម្បីធ្វើការសម្រេចចិត្ត ទោះបីជាព័ត៌មានទាំងនោះមិនគ្រប់គ្រាន់ ឬមានភាពផ្ទុយគ្នាក៏ដោយ។	ដូចជាចៅក្រមដែលប្រមូលចម្លើយពីសាក្សីច្រើននាក់ (ទោះអ្នកខ្លះនិយាយមិនច្បាស់) ដើម្បីថ្លឹងថ្លែងរកការសន្និដ្ឋានមួយដែលគួរឱ្យទុកចិត្តបំផុត។
Basic Probability Assignment (BPA)	គឺជាការបែងចែកតម្លៃប្រូបាប៊ីលីតេ (ចន្លោះពី ០ ទៅ ១) ទៅឱ្យភស្តុតាងនីមួយៗ ដើម្បីបង្ហាញពីកម្រិតនៃការជឿជាក់ទៅលើព្រឹត្តិការណ៍ ឬលទ្ធផលណាមួយ។	ដូចជាការបែងចែកកាក់១០០រៀលទៅឱ្យហោប៉ៅផ្សេងៗគ្នា ដោយហោប៉ៅដែលមានកាក់ច្រើនជាងគេគឺតំណាងឱ្យចម្លើយដែលយើងជឿជាក់ជាងគេ។
Pervasive computing	គឺជាបរិស្ថានបច្ចេកវិទ្យាដែលឧបករណ៍កុំព្យូទ័រ និងសេនស័រត្រូវបានបង្កប់នៅគ្រប់ទីកន្លែងជុំវិញខ្លួនយើង ដើម្បីប្រមូលព័ត៌មាន និងឆ្លើយតបទៅនឹងតម្រូវការរបស់យើងដោយស្វ័យប្រវត្តិ។	ដូចជាផ្ទះវេទមន្តដែលដឹងថាអ្នកដើរចូលបន្ទប់ ហើយក៏បើកភ្លើងនិងម៉ាស៊ីនត្រជាក់ឱ្យដោយស្វ័យប្រវត្តិ ដោយមិនបាច់បញ្ជា។
Uncertain reasoning	គឺជាដំណើរការនៃការគិតនិងទាញសេចក្តីសន្និដ្ឋានរបស់ប្រព័ន្ធកុំព្យូទ័រ នៅក្នុងស្ថានភាពដែលទិន្នន័យទទួលបានមានភាពមិនច្បាស់លាស់ ខ្វះខាត ឬមានសំឡេងរំខាន (Noise)។	ដូចជាគ្រូពេទ្យដែលទាយដឹងថាអ្នកមានជំងឺអ្វី ទោះបីជាអ្នកប្រាប់រោគសញ្ញាមិនបានពេញលេញក៏ដោយ។
Evidence combination rule	គឺជារូបមន្តគណិតវិទ្យាសម្រាប់ច្របាច់បញ្ចូលទិន្នន័យ (ភស្តុតាង) ដែលទទួលបានពីប្រភពច្រើនផ្សេងៗគ្នា ដើម្បីបង្កើតបានជាលទ្ធផលសម្រេចតែមួយ។	ដូចជាការយកបំណែករូបផ្គុំ (Jigsaw puzzle) ដែលបានមកពីមនុស្ស៥នាក់ផ្សេងគ្នា មកផ្គុំបញ្ចូលគ្នាដើម្បីមើលឱ្យឃើញរូបភាពធំតែមួយ។
Context-aware	គឺជាសមត្ថភាពរបស់ប្រព័ន្ធកុំព្យូទ័រក្នុងការចាប់ដឹងពីស្ថានភាពជុំវិញខ្លួន (ដូចជា ទីតាំង សីតុណ្ហភាព ឬសកម្មភាពអ្នកប្រើប្រាស់) ដើម្បីផ្លាស់ប្តូរឥរិយាបថរបស់វាឱ្យស្របតាមស្ថានភាពនោះ។	ដូចជាទូរស័ព្ទដៃដែលចេះបិទសំឡេងរោទ៍ដោយស្វ័យប្រវត្តិនៅពេលដឹងថាអ្នកកំពុងអង្គុយនៅក្នុងបន្ទប់ប្រជុំ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖