Original Title: A Study on Semantic Searching, Semantic Search Engines and Technologies Used for Semantic Search Engines
Source: doi.org/10.5815/ijitcs.2016.10.10
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសិក្សាអំពីការស្វែងរកតាមន័យ ម៉ាស៊ីនស្វែងរកតាមន័យ និងបច្ចេកវិទ្យាដែលប្រើសម្រាប់ម៉ាស៊ីនស្វែងរកតាមន័យ

ចំណងជើងដើម៖ A Study on Semantic Searching, Semantic Search Engines and Technologies Used for Semantic Search Engines

អ្នកនិពន្ធ៖ Junaid Rashid (COMSATS Institute of Information Technology, Pakistan), Muhammad Wasif Nisar (COMSATS Institute of Information Technology, Pakistan)

ឆ្នាំបោះពុម្ព៖ 2016, I.J. Information Technology and Computer Science

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការទទួលបានព័ត៌មានមិនពាក់ព័ន្ធ និងភាពមិនច្បាស់លាស់នៃសំណួរមានន័យច្រើន (Polysemy) នៅក្នុងម៉ាស៊ីនស្វែងរកតាមពាក្យគន្លឹះប្រពៃណី ក្នុងកំលុងពេលដែលទិន្នន័យអនឡាញមានការកើនឡើងយ៉ាងគំហុក។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះធ្វើការវិភាគ និងប្រៀបធៀបម៉ាស៊ីនស្វែងរកតាមន័យ (Semantic Search Engines) ផ្សេងៗគ្នា ដោយផ្អែកលើលក្ខណៈពិសេស និងបច្ចេកវិទ្យាដែលពួកវាប្រើប្រាស់ដើម្បីទាញយកព័ត៌មាន។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Hakia (Pure Analysis of contents)
ការវិភាគមាតិកាសុទ្ធ
ផ្តល់ទិន្នន័យពាក់ព័ន្ធពីគេហទំព័រដែលអាចទុកចិត្តបាន កាត់បន្ថយពេលវេលាស្វែងរក និងលុបបំបាត់ភាពមិនច្បាស់លាស់។ ជួនកាលផ្តល់លទ្ធផលតិចតួចបើប្រៀបធៀបទៅនឹងម៉ាស៊ីនស្វែងរកធម្មតា ដោយសារវាផ្តោតលើបរិបទអត្ថន័យសុទ្ធសាធ។ ផ្តល់លទ្ធផលចែកចេញជាបណ្ដាញ (Web) ព័ត៌មាន ប្លុក វីដេអូ ដោយមានទម្រង់ជាតំណភ្ជាប់និងអត្ថបទសេរី។
DuckDuckGo (Meta search engine)
ម៉ាស៊ីនស្វែងរកមេតាផ្អែកលើអត្ថន័យ
ការពារឯកជនភាពដោយមិនតាមដានអ្នកប្រើប្រាស់ និងដោះស្រាយបញ្ហាពាក្យមានន័យច្រើន (Polysemy) បានយ៉ាងល្អ។ ពឹងផ្អែកលើការប្រមូលព័ត៌មានពីម៉ាស៊ីនស្វែងរកផ្សេងៗ ឬប្រភពខាងក្រៅដូចជា Wikipedia និង Yahoo ជាជាងប្រព័ន្ធរុករកផ្ទាល់ខ្លួនទាំងស្រុង។ ផ្តល់លទ្ធផលជាទម្រង់សេចក្តីសង្ខេប រូបភាព ការស្វែងរកតាមតំបន់ និងការផ្តល់យោបល់ដោយស្វ័យប្រវត្តិ។
Sensebot (Text mining & Multi-records summarization)
ការជីកកាយអត្ថបទ និងសង្ខេបពហុឯកសារ
ផ្តល់ជាសេចក្តីសង្ខេបនៃលទ្ធផលកំពូលៗ ជំនួសឱ្យការបង្ហាញតំណភ្ជាប់ (Links) ជាច្រើនដែលធ្វើឱ្យខាតពេលវេលាអាន។ មិនសូវស័ក្តិសមសម្រាប់ការស្វែងរកបែប Navigational ដែលអ្នកប្រើប្រាស់ចង់ស្វែងរកគេហទំព័រគោលដៅជាក់លាក់ណាមួយ។ បង្កើតអត្ថបទសង្ខេបពីគេហទំព័រជាច្រើនដែលទាក់ទងនឹងប្រធានបទសំណួររបស់អ្នកប្រើប្រាស់។
Swoogle (Indexes documents using RDF)
ការធ្វើលិបិក្រមឯកសារដោយប្រើប្រាស់ RDF
អាចស្វែងរក Ontologies និងរចនាសម្ព័ន្ធទិន្នន័យ (Instance data structure) ដែលស័ក្តិសមបំផុតសម្រាប់ Semantic Web។ តំបន់បណ្ដាញជ្រៅ (Deep web) គឺជាឧបសគ្គនិងជាតំបន់មិនអំណោយផលសម្រាប់កម្មវិធីរុករក (Web crawlers) របស់វា។ ផ្តល់លទ្ធផលដែលទាក់ទងនឹង Web Ontologies និងទម្រង់ឯកសារ OWL, RDF ។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារបានបញ្ជាក់យ៉ាងច្បាស់ថា ការបង្កើត Ontology ដែលជាមូលដ្ឋានគ្រឹះនៃម៉ាស៊ីនស្វែងរកតាមន័យ គឺមានតម្លៃថ្លៃ មានភាពស្មុគស្មាញ និងទាមទារពេលវេលាច្រើនក្នុងការអភិវឌ្ឍ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះគឺជាការស្រាវជ្រាវបែបស្ទង់មតិ (Survey Paper) ដែលវាយតម្លៃលើម៉ាស៊ីនស្វែងរកតាមន័យកម្រិតសកល (ភាគច្រើនផ្តោតលើទិន្នន័យភាសាអង់គ្លេស និងស្តង់ដារអន្តរជាតិ)។ នេះជាបញ្ហាប្រឈមធំមួយសម្រាប់ប្រទេសកម្ពុជា ដោយសារបច្ចេកវិទ្យា Semantic ទាំងនេះពឹងផ្អែកយ៉ាងខ្លាំងលើ NLP និង Ontologies ដែលបច្ចុប្បន្ននៅមានកម្រិតខ្លាំងនៅឡើយសម្រាប់ភាសាខ្មែរ ដែលជាភាសាមានធនធានតិច (Low-resource language)។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យាស្វែងរកតាមន័យ (Semantic Search) នេះមានសក្តានុពលខ្ពស់និងមានសារៈសំខាន់ណាស់ក្នុងការធ្វើឱ្យប្រសើរឡើងនូវប្រព័ន្ធគ្រប់គ្រងព័ត៌មានឌីជីថលនៅក្នុងប្រទេសកម្ពុជា។

ការចាប់ផ្តើមអភិវឌ្ឍ Ontologies និងក្របខ័ណ្ឌ Semantic សម្រាប់ភាសាខ្មែរ នឹងផ្លាស់ប្តូររបៀបដែលស្ថាប័ននានានៅកម្ពុជាផ្តល់ព័ត៌មាន ឈានទៅរកការស្វែងរកប្រកបដោយភាពវៃឆ្លាតនិងចំគោលដៅពិតប្រាកដ ជាជាងការពឹងផ្អែកលើការផ្គូផ្គងពាក្យគន្លឹះ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ Semantic Web: និស្សិតត្រូវស្វែងយល់ពីស្ថាបត្យកម្មស្តង់ដាររបស់ W3C រួមមានការសរសេរកូដទិន្នន័យជាមួយ XML, ការពិពណ៌នាធនធានដោយប្រើតំណភ្ជាប់ (URI), និងការប្រើប្រាស់ RDF និង OWL
  2. អនុវត្ត NLP សម្រាប់ភាសាខ្មែរជាមូលដ្ឋាន: ត្រូវយល់ដឹងពីការដំណើរការភាសាធម្មជាតិ (NLP) សម្រាប់ភាសាខ្មែរ ជាពិសេសការកាត់ពាក្យ (Word Segmentation) និងការកំណត់ប្រភេទពាក្យ (POS Tagging) ដោយសាកល្បងប្រើប្រាស់ឧបករណ៍ដូចជា spaCy ឬបណ្ណាល័យកូដចំហរសម្រាប់ភាសាខ្មែរផ្សេងៗ។
  3. អភិវឌ្ឍគំរូ Ontology សម្រាប់វិស័យជាក់លាក់: ជ្រើសរើសវិស័យតូចមួយ (ឧទាហរណ៍៖ រចនាសម្ព័ន្ធមុខវិជ្ជាសាកលវិទ្យាល័យ ឬកសិកម្ម) ហើយប្រើប្រាស់កម្មវិធី Protégé ដើម្បីរៀបចំ Class, Properties និងទំនាក់ទំនងនៃទិន្នន័យ (Ontology Design)។
  4. ពិសោធន៍ជាមួយក្របខ័ណ្ឌ Semantic (Semantic Frameworks): សាកល្បងប្រើប្រាស់បណ្ណាល័យ Apache Jena សម្រាប់បង្កើតគំរូកម្មវិធីដែលអាននិងទាញយកទិន្នន័យពីឯកសារ RDF ដោយប្រើភាសាសំណួរ SPARQL
  5. សាងសង់ប្រព័ន្ធស្វែងរកគំរូ (Prototype Semantic Search): រួមបញ្ចូល Ontology ដែលបានបង្កើត ជាមួយនឹងប្រព័ន្ធស្វែងរកទំនើបដូចជា Elasticsearch ដោយប្រើ Semantic/Vector plugins ដើម្បីបង្កើតម៉ាស៊ីនស្វែងរកគំរូមួយដែលអាចយល់ពីសាកសព្ទ (Synonyms) និងបរិបទសំណួរ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Ontology ជាការសិក្សាអំពីទំនាក់ទំនងរវាងវត្ថុ និងលក្ខណៈសម្បត្តិរបស់វា ដែលត្រូវបានប្រើក្នុងប្រព័ន្ធកុំព្យូទ័រដើម្បីរៀបចំនិងកំណត់និយមន័យនៃពាក្យ ឬទិន្នន័យ ដើម្បីឱ្យម៉ាស៊ីនអាចយល់ពីអត្ថន័យ និងបរិបទបានយ៉ាងច្បាស់។ ដូចជាវចនានុក្រមវៃឆ្លាតមួយដែលមិនត្រឹមតែប្រាប់ពីន័យរបស់ពាក្យទេ តែថែមទាំងប្រាប់ពីរបៀបដែលពាក្យនោះទាក់ទងនឹងពាក្យផ្សេងៗទៀតផងដែរ។
RDF (Resource Description Framework) ជាស្តង់ដាររបស់ W3C សម្រាប់រៀបចំ និងពិពណ៌នាអំពីទិន្នន័យនៅលើបណ្តាញអ៊ីនធឺណិត ដោយប្រើរចនាសម្ព័ន្ធជា "ប្រធានបទ-កិរិយា-កម្មបទ" (Subject-Predicate-Object) ដើម្បីឱ្យម៉ាស៊ីនងាយស្រួលអាននិងតភ្ជាប់ព័ត៌មានពីប្រភពផ្សេងៗគ្នា។ ដូចជាស្លាកសញ្ញា (Tag) ស្តង់ដារដែលគេបិទលើទំនិញ ដើម្បីឱ្យម៉ាស៊ីនស្កេនដឹងភ្លាមថាវាជាអ្វី មានពណ៌អ្វី និងផលិតនៅឯណា។
Polysemy ជាបាតុភូតនៃភាសាដែលពាក្យមួយមានអត្ថន័យច្រើនខុសៗគ្នាអាស្រ័យលើបរិបទនៃការប្រើប្រាស់ ដែលវាជាបញ្ហាប្រឈមធំមួយសម្រាប់ម៉ាស៊ីនស្វែងរកធម្មតាក្នុងការផ្តល់លទ្ធផលត្រឹមត្រូវ។ ដូចជាពាក្យ "លា" ដែលអាចមានន័យថា "សត្វលា" "លាដៃ" ឬ "និយាយលា" ដែលទាមទារឱ្យដឹងពីសាច់រឿងទើបយល់ន័យពិត។
Text mining ជាដំណើរការនៃការប្រើប្រាស់កម្មវិធីកុំព្យូទ័រដើម្បីទាញយកព័ត៌មានសំខាន់ៗ លំនាំ ឬអត្ថន័យពីឯកសារអត្ថបទដ៏ច្រើនសន្ធឹកសន្ធាប់ដោយស្វ័យប្រវត្តិ។ ដូចជាការប្រើម៉ាស៊ីនរែងមាស ដើម្បីរែងយកតែគ្រាប់មាសសុទ្ធ (ព័ត៌មានសំខាន់) ចេញពីគំនរខ្សាច់ដ៏ធំ (អត្ថបទវែងៗ)។
Natural Language Processing ជាបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត (AI) ដែលអនុញ្ញាតឱ្យកុំព្យូទ័រអាចអាន យល់ បកស្រាយ និងឆ្លើយតបនឹងភាសារបស់មនុស្សប្រកបដោយអត្ថន័យ។ ដូចជាអ្នកបកប្រែភាសាផ្ទាល់ខ្លួនដែលជួយបកប្រែភាសានិយាយរបស់មនុស្ស ទៅជាភាសាដែលម៉ាស៊ីនកុំព្យូទ័រអាចយល់និងប្រតិបត្តិបាន។
URI (Uniform Resource Identity) ជាខ្សែអក្សរពិសេសមួយដែលត្រូវបានប្រើសម្រាប់កំណត់អត្តសញ្ញាណធនធានណាមួយ (ដូចជាឯកសារ រូបភាព ឬទិន្នន័យ) នៅលើអ៊ីនធឺណិតឱ្យមានលក្ខណៈឯកសណ្ឋាននិងមិនជាន់គ្នា។ ដូចជាលេខអត្តសញ្ញាណប័ណ្ណរបស់មនុស្សម្នាក់ៗ ដែលជួយសម្គាល់ថាអ្នកនោះជានរណាឱ្យប្រាកដនៅលើពិភពអ៊ីនធឺណិត។
Semantic Web ជាការវិវត្តបន្តនៃបណ្តាញអ៊ីនធឺណិត (Web) ដែលព័ត៌មានត្រូវបានភ្ជាប់ទំនាក់ទំនងគ្នា និងរៀបចំជារចនាសម្ព័ន្ធច្បាស់លាស់ ធ្វើឱ្យកុំព្យូទ័រអាចធ្វើការរួមគ្នាជាមួយមនុស្សក្នុងការស្វែងរក និងប្រើប្រាស់ទិន្នន័យ។ ដូចជាបណ្ណាល័យដ៏ធំមួយដែលសៀវភៅទាំងអស់មិនត្រឹមតែដាក់លើធ្នើទេ តែមានខ្សែភ្ជាប់ប្រាប់ថាសៀវភៅនេះទាក់ទងនឹងសៀវភៅណាខ្លះដោយស្វ័យប្រវត្តិ។
web crawlers ជាកម្មវិធីកុំព្យូទ័រដែលដើរប្រមូលទិន្នន័យពីគេហទំព័រមួយទៅគេហទំព័រមួយទៀតដោយស្វ័យប្រវត្តិនៅលើអ៊ីនធឺណិត ដើម្បីយកមកធ្វើលិបិក្រម (Index) សម្រាប់ម៉ាស៊ីនស្វែងរក។ ដូចជាសត្វពីងពាងដែលវារតាមសរសៃសំបុករបស់វា ដើម្បីស្វែងរកនិងប្រមូលព័ត៌មានពីគ្រប់ជ្រុងទាំងអស់នៃបណ្តាញ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖