បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការទទួលបានព័ត៌មានមិនពាក់ព័ន្ធ និងភាពមិនច្បាស់លាស់នៃសំណួរមានន័យច្រើន (Polysemy) នៅក្នុងម៉ាស៊ីនស្វែងរកតាមពាក្យគន្លឹះប្រពៃណី ក្នុងកំលុងពេលដែលទិន្នន័យអនឡាញមានការកើនឡើងយ៉ាងគំហុក។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះធ្វើការវិភាគ និងប្រៀបធៀបម៉ាស៊ីនស្វែងរកតាមន័យ (Semantic Search Engines) ផ្សេងៗគ្នា ដោយផ្អែកលើលក្ខណៈពិសេស និងបច្ចេកវិទ្យាដែលពួកវាប្រើប្រាស់ដើម្បីទាញយកព័ត៌មាន។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Hakia (Pure Analysis of contents) ការវិភាគមាតិកាសុទ្ធ |
ផ្តល់ទិន្នន័យពាក់ព័ន្ធពីគេហទំព័រដែលអាចទុកចិត្តបាន កាត់បន្ថយពេលវេលាស្វែងរក និងលុបបំបាត់ភាពមិនច្បាស់លាស់។ | ជួនកាលផ្តល់លទ្ធផលតិចតួចបើប្រៀបធៀបទៅនឹងម៉ាស៊ីនស្វែងរកធម្មតា ដោយសារវាផ្តោតលើបរិបទអត្ថន័យសុទ្ធសាធ។ | ផ្តល់លទ្ធផលចែកចេញជាបណ្ដាញ (Web) ព័ត៌មាន ប្លុក វីដេអូ ដោយមានទម្រង់ជាតំណភ្ជាប់និងអត្ថបទសេរី។ |
| DuckDuckGo (Meta search engine) ម៉ាស៊ីនស្វែងរកមេតាផ្អែកលើអត្ថន័យ |
ការពារឯកជនភាពដោយមិនតាមដានអ្នកប្រើប្រាស់ និងដោះស្រាយបញ្ហាពាក្យមានន័យច្រើន (Polysemy) បានយ៉ាងល្អ។ | ពឹងផ្អែកលើការប្រមូលព័ត៌មានពីម៉ាស៊ីនស្វែងរកផ្សេងៗ ឬប្រភពខាងក្រៅដូចជា Wikipedia និង Yahoo ជាជាងប្រព័ន្ធរុករកផ្ទាល់ខ្លួនទាំងស្រុង។ | ផ្តល់លទ្ធផលជាទម្រង់សេចក្តីសង្ខេប រូបភាព ការស្វែងរកតាមតំបន់ និងការផ្តល់យោបល់ដោយស្វ័យប្រវត្តិ។ |
| Sensebot (Text mining & Multi-records summarization) ការជីកកាយអត្ថបទ និងសង្ខេបពហុឯកសារ |
ផ្តល់ជាសេចក្តីសង្ខេបនៃលទ្ធផលកំពូលៗ ជំនួសឱ្យការបង្ហាញតំណភ្ជាប់ (Links) ជាច្រើនដែលធ្វើឱ្យខាតពេលវេលាអាន។ | មិនសូវស័ក្តិសមសម្រាប់ការស្វែងរកបែប Navigational ដែលអ្នកប្រើប្រាស់ចង់ស្វែងរកគេហទំព័រគោលដៅជាក់លាក់ណាមួយ។ | បង្កើតអត្ថបទសង្ខេបពីគេហទំព័រជាច្រើនដែលទាក់ទងនឹងប្រធានបទសំណួររបស់អ្នកប្រើប្រាស់។ |
| Swoogle (Indexes documents using RDF) ការធ្វើលិបិក្រមឯកសារដោយប្រើប្រាស់ RDF |
អាចស្វែងរក Ontologies និងរចនាសម្ព័ន្ធទិន្នន័យ (Instance data structure) ដែលស័ក្តិសមបំផុតសម្រាប់ Semantic Web។ | តំបន់បណ្ដាញជ្រៅ (Deep web) គឺជាឧបសគ្គនិងជាតំបន់មិនអំណោយផលសម្រាប់កម្មវិធីរុករក (Web crawlers) របស់វា។ | ផ្តល់លទ្ធផលដែលទាក់ទងនឹង Web Ontologies និងទម្រង់ឯកសារ OWL, RDF ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារបានបញ្ជាក់យ៉ាងច្បាស់ថា ការបង្កើត Ontology ដែលជាមូលដ្ឋានគ្រឹះនៃម៉ាស៊ីនស្វែងរកតាមន័យ គឺមានតម្លៃថ្លៃ មានភាពស្មុគស្មាញ និងទាមទារពេលវេលាច្រើនក្នុងការអភិវឌ្ឍ។
ការសិក្សានេះគឺជាការស្រាវជ្រាវបែបស្ទង់មតិ (Survey Paper) ដែលវាយតម្លៃលើម៉ាស៊ីនស្វែងរកតាមន័យកម្រិតសកល (ភាគច្រើនផ្តោតលើទិន្នន័យភាសាអង់គ្លេស និងស្តង់ដារអន្តរជាតិ)។ នេះជាបញ្ហាប្រឈមធំមួយសម្រាប់ប្រទេសកម្ពុជា ដោយសារបច្ចេកវិទ្យា Semantic ទាំងនេះពឹងផ្អែកយ៉ាងខ្លាំងលើ NLP និង Ontologies ដែលបច្ចុប្បន្ននៅមានកម្រិតខ្លាំងនៅឡើយសម្រាប់ភាសាខ្មែរ ដែលជាភាសាមានធនធានតិច (Low-resource language)។
បច្ចេកវិទ្យាស្វែងរកតាមន័យ (Semantic Search) នេះមានសក្តានុពលខ្ពស់និងមានសារៈសំខាន់ណាស់ក្នុងការធ្វើឱ្យប្រសើរឡើងនូវប្រព័ន្ធគ្រប់គ្រងព័ត៌មានឌីជីថលនៅក្នុងប្រទេសកម្ពុជា។
ការចាប់ផ្តើមអភិវឌ្ឍ Ontologies និងក្របខ័ណ្ឌ Semantic សម្រាប់ភាសាខ្មែរ នឹងផ្លាស់ប្តូររបៀបដែលស្ថាប័ននានានៅកម្ពុជាផ្តល់ព័ត៌មាន ឈានទៅរកការស្វែងរកប្រកបដោយភាពវៃឆ្លាតនិងចំគោលដៅពិតប្រាកដ ជាជាងការពឹងផ្អែកលើការផ្គូផ្គងពាក្យគន្លឹះ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Ontology | ជាការសិក្សាអំពីទំនាក់ទំនងរវាងវត្ថុ និងលក្ខណៈសម្បត្តិរបស់វា ដែលត្រូវបានប្រើក្នុងប្រព័ន្ធកុំព្យូទ័រដើម្បីរៀបចំនិងកំណត់និយមន័យនៃពាក្យ ឬទិន្នន័យ ដើម្បីឱ្យម៉ាស៊ីនអាចយល់ពីអត្ថន័យ និងបរិបទបានយ៉ាងច្បាស់។ | ដូចជាវចនានុក្រមវៃឆ្លាតមួយដែលមិនត្រឹមតែប្រាប់ពីន័យរបស់ពាក្យទេ តែថែមទាំងប្រាប់ពីរបៀបដែលពាក្យនោះទាក់ទងនឹងពាក្យផ្សេងៗទៀតផងដែរ។ |
| RDF (Resource Description Framework) | ជាស្តង់ដាររបស់ W3C សម្រាប់រៀបចំ និងពិពណ៌នាអំពីទិន្នន័យនៅលើបណ្តាញអ៊ីនធឺណិត ដោយប្រើរចនាសម្ព័ន្ធជា "ប្រធានបទ-កិរិយា-កម្មបទ" (Subject-Predicate-Object) ដើម្បីឱ្យម៉ាស៊ីនងាយស្រួលអាននិងតភ្ជាប់ព័ត៌មានពីប្រភពផ្សេងៗគ្នា។ | ដូចជាស្លាកសញ្ញា (Tag) ស្តង់ដារដែលគេបិទលើទំនិញ ដើម្បីឱ្យម៉ាស៊ីនស្កេនដឹងភ្លាមថាវាជាអ្វី មានពណ៌អ្វី និងផលិតនៅឯណា។ |
| Polysemy | ជាបាតុភូតនៃភាសាដែលពាក្យមួយមានអត្ថន័យច្រើនខុសៗគ្នាអាស្រ័យលើបរិបទនៃការប្រើប្រាស់ ដែលវាជាបញ្ហាប្រឈមធំមួយសម្រាប់ម៉ាស៊ីនស្វែងរកធម្មតាក្នុងការផ្តល់លទ្ធផលត្រឹមត្រូវ។ | ដូចជាពាក្យ "លា" ដែលអាចមានន័យថា "សត្វលា" "លាដៃ" ឬ "និយាយលា" ដែលទាមទារឱ្យដឹងពីសាច់រឿងទើបយល់ន័យពិត។ |
| Text mining | ជាដំណើរការនៃការប្រើប្រាស់កម្មវិធីកុំព្យូទ័រដើម្បីទាញយកព័ត៌មានសំខាន់ៗ លំនាំ ឬអត្ថន័យពីឯកសារអត្ថបទដ៏ច្រើនសន្ធឹកសន្ធាប់ដោយស្វ័យប្រវត្តិ។ | ដូចជាការប្រើម៉ាស៊ីនរែងមាស ដើម្បីរែងយកតែគ្រាប់មាសសុទ្ធ (ព័ត៌មានសំខាន់) ចេញពីគំនរខ្សាច់ដ៏ធំ (អត្ថបទវែងៗ)។ |
| Natural Language Processing | ជាបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត (AI) ដែលអនុញ្ញាតឱ្យកុំព្យូទ័រអាចអាន យល់ បកស្រាយ និងឆ្លើយតបនឹងភាសារបស់មនុស្សប្រកបដោយអត្ថន័យ។ | ដូចជាអ្នកបកប្រែភាសាផ្ទាល់ខ្លួនដែលជួយបកប្រែភាសានិយាយរបស់មនុស្ស ទៅជាភាសាដែលម៉ាស៊ីនកុំព្យូទ័រអាចយល់និងប្រតិបត្តិបាន។ |
| URI (Uniform Resource Identity) | ជាខ្សែអក្សរពិសេសមួយដែលត្រូវបានប្រើសម្រាប់កំណត់អត្តសញ្ញាណធនធានណាមួយ (ដូចជាឯកសារ រូបភាព ឬទិន្នន័យ) នៅលើអ៊ីនធឺណិតឱ្យមានលក្ខណៈឯកសណ្ឋាននិងមិនជាន់គ្នា។ | ដូចជាលេខអត្តសញ្ញាណប័ណ្ណរបស់មនុស្សម្នាក់ៗ ដែលជួយសម្គាល់ថាអ្នកនោះជានរណាឱ្យប្រាកដនៅលើពិភពអ៊ីនធឺណិត។ |
| Semantic Web | ជាការវិវត្តបន្តនៃបណ្តាញអ៊ីនធឺណិត (Web) ដែលព័ត៌មានត្រូវបានភ្ជាប់ទំនាក់ទំនងគ្នា និងរៀបចំជារចនាសម្ព័ន្ធច្បាស់លាស់ ធ្វើឱ្យកុំព្យូទ័រអាចធ្វើការរួមគ្នាជាមួយមនុស្សក្នុងការស្វែងរក និងប្រើប្រាស់ទិន្នន័យ។ | ដូចជាបណ្ណាល័យដ៏ធំមួយដែលសៀវភៅទាំងអស់មិនត្រឹមតែដាក់លើធ្នើទេ តែមានខ្សែភ្ជាប់ប្រាប់ថាសៀវភៅនេះទាក់ទងនឹងសៀវភៅណាខ្លះដោយស្វ័យប្រវត្តិ។ |
| web crawlers | ជាកម្មវិធីកុំព្យូទ័រដែលដើរប្រមូលទិន្នន័យពីគេហទំព័រមួយទៅគេហទំព័រមួយទៀតដោយស្វ័យប្រវត្តិនៅលើអ៊ីនធឺណិត ដើម្បីយកមកធ្វើលិបិក្រម (Index) សម្រាប់ម៉ាស៊ីនស្វែងរក។ | ដូចជាសត្វពីងពាងដែលវារតាមសរសៃសំបុករបស់វា ដើម្បីស្វែងរកនិងប្រមូលព័ត៌មានពីគ្រប់ជ្រុងទាំងអស់នៃបណ្តាញ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖