បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការទាញយកព័ត៌មានពីគេហទំព័ររាប់ពាន់លាន ដែលការស្វែងរកតាមពាក្យគន្លឹះ (Keyword Search) បែបប្រពៃណីមិនអាចឆ្លើយតបនឹងសំណួរស្មុគស្មាញ និងខ្វះការយល់ដឹងស៊ីជម្រៅពីអត្ថន័យ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះធ្វើការត្រួតពិនិត្យអក្សរសិល្ប៍ (Literature Review) ទៅលើវិធីសាស្ត្រផ្សេងៗនៃម៉ាស៊ីនស្វែងរកតាមបែបសេម៉ែនទិក។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Structured Query Based Approaches (e.g., SHOE, Swoogle, NAGA) វិធីសាស្ត្រផ្អែកលើភាសាសំណួរមានរចនាសម្ព័ន្ធ |
ផ្តល់លទ្ធផលច្បាស់លាស់ អាចធ្វើការវែកញែកស៊ីជម្រៅ និងទាញយកទិន្នន័យជាក់លាក់ពីមូលដ្ឋានចំណេះដឹង (Knowledge base) បានយ៉ាងល្អ។ | អ្នកប្រើប្រាស់ទូទៅពិបាកប្រើ ដោយសារទាមទារការយល់ដឹងពីភាសាសំណួរកូដដូចជា SPARQL ឬការសរសេរវាក្យសម្ព័ន្ធជាក់លាក់។ | អាចទាញយក និងចាត់ថ្នាក់ទិន្នន័យមេតា (Metadata) ព្រមទាំងវិភាគទំនាក់ទំនងរវាងវត្ថុនៅលើបណ្តាញ Semantic Web សម្រាប់អ្នកជំនាញ។ |
| Keyword Based Approaches (e.g., Semsearch, Falcons, SWSE) វិធីសាស្ត្រផ្អែកលើពាក្យគន្លឹះ |
ងាយស្រួលប្រើសម្រាប់អ្នកប្រើប្រាស់ទូទៅ ដោយលាក់ភាពស្មុគស្មាញនៃប្រព័ន្ធសេម៉ែនទិកនៅពីក្រោយផ្ទាំងចំណុចប្រទាក់ស្រដៀងនឹង Google ។ | នៅតែអាចជួបប្រទះភាពស្រពិចស្រពិល (Ambiguity) ប្រសិនបើប្រព័ន្ធមិនអាចផ្គូផ្គងពាក្យគន្លឹះទៅនឹងអត្ថន័យអុនតូឡូជីបានត្រឹមត្រូវ។ | អាចបំប្លែងពាក្យគន្លឹះរបស់អ្នកប្រើប្រាស់ទៅជាទម្រង់សំណួរផ្លូវការ (Formal queries) ដើម្បីស្វែងរកឯកសារពាក់ព័ន្ធដោយស្វ័យប្រវត្តិ។ |
| Natural-language-based Approaches (e.g., Orakel, PowerAqua) វិធីសាស្ត្រផ្អែកលើភាសាធម្មជាតិ |
អនុញ្ញាតឱ្យអ្នកប្រើប្រាស់សួរសំណួរស្មុគស្មាញជាប្រយោគធម្មជាតិ (ដូចជាការនិយាយស្តីប្រចាំថ្ងៃ) បានយ៉ាងងាយស្រួល។ | មានភាពស្មុគស្មាញខ្លាំងក្នុងការបកប្រែប្រយោគទៅជាទម្រង់តក្កវិជ្ជា និងទាមទារប្រព័ន្ធវិភាគភាសា (NLP) ដែលមានសមត្ថភាពខ្ពស់។ | អាចឆ្លើយសំណួរពិតប្រាកដ ដោយស្វែងរក និងចងក្រងចម្លើយចេញពីប្រភពអុនតូឡូជីចម្រុះជាច្រើន (Heterogeneous sources)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់អំពីទំហំចំណាយ ឬធនធានហិរញ្ញវត្ថុជាក់លាក់នោះទេ ប៉ុន្តែការកសាងប្រព័ន្ធស្វែងរកសេម៉ែនទិកតម្រូវឱ្យមានការវិនិយោគយ៉ាងខ្លាំងលើហេដ្ឋារចនាសម្ព័ន្ធផ្នែកទន់ ការគ្រប់គ្រងទិន្នន័យ និងធនធានមនុស្ស។
ការសិក្សានេះគឺជាការត្រួតពិនិត្យអក្សរសិល្ប៍ទូទៅ ដោយផ្តោតលើប្រព័ន្ធដែលមានស្រាប់នៅឆ្នាំ ២០១១ ដែលភាគច្រើនប្រើប្រាស់ភាសាអង់គ្លេស និងសំណុំទិន្នន័យលោកខាងលិច (ដូចជា Wikipedia ឬ DBpedia)។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យអុនតូឡូជីជាភាសាខ្មែរ និងឧបករណ៍ NLP សម្រាប់វិភាគ និងបំបែកពាក្យខ្មែរ គឺជាឧបសគ្គដ៏ធំបំផុតដែលធ្វើឱ្យប្រព័ន្ធទាំងនេះមិនទាន់អាចយកមកប្រើប្រាស់ផ្ទាល់បានដោយគ្មានការកែច្នៃ។
ទោះបីជាមានបញ្ហាប្រឈមខាងផ្នែកភាសាក៏ពិតមែន ប៉ុន្តែគំនិតនៃ Semantic Web Search មានសារៈសំខាន់ និងមានសក្តានុពលខ្ពស់សម្រាប់ការរៀបចំប្រព័ន្ធទិន្នន័យនៅប្រទេសកម្ពុជាឱ្យកាន់តែមានភាពឆ្លាតវៃ។
សរុបមក ការចាប់ផ្តើមសាងសង់មូលដ្ឋានទិន្នន័យអុនតូឡូជី (Ontology) សម្រាប់ភាសាខ្មែរ និងបរិបទកម្ពុជា គឺជាជំហានយុទ្ធសាស្ត្រដ៏សំខាន់ឆ្ពោះទៅរកការទាញយកព័ត៌មានប្រកបដោយភាពឆ្លាតវៃនាពេលអនាគត។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Semantic Web | បណ្តាញអ៊ីនធឺណិតជំនាន់ថ្មីដែលរៀបចំទិន្នន័យមានរចនាសម្ព័ន្ធ និងអត្ថន័យច្បាស់លាស់ ដែលអនុញ្ញាតឱ្យកុំព្យូទ័រអាចយល់ វិភាគ និងទាញយកទិន្នន័យបានដោយស្វ័យប្រវត្តិ ជាជាងគ្រាន់តែបង្ហាញអត្ថបទឱ្យមនុស្សអាន។ | ដូចជាបណ្ណាល័យដែលសៀវភៅទាំងអស់មានដាក់ស្លាកពន្យល់ពីអត្ថន័យ និងទំនាក់ទំនងគ្នា ធ្វើឱ្យបណ្ណារក្ស (កុំព្យូទ័រ) ងាយស្រួលរកសៀវភៅដែលពាក់ព័ន្ធគ្នា។ |
| Ontologies | ប្រព័ន្ធវាក្យសព្ទដែលរៀបចំជាចំណាត់ថ្នាក់ និងកំណត់ទំនាក់ទំនងរវាងពាក្យ គំនិត ឬវត្ថុផ្សេងៗនៅក្នុងវិស័យណាមួយ ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ពីបរិបទ និងធ្វើការវែកញែកតក្កវិជ្ជាបាន។ | ដូចជាតារាងមែកធាងគ្រួសារ (Family Tree) ដែលប្រាប់កុំព្យូទ័រឱ្យដឹងថា "ឆ្កែ" គឺជាប្រភេទសត្វ ហើយវាមានទំនាក់ទំនងអ្វីខ្លះជាមួយវត្ថុដទៃទៀត។ |
| RDF (Resource Description Framework) | ទម្រង់ស្តង់ដារសម្រាប់សរសេរកូដ និងរៀបចំទិន្នន័យនៅលើបណ្តាញសេម៉ែនទិក ដោយប្រើប្រាស់រចនាសម្ព័ន្ធជាត្រីកោណ (Subject-Predicate-Object) ដើម្បីភ្ជាប់ព័ត៌មានចូលគ្នា។ | ដូចជាវេយ្យាករណ៍គោលដែលកុំព្យូទ័រទាំងអស់យល់ព្រមប្រើ ដើម្បីនិយាយប្រាប់គ្នាអំពីព័ត៌មានផ្សេងៗ (ឧ. ភ្នំពេញ -> ជារដ្ឋធានីរបស់ -> កម្ពុជា)។ |
| SPARQL | ភាសាសំណួរ (Query Language) ដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយសម្រាប់សួរ ស្វែងរក និងទាញយកទិន្នន័យចេញពីមូលដ្ឋានទិន្នន័យដែលសរសេរជាទម្រង់ RDF។ | ដូចជាភាសាពិសេសមួយដែលអ្នកប្រើដើម្បីបញ្ជាសួរអ្នកបណ្ណារក្សឱ្យទាញយកព័ត៌មានលម្អិតចេញពីបញ្ជីប័ណ្ណសៀវភៅដ៏ធំមួយ។ |
| Crawlers | កម្មវិធីកុំព្យូទ័រ (ជារឿយៗហៅថា Spider ឬ Bot) ដែលដើរប្រមូលព័ត៌មានពីគេហទំព័រមួយទៅគេហទំព័រមួយទៀតដោយស្វ័យប្រវត្តិ តាមរយៈតំណភ្ជាប់ (Links) ដើម្បីយកមកធ្វើសន្ទស្សន៍ (Indexing) សម្រាប់ម៉ាស៊ីនស្វែងរក។ | ដូចជាភ្នាក់ងារស៊ើបអង្កេតដ៏សកម្មម្នាក់ដែលដើរអានសៀវភៅរាប់លានក្បាល រួចកត់ត្រាទុកថាសៀវភៅណានិយាយពីរឿងអ្វីខ្លះ ដើម្បីងាយស្រួលប្រាប់យើងនៅពេលក្រោយ។ |
| OWL (Web Ontology Language) | ភាសាសរសេរកូដសម្រាប់ Semantic Web ដែលមានសមត្ថភាពខ្ពស់ក្នុងការកំណត់តក្កវិជ្ជា (Logic) និងទំនាក់ទំនងស្មុគស្មាញរវាងទិន្នន័យ លើសពីអ្វីដែល RDF អាចធ្វើបាន។ | ដូចជាសៀវភៅច្បាប់ដ៏តឹងរ៉ឹងមួយដែលកំណត់យ៉ាងច្បាស់ថា នរណាអាចមានទំនាក់ទំនងបែបណាជាមួយនរណា។ |
| Word Sense Disambiguation | បច្ចេកទេសក្នុងវិទ្យាសាស្ត្រកុំព្យូទ័រក្នុងការបែងចែកអត្ថន័យនៃពាក្យមួយដែលសរសេរដូចគ្នា តែមានន័យខុសគ្នា ដោយផ្អែកលើបរិបទនៃប្រយោគ ឬអុនតូឡូជី។ | ដូចជាការស្តាប់សំឡេងមនុស្សនិយាយ ហើយវែកញែកថាពាក្យ "លា" ក្នុងប្រយោគនោះ សំដៅលើសត្វលា ឬការជម្រាបលា ដោយមើលលើពាក្យដែលនៅជុំវិញវា។ |
| Faceted search | វិធីសាស្ត្រស្វែងរកដែលអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់បង្រួមលទ្ធផលស្វែងរកជាជំហានៗ ដោយជ្រើសរើសប្រភេទចំណាត់ថ្នាក់ ឬលក្ខណសម្បត្តិដែលបានកំណត់ទុកជាមុន។ | ដូចជាការទិញទំនិញអនឡាញ ដែលអ្នកអាចចុចជ្រើសរើសលើប្រអប់តម្រង (Filter) ពណ៌ ទំហំ និងតម្លៃ ដើម្បីរកមើលខោអាវដែលអ្នកចង់បានលឿនជាងមុន។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖