បញ្ហា (The Problem)៖ ម៉ាស៊ីនស្វែងរកធម្មតាមិនអាចបកស្រាយអត្ថន័យស៊ីជម្រៅនៃការស្វែងរករបស់អ្នកប្រើប្រាស់បានទេ ដែលធ្វើឱ្យការទាញយកឯកសារស្រាវជ្រាវជួបប្រទះភាពមិនច្បាស់លាស់ និងទទួលបានព័ត៌មានដែលមិនពាក់ព័ន្ធច្រើន។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានអភិវឌ្ឍអុនតូឡូជី (Ontology) ជាគំរូដើមសម្រាប់ផលិតកម្មស្រូវថៃ ដោយប្រមូលទិន្នន័យពីឯកសារនិងអ្នកជំនាញ ដើម្បីប្រើប្រាស់ជាមូលដ្ឋានចំណេះដឹងសម្រាប់ពង្រីកសំណួរស្វែងរកព័ត៌មាន។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Conventional Search ការស្វែងរកបែបប្រពៃណី (ផ្អែកលើពាក្យគន្លឹះ) |
ងាយស្រួលក្នុងការរៀបចំ និងមានស្រាប់នៅក្នុងប្រព័ន្ធស្វែងរកឯកសារទូទៅ ដោយមិនតម្រូវឱ្យមានការកសាងមូលដ្ឋានទិន្នន័យអត្ថន័យស្មុគស្មាញ។ | ប្រព័ន្ធមិនអាចយល់ពីអត្ថន័យ ឬពាក្យមានន័យដូច (Synonyms) បានឡើយ ដែលនាំឱ្យលទ្ធផលស្វែងរកមានភាពមិនពាក់ព័ន្ធច្រើន និងខកខានមិនបានបង្ហាញឯកសារដែលពាក់ព័ន្ធ។ | ទទួលបានភាពជាក់លាក់ (Precision) ជាមធ្យមត្រឹមតែ ០,០៨ និងអត្រាទាញយកទិន្នន័យបាន (Recall) ត្រឹមតែ ០,០១ ប៉ុណ្ណោះ។ |
| Ontology-based Search ការស្វែងរកផ្អែកលើអុនតូឡូជី (Ontology-based query expansion) |
អាចពង្រីកសំណួរស្វែងរកដោយស្វ័យប្រវត្តិ (Query Expansion) និងស្វែងរកឯកសារពាក់ព័ន្ធទោះបីជាប្រើពាក្យខុសគ្នាប៉ុន្តែមានអត្ថន័យដូចគ្នាក៏ដោយ។ | ទាមទារពេលវេលា កម្លាំងពលកម្ម និងធនធានច្រើនក្នុងការកសាងមូលដ្ឋានទិន្នន័យចំណេះដឹង តម្រូវឱ្យមានអ្នកជំនាញដើម្បីផ្ទៀងផ្ទាត់ភាពត្រឹមត្រូវ។ | ភាពជាក់លាក់ (Precision) បានកើនឡើងយ៉ាងខ្លាំងដល់ ០,៧២ និងអត្រាទាញយកទិន្នន័យបាន (Recall) កើនឡើងដល់ ០,៦៤។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍអុនតូឡូជីនេះទាមទារការសហការពីអ្នកជំនាញកសិកម្ម កម្មវិធីកុំព្យូទ័រឯកទេស និងធនធានឯកសារយ៉ាងច្រើនសន្ធឹកសន្ធាប់ ដើម្បីធានាបាននូវភាពត្រឹមត្រូវតាមទ្រឹស្តី។
ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងប្រទេសថៃ ដោយផ្តោតទាំងស្រុងលើពូជស្រូវថៃ និងប្រើប្រាស់ភាសាថៃ-អង់គ្លេស សម្រាប់ការសាងសង់ពាក្យគន្លឹះ និងវចនានុក្រម។ សម្រាប់ប្រទេសកម្ពុជា ទោះបីជាបរិបទកសិកម្មមានភាពស្រដៀងគ្នាក៏ពិតមែន ប៉ុន្តែការយកគំរូនេះមកអនុវត្តផ្ទាល់គឺមិនអាចទៅរួចឡើយ ដោយសារភាពខុសគ្នានៃភាសា ពាក្យបច្ចេកទេសក្នុងស្រុក និងពូជស្រូវកម្ពុជា ដែលទាមទារឱ្យមានការសាងសង់មូលដ្ឋានទិន្នន័យថ្មីទាំងស្រុងសម្រាប់បរិបទខ្មែរ។
ទោះជាមានបញ្ហាប្រឈមផ្នែកភាសា វិធីសាស្ត្រនៃការកសាងអុនតូឡូជីនេះគឺមានសារៈសំខាន់ និងមានសក្តានុពលខ្ពស់សម្រាប់ប្រទេសកម្ពុជាក្នុងការគ្រប់គ្រងចំណេះដឹងកសិកម្ម។
ការកសាងអុនតូឡូជីកសិកម្មផ្ទាល់ខ្លួនសម្រាប់កម្ពុជានឹងធ្វើទំនើបកម្មប្រព័ន្ធផ្ទុកឯកសារ និងបំប្លែងព័ត៌មានកសិកម្មធម្មតាទៅជាចំណេះដឹងដែលម៉ាស៊ីនអាចយល់និងវិភាគបានយ៉ាងមានប្រសិទ្ធភាព។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Ontology (អុនតូឡូជី) | ជាបណ្តុំនៃរចនាសម្ព័ន្ធទិន្នន័យដែលបង្ហាញពីទំនាក់ទំនងរវាងគោលគំនិត និងពាក្យបច្ចេកទេសនៅក្នុងវិស័យណាមួយ ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ និងទាញយកព័ត៌មានបានយ៉ាងឆ្លាតវៃ។ | ដូចជាតារាងមែកធាងគ្រួសារដែលបង្ហាញពីទំនាក់ទំនងរវាងសមាជិកគ្រួសារ និងតួនាទីរបស់ពួកគេម្នាក់ៗ ប៉ុន្តែនេះជាមែកធាងនៃពាក្យ និងគំនិតសម្រាប់ឱ្យកុំព្យូទ័រអាន។ |
| Query Expansion (ការពង្រីកសំណួរស្វែងរក) | ដំណើរការនៃការបន្ថែមពាក្យពាក់ព័ន្ធ (ដូចជាពាក្យមានន័យដូច ឬពាក្យលម្អិតជាង) ដោយស្វ័យប្រវត្តិទៅក្នុងពាក្យគន្លឹះដែលអ្នកប្រើប្រាស់បានវាយបញ្ចូល ដើម្បីស្វែងរកឯកសារបានកាន់តែច្រើន និងចំគោលដៅ។ | ដូចជាពេលយើងប្រាប់អ្នកលក់ឱ្យរក "ទូរស័ព្ទ" ហើយគាត់ឆ្លាតចេះរកទាំង "ស្មាតហ្វូន" និង "អាយហ្វូន" មកបង្ហាញយើងបន្ថែមទៀត។ |
| Precision (ភាពជាក់លាក់) | ជារង្វាស់ដែលវាស់ថាតើលទ្ធផលនៃការស្វែងរកដែលប្រព័ន្ធទាញយកមកបាន ប៉ុន្មានភាគរយដែលពិតជាពាក់ព័ន្ធនឹងអ្វីដែលយើងចង់បានពិតប្រាកដ (មិនមានឯកសាររាយប៉ាយខុសប្រធានបទ)។ | ដូចជាការបាញ់ព្រួញទៅចំគោលដៅ បើបាញ់១០ព្រួញ ចំគោលដៅទាំង១០ នោះមានន័យថាមានភាពជាក់លាក់ (Precision) ខ្ពស់បំផុត។ |
| Recall (អត្រាទាញយកទិន្នន័យបាន / ភាពគ្រប់ជ្រុងជ្រោយ) | ជារង្វាស់ដែលវាស់ថាតើប្រព័ន្ធស្វែងរកអាចទាញយកឯកសារដែលពាក់ព័ន្ធទាំងអស់ដែលមានក្នុងឃ្លាំងទិន្នន័យ បានប៉ុន្មានភាគរយ (ធានាថាមិនមានឯកសារសំខាន់ណាមួយត្រូវរំលង)។ | ដូចជាការប្រមូលផ្លែឈើទុំក្នុងចម្ការ បើមានផ្លែទុំ១០០ផ្លែ ហើយយើងរកឃើញនិងបេះបានទាំង១០០ផ្លែ នោះមានន័យថាអត្រានៃការប្រមូលមានភាពពេញលេញល្អ។ |
| OWL DL (Web Ontology Language Description Logic) | ជាភាសាស្តង់ដារមួយសម្រាប់ការសរសេរអុនតូឡូជីនៅលើគេហទំព័រ ដែលអនុញ្ញាតឱ្យកម្មវិធីកុំព្យូទ័រអាចគិតវែកញែករកទំនាក់ទំនងថ្មីៗដោយស្វ័យប្រវត្តិ ផ្អែកលើច្បាប់តក្កវិទ្យា។ | ដូចជាវេយ្យាករណ៍និងវាក្យសព្ទពិសេសមួយដែលផ្តល់សមត្ថភាពឱ្យកុំព្យូទ័រមិនត្រឹមតែអានអក្សរចេញ តែអាចយល់ពីអត្ថន័យ និងទាញការសន្និដ្ឋានបានដោយខ្លួនឯង។ |
| Associative relations (ទំនាក់ទំនងសហការ) | ការភ្ជាប់ទំនាក់ទំនងរវាងគោលគំនិតពីរដែលមិនមែនជាប្រភេទរងរបស់គ្នាទៅវិញទៅមក ប៉ុន្តែមានមុខងារពាក់ព័ន្ធគ្នា ឧទាហរណ៍ សត្វល្អិតចង្រៃ និង ជំងឺដែលវាផ្ទុក។ | ដូចជាការភ្ជាប់ទំនាក់ទំនងរវាង "មូស" និង "ជំងឺគ្រុនឈាម" ដែលមូសមិនមែនជាជំងឺ ហើយជំងឺមិនមែនជាមូស តែពួកវាមានទំនាក់ទំនងគ្នាយ៉ាងជិតស្និទ្ធ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖