បញ្ហា (The Problem)៖ ឯកសារនេះផ្តោតលើបញ្ហានៃការខ្វះខាតឧបករណ៍ និងការស្រាវជ្រាវសម្រាប់ការទាញយកព័ត៌មាន (Information retrieval) លើមាតិកាគណិតវិទ្យា ដែលទាមទារឱ្យមានប្រព័ន្ធដែលអាចស្វែងរកអត្ថបទ ទិន្នន័យមេតា និងរូបមន្តគណិតវិទ្យាដ៏ស្មុគស្មាញក្នុងពេលតែមួយ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានរៀបចំគំរូប្រព័ន្ធស្វែងរកដោយផ្អែកលើបណ្ណាល័យ Apache Lucene ដើម្បីរៀបចំលិបិក្រម និងទាញយកមាតិកាគណិតវិទ្យាសេម៉ង់ទិច។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| LeActiveMath Semantic Search (Lucene-based) ការស្វែងរកតាមសេម៉ង់ទិច LeActiveMath (ផ្អែកលើ Apache Lucene) |
មានភាពបត់បែនខ្ពស់ (Fuzzy matching) អាចស្វែងរកទាំងអត្ថបទ ទិន្នន័យមេតា និងរូបមន្តគណិតវិទ្យាក្នុងពេលតែមួយ និងមានល្បឿនលឿនកម្រិតខ្ពស់។ | ការផ្គូផ្គងរូបមន្តធ្វើឡើងតាមទម្រង់ Tokenization នៃរចនាសម្ព័ន្ធមែកធាង (Tree-walks) ដែលមិនមែនជាការបង្រួមតាមរូបមន្តគណិតវិទ្យាសុទ្ធសាធ (Unification) នោះទេ។ | អាចទាញយកឯកសារគណិតវិទ្យាដោយផ្អែកលើចំណាត់ថ្នាក់ពិន្ទុ (Ranked matches) និងគាំទ្រការស្វែងរករូបមន្តដែលមានចន្លោះទទេរ (Blanks) ប្រកបដោយប្រសិទ្ធភាព។ |
| MBase Pattern Matching ការផ្គូផ្គងលំនាំរូបមន្តរបស់ MBase |
អនុញ្ញាតឱ្យមានការផ្គូផ្គងរូបមន្តគណិតវិទ្យាជាមួយនឹងអថេរដែលអាចជំនួសបានដោយកន្សោមរង (Sub-expressions) យ៉ាងសុក្រឹត។ | ប្រើប្រាស់ការស្វែងរកតាមលំដាប់លំដោយ (Serial search) ដែលមិនមានសមត្ថភាពពង្រីកទំហំ (Not scalable) សម្រាប់មូលដ្ឋានទិន្នន័យធំៗ។ | អាចដំណើរការស្វែងរកបានសម្រាប់មូលដ្ឋានទិន្នន័យតូចៗ ប៉ុន្តែជួបបញ្ហាល្បឿននៅពេលទិន្នន័យកើនឡើងច្រើន។ |
| MathQL (HELM Project) ភាសាសំណួរ MathQL (គម្រោង HELM) |
មានគោលដៅស្វែងរកដោយប្រើក្បួនបង្រួមរូបមន្ត (Unification) ជំនួសឱ្យការផ្គូផ្គងលំនាំធម្មតា ដែលផ្តល់លទ្ធផលសុក្រឹតតាមបែបគណិតវិទ្យា។ | មានភាពស្មុគស្មាញខ្ពស់ ហើយនៅមិនទាន់សម្រេចបានគោលដៅពេញលេញនៅឡើយនៅក្នុងការអនុវត្តជាក់ស្តែងនៃប្រព័ន្ធធំៗ។ | ផ្តល់នូវទ្រឹស្តីមូលដ្ឋានដ៏ល្អសម្រាប់ការស្រាវជ្រាវ ប៉ុន្តែនៅមានកម្រិតក្នុងការប្រើប្រាស់ទូទៅសម្រាប់អ្នកសិក្សា។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ប្រព័ន្ធនេះទាមទារនូវធនធានកម្រិតមធ្យមទៅខ្ពស់ ពិសេសគឺផ្នែកកម្មវិធី (Software) សម្រាប់ការរៀបចំទិន្នន័យ និងការកសាងលិបិក្រម (Indexing) នៃមាតិកាគណិតវិទ្យាស្មុគស្មាញ។
ការសិក្សានេះត្រូវបានសាកល្បងនៅក្នុងគម្រោងពហុភាសា WebALT/LeActiveMath នៅអឺរ៉ុប ដែលប្រើប្រាស់ភាសាអង់គ្លេស និងអាល្លឺម៉ង់ជាចម្បង (ពិសេសសម្រាប់ការផ្គូផ្គងសូរសព្ទ - Phonetic matching)។ សម្រាប់បរិបទប្រទេសកម្ពុជា ការអនុវត្តប្រព័ន្ធនេះទាមទារឱ្យមានការកែច្នៃក្បួនដោះស្រាយសូរសព្ទ និងឧបករណ៍បំបែកពាក្យ (Tokenizer/Stemmer) ឱ្យស្របទៅនឹងវេយ្យាករណ៍នៃភាសាខ្មែរ។
បច្ចេកវិទ្យានេះមានអត្ថប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់ស្ថាប័នអប់រំនៅកម្ពុជា ក្នុងការរៀបចំឃ្លាំងទិន្នន័យ E-learning ដែលមានមុខវិជ្ជាវិទ្យាសាស្ត្រ និងវិស្វកម្ម។
ជារួម បច្ចេកវិទ្យានេះផ្តល់នូវគ្រឹះដ៏រឹងមាំក្នុងការកសាងប្រព័ន្ធអប់រំឌីជីថលទំនើបនៅកម្ពុជា ដែលមិនត្រឹមតែអាចស្វែងរកអត្ថបទប៉ុណ្ណោះទេ ថែមទាំងយល់ពីអត្ថន័យ និងរចនាសម្ព័ន្ធនៃរូបមន្តវិទ្យាសាស្ត្រផងដែរ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Information Retrieval | គឺជាដំណើរការនៃការស្វែងរក និងទាញយកទិន្នន័យ ឬឯកសារពាក់ព័ន្ធ (ដូចជាអត្ថបទ ឬរូបមន្ត) ពីក្នុងឃ្លាំងទិន្នន័យដ៏ធំ ដោយផ្អែកលើសំណួរ (Query) របស់អ្នកប្រើប្រាស់។ | ដូចជាបណ្ណារក្សដ៏ឆ្លាតវៃម្នាក់ ដែលជួយអ្នកស្វែងរកសៀវភៅបានត្រឹមត្រូវតាមប្រធានបទចេញពីបណ្ណាល័យដ៏ធំមួយ។ |
| Semantic Search | គឺជាបច្ចេកទេសស្វែងរកដែលមិនត្រឹមតែផ្គូផ្គងពាក្យប៉ុណ្ណោះទេ តែវាព្យាយាមយល់ពីអត្ថន័យ ទម្រង់ និងបរិបទនៃសំណួរ (ឧទាហរណ៍ យល់ពីរចនាសម្ព័ន្ធនៃរូបមន្តគណិតវិទ្យា)។ | ដូចជាមនុស្សដែលយល់ពីអត្ថន័យបង្កប់នៃសំណួររបស់អ្នក ជាជាងគ្រាន់តែដើររកមើលពាក្យដែលសរសេរដូចគ្នាទាំងស្រុង។ |
| Tokenization | គឺជាដំណើរការបំបែកអត្ថបទ ឬរូបមន្តគណិតវិទ្យាទៅជាបំណែកតូចៗ (ហៅថា Tokens) ដើម្បីងាយស្រួលក្នុងការរៀបចំលិបិក្រម (Index) សម្រាប់ការស្វែងរកដោយម៉ាស៊ីន។ | ដូចជាការហែកនំប៉័ងមួយដុំធំទៅជាចំណិតតូចៗ ដើម្បីងាយស្រួលក្នុងការទំពារនិងរំលាយ។ |
| Fuzzy matching | គឺជាវិធីសាស្ត្រស្វែងរកដែលអនុញ្ញាតឱ្យមានការអត់ឱនចំពោះកំហុសអក្ខរាវិរុទ្ធ ដោយវាអាចទាញយកលទ្ធផលដែលប្រហាក់ប្រហែលបំផុត ទោះបីជាអ្នកប្រើប្រាស់វាយពាក្យខុសមួយឬពីរតួអក្សរក៏ដោយ។ | ដូចជាការហៅឈ្មោះមិត្តភក្តិខុសបន្តិចបន្តួច ប៉ុន្តែគេនៅតែដឹងថាអ្នកកំពុងហៅគេដដែល។ |
| OpenMath | គឺជាស្តង់ដារមួយសម្រាប់ការសរសេរកូដ (Encoding) តំណាងឱ្យអត្ថន័យ (Semantics) នៃរូបមន្ត ឬវត្ថុគណិតវិទ្យា ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ និងផ្លាស់ប្តូរទិន្នន័យគ្នាបាន។ | ដូចជាភាសាយូនីវើសល (Universal language) មួយដែលកុំព្យូទ័រទាំងអស់អាចប្រើដើម្បីជជែកគ្នាពីរឿងគណិតវិទ្យា។ |
| Phonetic algorithm | ជាក្បួនដោះស្រាយដែលបំប្លែងពាក្យទៅជាទម្រង់កូដតំណាងឱ្យសូរសព្ទ ដើម្បីជួយក្នុងប្រព័ន្ធស្វែងរកឱ្យរកឃើញពាក្យដែលមានសំឡេងដូចគ្នា ទោះបីវាមានអក្ខរាវិរុទ្ធខុសគ្នាក៏ដោយ។ | ដូចជាការទាយរកពាក្យដែលត្រូវដោយស្តាប់សូរនៃសម្លេង ទោះបីជាអ្នកសរសេរពាក្យនោះខុសក៏ដោយ។ |
| Indexing | គឺជាការរៀបចំ និងចងក្រងទិន្នន័យ (ដូចជាពាក្យ ឬរូបមន្ត) ទុកជាមុនឱ្យមានសណ្តាប់ធ្នាប់ ដើម្បីជួយឱ្យប្រព័ន្ធអាចទាញយកឯកសារបានយ៉ាងរហ័សនៅពេលមានសំណួរស្វែងរក។ | ដូចជាតារាងលិបិក្រមពាក្យនៅខាងចុងសៀវភៅ ដែលជួយយើងរាវរកទំព័រនៃពាក្យគន្លឹះបានលឿនដោយមិនបាច់បើកមើលម្តងមួយទំព័រ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖