បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃប្រព័ន្ធទាញយកព័ត៌មានគណិតវិទ្យា ដែលបច្ចេកទេសទាញយកបែបស្តើង (Sparse retrieval) តែងតែបរាជ័យក្នុងការស្វែងរកអត្ថបទដែលមានអត្ថន័យស្រដៀងគ្នា តែប្រើប្រាស់វាក្យសព្ទ ឬទម្រង់ខុសគ្នា។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រៀបធៀបម៉ូដែលលំហវ៉ិចទ័រទន់ (Soft vector space model) ជាមួយនឹងប្រព័ន្ធគោល (Baselines) ដោយវាយតម្លៃលើទម្រង់តំណាងគណិតវិទ្យា និងវិធីសាស្ត្រវាស់ស្ទង់ភាពស្រដៀងគ្នាផ្សេងៗ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Baseline: Lucene BM25 (Sparse Retrieval) ម៉ូដែលគោល Lucene BM25 (ការទាញយកព័ត៌មានបែបស្តើង) |
មានល្បឿនលឿន និងមានភាពសុក្រឹតខ្ពស់ក្នុងការទាញយកឯកសារដែលមានពាក្យគន្លឹះដូចគ្នាទាំងស្រុង (Exact matches)។ | មិនអាចស្វែងរកឯកសារដែលមានអត្ថន័យស្រដៀងគ្នា ប៉ុន្តែប្រើប្រាស់វាក្យសព្ទ ឬទម្រង់សរសេរខុសគ្នា (ឧទាហរណ៍ ភាសាធម្មតា និងរូបមន្តគណិតវិទ្យា)។ | ទទួលបានពិន្ទុ NDCG' ០,២៣៥ (លើអត្ថបទសុទ្ធ) និង ០,២៥៧ (លើអត្ថបទបូកគណិតវិទ្យា)។ |
| Joint Soft Vector Space Model (Text + MathBERTa) ម៉ូដែលលំហវ៉ិចទ័រទន់រួមបញ្ចូលគ្នា (អត្ថបទ + MathBERTa) |
អនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ស្វែងរកព័ត៌មានគណិតវិទ្យាដោយប្រើភាសាធម្មតា និងផ្ទុយមកវិញ ហើយមានប្រសិទ្ធភាពល្អជាងម៉ូដែលគោល។ | ជួបការលំបាកក្នុងការតំណាងឱ្យរបាយប្រេកង់ (Frequency distributions) ដែលខុសគ្នារវាងកូដអត្ថបទ និងកូដគណិតវិទ្យានៅក្នុងម៉ូដែលតែមួយ។ | ទទួលបានពិន្ទុអតិបរមា NDCG' ០,២៥១ នៅក្នុងចំណោមម៉ូដែលរួមបញ្ចូលគ្នា។ |
| Interpolated Soft Vector Space Model (Tangent-L + Positional word2vec) ម៉ូដែលលំហវ៉ិចទ័រទន់បំបែក (Interpolated) ជាមួយ Tangent-L និង Positional word2vec |
ទទួលបានប្រសិទ្ធភាពខ្ពស់បំផុត ដោយសារវាគ្រប់គ្រងលក្ខណៈនៃអត្ថបទ និងគណិតវិទ្យាដាច់ដោយឡែកពីគ្នា ព្រមទាំងប្រើទម្រង់ Tangent-L ដែលល្អជាង LaTeX សម្រាប់ការស្វែងរក។ | បាត់បង់សមត្ថភាពក្នុងការស្វែងរកភាពស្រដៀងគ្នាដោយផ្ទាល់រវាងតំណាងកូដអត្ថបទ និងកូដគណិតវិទ្យា។ | ទទួលបានពិន្ទុខ្ពស់ជាងគេបំផុតក្នុងការសិក្សាគឺ NDCG' ០,៣៥៥។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះតម្រូវឱ្យមានធនធានកុំព្យូទ័រធំៗ និងសមត្ថភាពគណនាខ្ពស់សម្រាប់ការហ្វឹកហាត់ម៉ូដែលទំហំធំលើសំណុំទិន្នន័យរាប់លានឯកសារ។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យភាសាអង់គ្លេសទាំងស្រុងពីគេហទំព័រ Math StackExchange និង ArXiv ដែលជាឯកសារកម្រិតសិក្សាធិការ។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាឧបសគ្គដ៏ធំមួយ ព្រោះទិន្នន័យគណិតវិទ្យាឌីជីថល (MathML/LaTeX) រួមជាមួយអត្ថបទពន្យល់ជាភាសាខ្មែរនៅលើអ៊ីនធឺណិតនៅមានកម្រិតតិចតួចបំផុតនៅឡើយ។
ទោះបីជាមានបញ្ហាខ្វះខាតសំណុំទិន្នន័យក៏ដោយ ក៏វិធីសាស្ត្រនៃការបូកបញ្ចូលការស្វែងរកអត្ថបទនិងរូបមន្តគណិតវិទ្យានេះ មានសក្តានុពលខ្លាំងក្នុងការអភិវឌ្ឍប្រព័ន្ធអប់រំឌីជីថលនៅកម្ពុជា។
សរុបមក បច្ចេកវិទ្យានេះអាចជាគន្លឹះដ៏សំខាន់ក្នុងការធ្វើទំនើបកម្មប្រព័ន្ធស្រាវជ្រាវ និងការអប់រំផ្នែក STEM នៅកម្ពុជា ប្រសិនបើមានការវិនិយោគជាមុនលើការបង្កើតសំណុំទិន្នន័យ (Corpus) ជាភាសាខ្មែរ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Sparse retrieval | បច្ចេកទេសស្វែងរកទិន្នន័យដែលពឹងផ្អែកលើការផ្គូផ្គងពាក្យគន្លឹះពិតប្រាកដ (exact match) រវាងសំណួរនិងឯកសារ ដោយប្រើប្រាស់រចនាសម្ព័ន្ធទិន្នន័យដែលមានលេខសូន្យច្រើន (Sparse Vectors)។ វាពូកែស្វែងរកពាក្យដូចគ្នា ប៉ុន្តែខ្សោយក្នុងការយល់អត្ថន័យ។ | ដូចជាការស្វែងរកសៀវភៅក្នុងបណ្ណាល័យដោយមើលតែចំណងជើងដែលត្រូវគ្នាបេះបិទនឹងពាក្យដែលយើងចង់រក ដោយមិនខ្វល់ថាសៀវភៅនោះនិយាយពីអ្វីឱ្យប្រាកដនោះទេ។ |
| Dense retrieval | បច្ចេកទេសស្វែងរកទិន្នន័យដែលបំប្លែងពាក្យឬអត្ថបទទៅជាវ៉ិចទ័រលេខតូចៗតែណែន (Dense Vectors) តាមរយៈការប្រើប្រាស់ AI (Neural Networks) ដើម្បីស្វែងរកឯកសារដែលមានអត្ថន័យស្រដៀងគ្នា ទោះបីជាមិនប្រើពាក្យដូចគ្នាក៏ដោយ។ | ដូចជាការសួររក "កន្លែងញ៉ាំបាយ" ហើយអ្នកបណ្ណាល័យណែនាំសៀវភៅ "ភោជនីយដ្ឋានឆ្ងាញ់ៗ" ព្រោះគេយល់ពីអត្ថន័យដែលយើងចង់បាន ទោះបីយើងមិនបានប្រើពាក្យ "ភោជនីយដ្ឋាន" ក៏ដោយ។ |
| Soft vector space model | ម៉ូដែលលំហវ៉ិចទ័រដែលកែលម្អពីម៉ូដែលធម្មតា ដោយអនុញ្ញាតឱ្យមានការគណនាភាពស្រដៀងគ្នារវាងពាក្យខុសៗគ្នា (មានន័យស្រដៀងគ្នា ឬមានទម្រង់កូដគណិតវិទ្យាស្រដៀងគ្នា) មិនមែនទាមទារតែពាក្យដូចគ្នាទាំងស្រុងនោះទេ។ | ដូចជាប្រព័ន្ធដាក់ពិន្ទុដែលផ្តល់ពិន្ទុឱ្យអ្នក ទោះបីជាអ្នកឆ្លើយសំណួរដោយប្រើពាក្យខុសពីចម្លើយគំរូក៏ដោយ ឱ្យតែអត្ថន័យដូចគ្នា។ |
| MathBERTa | ម៉ូដែលភាសាប្រភេទ Transformer (ផ្អែកលើម៉ូដែល RoBERTa) ដែលត្រូវបានហ្វឹកហាត់បន្ថែមជាពិសេស ដើម្បីយល់និងដំណើរការរូបមន្តគណិតវិទ្យាដែលសរសេរជាទម្រង់កូដ LaTeX លាយឡំជាមួយនឹងអត្ថបទធម្មតា។ | ដូចជាអ្នកបកប្រែភាសាដែលមិនត្រឹមតែចេះភាសាអង់គ្លេសស្ទាត់ជំនាញទេ ថែមទាំងពូកែអាននិងយល់អត្ថន័យនៃរូបមន្តគណិតវិទ្យាដ៏ស្មុគស្មាញទៀតផង។ |
| Tangent-L | ទម្រង់កូដតំណាងឱ្យរូបមន្តគណិតវិទ្យាដែលត្រូវបានរចនាឡើងពិសេសសម្រាប់ប្រព័ន្ធស្វែងរក ដោយវាបង្ហាញពីរចនាសម្ព័ន្ធដើមឈើ និងទំនាក់ទំនងនៃនិមិត្តសញ្ញាគណិតវិទ្យាបានច្បាស់លាស់ជាងកូដ LaTeX ទូទៅ។ | ដូចជាការគូសប្លង់ផ្ទះដែលបង្ហាញយ៉ាងច្បាស់ពីទីតាំងបន្ទប់នីមួយៗ និងរបៀបដែលវាភ្ជាប់គ្នា ជំនួសឱ្យការគ្រាន់តែរៀបរាប់បន្តបន្ទាប់គ្នាជាអក្សរ។ |
| NDCG' | រង្វាស់សម្រាប់វាយតម្លៃគុណភាពនៃប្រព័ន្ធស្វែងរក (Information Retrieval Metric) ដែលវាស់ថាតើលទ្ធផលដែលពាក់ព័ន្ធបំផុត និងត្រឹមត្រូវបំផុត ត្រូវបានបង្ហាញនៅចំណាត់ថ្នាក់លើគេកម្រិតណា។ | ដូចជាការវាយតម្លៃអ្នករត់តុ ដោយមើលថាតើគាត់លើកម្ហូបដែលឆ្ងាញ់និងត្រូវមាត់ភ្ញៀវជាងគេមកមុនគេ ឬទុកម្ហូបឆ្ងាញ់នោះនៅក្បែរចុងក្រោយ។ |
| word2vec | ក្បួនដោះស្រាយ (Algorithm) ម៉ាស៊ីនរៀន ដែលប្រើបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដ៏សាមញ្ញ ដើម្បីបំប្លែងពាក្យទៅជាវ៉ិចទ័រលេខ ដែលពាក្យមានន័យស្រដៀងគ្នានឹងមានលេខវ៉ិចទ័រនៅជិតគ្នាក្នុងលំហគណិតវិទ្យា។ | ដូចជាការរៀបចំផែនទីពាក្យ ដែលទីក្រុង (ពាក្យ) ដែលមានអាកាសធាតុស្រដៀងគ្នា (អត្ថន័យដូចគ្នា) ត្រូវបានដាក់ឱ្យនៅជិតគ្នាលើផែនទី។ |
| Interpolated models | ការផ្សំម៉ូដែលស្វែងរកពីរឬច្រើនបញ្ចូលគ្នា ដោយប្រើរូបមន្តគណិតវិទ្យាដើម្បីបែងចែកទម្ងន់ពិន្ទុ (weights) នៃម៉ូដែលនីមួយៗ (ឧទាហរណ៍ មួយជំនាញខាងអត្ថបទ មួយជំនាញខាងរូបមន្ត) ដើម្បីបង្កើតលទ្ធផលចុងក្រោយដែលល្អជាងមុន។ | ដូចជាការយកពិន្ទុពីគ្រូពីរនាក់ដែលពូកែខាងមុខវិជ្ជាខុសគ្នា មកបូកបញ្ចូលគ្នាដើម្បីវាយតម្លៃសមត្ថភាពសិស្សម្នាក់ឱ្យបានសុក្រឹតបំផុត។ |
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖