បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយភាពគ្មានប្រសិទ្ធភាព និងភាពស្មុគស្មាញនៃប្រព័ន្ធទាញយកព័ត៌មានគណិតវិទ្យា (MIR) បច្ចុប្បន្ន ដោយស្វែងរកការបង្កើតតំណាងឯកសារដែលមានភាពរហ័ស ត្រឹមត្រូវ និងអាចបកស្រាយបាន ដែលធ្វើគំរូទាំងអត្ថបទ និងរូបមន្តគណិតវិទ្យាបញ្ចូលគ្នា។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះវាយតម្លៃរង្វាស់ភាពស្រដៀងគ្នានៃឯកសារកម្រិតខ្ពស់ (SOTA) និងណែនាំបច្ចេកទេសថ្មីៗដើម្បីបំប្លែង និងធ្វើនិយតកម្មវ៉ិចទ័រន័យវិទ្យាទៅក្នុងប្រព័ន្ធស្វែងរកលិបិក្រមបញ្ច្រាស។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Bag-of-Words (BoW) / TF-IDF ការតំណាងឯកសារតាមរលកប្រេកង់ពាក្យ (Bag-of-Words/TF-IDF) |
មានភាពសាមញ្ញ ដំណើរការលឿន និងងាយស្រួលធ្វើសមាហរណកម្មជាមួយប្រព័ន្ធស្វែងរកដែលមានស្រាប់ដូចជា Elasticsearch។ | មិនអាចយល់ពីអត្ថន័យនៃពាក្យ (Semantic meaning) ពោលគឺវាចាត់ទុកពាក្យដែលមានន័យដូចគ្នា (Synonyms) ថាជាពាក្យខុសគ្នាស្រឡះ។ | ត្រូវបានប្រើប្រាស់ជាវិធីសាស្ត្រគោល (Baseline) ដែលមានអត្រាកំហុសខ្ពស់ជាងវិធីសាស្ត្រន័យវិទ្យាក្នុងការចាត់ថ្នាក់អត្ថបទ។ |
| Word Mover's Distance (WMD) រង្វាស់ចម្ងាយនៃការផ្លាស់ទីពាក្យ (Word Mover's Distance) |
មានភាពត្រឹមត្រូវខ្ពស់ក្នុងការវាស់វែងភាពស្រដៀងគ្នានៃអត្ថបទ ដោយពឹងផ្អែកលើចម្ងាយអប្បបរមានៃការបំប្លែងពាក្យ។ | មានភាពស្មុគស្មាញផ្នែកពេលវេលាខ្ពស់ខ្លាំង (Super-cubic time complexity) ដែលធ្វើឱ្យវាមិនអាចប្រើប្រាស់បានសម្រាប់ទិន្នន័យធំៗកម្រិតជាក់ស្តែង។ | ដំណើរការយឺតជាង Soft Cosine Measure ដល់ទៅ ១០,០០០ ដង និងមិនទទួលបានអត្ថប្រយោជន៍ពីការធ្វើបរិមាណ (Quantization) ទេ។ |
| Soft Cosine Measure (SCM) with Regularized Word Embeddings រង្វាស់ Soft Cosine Measure រួមបញ្ចូលជាមួយការបង្កប់ពាក្យដែលបានធ្វើនិយតកម្ម |
អាចចាប់យកអត្ថន័យពិតនៃពាក្យបានល្អ ហើយមានដំណើរការលឿនខ្លាំង (Linear time) តាមរយៈការប្រើប្រាស់ការធ្វើឱ្យមានលក្ខណៈអ័រតូហ្គោណាល់ (Orthogonalization)។ | ទាមទារឱ្យមានការគណនាទុកជាមុននូវម៉ាទ្រីសភាពស្រដៀងគ្នានៃពាក្យ (Word similarity matrix) និងការធ្វើ Cholesky factorization។ | កាត់បន្ថយកំហុសតេស្ត kNN ជាមធ្យម ៣៩% ធៀបនឹងម៉ូដែលធម្មតា និងដំណើរការលឿនជាង WMD យ៉ាងហោចណាស់ ១០,០០០ ដង។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធនេះទាមទារធនធានកុំព្យូទ័រធុនមធ្យមទៅខ្ពស់ ជាពិសេសអង្គចងចាំ (RAM) និងស៊ីភីយូពហុស្នូលសម្រាប់ការគណនាម៉ាទ្រីសធំៗ និងប្រព័ន្ធលិបិក្រម (Inverted Index)។
ការស្រាវជ្រាវនេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យជាភាសាអង់គ្លេស និងរូបមន្តគណិតវិទ្យាស្តង់ដារ (Wikipedia, arXiv,វេទិកាពិភាក្សា)។ សម្រាប់បរិបទប្រទេសកម្ពុជា ការអនុវត្តបច្ចេកទេសទាំងនេះនឹងប្រឈមមុខនឹងបញ្ហាកង្វះខាតឯកសារវិទ្យាសាស្ត្រជាទម្រង់ឌីជីថល (Math/STEM) និងបញ្ហាស្មុគស្មាញនៃការកាត់ពាក្យជាភាសាខ្មែរ (Khmer Word Segmentation) ដើម្បីបង្កើត Word Embeddings ដែលមានគុណភាពខ្ពស់។
វិធីសាស្ត្រ SCM រួមជាមួយនឹងលិបិក្រមបញ្ច្រាស (Inverted Indices) មានសក្តានុពលយ៉ាងខ្លាំងក្នុងការផ្លាស់ប្តូរប្រព័ន្ធស្វែងរកទិន្នន័យនៅកម្ពុជាពីការស្វែងរកតាមពាក្យគន្លឹះ ទៅជាការស្វែងរកតាមអត្ថន័យ (Semantic Search)។
ទោះបីជាខ្វះខាតទិន្នន័យគណិតវិទ្យាក្នុងស្រុកក៏ដោយ គោលការណ៍នៃ Soft Cosine Measure អាចត្រូវបានកែច្នៃដើម្បីបង្កើតប្រព័ន្ធស្វែងរកឯកសារភាសាខ្មែរឆ្លាតវៃ ដែលពង្រឹងគុណភាពសេវាកម្មរដ្ឋបាល និងអប់រំតាមបែបឌីជីថល។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Math Information Retrieval (MIR) | ប្រព័ន្ធស្វែងរកទិន្នន័យដែលត្រូវបានរចនាឡើងយ៉ាងពិសេសដើម្បីស្វែងរកឯកសារតាមរយៈរូបមន្តគណិតវិទ្យា និងទម្រង់សមីការ ជំនួសឱ្យការស្វែងរកត្រឹមតែពាក្យពេចន៍អក្សរធម្មតា។ | ដូចជាការប្រាប់ Google ឱ្យស្វែងរករូបមន្ត E=mc² ផ្ទាល់ ជាជាងវាយពាក្យថា «ថាមពលស្មើម៉ាសគុណនឹងល្បឿនពន្លឺ»។ |
| Soft Cosine Measure (SCM) | រង្វាស់គណិតវិទ្យាសម្រាប់វាស់ភាពស្រដៀងគ្នានៃឯកសារពីរ ដោយពិចារណាលើអត្ថន័យស្រដៀងគ្នានៃពាក្យ (synonyms) ទោះបីជាពាក្យទាំងនោះសរសេរខុសគ្នាក៏ដោយ តាមរយៈការប្រៀបធៀបវ៉ិចទ័ររបស់វា។ | ដូចជាមនុស្សពីរនាក់និយាយពីប្រធានបទតែមួយ តែម្នាក់ប្រើពាក្យ «រថយន្ត» ហើយម្នាក់ទៀតប្រើពាក្យ «ឡាន» ប្រព័ន្ធនៅតែអាចដឹងថាពួកគេនិយាយពីវត្ថុតែមួយ។ |
| Word Embeddings | ការបំប្លែងពាក្យនីមួយៗទៅជាវ៉ិចទ័រលេខ (ចំនុចនៅក្នុងលំហគណិតវិទ្យា) ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ពីអត្ថន័យ និងទំនាក់ទំនងរវាងពាក្យទាំងនោះ ដោយវាស់ស្ទង់គម្លាតចម្ងាយរបស់វានៅក្នុងលំហ។ | ដូចជាការគូសផែនទីបង្ហាញពីទំនាក់ទំនងរវាងទីក្រុងនានា ដោយទីក្រុងដែលមានវប្បធម៌ឬអាកាសធាតុស្រដៀងគ្នានឹងត្រូវបានដាក់ឱ្យស្ថិតនៅជិតគ្នាលើផែនទី។ |
| Inverted Index | រចនាសម្ព័ន្ធទិន្នន័យដែលផ្ទុកបញ្ជីពាក្យនីមួយៗ ហើយចង្អុលបង្ហាញថាពាក្យនោះស្ថិតនៅក្នុងឯកសារមួយណាខ្លះ ដើម្បីជួយឱ្យការទាញយកទិន្នន័យ (Search Engine) មានដំណើរការរហ័ស។ | ដូចជាលិបិក្រមនៅខាងក្រោយសៀវភៅ ដែលជួយអ្នកស្វែងរកពាក្យគន្លឹះណាមួយថានៅទំព័រណាបានយ៉ាងឆាប់រហ័ស។ |
| Cholesky Factorization | វិធីសាស្ត្រគណិតវិទ្យាក្នុងការបំបែកម៉ាទ្រីសធំៗ ដែលមានលក្ខណៈស្មុគស្មាញ ទៅជាទម្រង់ម៉ាទ្រីសត្រីកោណតូចជាង ដែលជួយឱ្យការគណនារង្វាស់ភាពស្រដៀងគ្នាមានល្បឿនលឿនជាងមុន។ | ដូចជាការបំបែកវិក្កយបត្រតម្លៃធំមួយទៅជាក្រដាសប្រាក់តូចៗ ដើម្បីងាយស្រួលក្នុងការចាយវាយនិងទូទាត់លុយអាប់បានលឿនជាងមុន។ |
| TF-IDF | រូបមន្តសម្រាប់វាយតម្លៃសារៈសំខាន់នៃពាក្យមួយនៅក្នុងឯកសារ ដោយវាស់ស្ទង់ថាតើពាក្យនោះលេចឡើងញឹកញាប់ប៉ុណ្ណានៅក្នុងឯកសារមួយ ធៀបនឹងភាពកម្ររបស់វានៅក្នុងបណ្តុំឯកសារទាំងអស់។ | ដូចជាការកំណត់អត្តសញ្ញាណមនុស្សម្នាក់តាមរយៈលក្ខណៈពិសេសរបស់គាត់ (ឧទាហរណ៍ ស្លាកស្នាម) ជាជាងលក្ខណៈទូទៅដែលអ្នកណាក៏មាន (ឧទាហរណ៍ មានសក់ខ្មៅ)។ |
| Vector Space Model (VSM) | គំរូគណិតវិទ្យាដែលតំណាងឱ្យឯកសារនីមួយៗជាចំណុចវ៉ិចទ័រក្នុងលំហ ដែលអនុញ្ញាតឱ្យកុំព្យូទ័រគណនាភាពស្រដៀងគ្នារវាងសំណួរនិងឯកសារ តាមរយៈការវាស់មុំ (Cosine) រវាងវ៉ិចទ័រទាំងពីរ។ | ដូចជាការដាក់តម្រៀបសៀវភៅតាមប្រភេទនៅតាមធ្នើរ ប្រសិនបើសៀវភៅពីរនៅធ្នើរជាប់គ្នា នោះមានន័យថាវាមានអត្ថន័យឬប្រធានបទស្រដៀងគ្នាខ្លាំង។ |
| Orthogonalization | ដំណើរការគណិតវិទ្យាក្នុងការបំប្លែងវ៉ិចទ័រដែលជាន់គ្នា ឬទាក់ទងគ្នា ឱ្យទៅជាវ៉ិចទ័រដែលកែងគ្នា (ឯករាជ្យពីគ្នា) ដើម្បីបង្កើនល្បឿនដំណើរការស្វែងរក និងសន្សំសំចៃអង្គចងចាំ។ | ដូចជាការរៀបចំសម្ភារៈរាយប៉ាយច្របូកច្របល់ ចូលទៅក្នុងប្រអប់ថតដាច់ដោយឡែកពីគ្នា ដែលធ្វើឱ្យយើងងាយស្រួលទាញយកវាមកប្រើប្រាស់ដោយមិនច្រឡំ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖