Original Title: Combining Sparse and Dense Information Retrieval: Soft Vector Space Model and MathBERTa at ARQMath-3 Task 1 (Answer Retrieval)
Source: ceur-ws.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរួមបញ្ចូលគ្នានូវការទាញយកព័ត៌មានបែបស្តើងនិងក្រាស់៖ ម៉ូដែលលំហវ៉ិចទ័រទន់ និង MathBERTa នៅ ARQMath-3 កិច្ចការទី១ (ការទាញយកចម្លើយ)

ចំណងជើងដើម៖ Combining Sparse and Dense Information Retrieval: Soft Vector Space Model and MathBERTa at ARQMath-3 Task 1 (Answer Retrieval)

អ្នកនិពន្ធ៖ Vít Novotný (Faculty of Informatics Masaryk University), Michal Štefánik (Faculty of Informatics Masaryk University)

ឆ្នាំបោះពុម្ព៖ 2022 CLEF Conference and Labs of the Evaluation Forum

វិស័យសិក្សា៖ Information Retrieval

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃប្រព័ន្ធទាញយកព័ត៌មានគណិតវិទ្យា ដែលបច្ចេកទេសទាញយកបែបស្តើង (Sparse retrieval) តែងតែបរាជ័យក្នុងការស្វែងរកអត្ថបទដែលមានអត្ថន័យស្រដៀងគ្នា តែប្រើប្រាស់វាក្យសព្ទ ឬទម្រង់ខុសគ្នា។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានប្រៀបធៀបម៉ូដែលលំហវ៉ិចទ័រទន់ (Soft vector space model) ជាមួយនឹងប្រព័ន្ធគោល (Baselines) ដោយវាយតម្លៃលើទម្រង់តំណាងគណិតវិទ្យា និងវិធីសាស្ត្រវាស់ស្ទង់ភាពស្រដៀងគ្នាផ្សេងៗ។

ការប្រើប្រាស់ទម្រង់តំណាងគណិតវិទ្យាផ្សេងគ្នា ដូចជា LaTeX និង Tangent-L (Math Representations)
ការវាស់ស្ទង់ភាពស្រដៀងគ្នាដោយប្រើចម្ងាយ Levenshtein និងម៉ូដែលភាសា MathBERTa និង word2vec (Token Similarity)
ការបូកបញ្ចូលម៉ូដែលរួមគ្នា (Joint models) និងម៉ូដែលបំបែក (Interpolated models) សម្រាប់អត្ថបទនិងគណិតវិទ្យា

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការប្រើប្រាស់ម៉ូដែលលំហវ៉ិចទ័រទន់ (Soft vector space model) ជួយកែលម្អប្រសិទ្ធភាពនៃការទាញយកព័ត៌មានបានប្រសើរជាងបច្ចេកទេសស្តង់ដារ។
ទម្រង់តំណាងគណិតវិទ្យា Tangent-L ទទួលបានប្រសិទ្ធភាពខ្ពស់ជាង LaTeX ហើយការបង្កើតម៉ូដែលដាច់ដោយឡែកសម្រាប់អត្ថបទនិងគណិតវិទ្យាផ្តល់លទ្ធផលល្អជាងការរួមបញ្ចូលគ្នា។
ប្រព័ន្ធដ៏ល្អបំផុតរបស់ពួកគេសម្រេចបានពិន្ទុអតិបរមា NDCG' ០,៣៥៥ នៅក្នុងការធ្វើតេស្តក្រោយការប្រកួត ARQMath-3 កិច្ចការទី១ ដោយប្រើម៉ូដែលបែប Interpolated និងការតំណាង Tangent-L។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Baseline: Lucene BM25 (Sparse Retrieval) ម៉ូដែលគោល Lucene BM25 (ការទាញយកព័ត៌មានបែបស្តើង)	មានល្បឿនលឿន និងមានភាពសុក្រឹតខ្ពស់ក្នុងការទាញយកឯកសារដែលមានពាក្យគន្លឹះដូចគ្នាទាំងស្រុង (Exact matches)។	មិនអាចស្វែងរកឯកសារដែលមានអត្ថន័យស្រដៀងគ្នា ប៉ុន្តែប្រើប្រាស់វាក្យសព្ទ ឬទម្រង់សរសេរខុសគ្នា (ឧទាហរណ៍ ភាសាធម្មតា និងរូបមន្តគណិតវិទ្យា)។	ទទួលបានពិន្ទុ NDCG' ០,២៣៥ (លើអត្ថបទសុទ្ធ) និង ០,២៥៧ (លើអត្ថបទបូកគណិតវិទ្យា)។
Joint Soft Vector Space Model (Text + MathBERTa) ម៉ូដែលលំហវ៉ិចទ័រទន់រួមបញ្ចូលគ្នា (អត្ថបទ + MathBERTa)	អនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ស្វែងរកព័ត៌មានគណិតវិទ្យាដោយប្រើភាសាធម្មតា និងផ្ទុយមកវិញ ហើយមានប្រសិទ្ធភាពល្អជាងម៉ូដែលគោល។	ជួបការលំបាកក្នុងការតំណាងឱ្យរបាយប្រេកង់ (Frequency distributions) ដែលខុសគ្នារវាងកូដអត្ថបទ និងកូដគណិតវិទ្យានៅក្នុងម៉ូដែលតែមួយ។	ទទួលបានពិន្ទុអតិបរមា NDCG' ០,២៥១ នៅក្នុងចំណោមម៉ូដែលរួមបញ្ចូលគ្នា។
Interpolated Soft Vector Space Model (Tangent-L + Positional word2vec) ម៉ូដែលលំហវ៉ិចទ័រទន់បំបែក (Interpolated) ជាមួយ Tangent-L និង Positional word2vec	ទទួលបានប្រសិទ្ធភាពខ្ពស់បំផុត ដោយសារវាគ្រប់គ្រងលក្ខណៈនៃអត្ថបទ និងគណិតវិទ្យាដាច់ដោយឡែកពីគ្នា ព្រមទាំងប្រើទម្រង់ Tangent-L ដែលល្អជាង LaTeX សម្រាប់ការស្វែងរក។	បាត់បង់សមត្ថភាពក្នុងការស្វែងរកភាពស្រដៀងគ្នាដោយផ្ទាល់រវាងតំណាងកូដអត្ថបទ និងកូដគណិតវិទ្យា។	ទទួលបានពិន្ទុខ្ពស់ជាងគេបំផុតក្នុងការសិក្សាគឺ NDCG' ០,៣៥៥។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះតម្រូវឱ្យមានធនធានកុំព្យូទ័រធំៗ និងសមត្ថភាពគណនាខ្ពស់សម្រាប់ការហ្វឹកហាត់ម៉ូដែលទំហំធំលើសំណុំទិន្នន័យរាប់លានឯកសារ។

Hardware: ត្រូវការប្រព័ន្ធកុំព្យូទ័របណ្តុំ (Computer Cluster) ដែលមាន Hardware ចម្រុះ (និង GPUs) សម្រាប់ការហ្វឹកហាត់ម៉ូដែល Language Models។
Software & Libraries: ការប្រើប្រាស់កម្មវិធីវាយតម្លៃកម្រិតខ្ពស់ និងបណ្ណាល័យកូដដូចជា Hugging Face, Lucene ព្រមទាំងភាសាសរសេរកូដកម្រិតខ្ពស់ (Python/Jupyter)។
Datasets: ពឹងផ្អែកលើសំណុំទិន្នន័យខ្នាតយក្សដូចជា Math StackExchange (២,៤ លានសំណួរ-ចម្លើយ) និង ArXMLiv (១,៥ លានឯកសារ)។
Expertise: ត្រូវការអ្នកជំនាញផ្នែក Information Retrieval (IR), Natural Language Processing (NLP) និងការយល់ដឹងស៊ីជម្រៅពីរចនាសម្ព័ន្ធរូបមន្តគណិតវិទ្យា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យភាសាអង់គ្លេសទាំងស្រុងពីគេហទំព័រ Math StackExchange និង ArXiv ដែលជាឯកសារកម្រិតសិក្សាធិការ។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាឧបសគ្គដ៏ធំមួយ ព្រោះទិន្នន័យគណិតវិទ្យាឌីជីថល (MathML/LaTeX) រួមជាមួយអត្ថបទពន្យល់ជាភាសាខ្មែរនៅលើអ៊ីនធឺណិតនៅមានកម្រិតតិចតួចបំផុតនៅឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាខ្វះខាតសំណុំទិន្នន័យក៏ដោយ ក៏វិធីសាស្ត្រនៃការបូកបញ្ចូលការស្វែងរកអត្ថបទនិងរូបមន្តគណិតវិទ្យានេះ មានសក្តានុពលខ្លាំងក្នុងការអភិវឌ្ឍប្រព័ន្ធអប់រំឌីជីថលនៅកម្ពុជា។

ក្រសួងអប់រំ យុវជន និងកីឡា (ថ្នាល E-learning): អាចយកទៅបង្កើតប្រព័ន្ធស្វែងរកដ៏ឆ្លាតវៃសម្រាប់សិស្ស-និស្សិត ក្នុងការស្វែងរកចម្លើយលំហាត់គណិតវិទ្យា តាមរយៈការវាយអត្ថបទ ឬរូបមន្តនៅក្នុងបណ្ណាល័យអេឡិចត្រូនិករបស់ក្រសួង។
សាកលវិទ្យាល័យផ្នែកបច្ចេកវិទ្យា (ឧ. វិទ្យាស្ថានបច្ចេកវិទ្យាកម្ពុជា - ITC): អាចប្រើប្រាស់សម្រាប់ការស្រាវជ្រាវមុខវិជ្ជា STEM ដោយជួយនិស្សិតស្វែងរកឯកសារស្រាវជ្រាវ (Papers) តាមរយៈអត្ថន័យនៃរូបមន្ត ឬអថេរ ជំនួសឱ្យការប្រើតែពាក្យគន្លឹះ។
ក្រុមហ៊ុនបច្ចេកវិទ្យាអប់រំ (EdTech Startups): អាចអភិវឌ្ឍកម្មវិធីជំនួយការរៀនសូត្រ (AI Tutors) ដែលអាចអាន វិភាគ និងឆ្លើយតបសំណួរគណិតវិទ្យារបស់សិស្សប្រកបដោយភាពសុក្រឹតខ្ពស់។

សរុបមក បច្ចេកវិទ្យានេះអាចជាគន្លឹះដ៏សំខាន់ក្នុងការធ្វើទំនើបកម្មប្រព័ន្ធស្រាវជ្រាវ និងការអប់រំផ្នែក STEM នៅកម្ពុជា ប្រសិនបើមានការវិនិយោគជាមុនលើការបង្កើតសំណុំទិន្នន័យ (Corpus) ជាភាសាខ្មែរ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

១. សិក្សាមូលដ្ឋានគ្រឹះនៃការទាញយកព័ត៌មាន (Information Retrieval): និស្សិតត្រូវស្វែងយល់ពីភាពខុសគ្នារវាង Sparse Retrieval និង Dense Retrieval ដោយអនុវត្តការសរសេរកូដជាមូលដ្ឋានជាមួយ Lucene BM25 ដោយប្រើប្រាស់ភាសា Python ។
២. អនុវត្តការបង្កើតតំណាងពាក្យនិងអត្ថន័យ (Word Embeddings): ចាប់ផ្តើមហ្វឹកហាត់ម៉ូដែលភាសាតូចៗដោយប្រើប្រាស់ word2vec និងបណ្ណាល័យ Gensim ដើម្បីយល់ពីរបៀបដែលម៉ាស៊ីនអាចវាស់ស្ទង់ភាពស្រដៀងគ្នានៃពាក្យ និងនិមិត្តសញ្ញាគណិតវិទ្យា។
៣. សិក្សាពីម៉ូដែលកម្រិតខ្ពស់ និងការបន្សាំ (Transformers & Fine-tuning): ប្រើប្រាស់ថ្នាល Hugging Face ដើម្បីទាញយកម៉ូដែលដូចជា RoBERTa ឬ MathBERTa មកធ្វើការសាកល្បងហ្វឹកហាត់បន្ត (Fine-tune) ដើម្បីស្វែងយល់ពីបរិបទនៃភាសា។
៤. កសាងសំណុំទិន្នន័យគណិតវិទ្យាជាភាសាខ្មែរ (Localized Dataset): ប្រមូល និងវាយបញ្ចូលលំហាត់គណិតវិទ្យាក្នុងទម្រង់ LaTeX រួមជាមួយការពន្យល់ជាភាសាខ្មែរ រួចផ្ទុកនៅក្នុងកូដផ្ទាល់ខ្លួន ឧទាហរណ៍លើ GitHub ដើម្បីទុកជាមូលដ្ឋានសម្រាប់ការស្រាវជ្រាវ។
៥. បង្កើតគំរូប្រព័ន្ធស្វែងរក (Prototype Search Engine): អនុវត្តការសរសេរកូដនៅលើ Jupyter Notebook ដើម្បីបង្កើតប្រព័ន្ធស្វែងរកខ្នាតតូចមួយ ដែលប្រើប្រាស់គំនិត Interpolated Soft Vector Space Model សម្រាប់ទិន្នន័យខ្មែរដែលបានប្រមូល។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Sparse retrieval	បច្ចេកទេសស្វែងរកទិន្នន័យដែលពឹងផ្អែកលើការផ្គូផ្គងពាក្យគន្លឹះពិតប្រាកដ (exact match) រវាងសំណួរនិងឯកសារ ដោយប្រើប្រាស់រចនាសម្ព័ន្ធទិន្នន័យដែលមានលេខសូន្យច្រើន (Sparse Vectors)។ វាពូកែស្វែងរកពាក្យដូចគ្នា ប៉ុន្តែខ្សោយក្នុងការយល់អត្ថន័យ។	ដូចជាការស្វែងរកសៀវភៅក្នុងបណ្ណាល័យដោយមើលតែចំណងជើងដែលត្រូវគ្នាបេះបិទនឹងពាក្យដែលយើងចង់រក ដោយមិនខ្វល់ថាសៀវភៅនោះនិយាយពីអ្វីឱ្យប្រាកដនោះទេ។
Dense retrieval	បច្ចេកទេសស្វែងរកទិន្នន័យដែលបំប្លែងពាក្យឬអត្ថបទទៅជាវ៉ិចទ័រលេខតូចៗតែណែន (Dense Vectors) តាមរយៈការប្រើប្រាស់ AI (Neural Networks) ដើម្បីស្វែងរកឯកសារដែលមានអត្ថន័យស្រដៀងគ្នា ទោះបីជាមិនប្រើពាក្យដូចគ្នាក៏ដោយ។	ដូចជាការសួររក "កន្លែងញ៉ាំបាយ" ហើយអ្នកបណ្ណាល័យណែនាំសៀវភៅ "ភោជនីយដ្ឋានឆ្ងាញ់ៗ" ព្រោះគេយល់ពីអត្ថន័យដែលយើងចង់បាន ទោះបីយើងមិនបានប្រើពាក្យ "ភោជនីយដ្ឋាន" ក៏ដោយ។
Soft vector space model	ម៉ូដែលលំហវ៉ិចទ័រដែលកែលម្អពីម៉ូដែលធម្មតា ដោយអនុញ្ញាតឱ្យមានការគណនាភាពស្រដៀងគ្នារវាងពាក្យខុសៗគ្នា (មានន័យស្រដៀងគ្នា ឬមានទម្រង់កូដគណិតវិទ្យាស្រដៀងគ្នា) មិនមែនទាមទារតែពាក្យដូចគ្នាទាំងស្រុងនោះទេ។	ដូចជាប្រព័ន្ធដាក់ពិន្ទុដែលផ្តល់ពិន្ទុឱ្យអ្នក ទោះបីជាអ្នកឆ្លើយសំណួរដោយប្រើពាក្យខុសពីចម្លើយគំរូក៏ដោយ ឱ្យតែអត្ថន័យដូចគ្នា។
MathBERTa	ម៉ូដែលភាសាប្រភេទ Transformer (ផ្អែកលើម៉ូដែល RoBERTa) ដែលត្រូវបានហ្វឹកហាត់បន្ថែមជាពិសេស ដើម្បីយល់និងដំណើរការរូបមន្តគណិតវិទ្យាដែលសរសេរជាទម្រង់កូដ LaTeX លាយឡំជាមួយនឹងអត្ថបទធម្មតា។	ដូចជាអ្នកបកប្រែភាសាដែលមិនត្រឹមតែចេះភាសាអង់គ្លេសស្ទាត់ជំនាញទេ ថែមទាំងពូកែអាននិងយល់អត្ថន័យនៃរូបមន្តគណិតវិទ្យាដ៏ស្មុគស្មាញទៀតផង។
Tangent-L	ទម្រង់កូដតំណាងឱ្យរូបមន្តគណិតវិទ្យាដែលត្រូវបានរចនាឡើងពិសេសសម្រាប់ប្រព័ន្ធស្វែងរក ដោយវាបង្ហាញពីរចនាសម្ព័ន្ធដើមឈើ និងទំនាក់ទំនងនៃនិមិត្តសញ្ញាគណិតវិទ្យាបានច្បាស់លាស់ជាងកូដ LaTeX ទូទៅ។	ដូចជាការគូសប្លង់ផ្ទះដែលបង្ហាញយ៉ាងច្បាស់ពីទីតាំងបន្ទប់នីមួយៗ និងរបៀបដែលវាភ្ជាប់គ្នា ជំនួសឱ្យការគ្រាន់តែរៀបរាប់បន្តបន្ទាប់គ្នាជាអក្សរ។
NDCG'	រង្វាស់សម្រាប់វាយតម្លៃគុណភាពនៃប្រព័ន្ធស្វែងរក (Information Retrieval Metric) ដែលវាស់ថាតើលទ្ធផលដែលពាក់ព័ន្ធបំផុត និងត្រឹមត្រូវបំផុត ត្រូវបានបង្ហាញនៅចំណាត់ថ្នាក់លើគេកម្រិតណា។	ដូចជាការវាយតម្លៃអ្នករត់តុ ដោយមើលថាតើគាត់លើកម្ហូបដែលឆ្ងាញ់និងត្រូវមាត់ភ្ញៀវជាងគេមកមុនគេ ឬទុកម្ហូបឆ្ងាញ់នោះនៅក្បែរចុងក្រោយ។
word2vec	ក្បួនដោះស្រាយ (Algorithm) ម៉ាស៊ីនរៀន ដែលប្រើបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Neural Network) ដ៏សាមញ្ញ ដើម្បីបំប្លែងពាក្យទៅជាវ៉ិចទ័រលេខ ដែលពាក្យមានន័យស្រដៀងគ្នានឹងមានលេខវ៉ិចទ័រនៅជិតគ្នាក្នុងលំហគណិតវិទ្យា។	ដូចជាការរៀបចំផែនទីពាក្យ ដែលទីក្រុង (ពាក្យ) ដែលមានអាកាសធាតុស្រដៀងគ្នា (អត្ថន័យដូចគ្នា) ត្រូវបានដាក់ឱ្យនៅជិតគ្នាលើផែនទី។
Interpolated models	ការផ្សំម៉ូដែលស្វែងរកពីរឬច្រើនបញ្ចូលគ្នា ដោយប្រើរូបមន្តគណិតវិទ្យាដើម្បីបែងចែកទម្ងន់ពិន្ទុ (weights) នៃម៉ូដែលនីមួយៗ (ឧទាហរណ៍ មួយជំនាញខាងអត្ថបទ មួយជំនាញខាងរូបមន្ត) ដើម្បីបង្កើតលទ្ធផលចុងក្រោយដែលល្អជាងមុន។	ដូចជាការយកពិន្ទុពីគ្រូពីរនាក់ដែលពូកែខាងមុខវិជ្ជាខុសគ្នា មកបូកបញ្ចូលគ្នាដើម្បីវាយតម្លៃសមត្ថភាពសិស្សម្នាក់ឱ្យបានសុក្រឹតបំផុត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖