Original Title: 基于 AIGC 的文献检索优化策略研究：融合语义理解与知识图谱
Source: doi.org/10.61369/SDME.2025050039
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការស្រាវជ្រាវលើយុទ្ធសាស្រ្តធ្វើឱ្យប្រសើរឡើងនូវការស្វែងរកឯកសារផ្អែកលើ AIGC៖ ការរួមបញ្ចូលការយល់ដឹងពីអត្ថន័យ និងក្រាហ្វចំណេះដឹង

ចំណងជើងដើម៖ 基于 AIGC 的文献检索优化策略研究：融合语义理解与知识图谱

អ្នកនិពន្ធ៖ Ai Lisha (Beijing University of Posts and Telecommunications), Lu Xuanhong (Shijiazhuang Railway University), Lan Fang (Beijing University of Posts and Telecommunications)

ឆ្នាំបោះពុម្ព៖ 2025, Research on Educational Theory

វិស័យសិក្សា៖ Information Retrieval

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ នៅក្នុងយុគសម័យឌីជីថល កំណើនដ៏ខ្លាំងក្លានៃឯកសារសិក្សាបានបណ្តាលឱ្យមានបញ្ហាលើសទម្ងន់ព័ត៌មាន (Information overload) ដែលធ្វើឱ្យការស្វែងរកឯកសារតាមរយៈពាក្យគន្លឹះបែបប្រពៃណីមានភាពលំបាក និងខ្វះភាពសុក្រឹត។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវក្របខ័ណ្ឌស្វែងរកឯកសារដែលរួមបញ្ចូលគ្នារវាងបច្ចេកវិទ្យា AIGC ការយល់ដឹងពីអត្ថន័យ (Semantic understanding) និងក្រាហ្វចំណេះដឹង (Knowledge graph)។

ការប្រើប្រាស់ម៉ូដែលភាសាដែលបានបណ្តុះបណ្តាលជាមុន (Pre-trained Language Models - PLM) សម្រាប់ការយល់ដឹងពីអត្ថន័យ និងការបំប្លែងឯកសារទៅជាកូដ
ការប្រើប្រាស់បណ្តាញសរសៃប្រសាទក្រាហ្វ (Graph Neural Networks - GNN) សម្រាប់ពង្រឹងការទាញយកនិងសន្និដ្ឋានចំណេះដឹងពីទំនាក់ទំនងឯកសារ
យន្តការផ្តល់មតិកែលម្អដោយស្វ័យប្រវត្តិ (Generative feedback mechanism) និងការពង្រឹងការរៀនសូត្រ (Reinforcement learning) ដើម្បីកែសម្រួលយុទ្ធសាស្រ្តស្វែងរក

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការរួមបញ្ចូល PLM និង GNN បង្កើតបានជាម៉ាស៊ីនស្វែងរកក្រាហ្វអត្ថន័យរួមបញ្ចូលគ្នា (Semantic graph joint retrieval engine) ដែលមានប្រសិទ្ធភាពនិងភាពត្រឹមត្រូវខ្ពស់ជាងមុន។
ការប្រើប្រាស់បច្ចេកវិទ្យា AIGC ជួយពង្រីកពាក្យគន្លឹះ និងកំណត់អត្តសញ្ញាណចេតនារបស់អ្នកប្រើប្រាស់បានកាន់តែស៊ីជម្រៅ ព្រមទាំងផ្តល់ការណែនាំឯកសារស្របតាមចំណូលចិត្តផ្ទាល់ខ្លួន។
យន្តការធ្វើបច្ចុប្បន្នភាពថាមវន្ត (Dynamic update mechanism) ធានាបាននូវភាពទាន់ពេលវេលានៃក្រាហ្វចំណេះដឹង ដែលជួយទប់ស្កាត់ភាពយឺតយ៉ាវនៃព័ត៌មាននៅក្នុងប្រព័ន្ធស្វែងរក។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Traditional Keyword Retrieval ការស្វែងរកតាមរយៈពាក្យគន្លឹះបែបប្រពៃណី	ងាយស្រួលប្រើប្រាស់ និងមានល្បឿនលឿនសម្រាប់ការស្វែងរកឯកសារទូទៅ។	មានកម្រិតក្នុងការយល់ដឹងពីអត្ថន័យ នាំឱ្យលទ្ធផលស្វែងរកមានឯកសារមិនពាក់ព័ន្ធច្រើន និងគុណភាពទាប។	ខ្វះភាពសុក្រឹតនៅពេលប្រឈមនឹងបរិមាណឯកសារដ៏ច្រើនលើសលប់ (Information Overload)។
Semantic Retrieval via Pre-trained Language Models (PLMs) ការស្វែងរកផ្អែកលើអត្ថន័យដោយប្រើម៉ូដែល PLMs	អាចយល់ពីចេតនារបស់អ្នកប្រើប្រាស់ និងអត្ថន័យស៊ីជម្រៅនៃឯកសារបានល្អជាងមុន តាមរយៈការផ្គូផ្គងអត្ថន័យ។	ខ្វះការយល់ដឹងអំពីប្រព័ន្ធចំណេះដឹងទូលំទូលាយ និងទំនាក់ទំនងរវាងអង្គភាព (Entities)។	បង្កើនភាពត្រឹមត្រូវនៃការស្វែងរក ប៉ុន្តែនៅមានកម្រិតក្នុងការស្វែងរកឯកសារពាក់ព័ន្ធដោយប្រយោល។
Knowledge Graph Retrieval ការស្វែងរកផ្អែកលើក្រាហ្វចំណេះដឹង	ផ្តល់នូវទំនាក់ទំនងអត្ថន័យសម្បូរបែប និងការពង្រីកចំណេះដឹងតាមរយៈការសន្និដ្ឋានរចនាសម្ព័ន្ធក្រាហ្វ។	ពឹងផ្អែកខ្លាំងលើទិន្នន័យដែលមានរចនាសម្ព័ន្ធ (Structured data) និងពិបាកក្នុងការធ្វើបច្ចុប្បន្នភាពឱ្យបានលឿន។	ជួយពង្រីកវិសាលភាពនៃការស្វែងរក (Recall) តែអាចជួបប្រទះបញ្ហាយឺតយ៉ាវនៃព័ត៌មាន (Knowledge lag)។
Integrated Framework (AIGC, Semantics & Knowledge Graph) ក្របខ័ណ្ឌរួមបញ្ចូលគ្នា (AIGC, អត្ថន័យ និងក្រាហ្វចំណេះដឹង)	រួមបញ្ចូលចំណុចខ្លាំងនៃការយល់ដឹងពីអត្ថន័យ និងក្រាហ្វចំណេះដឹង ព្រមទាំងមានយន្តការធ្វើបច្ចុប្បន្នភាពថាមវន្ត។	ស្ថាបត្យកម្មមានភាពស្មុគស្មាញ ទាមទារថាមពលកុំព្យូទ័រ (Computing power) ខ្ពស់ និងការគ្រប់គ្រងគុណភាពទិន្នន័យតឹងរ៉ឹង។	ផ្តល់នូវលទ្ធផលស្វែងរកដែលមានភាពសុក្រឹតខ្ពស់ អាចពន្យល់បាន (Explainable) និងតម្រូវតាមចំណូលចិត្តផ្ទាល់ខ្លួនរបស់បរិបទអ្នកប្រើប្រាស់ម្នាក់ៗ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តក្របខ័ណ្ឌនេះទាមទារឱ្យមានការវិនិយោគខ្ពស់លើថាមពលកុំព្យូទ័រ និងប្រព័ន្ធគ្រប់គ្រងគុណភាពទិន្នន័យដ៏រឹងមាំ ដោយសារតែភាពស្មុគស្មាញនៃស្ថាបត្យកម្មម៉ូដែល AIGC និង GNN។

Hardware: ត្រូវការម៉ាស៊ីនមេដែលមានកម្លាំងគណនាខ្ពស់ (High-performance Computing/GPUs) ដើម្បីដំណើរការ និងហ្វឹកហាត់ម៉ូដែល PLM និង GNN ព្រមទាំងគាំទ្រការពង្រឹងការរៀនសូត្រ (Reinforcement Learning)។
Software: ប្រព័ន្ធមូលដ្ឋានទិន្នន័យសម្រាប់គ្រប់គ្រងក្រាហ្វចំណេះដឹង (Knowledge Graph Database) និងយន្តការផ្តល់មតិកែលម្អថាមវន្ត។
Dataset: ទិន្នន័យឯកសារសិក្សាដែលមានគុណភាពខ្ពស់ និងកំណត់ត្រាអន្តរកម្មរបស់អ្នកប្រើប្រាស់ (User behavior logs) សម្រាប់បង្កើតទម្រង់អ្នកប្រើប្រាស់ (User profiles)។
Expertise: ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងស៊ីជម្រៅលើបញ្ញាសិប្បនិម្មិត (AI) ដំណើរការភាសាធម្មជាតិ (NLP) និងវិស្វកម្មទិន្នន័យ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះផ្អែកលើការវិភាគទិន្នន័យឯកសារសិក្សាទូទៅ (ដូចជា CNKI និង Microsoft Academic Graph) ដែលភាគច្រើនជាភាសាចិន ឬអង់គ្លេស។ សម្រាប់ប្រទេសកម្ពុជា ការកង្វះខាតទិន្នន័យស្រាវជ្រាវជាភាសាខ្មែរតាមទម្រង់ឌីជីថល និងទិន្នន័យបរិបទក្នុងស្រុក អាចធ្វើឱ្យម៉ូដែលមិនអាចយល់បានពេញលេញពីចេតនានៃការស្វែងរករបស់និស្សិត និងអ្នកស្រាវជ្រាវកម្ពុជាឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ក្នុងការធ្វើទំនើបកម្មប្រព័ន្ធគ្រប់គ្រងបណ្ណាល័យ និងការស្រាវជ្រាវនៅកម្ពុជា ប្រសិនបើមានការសម្របខ្លួនទៅនឹងបរិបទភាសាជាតិ។

University Libraries (e.g., RUPP, ITC): អាចប្រើប្រាស់ដើម្បីបង្កើតប្រព័ន្ធណែនាំសៀវភៅ ឬឯកសារស្រាវជ្រាវឆ្លាតវៃ ជួយសិស្សនិស្សិតស្វែងរកឯកសារពាក់ព័ន្ធនឹងមុខវិជ្ជាបានរហ័ស ជំនួសឱ្យការរកមើលតាមរយៈកាតាឡុកប្រពៃណី។
Research Institutes (e.g., CDRI): ជួយអ្នកស្រាវជ្រាវក្នុងការវិភាគទំនាក់ទំនងរវាងទ្រឹស្តី ស្វែងរកឯកសារយោងដែលមានឥទ្ធិពលខ្ពស់ និងតាមដាននិន្នាការស្រាវជ្រាវតាមរយៈក្រាហ្វចំណេះដឹង។
National e-Library Initiatives: អាចរួមបញ្ចូលដើម្បីបង្កើតបណ្តុំទិន្នន័យអត្ថបទស្រាវជ្រាវថ្នាក់ជាតិ ដែលអនុញ្ញាតឱ្យមានការស្វែងរកឆ្លាតវៃជាច្រើនភាសា (Khmer, English, French) ប្រកបដោយប្រសិទ្ធភាព។

ការអនុវត្តបច្ចេកវិទ្យានេះប្រកបដោយជោគជ័យ តម្រូវឱ្យស្ថាប័នអប់រំនៅកម្ពុជាសហការគ្នាក្នុងការប្រមូល ធ្វើឌីជីថលនីយកម្ម និងធ្វើឱ្យទិន្នន័យស្រាវជ្រាវមានស្តង់ដារជាមុនសិន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ NLP និង Knowledge Graphs: ចាប់ផ្តើមសិក្សាពីដំណើរការភាសាធម្មជាតិ (NLP) ដោយផ្តោតលើម៉ូដែល Transformers និង BERT ព្រមទាំងរៀនពីរបៀបបង្កើតក្រាហ្វចំណេះដឹង (Knowledge Graph) តាមរយៈមូលដ្ឋានទិន្នន័យក្រាហ្វដូចជា Neo4j។
ប្រមូលនិងរៀបចំទិន្នន័យស្រាវជ្រាវក្នុងស្រុក: ប្រមូលទិន្នន័យនិក្ខេបបទ ឬអត្ថបទស្រាវជ្រាវពីសាកលវិទ្យាល័យ ហើយប្រើប្រាស់បណ្ណាល័យ Python (spaCy, NLTK) ដើម្បីសម្អាតទិន្នន័យ និងទាញយកអង្គភាពទិន្នន័យ (Entity Extraction) ដូចជាឈ្មោះអ្នកនិពន្ធ និងប្រធានបទ។
សាកល្បងសាងសង់ប្រព័ន្ធស្វែងរកខ្នាតតូច (Prototype): អនុវត្តការប្រើប្រាស់ Elasticsearch រួមបញ្ចូលជាមួយ Hugging Face sentence-transformers ដើម្បីបង្កើតម៉ាស៊ីនស្វែងរកអត្ថន័យ (Semantic Search Engine) ដំបូងសម្រាប់ឯកសារដែលបានប្រមូល។
រួមបញ្ចូលក្រាហ្វចំណេះដឹងជាមួយ GNN: ប្រើប្រាស់ PyTorch Geometric (PyG) ដើម្បីបង្កើតបណ្តាញសរសៃប្រសាទក្រាហ្វ (GNN) តូចមួយ សម្រាប់តភ្ជាប់ទំនាក់ទំនងរវាងអ្នកនិពន្ធ ប្រធានបទ និងឯកសារយោង ដើម្បីពង្រឹងលទ្ធផលនៃការស្វែងរក (Graph Reasoning)។
វាយតម្លៃ និងរៀបចំយន្តការមតិកែលម្អ (Feedback Loop): ដាក់ឱ្យនិស្សិតសាកល្បងប្រើប្រាស់ប្រព័ន្ធនេះ រួចប្រើប្រាស់កំណត់ហេតុអ្នកប្រើប្រាស់ (User logs) ដើម្បីកែតម្រូវក្បួនដោះស្រាយ (Algorithm) តាមរយៈការពង្រឹងការរៀនសូត្រ ដោយប្រើ Ray RLlib ឬបណ្ណាល័យស្រដៀងគ្នា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
AIGC (Artificial Intelligence Generated Content)	បច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតដែលអាចបង្កើតមាតិកាថ្មីៗ (អត្ថបទ រូបភាព ឬទិន្នន័យ) ដោយស្វ័យប្រវត្តិ។ នៅក្នុងការស្រាវជ្រាវនេះ វាត្រូវបានប្រើដើម្បីវិភាគអត្ថន័យ ពង្រីកពាក្យគន្លឹះ និងបង្កើតសេចក្តីសង្ខេបឯកសារដោយស្វ័យប្រវត្តិ។	ដូចជាជំនួយការឆ្លាតវៃម្នាក់ដែលអាចអានសៀវភៅរាប់ពាន់ក្បាល រួចសរសេរសេចក្តីសង្ខេបនិងពន្យល់យើងវិញក្នុងពេលមួយប៉ព្រិចភ្នែក។
Pre-trained Language Models (PLM)	ម៉ូដែល AI ដែលត្រូវបានបណ្តុះបណ្តាលជាមុនលើទិន្នន័យអត្ថបទដ៏ធំសម្បើម ដើម្បីឱ្យវាយល់ពីវេយ្យាករណ៍ និងអត្ថន័យនៃភាសា មុននឹងយកវាទៅសម្រួល (Fine-tune) សម្រាប់កិច្ចការជាក់លាក់ដូចជាការស្វែងរកឯកសារ។	ដូចការបង្រៀនក្មេងម្នាក់ឱ្យចេះអាននិងយល់អត្ថន័យពាក្យទូទៅសិន មុននឹងបញ្ជូនគេឱ្យទៅរៀនជំនាញពេទ្យឬវិស្វករ។
Knowledge Graph	ប្រព័ន្ធផ្ទុកទិន្នន័យដែលតំណាងឱ្យចំណេះដឹងជាទម្រង់បណ្តាញ ដោយភ្ជាប់អង្គភាព (Entities) ដូចជាអ្នកនិពន្ធ ប្រធានបទ និងឯកសារ តាមរយៈទំនាក់ទំនងរវាងពួកវា ដើម្បីជួយកុំព្យូទ័រយល់ពីបរិបទ និងធ្វើការសន្និដ្ឋាន។	ដូចជាផែនទីគំនិត (Mind map) ដ៏ធំមួយដែលភ្ជាប់ឈ្មោះមនុស្ស ទីកន្លែង និងព្រឹត្តិការណ៍ចូលគ្នា ដើម្បីងាយស្រួលរកមើលថាអ្នកណាពាក់ព័ន្ធនឹងអ្វីខ្លះ។
Graph Neural Networks (GNN)	ប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលរចនាឡើងជាពិសេសសម្រាប់ទាញយកនិងវិភាគទិន្នន័យដែលមានរចនាសម្ព័ន្ធជាក្រាហ្វ (បណ្តាញ) ដើម្បីសន្និដ្ឋានរកទំនាក់ទំនងដែលលាក់កំបាំងរវាងទិន្នន័យទាំងនោះ។	ដូចជាអ្នកស៊ើបអង្កេតម្នាក់ដែលមិនត្រឹមតែមើលប្រវត្តិរូបជនសង្ស័យម្នាក់ៗប៉ុណ្ណោះទេ តែថែមទាំងវិភាគបណ្តាញមិត្តភក្តិរបស់ពួកគេ ដើម្បីរកឱ្យឃើញអ្នកនៅពីក្រោយខ្នង។
Semantic Understanding	សមត្ថភាពរបស់ម៉ាស៊ីន (កុំព្យូទ័រ) ក្នុងការយល់ដឹងពីអត្ថន័យស៊ីជម្រៅ និងបរិបទនៃពាក្យ ឬប្រយោគ ជំនួសឱ្យការគ្រាន់តែផ្គូផ្គងអក្សរឬពាក្យគន្លឹះ។	ដូចជាមនុស្សដែលយល់ថាពាក្យ "ផ្លែប៉ោម" គឺចង់សំដៅលើផ្លែឈើ ឬក៏ "ក្រុមហ៊ុន Apple" អាស្រ័យលើបរិបទនៃសាច់រឿង ទោះបីវាសរសេរដូចគ្នាក៏ដោយ។
Domain Adaptation	បច្ចេកទេសក្នុង Machine Learning ដែលយកម៉ូដែល AI ដែលបានហ្វឹកហាត់លើទិន្នន័យទូទៅ មកកែសម្រួលដើម្បីឱ្យវាអាចដំណើរការបានល្អក្នុងវិស័យជាក់លាក់ណាមួយ (ឧទាហរណ៍ ផ្លាស់ប្តូរពីការយល់អត្ថបទកាសែត ទៅកាន់ឯកសារស្រាវជ្រាវពេទ្យ)។	ដូចការយកអ្នកចេះភាសាអង់គ្លេសទូទៅម្នាក់ ទៅបង្រៀនវាក្យសព្ទច្បាប់បន្ថែម ដើម្បីឱ្យគាត់អាចធ្វើជាអ្នកបកប្រែនៅក្នុងតុលាការបានយ៉ាងស្ទាត់ជំនាញ។
Multi-granularity Matching	យន្តការនៃការប្រៀបធៀបទិន្នន័យក្នុងកម្រិតផ្សេងៗគ្នាព្រមៗគ្នា ដូចជាការប្រៀបធៀបកម្រិតពាក្យ កម្រិតប្រយោគ និងកម្រិតអត្ថបទទាំងមូល ដើម្បីស្វែងរកភាពស៊ីសង្វាក់គ្នានៃអត្ថន័យឱ្យកាន់តែច្បាស់។	ដូចការពិនិត្យមើលរូបភាពមួយដោយប្រើកែវពង្រីកដើម្បីមើលចំណុចតូចៗ និងការថយក្រោយមើលរូបភាពទាំងមូល ដើម្បីធានាថាវាជារូបដែលយើងពិតជាចង់រកមែន។
Reinforcement Learning	វិធីសាស្ត្របង្រៀន AI តាមរយៈយន្តការផ្តល់រង្វាន់ និងពិន័យ ដោយអនុញ្ញាតឱ្យម៉ូដែលរៀនពីកំហុសនិងភាពជោគជ័យរបស់វា (ឧទាហរណ៍ ការចុចមើលឬមិនចុចមើលរបស់អ្នកប្រើប្រាស់) ដើម្បីកែលម្អការសម្រេចចិត្តនាពេលអនាគត។	ដូចជាការបង្ហាត់សត្វឆ្កែឱ្យចេះស្តាប់បង្គាប់ ដោយផ្តល់ចំណីនៅពេលវាធ្វើត្រូវ និងមិនឱ្យចំណីនៅពេលវាធ្វើខុស រហូតដល់វាចេះចាំច្បាស់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖