Original Title: 面向对话场景的构式数据集
Source: github.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

សំណុំទិន្នន័យទម្រង់វេយ្យាករណ៍សម្រាប់ការសន្ទនា

ចំណងជើងដើម៖ 面向对话场景的构式数据集

អ្នកនិពន្ធ៖ Xujing Xue (School of Computer and Information Technology, Shanxi University), Juncai Li (School of Computer and Information Technology, Shanxi University), Xuefeng Su (School of Computer and Information Technology, Shanxi University / School of Modern Logistics, Shanxi Vocational University of Engineering Science and Technology), Peiyuan Yang (School of Computer and Information Technology, Shanxi University), Qinghua Chai (School of Foreign Languages, Shanxi University), Ru Li (School of Computer and Information Technology, Shanxi University)

ឆ្នាំបោះពុម្ព៖ 2025, Proceedings of the 24th Chinese National Conference on Computational Linguistics (CCL 2025)

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាទាក់ទងនឹងកម្រិតកំណត់នៃសំណុំទិន្នន័យវិភាគអត្ថន័យ (Semantic Parsing) បច្ចុប្បន្ន ក្នុងការវាយតម្លៃសមត្ថភាពយល់ដឹងអត្ថន័យស៊ីជម្រៅរបស់ម៉ូដែលភាសាធំៗ (LLMs) នៅក្នុងការបញ្ចេញមតិបែបសន្ទនា និងរចនាសម្ព័ន្ធទម្រង់វេយ្យាករណ៍ជាក់លាក់។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតសំណុំទិន្នន័យទម្រង់វេយ្យាករណ៍ភាសាចិន (Chinese Construction Dataset) និងស្នើឡើងនូវកិច្ចការវាយតម្លៃចំនួនពីរដោយផ្អែកលើទ្រឹស្តីអត្ថន័យក្របខ័ណ្ឌ (Frame Semantics) ដើម្បីវាយតម្លៃសមត្ថភាពរបស់ម៉ូដែលភាសាធំៗ។

ការបង្កើតសំណុំទិន្នន័យទម្រង់វេយ្យាករណ៍ (Construction Dataset Creation): បានទាញយកទិន្នន័យពីកម្រងអត្ថបទសន្ទនា NaturalConv ដោយប្រើប្រាស់ការវែកញែកតាមខ្សែសង្វាក់នៃការគិត (Chain-of-Thought prompting) និងការច្រោះដោយដៃ ដែលបង្កើតបាន ២១៤៦ ប្រយោគ និង ១៧៤៨ ទម្រង់។
ការរួមបញ្ចូលការវិភាគអត្ថន័យ (Semantic Parsing Integration): បានដាក់បញ្ចូលសំណុំទិន្នន័យនេះជាមួយវិធីសាស្ត្រវិភាគអត្ថន័យដែលមានស្រាប់ (ដូចជា CFN និង LTP) ដើម្បីវាយតម្លៃអត្រាគ្របដណ្តប់ពាក្យ (Token Coverage) និងអត្រាបង្រួម (Compression Rate)។
កិច្ចការវាយតម្លៃ LLM (LLM Evaluation Tasks): បានធ្វើការវាយតម្លៃម៉ូដែល LLMs ផ្សេងៗលើកិច្ចការកំណត់អត្តសញ្ញាណទម្រង់ (Construction Identification) និងការយល់ដឹងពីអត្ថន័យទម្រង់ (Constructional Semantic Understanding)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការរួមបញ្ចូលសំណុំទិន្នន័យទម្រង់វេយ្យាករណ៍ទៅក្នុងវិធីសាស្ត្រវិភាគអត្ថន័យដែលមានស្រាប់ បានធ្វើឱ្យប្រសើរឡើងយ៉ាងខ្លាំងនូវការគ្របដណ្តប់ពាក្យ (កើនដល់ ៥៦,៩០%) និងបានកាត់បន្ថយអត្រាបង្រួមទិន្នន័យប្រកបដោយប្រសិទ្ធភាព។
លទ្ធផលបង្ហាញថាម៉ូដែលភាសាធំៗ (LLMs) បច្ចុប្បន្ននៅតែមានការលំបាកក្នុងការកំណត់អត្តសញ្ញាណទម្រង់វេយ្យាករណ៍ជាក់លាក់ ដោយបង្ហាញពីចំណុចខ្វះខាតយ៉ាងច្បាស់លាស់។
បើគ្មានការប្រើប្រាស់ការវែកញែកតាមបែបខ្សែសង្វាក់នៃការគិត (Chain-of-Thought reasoning) ទេ ម៉ូដែលភាសាធំៗមិនអាចយល់បានពេញលេញនូវអត្ថន័យស៊ីជម្រៅដែលបង្កប់នៅក្នុងទម្រង់វេយ្យាករណ៍ទាំងនោះឡើយ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Baseline Semantic Parsing (LTP / CFN / OmniEvent) ការវិភាគអត្ថន័យតាមបែបប្រពៃណី (LTP / CFN / OmniEvent)	ងាយស្រួលប្រើសម្រាប់ការវិភាគទូទៅ និងមានសមត្ថភាពក្នុងការវិភាគអត្ថន័យជាមូលដ្ឋានបានល្អ (ឧទាហរណ៍ ម៉ូដែល LTP)។	មិនអាចគ្របដណ្តប់បានល្អលើការបញ្ចេញមតិក្រៅផ្លូវការ (Colloquialisms) ឬទម្រង់វេយ្យាករណ៍ជាក់លាក់ដែលមានជាញឹកញាប់ក្នុងការសន្ទនាឡើយ។	LTP មានអត្រាគ្របដណ្តប់ពាក្យត្រឹម ៥៤,៩១% និងអត្រាបង្រួម ៤៧,៤៩%។ ចំណែក OmniEvent មានការគ្របដណ្តប់ទាបត្រឹម ៣,១៦% ប៉ុណ្ណោះ។
Semantic Parsing + Construction Dataset (CxG) ការវិភាគអត្ថន័យរួមបញ្ចូលសំណុំទិន្នន័យទម្រង់វេយ្យាករណ៍ (CxG)	ជួយបង្កើនអត្រាគ្របដណ្តប់ពាក្យ (Token Coverage) យ៉ាងកត់សម្គាល់ និងចាប់យកអត្ថន័យស៊ីជម្រៅនៃការសន្ទនាបានកាន់តែច្បាស់លាស់ ដោយកាត់បន្ថយការបាត់បង់អត្ថន័យ។	ត្រូវការការបង្កើតទិន្នន័យដោយដៃដើម្បីច្រោះទម្រង់ដែលត្រឹមត្រូវ និងមានការលំបាកក្នុងការវិភាគទម្រង់ដែលស្រដៀងគ្នាខ្លាំង (Ambiguous patterns)។	LTP + CxG បង្កើនអត្រាគ្របដណ្តប់ពាក្យដល់ ៥៦,៩០% និងបន្ថយអត្រាបង្រួមមកត្រឹម ៤៦,៨៨% ខណៈ CFN + CxG កើនគ្របដណ្តប់ដល់ ៥០,៩៣%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះតម្រូវឱ្យមានធនធានកុំព្យូទ័រធុនធ្ងន់ និងការចូលរួមពីអ្នកជំនាញផ្នែកភាសាវិទ្យា។

Hardware: តម្រូវឱ្យមានបន្ទះឈីបក្រាហ្វិក (GPUs) សមត្ថភាពខ្ពស់ សម្រាប់ដំណើរការ និងវាយតម្លៃម៉ូដែលភាសាធំៗ (LLMs) ដូចជា DeepSeek-v3 និង GPT-4o ជាដើម។
Dataset: ប្រើប្រាស់សំណុំទិន្នន័យសន្ទនាជាភាសាចិន NaturalConv (ជាង ៣៥៨៨ ប្រយោគ) និងទិន្នន័យ BCC សម្រាប់ការស្រង់និងផ្ទៀងផ្ទាត់ទម្រង់។
Expertise: ត្រូវការការចូលរួមពីអ្នកជំនាញផ្នែកភាសាវិទ្យា (Linguistics expert) និងនិស្សិតស្រាវជ្រាវ ដើម្បីពិនិត្យ និងច្រោះយកទម្រង់វេយ្យាករណ៍ដោយដៃ (Manual Annotation) ធានានូវគុណភាពទិន្នន័យ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងយ៉ាងតឹងរ៉ឹងទៅលើសំណុំទិន្នន័យភាសាចិន (Chinese NaturalConv dialogue dataset)។ វាឆ្លុះបញ្ចាំងពីលក្ខណៈវេយ្យាករណ៍ និងវប្បធម៌នៃការសន្ទនារបស់ជនជាតិចិនតែប៉ុណ្ណោះ។ សម្រាប់ប្រទេសកម្ពុជា នេះជារឿងសំខាន់ដែលត្រូវកត់សម្គាល់ ពីព្រោះភាសាខ្មែរមានទម្រង់វេយ្យាករណ៍ និងបរិបទសន្ទនាខុសពីចិនទាំងស្រុង ដែលទាមទារឱ្យមានការបង្កើតសំណុំទិន្នន័យស្រដៀងគ្នានេះជាភាសាខ្មែរទើបអាចវាយតម្លៃម៉ូដែលបានត្រឹមត្រូវ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាការសិក្សានេះផ្តោតលើភាសាចិនក៏ដោយ វិធីសាស្ត្រនៃការស្រង់ទម្រង់វេយ្យាករណ៍ (Construction Grammar methodology) គឺមានប្រយោជន៍ខ្លាំងសម្រាប់ការអភិវឌ្ឍ AI ផ្នែកភាសាខ្មែរនៅកម្ពុជា។

ប្រព័ន្ធ Chatbot សម្រាប់សេវាកម្មអតិថិជន (Customer Service Chatbots): អាចយកវិធីសាស្ត្រនេះមកអនុវត្តលើ Chatbot របស់ធនាគារ (ឧទាហរណ៍ ABA) ឬក្រុមហ៊ុនទូរគមនាគមន៍ (ឧទាហរណ៍ Smart/Cellcard) ដើម្បីជួយឱ្យ AI យល់ពីការបញ្ចេញមតិក្រៅផ្លូវការ ឬពាក្យស្លោកប្រចាំថ្ងៃរបស់ប្រជាជនខ្មែរ ដែលមិនមានក្នុងវេយ្យាករណ៍ផ្លូវការ។
ការស្រាវជ្រាវ NLP នៅសាកលវិទ្យាល័យ (Khmer NLP Research): ស្ថាប័នស្រាវជ្រាវដូចជា សាកលវិទ្យាល័យភូមិន្ទភ្នំពេញ (RUPP) និងបណ្ឌិត្យសភាបច្ចេកវិទ្យាឌីជីថលកម្ពុជា (CADT) អាចយកគំរូរចនាសម្ព័ន្ធនេះដើម្បីបង្កើតសំណុំទិន្នន័យទម្រង់វេយ្យាករណ៍ (Khmer Construction Dataset) សម្រាប់វាយតម្លៃកម្រិតយល់ដឹងរបស់ LLMs ក្នុងភាសាខ្មែរ។

ជារួម ការអនុវត្តទ្រឹស្តីទម្រង់វេយ្យាករណ៍ (Construction Grammar) នឹងក្លាយជាគន្លឹះដើម្បីឱ្យ AI អាចយល់ពីភាពស្មុគស្មាញ និងអត្ថន័យបង្កប់នៃការសន្ទនាជាភាសាខ្មែរប្រចាំថ្ងៃបានកាន់តែរលូន និងមានលក្ខណៈធម្មជាតិ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាទ្រឹស្តី Frame Semantics និង Construction Grammar: ចាប់ផ្តើមស្វែងយល់ពីមូលដ្ឋានគ្រឹះនៃ Frame Semantics និង Construction Grammar ដើម្បីយល់ពីរបៀបដែលរចនាសម្ព័ន្ធពាក្យជាក់លាក់ (មិនមែនត្រឹមតែពាក្យនីមួយៗ) បង្កើតបានជាអត្ថន័យក្នុងការសន្ទនា។
ប្រមូលទិន្នន័យសន្ទនាភាសាខ្មែរ (Khmer Dialogue Data): ប្រមូលទិន្នន័យសន្ទនាជាភាសាខ្មែរប្រចាំថ្ងៃ ឧទាហរណ៍តាមរយៈវេទិកាសាធារណៈ ឬប្រើប្រាស់ធនធានដែលមានស្រាប់ដូចជាទិន្នន័យពី Khmer NLTK ដើម្បីធ្វើជាមូលដ្ឋានគ្រឹះសម្រាប់គម្រោង។
ស្រង់ទម្រង់វេយ្យាករណ៍ដោយប្រើ LLMs (Construction Extraction): សាកល្បងប្រើប្រាស់ម៉ូដែលដូចជា DeepSeek-V3 ឬ GPT-4o ដោយប្រើបច្ចេកទេស Chain-of-Thought (CoT) prompting ដើម្បីឱ្យវាជួយស្រង់ចេញនូវទម្រង់ឃ្លាប្រចាំថ្ងៃ និងរចនាសម្ព័ន្ធពិសេសៗរបស់ភាសាខ្មែរដោយស្វ័យប្រវត្តិ។
វាយតម្លៃនិងកែលម្អទិន្នន័យដោយមនុស្ស (Manual Annotation): ចងក្រងក្រុមការងារដែលមានចំណេះដឹងផ្នែកភាសាវិទ្យាខ្មែរ ដើម្បីពិនិត្យ និងកែសម្រួលទម្រង់ដែលម៉ូដែលស្រង់ចេញ ដោយប្រើប្រាស់ឧបករណ៍ជំនួយដូចជា Label Studio ឬ Prodigy ដើម្បីបង្កើតសំណុំទិន្នន័យពិតប្រាកដ។
ធ្វើតេស្តវាយតម្លៃ LLMs ជាភាសាខ្មែរ (LLM Benchmarking): បង្កើតកិច្ចការវាយតម្លៃ (Evaluation tasks) ដូចជាកិច្ចការកំណត់អត្តសញ្ញាណទម្រង់ (Construction Identification) ដើម្បីធ្វើតេស្តសមត្ថភាពម៉ូដែលផ្សេងៗ តើពួកវាអាចយល់ពីអត្ថន័យបង្កប់នៃការសន្ទនាខ្មែរបានកម្រិតណា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Construction Grammar	ទ្រឹស្តីភាសាវិទ្យាដែលចាត់ទុកថារចនាសម្ព័ន្ធនៃប្រយោគ (ទម្រង់វេយ្យាករណ៍) មានបង្កប់អត្ថន័យដោយខ្លួនវាផ្ទាល់ ទោះបីជាមិនទាន់មានពាក្យជាក់លាក់មកបំពេញក៏ដោយ ដែលវាជួយឱ្យ AI យល់ពីអត្ថន័យរួមនៃឃ្លា។	ដូចជាពុម្ពនំអញ្ចឹង ទោះអ្នកចាក់ម្សៅរសជាតិអ្វីចូលក៏ដោយ ក៏នំចេញមករាងដូចពុម្ពនោះដែរ (អត្ថន័យនៃរចនាសម្ព័ន្ធ)។
Frame Semantics	វិធីសាស្ត្រវិភាគអត្ថន័យដែលទាមទារឱ្យប្រព័ន្ធ AI យល់ពីបរិបទនិងតួនាទីផ្សេងៗនៅក្នុង "សេណារីយ៉ូ" ណាមួយ ដើម្បីយល់ន័យរបស់ពាក្យនីមួយៗនិងទំនាក់ទំនងរបស់វាបានច្បាស់លាស់។	ដូចជាការមើលរឿងល្ខោន បើមានពាក្យថា "ទិញ" AI ត្រូវដឹងថាអ្នកណាជាតួអ្នកទិញ អ្នកណាជាតួអ្នកលក់ និងអ្វីជារបស់ដែលត្រូវទិញ។
Semantic Parsing	ដំណើរការនៃការបំប្លែងប្រយោគភាសាធម្មតាដែលមនុស្សនិយាយ ទៅជារចនាសម្ព័ន្ធទិន្នន័យតក្កវិជ្ជាដែលម៉ាស៊ីនកុំព្យូទ័រអាចយល់ និងទាញយកព័ត៌មានបាន។	ដូចជាអ្នកបកប្រែដែលប្តូរភាសាមនុស្សដែលស្មុគស្មាញ ទៅជាកូដគណិតវិទ្យាដែលកុំព្យូទ័រអាចស្គាល់និងធ្វើតាមបាន។
Chain-of-thought reasoning	បច្ចេកទេសដែលតម្រូវឱ្យម៉ូដែល AI បង្ហាញពីជំហាននៃការគិតជាបន្តបន្ទាប់របស់វា (ពន្យល់ពីហេតុផល) មុននឹងទាញយកសេចក្តីសន្និដ្ឋាន ឬចម្លើយចុងក្រោយ។	ដូចជាសិស្សគណិតវិទ្យាដែលត្រូវសរសេរវិធីគិតមួយជំហានម្តងៗនៅលើក្តារខៀនដើម្បីរកចម្លើយ ជំនួសឱ្យការទាយយកចម្លើយភ្លាមៗ។
Token Coverage	រង្វាស់ភាគរយដែលបញ្ជាក់ថា តើប្រព័ន្ធវិភាគភាសាអាចស្គាល់ និងគ្របដណ្តប់បានចំនួនប៉ុន្មានពាក្យ ឬកន្សោមពាក្យ (Tokens) នៅក្នុងប្រយោគសរុប។	ដូចជាការគូសចំណាំពាក្យក្នុងសៀវភៅដោយប៊ិចពណ៌ អត្រានេះប្រាប់យើងថា AI ស្គាល់និងគូសចំណាំបានប៉ុន្មានភាគរយនៃពាក្យទាំងអស់ក្នុងសៀវភៅនោះ។
Compression Rate	រង្វាស់ដែលបង្ហាញពីប្រសិទ្ធភាពនៃច្បាប់វេយ្យាករណ៍ក្នុងការបង្រួមទិន្នន័យអត្ថបទ ដោយវាស់ស្ទង់ថាតើចំនួនកូដ (Bits) ដែលត្រូវប្រើប្រាស់ដើម្បីតំណាងឱ្យប្រយោគមួយត្រូវបានកាត់បន្ថយប៉ុណ្ណា។	ដូចជាការវេចខ្ចប់ខោអាវចូលវ៉ាលីយ៉ាងមានរបៀប អត្រានេះវាស់ថាតើ AI អាចរៀបចំនិងបង្រួមទិន្នន័យបានតូចប៉ុណ្ណា ដើម្បីចំណេញទំហំផ្ទុកនិងងាយស្រួលទាញយក។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖