Original Title: 面向对话场景的构式数据集
Source: github.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

សំណុំទិន្នន័យទម្រង់វេយ្យាករណ៍សម្រាប់ការសន្ទនា

ចំណងជើងដើម៖ 面向对话场景的构式数据集

អ្នកនិពន្ធ៖ Xujing Xue (School of Computer and Information Technology, Shanxi University), Juncai Li (School of Computer and Information Technology, Shanxi University), Xuefeng Su (School of Computer and Information Technology, Shanxi University / School of Modern Logistics, Shanxi Vocational University of Engineering Science and Technology), Peiyuan Yang (School of Computer and Information Technology, Shanxi University), Qinghua Chai (School of Foreign Languages, Shanxi University), Ru Li (School of Computer and Information Technology, Shanxi University)

ឆ្នាំបោះពុម្ព៖ 2025, Proceedings of the 24th Chinese National Conference on Computational Linguistics (CCL 2025)

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាទាក់ទងនឹងកម្រិតកំណត់នៃសំណុំទិន្នន័យវិភាគអត្ថន័យ (Semantic Parsing) បច្ចុប្បន្ន ក្នុងការវាយតម្លៃសមត្ថភាពយល់ដឹងអត្ថន័យស៊ីជម្រៅរបស់ម៉ូដែលភាសាធំៗ (LLMs) នៅក្នុងការបញ្ចេញមតិបែបសន្ទនា និងរចនាសម្ព័ន្ធទម្រង់វេយ្យាករណ៍ជាក់លាក់។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតសំណុំទិន្នន័យទម្រង់វេយ្យាករណ៍ភាសាចិន (Chinese Construction Dataset) និងស្នើឡើងនូវកិច្ចការវាយតម្លៃចំនួនពីរដោយផ្អែកលើទ្រឹស្តីអត្ថន័យក្របខ័ណ្ឌ (Frame Semantics) ដើម្បីវាយតម្លៃសមត្ថភាពរបស់ម៉ូដែលភាសាធំៗ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Baseline Semantic Parsing (LTP / CFN / OmniEvent)
ការវិភាគអត្ថន័យតាមបែបប្រពៃណី (LTP / CFN / OmniEvent)
ងាយស្រួលប្រើសម្រាប់ការវិភាគទូទៅ និងមានសមត្ថភាពក្នុងការវិភាគអត្ថន័យជាមូលដ្ឋានបានល្អ (ឧទាហរណ៍ ម៉ូដែល LTP)។ មិនអាចគ្របដណ្តប់បានល្អលើការបញ្ចេញមតិក្រៅផ្លូវការ (Colloquialisms) ឬទម្រង់វេយ្យាករណ៍ជាក់លាក់ដែលមានជាញឹកញាប់ក្នុងការសន្ទនាឡើយ។ LTP មានអត្រាគ្របដណ្តប់ពាក្យត្រឹម ៥៤,៩១% និងអត្រាបង្រួម ៤៧,៤៩%។ ចំណែក OmniEvent មានការគ្របដណ្តប់ទាបត្រឹម ៣,១៦% ប៉ុណ្ណោះ។
Semantic Parsing + Construction Dataset (CxG)
ការវិភាគអត្ថន័យរួមបញ្ចូលសំណុំទិន្នន័យទម្រង់វេយ្យាករណ៍ (CxG)
ជួយបង្កើនអត្រាគ្របដណ្តប់ពាក្យ (Token Coverage) យ៉ាងកត់សម្គាល់ និងចាប់យកអត្ថន័យស៊ីជម្រៅនៃការសន្ទនាបានកាន់តែច្បាស់លាស់ ដោយកាត់បន្ថយការបាត់បង់អត្ថន័យ។ ត្រូវការការបង្កើតទិន្នន័យដោយដៃដើម្បីច្រោះទម្រង់ដែលត្រឹមត្រូវ និងមានការលំបាកក្នុងការវិភាគទម្រង់ដែលស្រដៀងគ្នាខ្លាំង (Ambiguous patterns)។ LTP + CxG បង្កើនអត្រាគ្របដណ្តប់ពាក្យដល់ ៥៦,៩០% និងបន្ថយអត្រាបង្រួមមកត្រឹម ៤៦,៨៨% ខណៈ CFN + CxG កើនគ្របដណ្តប់ដល់ ៥០,៩៣%។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះតម្រូវឱ្យមានធនធានកុំព្យូទ័រធុនធ្ងន់ និងការចូលរួមពីអ្នកជំនាញផ្នែកភាសាវិទ្យា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងយ៉ាងតឹងរ៉ឹងទៅលើសំណុំទិន្នន័យភាសាចិន (Chinese NaturalConv dialogue dataset)។ វាឆ្លុះបញ្ចាំងពីលក្ខណៈវេយ្យាករណ៍ និងវប្បធម៌នៃការសន្ទនារបស់ជនជាតិចិនតែប៉ុណ្ណោះ។ សម្រាប់ប្រទេសកម្ពុជា នេះជារឿងសំខាន់ដែលត្រូវកត់សម្គាល់ ពីព្រោះភាសាខ្មែរមានទម្រង់វេយ្យាករណ៍ និងបរិបទសន្ទនាខុសពីចិនទាំងស្រុង ដែលទាមទារឱ្យមានការបង្កើតសំណុំទិន្នន័យស្រដៀងគ្នានេះជាភាសាខ្មែរទើបអាចវាយតម្លៃម៉ូដែលបានត្រឹមត្រូវ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាការសិក្សានេះផ្តោតលើភាសាចិនក៏ដោយ វិធីសាស្ត្រនៃការស្រង់ទម្រង់វេយ្យាករណ៍ (Construction Grammar methodology) គឺមានប្រយោជន៍ខ្លាំងសម្រាប់ការអភិវឌ្ឍ AI ផ្នែកភាសាខ្មែរនៅកម្ពុជា។

ជារួម ការអនុវត្តទ្រឹស្តីទម្រង់វេយ្យាករណ៍ (Construction Grammar) នឹងក្លាយជាគន្លឹះដើម្បីឱ្យ AI អាចយល់ពីភាពស្មុគស្មាញ និងអត្ថន័យបង្កប់នៃការសន្ទនាជាភាសាខ្មែរប្រចាំថ្ងៃបានកាន់តែរលូន និងមានលក្ខណៈធម្មជាតិ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាទ្រឹស្តី Frame Semantics និង Construction Grammar: ចាប់ផ្តើមស្វែងយល់ពីមូលដ្ឋានគ្រឹះនៃ Frame Semantics និង Construction Grammar ដើម្បីយល់ពីរបៀបដែលរចនាសម្ព័ន្ធពាក្យជាក់លាក់ (មិនមែនត្រឹមតែពាក្យនីមួយៗ) បង្កើតបានជាអត្ថន័យក្នុងការសន្ទនា។
  2. ប្រមូលទិន្នន័យសន្ទនាភាសាខ្មែរ (Khmer Dialogue Data): ប្រមូលទិន្នន័យសន្ទនាជាភាសាខ្មែរប្រចាំថ្ងៃ ឧទាហរណ៍តាមរយៈវេទិកាសាធារណៈ ឬប្រើប្រាស់ធនធានដែលមានស្រាប់ដូចជាទិន្នន័យពី Khmer NLTK ដើម្បីធ្វើជាមូលដ្ឋានគ្រឹះសម្រាប់គម្រោង។
  3. ស្រង់ទម្រង់វេយ្យាករណ៍ដោយប្រើ LLMs (Construction Extraction): សាកល្បងប្រើប្រាស់ម៉ូដែលដូចជា DeepSeek-V3GPT-4o ដោយប្រើបច្ចេកទេស Chain-of-Thought (CoT) prompting ដើម្បីឱ្យវាជួយស្រង់ចេញនូវទម្រង់ឃ្លាប្រចាំថ្ងៃ និងរចនាសម្ព័ន្ធពិសេសៗរបស់ភាសាខ្មែរដោយស្វ័យប្រវត្តិ។
  4. វាយតម្លៃនិងកែលម្អទិន្នន័យដោយមនុស្ស (Manual Annotation): ចងក្រងក្រុមការងារដែលមានចំណេះដឹងផ្នែកភាសាវិទ្យាខ្មែរ ដើម្បីពិនិត្យ និងកែសម្រួលទម្រង់ដែលម៉ូដែលស្រង់ចេញ ដោយប្រើប្រាស់ឧបករណ៍ជំនួយដូចជា Label StudioProdigy ដើម្បីបង្កើតសំណុំទិន្នន័យពិតប្រាកដ។
  5. ធ្វើតេស្តវាយតម្លៃ LLMs ជាភាសាខ្មែរ (LLM Benchmarking): បង្កើតកិច្ចការវាយតម្លៃ (Evaluation tasks) ដូចជាកិច្ចការកំណត់អត្តសញ្ញាណទម្រង់ (Construction Identification) ដើម្បីធ្វើតេស្តសមត្ថភាពម៉ូដែលផ្សេងៗ តើពួកវាអាចយល់ពីអត្ថន័យបង្កប់នៃការសន្ទនាខ្មែរបានកម្រិតណា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Construction Grammar ទ្រឹស្តីភាសាវិទ្យាដែលចាត់ទុកថារចនាសម្ព័ន្ធនៃប្រយោគ (ទម្រង់វេយ្យាករណ៍) មានបង្កប់អត្ថន័យដោយខ្លួនវាផ្ទាល់ ទោះបីជាមិនទាន់មានពាក្យជាក់លាក់មកបំពេញក៏ដោយ ដែលវាជួយឱ្យ AI យល់ពីអត្ថន័យរួមនៃឃ្លា។ ដូចជាពុម្ពនំអញ្ចឹង ទោះអ្នកចាក់ម្សៅរសជាតិអ្វីចូលក៏ដោយ ក៏នំចេញមករាងដូចពុម្ពនោះដែរ (អត្ថន័យនៃរចនាសម្ព័ន្ធ)។
Frame Semantics វិធីសាស្ត្រវិភាគអត្ថន័យដែលទាមទារឱ្យប្រព័ន្ធ AI យល់ពីបរិបទនិងតួនាទីផ្សេងៗនៅក្នុង "សេណារីយ៉ូ" ណាមួយ ដើម្បីយល់ន័យរបស់ពាក្យនីមួយៗនិងទំនាក់ទំនងរបស់វាបានច្បាស់លាស់។ ដូចជាការមើលរឿងល្ខោន បើមានពាក្យថា "ទិញ" AI ត្រូវដឹងថាអ្នកណាជាតួអ្នកទិញ អ្នកណាជាតួអ្នកលក់ និងអ្វីជារបស់ដែលត្រូវទិញ។
Semantic Parsing ដំណើរការនៃការបំប្លែងប្រយោគភាសាធម្មតាដែលមនុស្សនិយាយ ទៅជារចនាសម្ព័ន្ធទិន្នន័យតក្កវិជ្ជាដែលម៉ាស៊ីនកុំព្យូទ័រអាចយល់ និងទាញយកព័ត៌មានបាន។ ដូចជាអ្នកបកប្រែដែលប្តូរភាសាមនុស្សដែលស្មុគស្មាញ ទៅជាកូដគណិតវិទ្យាដែលកុំព្យូទ័រអាចស្គាល់និងធ្វើតាមបាន។
Chain-of-thought reasoning បច្ចេកទេសដែលតម្រូវឱ្យម៉ូដែល AI បង្ហាញពីជំហាននៃការគិតជាបន្តបន្ទាប់របស់វា (ពន្យល់ពីហេតុផល) មុននឹងទាញយកសេចក្តីសន្និដ្ឋាន ឬចម្លើយចុងក្រោយ។ ដូចជាសិស្សគណិតវិទ្យាដែលត្រូវសរសេរវិធីគិតមួយជំហានម្តងៗនៅលើក្តារខៀនដើម្បីរកចម្លើយ ជំនួសឱ្យការទាយយកចម្លើយភ្លាមៗ។
Token Coverage រង្វាស់ភាគរយដែលបញ្ជាក់ថា តើប្រព័ន្ធវិភាគភាសាអាចស្គាល់ និងគ្របដណ្តប់បានចំនួនប៉ុន្មានពាក្យ ឬកន្សោមពាក្យ (Tokens) នៅក្នុងប្រយោគសរុប។ ដូចជាការគូសចំណាំពាក្យក្នុងសៀវភៅដោយប៊ិចពណ៌ អត្រានេះប្រាប់យើងថា AI ស្គាល់និងគូសចំណាំបានប៉ុន្មានភាគរយនៃពាក្យទាំងអស់ក្នុងសៀវភៅនោះ។
Compression Rate រង្វាស់ដែលបង្ហាញពីប្រសិទ្ធភាពនៃច្បាប់វេយ្យាករណ៍ក្នុងការបង្រួមទិន្នន័យអត្ថបទ ដោយវាស់ស្ទង់ថាតើចំនួនកូដ (Bits) ដែលត្រូវប្រើប្រាស់ដើម្បីតំណាងឱ្យប្រយោគមួយត្រូវបានកាត់បន្ថយប៉ុណ្ណា។ ដូចជាការវេចខ្ចប់ខោអាវចូលវ៉ាលីយ៉ាងមានរបៀប អត្រានេះវាស់ថាតើ AI អាចរៀបចំនិងបង្រួមទិន្នន័យបានតូចប៉ុណ្ណា ដើម្បីចំណេញទំហំផ្ទុកនិងងាយស្រួលទាញយក។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖