Original Title: Automatically Solving Number Word Problems by Semantic Parsing and Reasoning
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការដោះស្រាយចំណោទលេខដោយស្វ័យប្រវត្តិតាមរយៈការវិភាគអត្ថន័យ និងការគិតហេតុផល

ចំណងជើងដើម៖ Automatically Solving Number Word Problems by Semantic Parsing and Reasoning

អ្នកនិពន្ធ៖ Shuming Shi (Microsoft Research), Yuehui Wang (University of Science and Technology of China), Chin-Yew Lin (Microsoft Research), Xiaojiang Liu (Microsoft Research), Yong Rui (Microsoft Research)

ឆ្នាំបោះពុម្ព៖ 2015 Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP)

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះផ្តោតលើការដោះស្រាយបញ្ហាប្រឈមក្នុងការរចនាក្បួនដោះស្រាយ (Algorithms) ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ និងដោះស្រាយចំណោទគណិតវិទ្យាដែលសរសេរជាភាសាធម្មជាតិ (Math word problems) ដោយស្វ័យប្រវត្តិ។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវវិធីសាស្ត្រវិភាគអត្ថន័យ និងការគិតហេតុផល (Semantic Parsing and Reasoning) តាមរយៈប្រព័ន្ធកុំព្យូទ័រមួយឈ្មោះថា SigmaDolphin ។

ការរចនាភាសាតំណាងអត្ថន័យថ្មីមួយហៅថា DOL (Meaning Representation Language) ដើម្បីភ្ជាប់អត្ថបទភាសាធម្មជាតិទៅនឹងកន្សោមគណិតវិទ្យា។
ការបង្កើត និងអនុវត្តកម្មវិធីវិភាគវេយ្យាករណ៍ CFG (Context-Free Grammar Parser) ដោយផ្អែកលើវិធានវេយ្យាករណ៍ចំនួន ៩៦០០ ដែលបង្កើតឡើងដោយពាក់កណ្តាលស្វ័យប្រវត្តិ។
ការប្រើប្រាស់ម៉ូឌុលគិតហេតុផល (Reasoning Module) ដើម្បីទាញយកសមីការគណិតវិទ្យាពីមែកធាង DOL (DOL trees) និងគណនារកចម្លើយចុងក្រោយ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ប្រព័ន្ធនេះទទួលបានភាពសុក្រឹត (Precision) យ៉ាងខ្ពស់រហូតដល់ ៩៥.៤% និងអត្រាគ្របដណ្តប់ (Recall) ចំនួន ៦០.២% លើការធ្វើតេស្តជាមួយសំណុំទិន្នន័យចំណោទលេខជាង ១៥០០ ដែលបង្ហាញពីប្រសិទ្ធភាពខ្ពស់ក្នុងការអនុវត្ត។
លទ្ធផលនៃការវាយតម្លៃបង្ហាញថា វិធីសាស្ត្រនេះមានដំណើរការល្អប្រសើរជាងវិធីសាស្ត្រផ្អែកលើស្ថិតិ (Statistical baselines) មុនៗយ៉ាងច្បាស់លាស់ ទាំងផ្នែកភាពសុក្រឹត និងអត្រាគ្របដណ្តប់។
ភាពសុក្រឹតខ្ពស់នេះបានមកពីសមត្ថភាពរបស់ប្រព័ន្ធក្នុងការ "យល់" អំពីបញ្ហា និងមានព័ត៌មានរចនាសម្ព័ន្ធច្បាស់លាស់អំពីទំនាក់ទំនងបរិមាណ (Quantity relations) ជាជាងការទាយចម្លើយដោយផ្អែកលើលក្ខណៈទូទៅ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Dolphin (Semantic Parsing and Reasoning) Dolphin (ការវិភាគអត្ថន័យ និងការគិតហេតុផល)	មានភាពសុក្រឹតខ្ពស់ខ្លាំង (ជាង ៩៥%) ដោយសារប្រព័ន្ធយល់ពីអត្ថន័យបញ្ហាច្បាស់លាស់តាមរយៈរចនាសម្ព័ន្ធតំណាងអត្ថន័យ DOL។ វាផ្តល់ចម្លើយដោយផ្អែកលើការគិតហេតុផលពិតប្រាកដ។	មិនអាចដោះស្រាយបញ្ហាដែលមិនមាននៅក្នុងវិធានវេយ្យាករណ៍ (CFG rules) ឬមិនស្គាល់ពាក្យ ដែលធ្វើឱ្យអត្រាគ្របដណ្តប់ (Recall) នៅមានកម្រិតត្រឹមប្រហែល ៦០% ប៉ុណ្ណោះ។	ទទួលបានភាពសុក្រឹត (Precision) ៩៥.៤%, អត្រាគ្របដណ្តប់ (Recall) ៦០.២% និងកម្រិត F1 ៧៣.៨% លើសំណុំទិន្នន័យសរុប។
KAZB (Statistical Learning with Equation Templates) KAZB (ការរៀនតាមបែបស្ថិតិជាមួយនឹងគំរូសមីការ)	អាចដោះស្រាយចំណោទដោយមិនចាំបាច់យល់ពីអត្ថន័យស៊ីជម្រៅ ដោយគ្រាន់តែរៀនពីគំរូសមីការ និងលក្ខណៈពាក្យដែលមានស្រាប់ក្នុងទិន្នន័យ។	ទាមទារទិន្នន័យហ្វឹកហាត់ច្រើនដែលមានគំរូសមីការដូចគ្នា (យ៉ាងហោចណាស់២ទៅ៦ចំណោទសម្រាប់មួយគំរូ) និងមានភាពសុក្រឹតទាបបើប្រៀបធៀបនឹងប្រព័ន្ធ Dolphin។	ទទួលបានភាពសុក្រឹត ៤៩.១% លើសំណុំទិន្នន័យ LinearT6 និង ៣៧.៥% លើសំណុំទិន្នន័យ LinearT2។
BasicSim (Statistical Similarity) BasicSim (ភាពស្រដៀងគ្នាតាមបែបស្ថិតិ)	មានភាពសាមញ្ញ និងងាយស្រួលក្នុងការអនុវត្តដោយគ្រាន់តែប្រៀបធៀបភាពស្រដៀងគ្នានៃចំណោទថ្មីទៅនឹងចំណោទក្នុងទិន្នន័យហ្វឹកហាត់។	ភាពសុក្រឹតមានកម្រិតទាបខ្លាំង ដោយសារវាពឹងផ្អែកតែលើភាពស្រដៀងគ្នានៃពាក្យពេចន៍ និងមិនមានសមត្ថភាពវិភាគរចនាសម្ព័ន្ធតក្កវិទ្យានៃចំណោទឡើយ។	ទទួលបានភាពសុក្រឹតត្រឹមតែ ២៩.០% ប៉ុណ្ណោះលើសំណុំទិន្នន័យសរុប (All test set)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធនេះទាមទារការចំណាយកម្លាំងពលកម្មមនុស្សច្រើនក្នុងការសរសេរវិធានវេយ្យាករណ៍ និងរៀបចំទិន្នន័យមូលដ្ឋានចំណេះដឹង។

Dataset: ទាមទារទិន្នន័យចំណោទលេខចំនួន ១៨៧៨ ដែលប្រមូលពីគេហទំព័រ algebra.com និង answers.yahoo.com រួមទាំងការបញ្ចូលសមីការដោយមនុស្សផ្ទាល់។
Knowledge Base (Data): តម្រូវឱ្យមានការទាញយកទិន្នន័យពី Freebase និងការប្រើប្រាស់បណ្ដាញវេប (web snapshot) ជាង ៣ពាន់លានទំព័រ ដើម្បីទាញយកទំនាក់ទំនងពាក្យ (is-a pairs)។
Expertise: ត្រូវការការចូលរួមពីអ្នកជំនាញភាសាវិទ្យា និងវិស្វករកុំព្យូទ័រ ដើម្បីបង្កើតវិធានវេយ្យាករណ៍ (CFG Rules) ចំនួន ៩៦០០ និងបង្កើតវចនានុក្រមភាសាពាក់កណ្តាលស្វ័យប្រវត្តិ។
Algorithm & Software: ប្រើប្រាស់ប្រព័ន្ធ Earley Parser សម្រាប់វិភាគ CFG និងម៉ូឌុលគិតហេតុផល (Reasoning Module) ដើម្បីទាញយកសមីការពីដើមឈើ DOL (DOL trees)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យចំណោទគណិតវិទ្យាជាភាសាអង់គ្លេសដែលប្រមូលពីគេហទំព័រសហរដ្ឋអាមេរិក។ រចនាសម្ព័ន្ធវេយ្យាករណ៍ និងបរិបទនៃចំណោទទាំងនេះឆ្លុះបញ្ចាំងពីវប្បធម៌លោកខាងលិច ដែលអាចខុសគ្នាពីទម្រង់ចំណោទគណិតវិទ្យានៅកម្ពុជា។ វាទាមទារឱ្យមានការបង្កើតវិធានវេយ្យាករណ៍ និងរចនាសម្ព័ន្ធអត្ថន័យ (Semantic structure) ជាភាសាខ្មែរដាច់ដោយឡែកទើបអាចអនុវត្តបាន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានឧបសគ្គផ្នែកភាសាក៏ពិតមែន ប៉ុន្តែវិធីសាស្ត្រនៃការបំប្លែងអត្ថបទទៅជារូបមន្តគណិតវិទ្យានេះ មានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍវិស័យបច្ចេកវិទ្យាអប់រំនៅកម្ពុជា។

ក្រសួងអប់រំ យុវជន និងកីឡា (MoEYS): អាចប្រើប្រាស់គំនិតនេះដើម្បីបង្កើតកម្មវិធីជំនួយការសិក្សា (Intelligent Tutoring System) ដែលអាចដោះស្រាយ និងពន្យល់ចំណោទគណិតវិទ្យាបឋមសិក្សាដល់សិស្សដោយស្វ័យប្រវត្តិ។
ក្រុមហ៊ុនបច្ចេកវិទ្យាអប់រំ (EdTech Companies) នៅកម្ពុជា: អាចអភិវឌ្ឍកម្មវិធីទូរស័ព្ទ (Mobile Apps) ដែលអនុញ្ញាតឱ្យសិស្សថតរូបចំណោទគណិតវិទ្យាភាសាខ្មែរ ហើយប្រព័ន្ធនឹងវិភាគអត្ថន័យដើម្បីផ្តល់ចម្លើយ និងដំណោះស្រាយ។
វិទ្យាស្ថានស្រាវជ្រាវ (ឧ. បណ្ឌិត្យសភាបច្ចេកវិទ្យាឌីជីថលកម្ពុជា - CADT): អាចយកគំរូភាសា DOL (Dolphin Language) មកសិក្សា និងកែច្នៃស្រាវជ្រាវបង្កើតជាប្រព័ន្ធវិភាគអត្ថន័យភាសាខ្មែរ (Khmer Semantic Parsing) សម្រាប់កិច្ចការងារ NLP ជាច្រើនទៀត។

ជារួម បច្ចេកវិទ្យានេះជាមូលដ្ឋានគ្រឹះដ៏រឹងមាំមួយសម្រាប់ការស្រាវជ្រាវផ្នែក AI ក្នុងវិស័យអប់រំនៅកម្ពុជា ប្រសិនបើមានការវិនិយោគលើការបង្កើតទិន្នន័យ (Corpus) ជាភាសាខ្មែរ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Semantic Parsing និង CFG: និស្សិតត្រូវស្វែងយល់ពីរបៀបដំណើរការរបស់ Context-Free Grammar (CFG) និងក្បួនដោះស្រាយ Earley Parser ដោយប្រើប្រាស់បណ្ណាល័យដូចជា NLTK (Natural Language Toolkit) នៅក្នុង Python។
ប្រមូល និងរៀបចំទិន្នន័យចំណោទគណិតវិទ្យាភាសាខ្មែរ: ចាប់ផ្តើមប្រមូលចំណោទគណិតវិទ្យាពីសៀវភៅពុម្ពបឋមសិក្សារបស់ក្រសួងអប់រំ ដើម្បីបង្កើតជា Dataset ភាសាខ្មែរ ដោយធ្វើការកត់ត្រា (Annotate) សមីការ និងចម្លើយសម្រាប់ចំណោទនីមួយៗដោយដៃ។
អភិវឌ្ឍប្រព័ន្ធតំណាងអត្ថន័យ (Meaning Representation): សាកល្បងរចនារចនាសម្ព័ន្ធទិន្នន័យដូចជា DOL (Dolphin Language) ឬប្រើប្រាស់ទម្រង់ស្តង់ដារដូចជា Abstract Meaning Representation (AMR) ដែលស័ក្តិសមជាមួយទម្រង់ប្រយោគភាសាខ្មែរ។
សាងសង់ម៉ូឌុលគិតហេតុផល (Reasoning Engine): ប្រើប្រាស់ឧបករណ៍ដោះស្រាយសមីការគណិតវិទ្យាដូចជា SymPy នៅក្នុង Python ដើម្បីភ្ជាប់ជាមួយលទ្ធផល Parsed Tree (មែកធាងដែលបានវិភាគរួច) និងទាញយកចម្លើយដោយស្វ័យប្រវត្តិ។
វាយតម្លៃ និងកែលម្អប្រព័ន្ធ: ធ្វើការវាស់ស្ទង់ប្រសិទ្ធភាពប្រព័ន្ធដោយប្រើប្រាស់រង្វាស់ស្តង់ដារដូចជា Precision, Recall, និង F1-Score ព្រមទាំងបន្តបន្ថែមវិធានវេយ្យាករណ៍ (Grammar Rules) ថ្មីៗដើម្បីបង្កើនអត្រាគ្របដណ្តប់ឱ្យកាន់តែទូលំទូលាយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Semantic parsing	ជាដំណើរការបំប្លែងប្រយោគភាសាធម្មជាតិ (ដូចជាភាសាអង់គ្លេស ឬខ្មែរ) ទៅជារចនាសម្ព័ន្ធទិន្នន័យតក្កវិជ្ជា ឬកូដកុំព្យូទ័រ ដែលម៉ាស៊ីនអាចយល់ និងទាញយកអត្ថន័យបានច្បាស់លាស់ដើម្បីយកទៅដោះស្រាយបញ្ហាផ្សេងៗដោយស្វ័យប្រវត្តិ។	ដូចជាការបកប្រែបញ្ជារបស់មនុស្សជាភាសាធម្មតា ទៅជាភាសាកូដដែលមនុស្សយន្តអាចយល់ និងអនុវត្តតាមបានដោយមិនមានការភាន់ច្រឡំ។
Context-free grammar (CFG)	ជាសំណុំនៃវិធានវេយ្យាករណ៍គណិតវិទ្យាដែលត្រូវបានប្រើប្រាស់នៅក្នុងវិទ្យាសាស្ត្រកុំព្យូទ័រ ដើម្បីកំណត់រចនាសម្ព័ន្ធនៃប្រយោគ ដោយវាបំបែកប្រយោគធំៗទៅជាផ្នែកតូចៗ (ដូចជានាម កិរិយាសព្ទ) តាមលំដាប់លំដោយដោយមិនខ្វល់ពីបរិបទជុំវិញ។	ដូចជាប្លង់មេក្នុងការសាងសង់ផ្ទះ ដែលកំណត់ច្បាប់ថាតើជញ្ជាំង ទ្វារ និងដំបូលត្រូវផ្គុំចូលគ្នាយ៉ាងដូចម្តេចទើបចេញជាផ្ទះមួយដែលរឹងមាំ និងត្រូវតាមស្តង់ដារ។
Meaning representation language	ជាទម្រង់ភាសាសិប្បនិម្មិត (ក្នុងឯកសារនេះគឺភាសា DOL) ដែលត្រូវបានបង្កើតឡើងដើម្បីធ្វើជាស្ពានចម្លងរវាងភាសាធម្មជាតិរបស់មនុស្ស និងរូបមន្តគណិតវិទ្យា ដោយរក្សាទុកនូវព័ត៌មាន អត្ថន័យ និងទំនាក់ទំនងនៃបរិមាណយ៉ាងច្បាស់លាស់។	ដូចជាគំនូសបំព្រួញ (Mind Map) ដែលសង្ខេបសាច់រឿងដ៏វែងមួយឱ្យទៅជារូបភាពប្រាប់ពីទំនាក់ទំនងតួអង្គនីមួយៗយ៉ាងងាយយល់ និងខ្លីខ្លឹម។
Reasoning module	ជាផ្នែកមួយនៃប្រព័ន្ធកុំព្យូទ័រដែលមានភារកិច្ចយកទិន្នន័យអត្ថន័យដែលបានវិភាគរួច (រចនាសម្ព័ន្ធមែកធាង) មកត្រិះរិះពិចារណាដើម្បីទាញយកជាសមីការគណិតវិទ្យា និងធ្វើការគណនារកចម្លើយចុងក្រោយដោយផ្អែកលើតក្កវិជ្ជា។	ដូចជាខួរក្បាលរបស់សិស្សពូកែគណិតវិទ្យា ដែលបន្ទាប់ពីអានចំណោទយល់ន័យហើយ ក៏ទាញក្រដាសមកសរសេរជារូបមន្តដើម្បីគណនារកចម្លើយជាក់ស្តែង។
Earley algorithm	ជាក្បួនដោះស្រាយ (Algorithm) មួយប្រភេទសម្រាប់វិភាគរចនាសម្ព័ន្ធប្រយោគ (Parsing) ពីលើចុះក្រោម ដែលមានប្រសិទ្ធភាពខ្ពស់ក្នុងការស្វែងរកជម្រើសនៃរចនាសម្ព័ន្ធប្រយោគទាំងអស់ដែលអាចកើតមាន ឱ្យស្របតាមវិធានវេយ្យាករណ៍ដែលបានកំណត់។	ដូចជាអ្នកស៊ើបអង្កេតដែលតម្រៀបសេណារីយ៉ូទាំងអស់ដែលអាចកើតមានពីភស្តុតាងដែលគេមាន ដើម្បីរកមើលថាតើសេណារីយ៉ូមួយណាដែលសមហេតុផលបំផុត។
Type-compatibility property	ជាលក្ខខណ្ឌតម្រូវក្នុងប្រព័ន្ធភាសាកុំព្យូទ័រ ដែលធានាថាប្រភេទនៃទិន្នន័យ (Type) ដែលបញ្ចូលទៅក្នុងអនុគមន៍ណាមួយ គឺពិតជាត្រឹមត្រូវស៊ីគ្នាទៅនឹងប្រភេទដែលអនុគមន៍នោះត្រូវការ (ឧទាហរណ៍ មិនអាចយកទិន្នន័យជាអក្សរទៅគណនាបូកដកគុណចែកជាមួយលេខឡើយ)។	ដូចជាការចាក់សោទ្វារដែលតម្រូវឱ្យទំហំ និងរូបរាងនៃកូនសោ និងមេអន្លើកសោមានទម្រង់ស៊ីគ្នាបេះបិទ ទើបអាចមួលចាក់បើកបាន។
F1-measure	ជារង្វាស់ស្ថិតិសម្រាប់វាយតម្លៃប្រសិទ្ធភាពនៃប្រព័ន្ធ Machine Learning ដោយវាធ្វើការគណនាមធ្យមភាគរវាងភាពសុក្រឹត (Precision: ចម្លើយត្រូវក្នុងចំណោមចម្លើយដែលប្រព័ន្ធឆ្លើយ) និងអត្រាគ្របដណ្តប់ (Recall: ចម្លើយត្រូវក្នុងចំណោមសំនួរសរុប)។	ដូចជាការផ្តល់និទ្ទេសរួមនៃការសិក្សា ដែលវាយតម្លៃថ្លឹងថ្លែងទាំងលើភាពត្រឹមត្រូវនៃចម្លើយរបស់សិស្ស និងសមត្ថភាពក្នុងការឆ្លើយបានគ្រប់សំនួរទាំងអស់ដែលមានក្នុងវិញ្ញាសា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖