បញ្ហា (The Problem)៖ ឯកសារនេះផ្តោតលើការដោះស្រាយបញ្ហាប្រឈមក្នុងការរចនាក្បួនដោះស្រាយ (Algorithms) ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ និងដោះស្រាយចំណោទគណិតវិទ្យាដែលសរសេរជាភាសាធម្មជាតិ (Math word problems) ដោយស្វ័យប្រវត្តិ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវវិធីសាស្ត្រវិភាគអត្ថន័យ និងការគិតហេតុផល (Semantic Parsing and Reasoning) តាមរយៈប្រព័ន្ធកុំព្យូទ័រមួយឈ្មោះថា SigmaDolphin ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Dolphin (Semantic Parsing and Reasoning) Dolphin (ការវិភាគអត្ថន័យ និងការគិតហេតុផល) |
មានភាពសុក្រឹតខ្ពស់ខ្លាំង (ជាង ៩៥%) ដោយសារប្រព័ន្ធយល់ពីអត្ថន័យបញ្ហាច្បាស់លាស់តាមរយៈរចនាសម្ព័ន្ធតំណាងអត្ថន័យ DOL។ វាផ្តល់ចម្លើយដោយផ្អែកលើការគិតហេតុផលពិតប្រាកដ។ | មិនអាចដោះស្រាយបញ្ហាដែលមិនមាននៅក្នុងវិធានវេយ្យាករណ៍ (CFG rules) ឬមិនស្គាល់ពាក្យ ដែលធ្វើឱ្យអត្រាគ្របដណ្តប់ (Recall) នៅមានកម្រិតត្រឹមប្រហែល ៦០% ប៉ុណ្ណោះ។ | ទទួលបានភាពសុក្រឹត (Precision) ៩៥.៤%, អត្រាគ្របដណ្តប់ (Recall) ៦០.២% និងកម្រិត F1 ៧៣.៨% លើសំណុំទិន្នន័យសរុប។ |
| KAZB (Statistical Learning with Equation Templates) KAZB (ការរៀនតាមបែបស្ថិតិជាមួយនឹងគំរូសមីការ) |
អាចដោះស្រាយចំណោទដោយមិនចាំបាច់យល់ពីអត្ថន័យស៊ីជម្រៅ ដោយគ្រាន់តែរៀនពីគំរូសមីការ និងលក្ខណៈពាក្យដែលមានស្រាប់ក្នុងទិន្នន័យ។ | ទាមទារទិន្នន័យហ្វឹកហាត់ច្រើនដែលមានគំរូសមីការដូចគ្នា (យ៉ាងហោចណាស់២ទៅ៦ចំណោទសម្រាប់មួយគំរូ) និងមានភាពសុក្រឹតទាបបើប្រៀបធៀបនឹងប្រព័ន្ធ Dolphin។ | ទទួលបានភាពសុក្រឹត ៤៩.១% លើសំណុំទិន្នន័យ LinearT6 និង ៣៧.៥% លើសំណុំទិន្នន័យ LinearT2។ |
| BasicSim (Statistical Similarity) BasicSim (ភាពស្រដៀងគ្នាតាមបែបស្ថិតិ) |
មានភាពសាមញ្ញ និងងាយស្រួលក្នុងការអនុវត្តដោយគ្រាន់តែប្រៀបធៀបភាពស្រដៀងគ្នានៃចំណោទថ្មីទៅនឹងចំណោទក្នុងទិន្នន័យហ្វឹកហាត់។ | ភាពសុក្រឹតមានកម្រិតទាបខ្លាំង ដោយសារវាពឹងផ្អែកតែលើភាពស្រដៀងគ្នានៃពាក្យពេចន៍ និងមិនមានសមត្ថភាពវិភាគរចនាសម្ព័ន្ធតក្កវិទ្យានៃចំណោទឡើយ។ | ទទួលបានភាពសុក្រឹតត្រឹមតែ ២៩.០% ប៉ុណ្ណោះលើសំណុំទិន្នន័យសរុប (All test set)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធនេះទាមទារការចំណាយកម្លាំងពលកម្មមនុស្សច្រើនក្នុងការសរសេរវិធានវេយ្យាករណ៍ និងរៀបចំទិន្នន័យមូលដ្ឋានចំណេះដឹង។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យចំណោទគណិតវិទ្យាជាភាសាអង់គ្លេសដែលប្រមូលពីគេហទំព័រសហរដ្ឋអាមេរិក។ រចនាសម្ព័ន្ធវេយ្យាករណ៍ និងបរិបទនៃចំណោទទាំងនេះឆ្លុះបញ្ចាំងពីវប្បធម៌លោកខាងលិច ដែលអាចខុសគ្នាពីទម្រង់ចំណោទគណិតវិទ្យានៅកម្ពុជា។ វាទាមទារឱ្យមានការបង្កើតវិធានវេយ្យាករណ៍ និងរចនាសម្ព័ន្ធអត្ថន័យ (Semantic structure) ជាភាសាខ្មែរដាច់ដោយឡែកទើបអាចអនុវត្តបាន។
ទោះបីជាមានឧបសគ្គផ្នែកភាសាក៏ពិតមែន ប៉ុន្តែវិធីសាស្ត្រនៃការបំប្លែងអត្ថបទទៅជារូបមន្តគណិតវិទ្យានេះ មានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍវិស័យបច្ចេកវិទ្យាអប់រំនៅកម្ពុជា។
ជារួម បច្ចេកវិទ្យានេះជាមូលដ្ឋានគ្រឹះដ៏រឹងមាំមួយសម្រាប់ការស្រាវជ្រាវផ្នែក AI ក្នុងវិស័យអប់រំនៅកម្ពុជា ប្រសិនបើមានការវិនិយោគលើការបង្កើតទិន្នន័យ (Corpus) ជាភាសាខ្មែរ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Semantic parsing | ជាដំណើរការបំប្លែងប្រយោគភាសាធម្មជាតិ (ដូចជាភាសាអង់គ្លេស ឬខ្មែរ) ទៅជារចនាសម្ព័ន្ធទិន្នន័យតក្កវិជ្ជា ឬកូដកុំព្យូទ័រ ដែលម៉ាស៊ីនអាចយល់ និងទាញយកអត្ថន័យបានច្បាស់លាស់ដើម្បីយកទៅដោះស្រាយបញ្ហាផ្សេងៗដោយស្វ័យប្រវត្តិ។ | ដូចជាការបកប្រែបញ្ជារបស់មនុស្សជាភាសាធម្មតា ទៅជាភាសាកូដដែលមនុស្សយន្តអាចយល់ និងអនុវត្តតាមបានដោយមិនមានការភាន់ច្រឡំ។ |
| Context-free grammar (CFG) | ជាសំណុំនៃវិធានវេយ្យាករណ៍គណិតវិទ្យាដែលត្រូវបានប្រើប្រាស់នៅក្នុងវិទ្យាសាស្ត្រកុំព្យូទ័រ ដើម្បីកំណត់រចនាសម្ព័ន្ធនៃប្រយោគ ដោយវាបំបែកប្រយោគធំៗទៅជាផ្នែកតូចៗ (ដូចជានាម កិរិយាសព្ទ) តាមលំដាប់លំដោយដោយមិនខ្វល់ពីបរិបទជុំវិញ។ | ដូចជាប្លង់មេក្នុងការសាងសង់ផ្ទះ ដែលកំណត់ច្បាប់ថាតើជញ្ជាំង ទ្វារ និងដំបូលត្រូវផ្គុំចូលគ្នាយ៉ាងដូចម្តេចទើបចេញជាផ្ទះមួយដែលរឹងមាំ និងត្រូវតាមស្តង់ដារ។ |
| Meaning representation language | ជាទម្រង់ភាសាសិប្បនិម្មិត (ក្នុងឯកសារនេះគឺភាសា DOL) ដែលត្រូវបានបង្កើតឡើងដើម្បីធ្វើជាស្ពានចម្លងរវាងភាសាធម្មជាតិរបស់មនុស្ស និងរូបមន្តគណិតវិទ្យា ដោយរក្សាទុកនូវព័ត៌មាន អត្ថន័យ និងទំនាក់ទំនងនៃបរិមាណយ៉ាងច្បាស់លាស់។ | ដូចជាគំនូសបំព្រួញ (Mind Map) ដែលសង្ខេបសាច់រឿងដ៏វែងមួយឱ្យទៅជារូបភាពប្រាប់ពីទំនាក់ទំនងតួអង្គនីមួយៗយ៉ាងងាយយល់ និងខ្លីខ្លឹម។ |
| Reasoning module | ជាផ្នែកមួយនៃប្រព័ន្ធកុំព្យូទ័រដែលមានភារកិច្ចយកទិន្នន័យអត្ថន័យដែលបានវិភាគរួច (រចនាសម្ព័ន្ធមែកធាង) មកត្រិះរិះពិចារណាដើម្បីទាញយកជាសមីការគណិតវិទ្យា និងធ្វើការគណនារកចម្លើយចុងក្រោយដោយផ្អែកលើតក្កវិជ្ជា។ | ដូចជាខួរក្បាលរបស់សិស្សពូកែគណិតវិទ្យា ដែលបន្ទាប់ពីអានចំណោទយល់ន័យហើយ ក៏ទាញក្រដាសមកសរសេរជារូបមន្តដើម្បីគណនារកចម្លើយជាក់ស្តែង។ |
| Earley algorithm | ជាក្បួនដោះស្រាយ (Algorithm) មួយប្រភេទសម្រាប់វិភាគរចនាសម្ព័ន្ធប្រយោគ (Parsing) ពីលើចុះក្រោម ដែលមានប្រសិទ្ធភាពខ្ពស់ក្នុងការស្វែងរកជម្រើសនៃរចនាសម្ព័ន្ធប្រយោគទាំងអស់ដែលអាចកើតមាន ឱ្យស្របតាមវិធានវេយ្យាករណ៍ដែលបានកំណត់។ | ដូចជាអ្នកស៊ើបអង្កេតដែលតម្រៀបសេណារីយ៉ូទាំងអស់ដែលអាចកើតមានពីភស្តុតាងដែលគេមាន ដើម្បីរកមើលថាតើសេណារីយ៉ូមួយណាដែលសមហេតុផលបំផុត។ |
| Type-compatibility property | ជាលក្ខខណ្ឌតម្រូវក្នុងប្រព័ន្ធភាសាកុំព្យូទ័រ ដែលធានាថាប្រភេទនៃទិន្នន័យ (Type) ដែលបញ្ចូលទៅក្នុងអនុគមន៍ណាមួយ គឺពិតជាត្រឹមត្រូវស៊ីគ្នាទៅនឹងប្រភេទដែលអនុគមន៍នោះត្រូវការ (ឧទាហរណ៍ មិនអាចយកទិន្នន័យជាអក្សរទៅគណនាបូកដកគុណចែកជាមួយលេខឡើយ)។ | ដូចជាការចាក់សោទ្វារដែលតម្រូវឱ្យទំហំ និងរូបរាងនៃកូនសោ និងមេអន្លើកសោមានទម្រង់ស៊ីគ្នាបេះបិទ ទើបអាចមួលចាក់បើកបាន។ |
| F1-measure | ជារង្វាស់ស្ថិតិសម្រាប់វាយតម្លៃប្រសិទ្ធភាពនៃប្រព័ន្ធ Machine Learning ដោយវាធ្វើការគណនាមធ្យមភាគរវាងភាពសុក្រឹត (Precision: ចម្លើយត្រូវក្នុងចំណោមចម្លើយដែលប្រព័ន្ធឆ្លើយ) និងអត្រាគ្របដណ្តប់ (Recall: ចម្លើយត្រូវក្នុងចំណោមសំនួរសរុប)។ | ដូចជាការផ្តល់និទ្ទេសរួមនៃការសិក្សា ដែលវាយតម្លៃថ្លឹងថ្លែងទាំងលើភាពត្រឹមត្រូវនៃចម្លើយរបស់សិស្ស និងសមត្ថភាពក្នុងការឆ្លើយបានគ្រប់សំនួរទាំងអស់ដែលមានក្នុងវិញ្ញាសា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖