បញ្ហា (The Problem)៖ ប្រព័ន្ធយល់ដឹងភាសាធម្មជាតិ (NLP) ជាប្រពៃណីជួបប្រទះការលំបាកក្នុងការកសាងបរិបទ និងការដោះស្រាយភាពមិនច្បាស់លាស់នៃអត្ថន័យ ដោយសារការបំបែកដាច់ពីគ្នារវាងការវិភាគវាក្យសម្ព័ន្ធ និងអត្ថន័យ។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានស្នើឡើងនូវគំរូនៃការរៀនបរិបទដែលរួមបញ្ចូលចំណេះដឹងពហុវិស័យក្នុងពេលដំណាលគ្នា ដោយប្រើប្រាស់បច្ចេកទេសនិមិត្តសញ្ញា និងបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Baseline Model (Immediate entity agreement) ម៉ូដែលមូលដ្ឋាន (ជ្រើសរើសពាក្យដែលនៅជិតបំផុត និងត្រូវគ្នាតាមយេនឌ័រ/ចំនួន) |
ងាយស្រួលក្នុងការយល់និងអនុវត្ត ព្រមទាំងមិនតម្រូវឱ្យមានការគណនាស្មុគស្មាញច្រើន។ ជាវិធីសាស្ត្រសាមញ្ញដែលមិនទាមទារធនធានម៉ាស៊ីនខ្ពស់។ | ខ្វះភាពត្រឹមត្រូវខ្ពស់ ដោយសារមិនបានពិចារណាលើបរិបទស៊ីជម្រៅនៃអត្ថបទ។ ងាយនឹងធ្វើការសន្និដ្ឋានខុសនៅពេលប្រយោគមានភាពស្មុគស្មាញ។ | ទទួលបានតម្លៃ F-measure ត្រឹមតែ ៤២% ប៉ុណ្ណោះក្នុងការកាត់សេចក្ដីសព្វនាម។ |
| Syntactic Network (SN) បណ្ដាញវាក្យសម្ព័ន្ធតែឯង |
អាចចាប់យកទំនាក់ទំនងនៃទម្រង់វេយ្យាករណ៍ និងរចនាសម្ព័ន្ធប្រយោគបានយ៉ាងច្បាស់លាស់។ ជួយកាត់បន្ថយភាពមិនច្បាស់លាស់ផ្នែករចនាសម្ព័ន្ធលើផ្ទៃ។ | មិនអាចផ្ដល់អត្ថន័យពេញលេញបានទេបើខ្វះចំណេះដឹងផ្នែកវាក្យសព្ទ។ ការពឹងផ្អែកតែលើវេយ្យាករណ៍ធ្វើឱ្យប្រសិទ្ធភាពធ្លាក់ចុះទាបជាងម៉ូដែលមូលដ្ឋានទៅទៀត។ | ទទួលបានតម្លៃ F-measure ទាបបំផុតត្រឹមតែ ៣៤% ប៉ុណ្ណោះ។ |
| SN + Lexical Subsymbols + Context-Dependent models បណ្ដាញវាក្យសម្ព័ន្ធ + និមិត្តសញ្ញារងវាក្យសព្ទ + ម៉ូដែលពឹងផ្អែកលើបរិបទ (ម៉ូដែលស្នើឡើងពេញលេញ) |
រួមបញ្ចូលប្រភពចំណេះដឹងពហុជ្រុងទាំងវេយ្យាករណ៍ អត្ថន័យ និងបរិបទ ដែលផ្ដល់ភាពត្រឹមត្រូវខ្ពស់បំផុត។ មានសមត្ថភាពដោះស្រាយភាពមិនច្បាស់លាស់នៃពាក្យបានយ៉ាងអស្ចារ្យ ទោះជាក្នុងទម្រង់ទ្វេភាសាក៏ដោយ។ | មានភាពស្មុគស្មាញខ្ពស់ក្នុងការគណនា (Matrix multiplication) សម្រាប់ការធ្វើសមកាលកម្មអត្ថន័យ។ ទាមទារការរៀបចំសទ្ទានុក្រមនិងទិន្នន័យយ៉ាងច្រើនិតិចអានិត។ | ទទួលបានតម្លៃ F-measure ខ្ពស់រហូតដល់ ៩២% ក្នុងការកាត់សេចក្ដីសព្វនាម ដែលបង្ហាញពីការកើនឡើងយ៉ាងកត់សម្គាល់។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធនេះទាមទារធនធានកុំព្យូទ័រនិងទិន្នន័យភាសាវិទ្យាយ៉ាងច្រើន ដើម្បីបណ្តុះបណ្តាលបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត និងដំណើរការម៉ាទ្រីសចំណេះដឹង។
ការសិក្សានេះត្រូវបានសាកល្បងដោយប្រើប្រាស់ទិន្នន័យពីព្រះគម្ពីរ (Bible) ជាភាសាអង់គ្លេសនិងចិន សទ្ទានុក្រម Longman និងកម្រងអត្ថបទភាសាចិន Academia Sinica។ វាមិនមានទិន្នន័យភាសាខ្មែរទាល់តែសោះ ដែលនេះជាឧបសគ្គដ៏ធំមួយសម្រាប់កម្ពុជា ដោយសារភាសាខ្មែរមានរចនាសម្ព័ន្ធខុសគ្នា គ្មានការដកឃ្លារវាងពាក្យ និងមានកង្វះខាតកម្រងទិន្នន័យ (Corpus) ដែលមានស្តង់ដារ។
ទោះបីជាមានបញ្ហាប្រឈមផ្នែកទិន្នន័យ ក៏វិធីសាស្ត្របង្កើតបរិបទថាមវន្តនេះមានភាពពាក់ព័ន្ធនិងអត្ថប្រយោជន៍ខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធយល់ដឹងភាសាខ្មែរ។
សរុបមក ក្របខណ្ឌនេះផ្ដល់នូវអភិក្រមដ៏រឹងមាំមួយសម្រាប់ការស្រាវជ្រាវ AI នៅកម្ពុជា ជាពិសេសក្នុងការដោះស្រាយបញ្ហាភាសាខ្មែរដែលពឹងផ្អែកលើបរិបទស៊ីជម្រៅ ប្រសិនបើមានការវិនិយោគគ្រប់គ្រាន់លើការបង្កើតទិន្នន័យ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Connectionism | ជាទ្រឹស្ដីនិងវិធីសាស្ត្រក្នុងបញ្ញាសិប្បនិម្មិត (AI) ដែលព្យាយាមធ្វើត្រាប់តាមរបៀបដែលខួរក្បាលមនុស្សដំណើរការព័ត៌មាន តាមរយៈបណ្តាញនៃកោសិកាសរសៃប្រសាទសិប្បនិម្មិតតូចៗដែលតភ្ជាប់គ្នា ដើម្បីដោះស្រាយបញ្ហាស្មុគស្មាញដូចជាការយល់ន័យរបស់ភាសា។ | ដូចជាការសហការគ្នារបស់ក្រុមមនុស្សរាប់ពាន់នាក់ ដែលម្នាក់ៗមានតួនាទីតូចមួយ ប៉ុន្តែពេលធ្វើការរួមគ្នា ពួកគេអាចដោះស្រាយល្បែងផ្គុំរូបដ៏ធំមួយបាន។ |
| Recursive Auto-Associative Memory (RAAM) | ជាប្រភេទបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតដែលត្រូវបានប្រើប្រាស់ដើម្បីបង្រួមទិន្នន័យដែលមានរចនាសម្ព័ន្ធស្មុគស្មាញ (ដូចជាមែកធាងវេយ្យាករណ៍នៃប្រយោគ) ទៅជាទម្រង់តូចមួយ (វ៉ិចទ័រ) ហើយអាចបំប្លែងត្រឡប់មកទម្រង់ដើមវិញបានដោយមិនបាត់បង់ព័ត៌មានសំខាន់។ | ដូចជាការវេចខ្ចប់ឯកសារជាច្រើនចូលទៅក្នុងឯកសារ ZIP មួយ ដែលងាយស្រួលរក្សាទុក និងអាចពន្លាវិញបានយ៉ាងរហ័សនៅពេលត្រូវការ។ |
| Anaphora Resolution | ជាដំណើរការនៅក្នុងការយល់ដឹងភាសាធម្មជាតិ (NLP) ដែលកុំព្យូទ័រត្រូវស្វែងរកថាតើសព្វនាមមួយ (ដូចជា "គាត់", "វា", "នាង") កំពុងសំដៅទៅលើនាមមួយណាដែលបានរៀបរាប់ពីមុននៅក្នុងអត្ថបទ។ | ដូចជាការតាមដានរឿងស៊ើបអង្កេតមួយ ដែលអ្នកត្រូវទាយដឹងថាពាក្យ "ជនសង្ស័យ" នៅក្នុងប្រយោគនេះ សំដៅទៅលើតួអង្គឈ្មោះអ្វីដែលបានរៀបរាប់កាលពីទំព័រមុន។ |
| Word Sense Disambiguation | ជាបច្ចេកទេសបង្រៀនកុំព្យូទ័រឱ្យចេះបែងចែកអត្ថន័យពិតប្រាកដនៃពាក្យមួយដែលមានន័យច្រើន (ពាក្យពហុន័យ) ដោយពឹងផ្អែកទៅលើបរិបទឬពាក្យដែលនៅជុំវិញវា ដើម្បីកុំឱ្យមានការយល់ច្រឡំ។ | ដូចជាការដឹងថាពាក្យ "លា" ក្នុងឃ្លា "សត្វលា" ខុសពីពាក្យ "លា" ក្នុងឃ្លា "សុំលាសិនហើយ" ដោយផ្អែកលើបរិបទនៃប្រយោគទាំងមូល។ |
| Lexical Subsymbols | ជាការតំណាងអត្ថន័យនៃពាក្យនីមួយៗក្នុងទម្រង់ជាលេខវ៉ិចទ័រតូចៗ ដែលបង្កប់នូវលក្ខណៈពិសេស អត្ថន័យ និងទំនាក់ទំនងរបស់ពាក្យនោះជាមួយពាក្យដទៃទៀត ដើម្បីជួយឱ្យកុំព្យូទ័រងាយស្រួលគណនានិងរកភាពស្រដៀងគ្នា។ | ដូចជាការផ្តល់ពិន្ទុគុណសម្បត្តិលម្អិត (កម្លាំង, ល្បឿន, បញ្ញា) ដល់តួអង្គក្នុងហ្គេម ដើម្បីឱ្យប្រព័ន្ធដឹងថាតួអង្គណាមានចរិតលក្ខណៈស្រដៀងគ្នាអាចបញ្ចូលគ្នាក្នុងក្រុមតែមួយបាន។ |
| Bayesian Network | ជាទម្រង់នៃក្រាហ្វិកគណិតវិទ្យាដែលប្រើប្រាស់ទ្រឹស្ដីប្រូបាប៊ីលីតេ (ឱកាសដែលអាចកើតមាន) ដើម្បីសន្និដ្ឋាននិងដោះស្រាយភាពមិនច្បាស់លាស់ ដូចជាការទស្សន៍ទាយរចនាសម្ព័ន្ធវេយ្យាករណ៍ដែលត្រឹមត្រូវបំផុតសម្រាប់ប្រយោគណាមួយដែលស្មុគស្មាញ។ | ដូចជាគ្រូពេទ្យដែលធ្វើការទស្សន៍ទាយជំងឺរបស់អ្នកជំងឺ ដោយពឹងផ្អែកលើភាគរយនៃរោគសញ្ញាផ្សេងៗដែលលេចឡើងក្នុងពេលតែមួយ។ |
| Syntactic Network | ជាបណ្តាញរចនាសម្ព័ន្ធដែលតំណាងឱ្យទំនាក់ទំនងវេយ្យាករណ៍រវាងពាក្យនៅក្នុងប្រយោគ ដោយជួយបំបែកប្រយោគធំៗទៅជាផ្នែកតូចៗដើម្បីស្វែងរកអត្ថន័យនិងតួនាទីរបស់ពាក្យនីមួយៗ (ដូចជា ប្រធាន កិរិយា កម្មបទ)។ | ដូចជាប្លង់មេនៃផ្ទះមួយ ដែលបង្ហាញយ៉ាងច្បាស់ពីរបៀបដែលបន្ទប់នីមួយៗ (ពាក្យ) ភ្ជាប់គ្នាដើម្បីបង្កើតបានជាផ្ទះទាំងមូល (ប្រយោគពេញលេញ)។ |
| Semantic Resolution | ជាដំណាក់កាលចុងក្រោយក្នុងការច្រោះយកអត្ថន័យដែលត្រឹមត្រូវបំផុតសម្រាប់ប្រយោគមួយ ដោយធ្វើការប្រៀបធៀប និងលុបចោលការបកស្រាយណាដែលផ្ទុយគ្នាឬមិនសមហេតុផល តាមរយៈការតភ្ជាប់ព័ត៌មានពីប្រភពផ្សេងៗ។ | ដូចជាការជម្រុះចោលបេក្ខជនខុសក្នុងកម្មវិធីប្រឡងមួយវគ្គម្តងៗ រហូតដល់រកឃើញអ្នកឈ្នះតែម្នាក់គត់ដែលស័ក្តិសមបំផុតសម្រាប់តំណែង។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖