បញ្ហា (The Problem)៖ ភាសាប៊ីរ៉ាហួយ (Brahui) មានអ្នកនិយាយប្រមាណ ២,៥៧ លាននាក់ ប៉ុន្តែកំពុងប្រឈមនឹងកង្វះខាតធនធានទិន្នន័យយ៉ាងធ្ងន់ធ្ងរសម្រាប់ការស្រាវជ្រាវផ្នែកដំណើរការភាសាធម្មជាតិ (NLP)។ កង្វះខាតនេះធ្វើឱ្យភាសាមួយនេះប្រឈមនឹងហានិភ័យក្នុងការក្លាយជាភាសាជិតផុតពូជនៅក្នុងយុគសម័យឌីជីថល។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រមូលទិន្នន័យពីសៀវភៅ ទស្សនាវដ្តី និងបណ្តាញសង្គម ដើម្បីបង្កើតជាកម្រងអត្ថបទ រួចប្រើប្រាស់គំរូគណិតវិទ្យាដើម្បីវិភាគរចនាសម្ព័ន្ធ និងប្រេកង់នៃពាក្យ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Document Term Matrix (DTM) with N-grams ម៉ាទ្រីសពាក្យក្នុងឯកសារ (DTM) រួមជាមួយ N-grams |
អាចបង្ហាញយ៉ាងច្បាស់ពីប្រេកង់ និងអត្ថិភាពនៃពាក្យនីមួយៗ (Unigram, Bigram, Trigram) ដែលជួយក្នុងការស្វែងយល់ពីរចនាសម្ព័ន្ធមូលដ្ឋាននៃកម្រងអត្ថបទ។ | គ្រាន់តែរាប់ចំនួនដងនៃពាក្យ ប៉ុន្តែមិនអាចវាយតម្លៃ ឬថ្លឹងទម្ងន់ពីសារៈសំខាន់នៃពាក្យនោះធៀបនឹងឯកសារទាំងមូលបានល្អនោះទេ។ | បង្កើតបានម៉ាទ្រីសទិន្នន័យទំហំ ១៤.០៨២ ជួរ ដើម្បីកំណត់រចនាសម្ព័ន្ធពាក្យ និងប្រេកង់នៃពាក្យនីមួយៗក្នុងឯកសារ។ |
| Term Frequency-Inverse Document Frequency (TF-IDF) ប្រេកង់ពាក្យ និងប្រេកង់ឯកសារបញ្ច្រាស (TF-IDF) |
អាចវាយតម្លៃនិងផ្តល់ទម្ងន់សារៈសំខាន់ដល់ពាក្យនៅក្នុងឯកសារនីមួយៗបានល្អប្រសើរ ដែលមានប្រយោជន៍ខ្លាំងសម្រាប់ការទាញយកព័ត៌មាន (Information Retrieval)។ | មិនអាចបែងចែកបម្រែបម្រួលកាល (Tenses) នៃពាក្យតែមួយបាន ហើយវាយតម្លៃបានត្រឹមតែនៅកម្រិតវាក្យសព្ទ (Lexical Level) ដោយមិនអាចយល់ពីអត្ថន័យស៊ីជម្រៅ (Semantics) ឡើយ។ | រកឃើញថាពាក្យ 'نا' (ទេ/មិន) ទទួលបានពិន្ទុទម្ងន់ខ្ពស់ជាងគេបំផុត (០.៩៨៨៨៨៣) ដែលបញ្ជាក់ពីភាពលេចធ្លោនៅក្នុងអត្ថបទដែលបានវិភាគ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់ពីការចំណាយលើផ្នែករឹង (Hardware) នោះទេ ប៉ុន្តែបានសង្កត់ធ្ងន់លើតម្រូវការប្រមូលទិន្នន័យ និងចំណេះដឹងផ្នែកកែច្នៃភាសាធម្មជាតិ។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យអត្ថបទភាសាប៊ីរ៉ាហួយ (Brahui) តែមួយមុខគត់ ដែលនិយាយដោយប្រជាជនភាគតិចនៅខេត្តបាឡូជីស្ថាន ប្រទេសប៉ាគីស្ថាន។ ទិន្នន័យត្រូវបានដកស្រង់ពីសៀវភៅ និងបណ្តាញសង្គម ដែលអាចឆ្លុះបញ្ចាំងតែពីបរិបទវប្បធម៌របស់អ្នកប្រើប្រាស់អ៊ីនធឺណិត និងអ្នកនិពន្ធប៉ុណ្ណោះ។ សម្រាប់កម្ពុជា ការសិក្សានេះគឺជាគំរូដ៏ល្អមួយ ព្រោះភាសាខ្មែរ ក៏ដូចជាភាសាជនជាតិដើមភាគតិចនៅកម្ពុជា ក៏ស្ថិតក្នុងក្រុមភាសាដែលខ្វះខាតធនធានទិន្នន័យស្តង់ដារ (Under-resourced languages) និងមានទម្រង់វាក្យសព្ទស្មុគស្មាញផងដែរ។
វិធីសាស្ត្រក្នុងការប្រមូលទិន្នន័យនិងការវិភាគតាមរយៈ DTM និង TF-IDF នៅក្នុងឯកសារនេះ គឺពិតជាអាចយកមកអនុវត្តដោយផ្ទាល់សម្រាប់បរិបទប្រទេសកម្ពុជា។
ជារួម ការអនុវត្តបច្ចេកទេស DTM និង TF-IDF គឺជាជំហានដំបូងដ៏មានប្រសិទ្ធភាព និងចំណាយតិច ក្នុងការកសាងមូលដ្ឋានគ្រឹះកែច្នៃភាសាធម្មជាតិ (NLP) សម្រាប់ភាសាខ្មែរ និងភាសាភាគតិចនៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Natural Language Processing (NLP) | ជាសាខាមួយនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលផ្តោតលើការបង្រៀនកុំព្យូទ័រឱ្យយល់ បកស្រាយ និងបង្កើតភាសាមនុស្ស ទាំងក្នុងទម្រង់ជាអក្សរ និងសំឡេង ដើម្បីអាចប្រាស្រ័យទាក់ទងជាមួយមនុស្សបាន។ | ដូចជាការបង្រៀនកុមារបរទេសម្នាក់ឱ្យចេះស្តាប់ និយាយ និងយល់អត្ថន័យនៃភាសាខ្មែរដោយស្វ័យប្រវត្តិ។ |
| Text Corpus | ជាកម្រង ឬបណ្តុំនៃអត្ថបទជាច្រើនដែលត្រូវបានប្រមូលផ្តុំ និងរៀបចំជាប្រព័ន្ធ សម្រាប់ប្រើប្រាស់ជាទិន្នន័យមូលដ្ឋានក្នុងការសិក្សាស្រាវជ្រាវភាសាវិទ្យា និងការបង្វឹកម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI)។ | ដូចជាបណ្ណាល័យឌីជីថលដ៏ធំមួយដែលផ្ទុកសៀវភៅ និងអត្ថបទរាប់ម៉ឺនក្បាល ដើម្បីឱ្យកុំព្យូទ័រអាចទាញយកមកអាននិងរៀនពីរបៀបសរសេរភាសាមនុស្ស។ |
| Tokenization | ជាដំណើរការនៃការបំបែកអត្ថបទ ឬប្រយោគវែងៗ ទៅជាកង់ៗ ឬជាឯកតាតូចៗ (ដូចជាពាក្យនីមួយៗ ឬសញ្ញាខណ្ឌ) ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលរាប់ និងវិភាគ។ | ដូចជាការយកកាំបិតមកហាន់សាច់ដុំធំៗទៅជាដុំតូចៗល្មមមាត់ ដើម្បីងាយស្រួលយកទៅចម្អិនឬទំពារ។ |
| N-gram | ជាវិធីសាស្ត្រក្នុងការចាប់យកក្រុមពាក្យដែលនៅជាប់គ្នាជាលំដាប់ (ឧទាហរណ៍៖ Unigram សំដៅលើពាក្យ១, Bigram សំដៅលើពាក្យ២ជាប់គ្នា, Trigram ៣ពាក្យជាប់គ្នា) ដើម្បីវិភាគបរិបទ និងរចនាសម្ព័ន្ធនៃឃ្លា។ | ដូចជាការអានអក្សរម្តងមួយពាក្យ ម្តងពីរពាក្យ ឬម្តងបីពាក្យជាប់គ្នាជាឈុតៗ ដើម្បីទាយថាតើពាក្យបន្ទាប់គួរតែជាពាក្យអ្វី។ |
| Document Term Matrix (DTM) | ជាតារាងម៉ាទ្រីសគណិតវិទ្យាដែលបង្ហាញពីចំនួនដងនៃការលេចឡើងនៃពាក្យនីមួយៗ (ជួរឈរ) នៅក្នុងឯកសារនីមួយៗ (ជួរដេក) ដែលជួយកុំព្យូទ័រក្នុងការកំណត់ប្រេកង់នៃពាក្យក្នុងកម្រងអត្ថបទ។ | ដូចជាតារាងវត្តមានសិស្សប្រចាំខែ ដែលសិស្សគឺជា "ពាក្យ" ហើយថ្ងៃនីមួយៗគឺជា "ឯកសារ" ដើម្បីរាប់ថាសិស្សម្នាក់ៗមានវត្តមានប៉ុន្មានដង។ |
| TF-IDF | ជារូបមន្តគណិតវិទ្យា (Term Frequency-Inverse Document Frequency) សម្រាប់វាយតម្លៃកម្រិតសារៈសំខាន់នៃពាក្យមួយនៅក្នុងឯកសារមួយ ដោយផ្តល់ទម្ងន់ពិន្ទុខ្ពស់ដល់ពាក្យដែលលេចឡើងញឹកញាប់ក្នុងឯកសារនោះ តែមិនសូវមានប្រើក្នុងឯកសារផ្សេងទៀត។ | ដូចជាការផ្តល់រង្វាន់ដល់អ្នកដែលពូកែជំនាញប្លែកកម្រមានអ្នកចេះ ជាងការផ្តល់រង្វាន់ដល់អ្នកដែលចេះរឿងទូទៅដែលនរណាក៏ចេះ។ |
| Under-resourced language | សំដៅលើភាសាដែលខ្វះខាតទិន្នន័យឌីជីថល អត្ថបទ វចនានុក្រម ឬឧបករណ៍បច្ចេកវិទ្យាគ្រប់គ្រាន់ សម្រាប់គាំទ្រការស្រាវជ្រាវ និងការអភិវឌ្ឍប្រព័ន្ធកែច្នៃភាសាធម្មជាតិ។ | ដូចជាសិស្សក្រីក្រដែលមិនសូវមានសៀវភៅ ឬឯកសារសម្រាប់រៀនសូត្រផ្ទាល់ខ្លួន ប្រៀបធៀបនឹងសិស្សដទៃដែលមានសម្ភារៈគ្រប់គ្រាន់។ |
| Topic modeling | ជាបច្ចេកទេសរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលស្វែងរកដោយស្វ័យប្រវត្តិនូវប្រធានបទ ឬអត្ថន័យលាក់កំបាំងនៅក្នុងកម្រងឯកសារអត្ថបទដ៏ធំមួយ ដោយផ្អែកលើការចង្កោមពាក្យដែលមានន័យស្រដៀងគ្នា។ | ដូចជាអ្នកបណ្ណាល័យម្នាក់ដែលអាចរៀបចំសៀវភៅរាប់ពាន់ក្បាលទៅតាមប្រភេទ (ឧ. ប្រវត្តិសាស្ត្រ កីឡា) ដោយគ្រាន់តែរើសមើលពាក្យគន្លឹះក្នុងសៀវភៅ ដោយមិនបាច់អានផ្ទាល់ទាំងស្រុង។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖