Original Title: BUILDING AND ANALYZING A BRAHUI TEXT CORPUS: APPLYING DTM AND TF-IDF TECHNIQUES
Source: github.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបង្កើត និងវិភាគកម្រងអត្ថបទភាសាប៊ីរ៉ាហួយ (Brahui)៖ ការអនុវត្តបច្ចេកទេស DTM និង TF-IDF

ចំណងជើងដើម៖ BUILDING AND ANALYZING A BRAHUI TEXT CORPUS: APPLYING DTM AND TF-IDF TECHNIQUES

អ្នកនិពន្ធ៖ Naseer Ahmed (Sindh Madresatul Islam University), Mansoor Ahmed Khuhro (Sindh Madressatul Islam University), Mazhar Ali Dootio (Benazir Bhutto Shaheed University Lyari)

ឆ្នាំបោះពុម្ព៖ 2024, International Journal of Applied Engineering & Technology

វិស័យសិក្សា៖ Computational Linguistics

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ភាសាប៊ីរ៉ាហួយ (Brahui) មានអ្នកនិយាយប្រមាណ ២,៥៧ លាននាក់ ប៉ុន្តែកំពុងប្រឈមនឹងកង្វះខាតធនធានទិន្នន័យយ៉ាងធ្ងន់ធ្ងរសម្រាប់ការស្រាវជ្រាវផ្នែកដំណើរការភាសាធម្មជាតិ (NLP)។ កង្វះខាតនេះធ្វើឱ្យភាសាមួយនេះប្រឈមនឹងហានិភ័យក្នុងការក្លាយជាភាសាជិតផុតពូជនៅក្នុងយុគសម័យឌីជីថល។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រមូលទិន្នន័យពីសៀវភៅ ទស្សនាវដ្តី និងបណ្តាញសង្គម ដើម្បីបង្កើតជាកម្រងអត្ថបទ រួចប្រើប្រាស់គំរូគណិតវិទ្យាដើម្បីវិភាគរចនាសម្ព័ន្ធ និងប្រេកង់នៃពាក្យ។

ការកសាងម៉ាទ្រីសពាក្យក្នុងឯកសារ (Document Term Matrix - DTM)
ការវាយតម្លៃប្រេកង់ពាក្យ និងប្រេកង់ឯកសារបញ្ច្រាស (Term Frequency-Inverse Document Frequency - TF-IDF)
ការវិភាគកន្សោមពាក្យដោយប្រើគំរូ N-gram (Unigram, Bigram, និង Trigram)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

គម្រោងនេះបានបង្កើតកម្រងអត្ថបទដែលមានទិន្នន័យចំនួន ១៤.០៨២ ជួរ (Rows) ដែលផ្តល់ជាមូលដ្ឋានគ្រឹះដ៏សំខាន់សម្រាប់ការបកប្រែដោយម៉ាស៊ីន និងការវិភាគអត្ថន័យនាពេលអនាគត។
តាមរយៈការវិភាគ TF-IDF គេរកឃើញថាពាក្យ 'نا' (ទេ/មិន) មានកម្រិតទម្ងន់សំខាន់ខ្ពស់ជាងគេបំផុត (០.៩៨៨៨៨៣) នៅក្នុងទិន្នន័យដែលបានវិភាគ។
ការអនុវត្តបច្ចេកទេស DTM និង TF-IDF បានបង្ហាញពីប្រសិទ្ធភាពខ្ពស់ក្នុងការទាញយកព័ត៌មាន ប៉ុន្តែក៏បានរកឃើញនូវបញ្ហាប្រឈមមួយចំនួនដូចជាការមិនអាចបែងចែកបម្រែបម្រួលកាល (Tenses) នៃពាក្យបានត្រឹមត្រូវ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Document Term Matrix (DTM) with N-grams ម៉ាទ្រីសពាក្យក្នុងឯកសារ (DTM) រួមជាមួយ N-grams	អាចបង្ហាញយ៉ាងច្បាស់ពីប្រេកង់ និងអត្ថិភាពនៃពាក្យនីមួយៗ (Unigram, Bigram, Trigram) ដែលជួយក្នុងការស្វែងយល់ពីរចនាសម្ព័ន្ធមូលដ្ឋាននៃកម្រងអត្ថបទ។	គ្រាន់តែរាប់ចំនួនដងនៃពាក្យ ប៉ុន្តែមិនអាចវាយតម្លៃ ឬថ្លឹងទម្ងន់ពីសារៈសំខាន់នៃពាក្យនោះធៀបនឹងឯកសារទាំងមូលបានល្អនោះទេ។	បង្កើតបានម៉ាទ្រីសទិន្នន័យទំហំ ១៤.០៨២ ជួរ ដើម្បីកំណត់រចនាសម្ព័ន្ធពាក្យ និងប្រេកង់នៃពាក្យនីមួយៗក្នុងឯកសារ។
Term Frequency-Inverse Document Frequency (TF-IDF) ប្រេកង់ពាក្យ និងប្រេកង់ឯកសារបញ្ច្រាស (TF-IDF)	អាចវាយតម្លៃនិងផ្តល់ទម្ងន់សារៈសំខាន់ដល់ពាក្យនៅក្នុងឯកសារនីមួយៗបានល្អប្រសើរ ដែលមានប្រយោជន៍ខ្លាំងសម្រាប់ការទាញយកព័ត៌មាន (Information Retrieval)។	មិនអាចបែងចែកបម្រែបម្រួលកាល (Tenses) នៃពាក្យតែមួយបាន ហើយវាយតម្លៃបានត្រឹមតែនៅកម្រិតវាក្យសព្ទ (Lexical Level) ដោយមិនអាចយល់ពីអត្ថន័យស៊ីជម្រៅ (Semantics) ឡើយ។	រកឃើញថាពាក្យ 'نا' (ទេ/មិន) ទទួលបានពិន្ទុទម្ងន់ខ្ពស់ជាងគេបំផុត (០.៩៨៨៨៨៣) ដែលបញ្ជាក់ពីភាពលេចធ្លោនៅក្នុងអត្ថបទដែលបានវិភាគ។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់ពីការចំណាយលើផ្នែករឹង (Hardware) នោះទេ ប៉ុន្តែបានសង្កត់ធ្ងន់លើតម្រូវការប្រមូលទិន្នន័យ និងចំណេះដឹងផ្នែកកែច្នៃភាសាធម្មជាតិ។

Dataset: កម្រងអត្ថបទភាសាប៊ីរ៉ាហួយ (Brahui) ចំនួន ១៤.០៨២ ឯកសារ ដែលប្រមូលបានពីសៀវភៅ ទស្សនាវដ្តី និងបណ្តាញសង្គម។
Software & Tools: កម្មវិធីនិងភាសាសរសេរកូដ (ដូចជា Python/R) សម្រាប់ដំណើរការគណិតវិទ្យា និងឃ្លាំងទិន្នន័យ GitHub សម្រាប់ផ្ទុក Corpus នេះ។
Expertise: អ្នកជំនាញផ្នែកភាសាវិទ្យាកុំព្យូទ័រ និងអ្នកអភិវឌ្ឍន៍ NLP ដែលយល់ដឹងពី Tokenization, DTM, និង TF-IDF។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យអត្ថបទភាសាប៊ីរ៉ាហួយ (Brahui) តែមួយមុខគត់ ដែលនិយាយដោយប្រជាជនភាគតិចនៅខេត្តបាឡូជីស្ថាន ប្រទេសប៉ាគីស្ថាន។ ទិន្នន័យត្រូវបានដកស្រង់ពីសៀវភៅ និងបណ្តាញសង្គម ដែលអាចឆ្លុះបញ្ចាំងតែពីបរិបទវប្បធម៌របស់អ្នកប្រើប្រាស់អ៊ីនធឺណិត និងអ្នកនិពន្ធប៉ុណ្ណោះ។ សម្រាប់កម្ពុជា ការសិក្សានេះគឺជាគំរូដ៏ល្អមួយ ព្រោះភាសាខ្មែរ ក៏ដូចជាភាសាជនជាតិដើមភាគតិចនៅកម្ពុជា ក៏ស្ថិតក្នុងក្រុមភាសាដែលខ្វះខាតធនធានទិន្នន័យស្តង់ដារ (Under-resourced languages) និងមានទម្រង់វាក្យសព្ទស្មុគស្មាញផងដែរ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រក្នុងការប្រមូលទិន្នន័យនិងការវិភាគតាមរយៈ DTM និង TF-IDF នៅក្នុងឯកសារនេះ គឺពិតជាអាចយកមកអនុវត្តដោយផ្ទាល់សម្រាប់បរិបទប្រទេសកម្ពុជា។

ការអភិរក្សភាសាជនជាតិដើមភាគតិច (ខេត្តរតនគិរី និងមណ្ឌលគិរី): វិធីសាស្ត្រនេះអាចប្រើដើម្បីប្រមូល និងចងក្រងកម្រងអត្ថបទ (Text Corpus) សម្រាប់ភាសាទំពួន ព្នង ឬគួយ ក្នុងគោលបំណងរក្សាទុកជាទម្រង់ឌីជីថល និងរៀបចំជាមូលដ្ឋានគ្រឹះសម្រាប់ការសិក្សាស្រាវជ្រាវ។
ប្រព័ន្ធស្វែងរកទិន្នន័យនិងឯកសារច្បាប់កម្ពុជា (Khmer Information Retrieval): បច្ចេកទេស TF-IDF អាចត្រូវបានស្ថាប័នរដ្ឋ ឬក្រុមហ៊ុនច្បាប់យកទៅប្រើប្រាស់ដើម្បីបង្កើតប្រព័ន្ធស្វែងរកឯកសារ ដោយវាអាចទាញយកពាក្យគន្លឹះសំខាន់ៗចេញពីអត្ថបទច្បាប់ដែលវែងៗបានយ៉ាងលឿន។

ជារួម ការអនុវត្តបច្ចេកទេស DTM និង TF-IDF គឺជាជំហានដំបូងដ៏មានប្រសិទ្ធភាព និងចំណាយតិច ក្នុងការកសាងមូលដ្ឋានគ្រឹះកែច្នៃភាសាធម្មជាតិ (NLP) សម្រាប់ភាសាខ្មែរ និងភាសាភាគតិចនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីការរៀបចំទិន្នន័យ និងកាត់ពាក្យ (Tokenization): ចាប់ផ្តើមស្វែងយល់ពីរបៀបប្រមូលទិន្នន័យអត្ថបទ និងបច្ចេកទេសកាត់ពាក្យភាសាខ្មែរ ដោយសាកល្បងប្រើប្រាស់បណ្ណាល័យដូចជា khmer-nltk ឬ sekhmer។
ប្រមូល និងសម្អាតកម្រងអត្ថបទ (Corpus Creation): ប្រមូលអត្ថបទពីគេហទំព័រព័ត៌មាន (ឧទាហរណ៍៖ សារព័ត៌មានជាតិ) វេទិកាសង្គម ឬឯកសាររដ្ឋបាល រួចធ្វើការសម្អាតទិន្នន័យ (Preprocessing) ដោយលុបចោលតួអក្សរដែលមិនចាំបាច់ និងរៀបចំជាទម្រង់អត្ថបទសុទ្ធ (Plain Text)។
អនុវត្តម៉ាទ្រីស DTM និងការវិភាគ N-gram: ប្រើប្រាស់ភាសា Python ជាពិសេសបណ្ណាល័យ scikit-learn (CountVectorizer) ដើម្បីបង្កើតម៉ាទ្រីស DTM និងវិភាគទម្រង់ពាក្យ Unigram, Bigram ដើម្បីស្វែងយល់ពីប្រេកង់នៃពាក្យប្រើប្រាស់ញឹកញាប់ក្នុងភាសាខ្មែរ។
គណនាទម្ងន់ពាក្យដោយប្រើបច្ចេកទេស TF-IDF: ប្រើប្រាស់ថ្នាក់ TfidfVectorizer នៅក្នុង scikit-learn ដើម្បីទាញយកពាក្យគន្លឹះសំខាន់ៗប្រចាំឯកសារនីមួយៗ សម្រាប់យកទៅបង្កើតប្រព័ន្ធចាត់ថ្នាក់ឯកសារស្វ័យប្រវត្តិ (Text Classification)។
ដោះស្រាយបញ្ហាកម្រិតកំណត់ដោយប្រើ AI កម្រិតខ្ពស់: ដោយសារ TF-IDF មិនយល់ពីអត្ថន័យស៊ីជម្រៅ (Semantics) និស្សិតគួរបន្តសិក្សាពីបច្ចេកទេសជំនាន់ថ្មីដូចជា Word2Vec របស់ Google ឬគំរូភាសា Transformer (BERT/LLM) ដើម្បីដោះស្រាយបញ្ហាវាក្យសព្ទ និងបម្រែបម្រួលពាក្យ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Natural Language Processing (NLP)	ជាសាខាមួយនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលផ្តោតលើការបង្រៀនកុំព្យូទ័រឱ្យយល់ បកស្រាយ និងបង្កើតភាសាមនុស្ស ទាំងក្នុងទម្រង់ជាអក្សរ និងសំឡេង ដើម្បីអាចប្រាស្រ័យទាក់ទងជាមួយមនុស្សបាន។	ដូចជាការបង្រៀនកុមារបរទេសម្នាក់ឱ្យចេះស្តាប់ និយាយ និងយល់អត្ថន័យនៃភាសាខ្មែរដោយស្វ័យប្រវត្តិ។
Text Corpus	ជាកម្រង ឬបណ្តុំនៃអត្ថបទជាច្រើនដែលត្រូវបានប្រមូលផ្តុំ និងរៀបចំជាប្រព័ន្ធ សម្រាប់ប្រើប្រាស់ជាទិន្នន័យមូលដ្ឋានក្នុងការសិក្សាស្រាវជ្រាវភាសាវិទ្យា និងការបង្វឹកម៉ូដែលបញ្ញាសិប្បនិម្មិត (AI)។	ដូចជាបណ្ណាល័យឌីជីថលដ៏ធំមួយដែលផ្ទុកសៀវភៅ និងអត្ថបទរាប់ម៉ឺនក្បាល ដើម្បីឱ្យកុំព្យូទ័រអាចទាញយកមកអាននិងរៀនពីរបៀបសរសេរភាសាមនុស្ស។
Tokenization	ជាដំណើរការនៃការបំបែកអត្ថបទ ឬប្រយោគវែងៗ ទៅជាកង់ៗ ឬជាឯកតាតូចៗ (ដូចជាពាក្យនីមួយៗ ឬសញ្ញាខណ្ឌ) ដើម្បីឱ្យកុំព្យូទ័រងាយស្រួលរាប់ និងវិភាគ។	ដូចជាការយកកាំបិតមកហាន់សាច់ដុំធំៗទៅជាដុំតូចៗល្មមមាត់ ដើម្បីងាយស្រួលយកទៅចម្អិនឬទំពារ។
N-gram	ជាវិធីសាស្ត្រក្នុងការចាប់យកក្រុមពាក្យដែលនៅជាប់គ្នាជាលំដាប់ (ឧទាហរណ៍៖ Unigram សំដៅលើពាក្យ១, Bigram សំដៅលើពាក្យ២ជាប់គ្នា, Trigram ៣ពាក្យជាប់គ្នា) ដើម្បីវិភាគបរិបទ និងរចនាសម្ព័ន្ធនៃឃ្លា។	ដូចជាការអានអក្សរម្តងមួយពាក្យ ម្តងពីរពាក្យ ឬម្តងបីពាក្យជាប់គ្នាជាឈុតៗ ដើម្បីទាយថាតើពាក្យបន្ទាប់គួរតែជាពាក្យអ្វី។
Document Term Matrix (DTM)	ជាតារាងម៉ាទ្រីសគណិតវិទ្យាដែលបង្ហាញពីចំនួនដងនៃការលេចឡើងនៃពាក្យនីមួយៗ (ជួរឈរ) នៅក្នុងឯកសារនីមួយៗ (ជួរដេក) ដែលជួយកុំព្យូទ័រក្នុងការកំណត់ប្រេកង់នៃពាក្យក្នុងកម្រងអត្ថបទ។	ដូចជាតារាងវត្តមានសិស្សប្រចាំខែ ដែលសិស្សគឺជា "ពាក្យ" ហើយថ្ងៃនីមួយៗគឺជា "ឯកសារ" ដើម្បីរាប់ថាសិស្សម្នាក់ៗមានវត្តមានប៉ុន្មានដង។
TF-IDF	ជារូបមន្តគណិតវិទ្យា (Term Frequency-Inverse Document Frequency) សម្រាប់វាយតម្លៃកម្រិតសារៈសំខាន់នៃពាក្យមួយនៅក្នុងឯកសារមួយ ដោយផ្តល់ទម្ងន់ពិន្ទុខ្ពស់ដល់ពាក្យដែលលេចឡើងញឹកញាប់ក្នុងឯកសារនោះ តែមិនសូវមានប្រើក្នុងឯកសារផ្សេងទៀត។	ដូចជាការផ្តល់រង្វាន់ដល់អ្នកដែលពូកែជំនាញប្លែកកម្រមានអ្នកចេះ ជាងការផ្តល់រង្វាន់ដល់អ្នកដែលចេះរឿងទូទៅដែលនរណាក៏ចេះ។
Under-resourced language	សំដៅលើភាសាដែលខ្វះខាតទិន្នន័យឌីជីថល អត្ថបទ វចនានុក្រម ឬឧបករណ៍បច្ចេកវិទ្យាគ្រប់គ្រាន់ សម្រាប់គាំទ្រការស្រាវជ្រាវ និងការអភិវឌ្ឍប្រព័ន្ធកែច្នៃភាសាធម្មជាតិ។	ដូចជាសិស្សក្រីក្រដែលមិនសូវមានសៀវភៅ ឬឯកសារសម្រាប់រៀនសូត្រផ្ទាល់ខ្លួន ប្រៀបធៀបនឹងសិស្សដទៃដែលមានសម្ភារៈគ្រប់គ្រាន់។
Topic modeling	ជាបច្ចេកទេសរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលស្វែងរកដោយស្វ័យប្រវត្តិនូវប្រធានបទ ឬអត្ថន័យលាក់កំបាំងនៅក្នុងកម្រងឯកសារអត្ថបទដ៏ធំមួយ ដោយផ្អែកលើការចង្កោមពាក្យដែលមានន័យស្រដៀងគ្នា។	ដូចជាអ្នកបណ្ណាល័យម្នាក់ដែលអាចរៀបចំសៀវភៅរាប់ពាន់ក្បាលទៅតាមប្រភេទ (ឧ. ប្រវត្តិសាស្ត្រ កីឡា) ដោយគ្រាន់តែរើសមើលពាក្យគន្លឹះក្នុងសៀវភៅ ដោយមិនបាច់អានផ្ទាល់ទាំងស្រុង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖