Original Title: Feature Extraction for Document Classification
Source: www.ijirset.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការទាញយកលក្ខណៈពិសេសសម្រាប់ការចាត់ថ្នាក់ឯកសារ

ចំណងជើងដើម៖ Feature Extraction for Document Classification

អ្នកនិពន្ធ៖ S.Vidhya, D.Asir Antony Gnana Singh, E.Jebamalar Leavline

ឆ្នាំបោះពុម្ព៖ 2015, International Journal of Innovative Research in Science, Engineering and Technology

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាទិន្នន័យដែលមានវិមាត្រខ្ពស់ (High-dimensionality) នៅក្នុងការចាត់ថ្នាក់ឯកសារអត្ថបទ ដែលធ្វើឱ្យថយចុះល្បឿននៃការទាញយកព័ត៌មាន និងភាពត្រឹមត្រូវនៃក្បួនដោះស្រាយ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្រទាញយកលក្ខណៈពិសេសដើម្បីកាត់បន្ថយវិមាត្រទិន្នន័យ ដោយប្រើប្រេកង់ពាក្យនិងប្រេកង់ឯកសារច្រាស រួមបញ្ចូលជាមួយការកាត់ឫសគល់ពាក្យ និងវាយតម្លៃដោយក្បួនដោះស្រាយ J48។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
TFT and IDFT with stemmer
វិធីសាស្ត្រប្រើ TF-IDF រួមជាមួយការកាត់ឫសគល់ពាក្យ (Stemmer)
កាត់បន្ថយចំនួនលក្ខណៈពិសេស (Features) ដែលមិនចាំបាច់បានច្រើន និងជួយបង្កើនភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់បានខ្ពស់។ វាក៏ជួយកាត់បន្ថយពេលវេលាក្នុងការដំណើរការទិន្នន័យផងដែរ។ ទាមទារឱ្យមានការបង្កើតក្បួនកាត់ឫសគល់ពាក្យ (Stemming rules) ជាក់លាក់ទៅតាមភាសានីមួយៗ ដែលមានភាពលំបាកសម្រាប់ភាសាដែលស្មុគស្មាញដូចជាភាសាខ្មែរ។ ទទួលបានភាពត្រឹមត្រូវ ៩៨.៥% ប្រើពេលវេលាត្រឹមតែ ៣.២៩ វិនាទី និងកាត់បន្ថយលក្ខណៈពិសេសមកត្រឹម ១១៨៣ សម្រាប់ការចាត់ថ្នាក់។
Null stemmer
វិធីសាស្ត្រមិនកាត់ឫសគល់ពាក្យ (Null stemmer baseline)
ងាយស្រួលក្នុងការអនុវត្ត ព្រោះមិនចាំបាច់បង្កើតក្បួនដោះស្រាយសម្រាប់បំប្លែងពាក្យទៅជាទម្រង់ដើម (Root format)។ រក្សាទុកពាក្យនិងលក្ខណៈពិសេសច្រើនលើសលប់ ធ្វើឱ្យម៉ូដែលដំណើរការយឺត និងប៉ះពាល់ដល់ភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់ឯកសារ។ ទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៩៣% ប្រើពេលវេលារហូតដល់ ៤.២១៧ វិនាទី និងមានលក្ខណៈពិសេសរហូតដល់ទៅ ២០២៣ ក្នងទិន្នន័យ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនតម្រូវឱ្យមានធនធានកុំព្យូទ័រខ្នាតធំនោះទេ ដោយការសាកល្បងត្រូវបានធ្វើឡើងនៅលើកុំព្យូទ័រផ្ទាល់ខ្លួនកម្រិតមធ្យមជាទូទៅធម្មតា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសំណុំទិន្នន័យកាសែតអង់គ្លេស Reuters។ នេះជាបញ្ហាប្រឈមធំមួយនៅពេលយកមកអនុវត្តនៅប្រទេសកម្ពុជា ដោយសារភាសាខ្មែរគ្មានការដកឃ្លារវាងពាក្យ និងមិនមានការកាត់ឫសគល់ពាក្យ (Stemming) ដូចភាសាអង់គ្លេស (ឧទាហរណ៍ការបន្ថែម -ing, -ed) ដែលតម្រូវឱ្យមានការស្រាវជ្រាវបន្ថែមលើការកាត់ពាក្យ (Word Segmentation) ជាភាសាខ្មែរជាមុនសិន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានឧបសគ្គផ្នែកភាសាក៏ពិតមែន ប៉ុន្តែបច្ចេកទេសទាញយកលក្ខណៈពិសេស (TF-IDF) នេះនៅតែមានសក្តានុពលខ្លាំងក្នុងការដោះស្រាយបញ្ហាទិន្នន័យនៅកម្ពុជាប្រសិនបើត្រូវបានសម្របតាមភាសាជាតិ។

ជារួម វិធីសាស្ត្រនេះគឺជាមូលដ្ឋានគ្រឹះដ៏សំខាន់មួយដែលអាចជួយជំរុញការធ្វើបរិវត្តកម្មឌីជីថល (Digital Transformation) លើការគ្រប់គ្រងឯកសារអេឡិចត្រូនិកនៅក្នុងស្ថាប័នរដ្ឋនិងឯកជននៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាពីមូលដ្ឋានគ្រឹះនៃការរៀបចំអត្ថបទខ្មែរ (Khmer Text Preprocessing): និស្សិតត្រូវចាប់ផ្តើមសិក្សាពីបញ្ហាកាត់ពាក្យ (Word Segmentation) ជាមុនសិន ដោយសាកល្បងប្រើប្រាស់បណ្ណាល័យកូដដែលមានស្រាប់ដូចជា KhmerNLPKhmer-NLTK ព្រមទាំងរៀបចំបញ្ជីពាក្យមិនចាំបាច់ (Khmer Stop-words) ដើម្បីលុបវាចេញពីឯកសារ។
  2. អនុវត្តការគណនាប្រេកង់ពាក្យ TF-IDF ជាទម្រង់កូដ: ជំនួសឱ្យការប្រើប្រាស់ MATLAB និស្សិតគួរអនុវត្តការសរសេរកូដនៅក្នុង Python ដោយប្រើប្រាស់បណ្ណាល័យ Scikit-learn (TfidfVectorizer) ដើម្បីបំប្លែងអត្ថបទខ្មែរទៅជាទិន្នន័យលេខ (Numerical Vectors) ដែលកុំព្យូទ័រអាចយល់បាន។
  3. ប្រមូលនិងរៀបចំសំណុំទិន្នន័យ (Dataset Collection): អនុវត្តការសរសេរកូដទាញយកទិន្នន័យ (Web Scraping) ពីគេហទំព័រព័ត៌មានក្នុងស្រុក (ឧទាហរណ៍ យកអត្ថបទកីឡា និងនយោបាយពីថ្មីៗ ឬ VOA) ដោយប្រើប្រាស់ឧបករណ៍ដូចជា BeautifulSoup ដើម្បីបង្កើតជាសំណុំទិន្នន័យហ្វឹកហាត់ផ្ទាល់ខ្លួន (Training Dataset)។
  4. សាកល្បងជាមួយក្បួនដោះស្រាយ Machine Learning: យកទិន្នន័យដែលបានឆ្លងកាត់ដំណើរការ TF-IDF មកហ្វឹកហាត់ជាមួយម៉ូដែល J48 Decision Tree (ដោយប្រើ DecisionTreeClassifier ក្នុង Python) ឬសាកល្បងក្បួនដោះស្រាយផ្សេងទៀតដូចជា Naïve Bayes ដើម្បីចាត់ថ្នាក់អត្ថបទព័ត៌មានទាំងនោះដោយស្វ័យប្រវត្តិ។
  5. វាស់ស្ទង់និងបង្កើនប្រសិទ្ធភាពម៉ូដែល (Model Optimization): ប្រៀបធៀបលទ្ធផលភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់ (Accuracy) រវាងការប្រើ TF-IDF ធម្មតា និងការប្រើបច្ចេកទេសតំណាងពាក្យកម្រិតខ្ពស់ទំនើបៗដូចជា Word2VecFastText ដើម្បីស្វែងរកវិធីសាស្ត្រដែលស័ក្តិសមបំផុតសម្រាប់ទិន្នន័យភាសាខ្មែរ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Feature extraction គឺជាដំណើរការនៃការទាញយកតែលក្ខណៈឬពាក្យសំខាន់ៗបំផុតពីក្នុងទិន្នន័យអត្ថបទដ៏ច្រើនសន្ធឹកសន្ធាប់ ហើយលុបចោលនូវទិន្នន័យដែលស្ទួនគ្នាឬមិនចាំបាច់ ដើម្បីជួយឱ្យកុំព្យូទ័រអាចធ្វើការវិភាគនិងចាត់ថ្នាក់ឯកសារបានលឿននិងមានភាពត្រឹមត្រូវខ្ពស់ជាងមុន។ ដូចជាការអានសៀវភៅមួយក្បាល ហើយយើងកត់ត្រាយកតែចំណុចសំខាន់ៗខ្លីៗចេញមកក្រៅ ដើម្បីងាយស្រួលចងចាំនិងប្រាប់អ្នកដទៃបន្ត ដោយមិនបាច់និយាយរៀបរាប់ពាក្យទាំងអស់នោះទេ។
High-dimensionality ទាក់ទងនឹងបញ្ហានៅពេលដែលសំណុំទិន្នន័យមួយមានលក្ខណៈពិសេស (ដូចជាចំនួនពាក្យប្លែកៗគ្នា) ច្រើនលើសលប់ពេក ដែលធ្វើឱ្យប្រព័ន្ធកុំព្យូទ័រត្រូវចំណាយពេលយូរក្នុងការគណនា និងអាចធ្វើឱ្យភាពត្រឹមត្រូវនៃក្បួនដោះស្រាយធ្លាក់ចុះ។ ដូចជាការដើរចូលទៅក្នុងផ្សារដ៏ធំមួយដែលមានផ្លូវខ្វាត់ខ្វែងនិងទំនិញច្រើនរាប់ម៉ឺនមុខ ដែលធ្វើឱ្យយើងវិលមុខនិងពិបាករកទិញរបស់ដែលយើងចង់បានឱ្យបានលឿន។
Term frequency (TF) គឺជារង្វាស់គណិតវិទ្យាដែលរាប់ចំនួនដងដែលពាក្យណាមួយបង្ហាញខ្លួននៅក្នុងឯកសារមួយ។ បើពាក្យនោះលេចឡើងកាន់តែច្រើនដង វាបញ្ជាក់ថាពាក្យនោះមានសារៈសំខាន់ខ្លាំងក្នុងការកំណត់អត្តសញ្ញាណនៃឯកសារនោះ។ ដូចជាការរាប់ចំនួនដងដែលឈ្មោះមិត្តភក្តិម្នាក់ត្រូវបានគេនិយាយដល់នៅក្នុងសាច់រឿងមួយ បើគេនិយាយឈ្មោះគាត់ច្រើនដង មានន័យថាគាត់ជាតួអង្គសំខាន់ក្នុងរឿងនោះ។
Inverse Document Frequency គឺជារង្វាស់ដែលវាយតម្លៃថាតើពាក្យមួយជារឿងទូទៅ ឬកម្រមាននៅក្នុងបណ្តុំឯកសារទាំងអស់។ ពាក្យដែលមានញឹកញាប់ពេកនៅគ្រប់ឯកសារទាំងអស់ នឹងមានតម្លៃ IDF ទាប ខណៈពាក្យកម្រនិងមានលក្ខណៈជាក់លាក់មានតម្លៃ IDF ខ្ពស់។ ដូចជារបស់របរប្រើប្រាស់ប្រចាំថ្ងៃ អំបិលមាននៅគ្រប់ផ្ទះបាយ (តម្លៃទាបមិនសូវពិសេស) ប៉ុន្តែគ្រឿងទេសកម្រមានតែនៅភោជនីយដ្ឋានធំៗប៉ុណ្ណោះ (តម្លៃខ្ពស់និងបង្ហាញពីលក្ខណៈពិសេសរបស់ហាងនោះ)។
Stemming គឺជាដំណើរការកាត់ចុងពាក្យ ឬបំប្លែងពាក្យភាសាអង់គ្លេសដែលមានទម្រង់វេយ្យាករណ៍ផ្សេងៗគ្នា (ឧទាហរណ៍ការបន្ថែម -ing, -ed, -s) ឱ្យទៅជាទម្រង់ដើម ឬឫសគល់តែមួយរបស់វាវិញ ដើម្បីកាត់បន្ថយទំហំវាក្យសព្ទនិងភាពស្មុគស្មាញនៃទិន្នន័យ។ ដូចជាការបេះស្លឹកនិងមែកតូចៗចេញពីដើមឈើ ដោយទុកតែគល់ឈើស្នូល ដើម្បីឱ្យវាងាយស្រួលរៀបចំនិងដឹកជញ្ជូន។
Stop words គឺជាពាក្យទូទៅដែលគេតែងតែប្រើជាញឹកញាប់នៅក្នុងភាសា (ដូចជាពាក្យ "is", "the", "on") ប៉ុន្តែវាមិនមានអត្ថន័យសំខាន់ក្នុងការកំណត់ប្រធានបទនៃឯកសារនោះទេ ហើយជាទូទៅត្រូវបានគេលុបចោលតាំងពីដំបូងមុនពេលកុំព្យូទ័រចាប់ផ្តើមវិភាគទិន្នន័យអត្ថបទ។ ដូចជាកម្ទេចដីខ្សាច់ដែលជាប់មកជាមួយគ្រាប់មាស យើងត្រូវរែងយកដីខ្សាច់ចេញ ដើម្បីទទួលបានតែគ្រាប់មាសសុទ្ធដែលយើងត្រូវការយកទៅប្រើប្រាស់។
J48 គឺជាក្បួនដោះស្រាយចំណាត់ថ្នាក់តាមបែបដើមឈើសម្រេចចិត្ត (Decision Tree) ដែលប្រើសម្រាប់ទស្សន៍ទាយឬចាត់ថ្នាក់ទិន្នន័យ ដោយផ្អែកលើការបង្កើតច្បាប់លក្ខខណ្ឌដែលវាបានរៀនពីសំណុំទិន្នន័យហ្វឹកហាត់មុនៗ។ ដូចជាការលេងហ្គេមសួរសំណួរ "បាទ/ទេ" បន្តបន្ទាប់គ្នាតាមលំដាប់លំដោយ រហូតដល់ចុងបញ្ចប់យើងអាចទាយដឹងប្រាកដថាវត្ថុនោះជាអ្វី។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖