Original Title: Feature Extraction for Document Classification
Source: www.ijirset.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការទាញយកលក្ខណៈពិសេសសម្រាប់ការចាត់ថ្នាក់ឯកសារ

ចំណងជើងដើម៖ Feature Extraction for Document Classification

អ្នកនិពន្ធ៖ S.Vidhya, D.Asir Antony Gnana Singh, E.Jebamalar Leavline

ឆ្នាំបោះពុម្ព៖ 2015, International Journal of Innovative Research in Science, Engineering and Technology

វិស័យសិក្សា៖ Computer Science

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាទិន្នន័យដែលមានវិមាត្រខ្ពស់ (High-dimensionality) នៅក្នុងការចាត់ថ្នាក់ឯកសារអត្ថបទ ដែលធ្វើឱ្យថយចុះល្បឿននៃការទាញយកព័ត៌មាន និងភាពត្រឹមត្រូវនៃក្បួនដោះស្រាយ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្រទាញយកលក្ខណៈពិសេសដើម្បីកាត់បន្ថយវិមាត្រទិន្នន័យ ដោយប្រើប្រេកង់ពាក្យនិងប្រេកង់ឯកសារច្រាស រួមបញ្ចូលជាមួយការកាត់ឫសគល់ពាក្យ និងវាយតម្លៃដោយក្បួនដោះស្រាយ J48។

ការគណនាប្រេកង់ពាក្យ និងប្រេកង់ឯកសារច្រាស (Term Frequency and Inverse Document Frequency - TF-IDF)
ការលុបពាក្យដែលមិនចាំបាច់ និងការកាត់ឫសគល់ពាក្យ (Stop Words Removal and Stemming Analysis)
ការប្រើប្រាស់ក្បួនដោះស្រាយចំណាត់ថ្នាក់ឈើសម្រេចចិត្ត J48 (J48 Decision Tree Algorithm)
ការសាកល្បងលើសំណុំទិន្នន័យ Reuters (Reuters Dataset Evaluation)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ក្បួនដោះស្រាយដែលបានស្នើឡើងអាចកាត់បន្ថយចំនួនលក្ខណៈពិសេស (Features) យ៉ាងមានប្រសិទ្ធភាពពី ២០២៣ មកត្រឹម ១១៨៣ សម្រាប់ការចាត់ថ្នាក់។
វិធីសាស្ត្រនេះទទួលបានភាពត្រឹមត្រូវក្នុងការចាត់ថ្នាក់ខ្ពស់រហូតដល់ ៩៨.៥% ធៀបនឹង ៩៣% របស់វិធីសាស្ត្រ Null Stemmer ចាស់។
ពេលវេលាក្នុងការកសាងម៉ូដែល (Processing time) ត្រូវបានកាត់បន្ថយមកត្រឹម ៣.២៩ វិនាទី ដែលលឿនជាងវិធីសាស្ត្រមុនដែលចំណាយពេល ៤.២១៧ វិនាទី។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
TFT and IDFT with stemmer វិធីសាស្ត្រប្រើ TF-IDF រួមជាមួយការកាត់ឫសគល់ពាក្យ (Stemmer)	កាត់បន្ថយចំនួនលក្ខណៈពិសេស (Features) ដែលមិនចាំបាច់បានច្រើន និងជួយបង្កើនភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់បានខ្ពស់។ វាក៏ជួយកាត់បន្ថយពេលវេលាក្នុងការដំណើរការទិន្នន័យផងដែរ។	ទាមទារឱ្យមានការបង្កើតក្បួនកាត់ឫសគល់ពាក្យ (Stemming rules) ជាក់លាក់ទៅតាមភាសានីមួយៗ ដែលមានភាពលំបាកសម្រាប់ភាសាដែលស្មុគស្មាញដូចជាភាសាខ្មែរ។	ទទួលបានភាពត្រឹមត្រូវ ៩៨.៥% ប្រើពេលវេលាត្រឹមតែ ៣.២៩ វិនាទី និងកាត់បន្ថយលក្ខណៈពិសេសមកត្រឹម ១១៨៣ សម្រាប់ការចាត់ថ្នាក់។
Null stemmer វិធីសាស្ត្រមិនកាត់ឫសគល់ពាក្យ (Null stemmer baseline)	ងាយស្រួលក្នុងការអនុវត្ត ព្រោះមិនចាំបាច់បង្កើតក្បួនដោះស្រាយសម្រាប់បំប្លែងពាក្យទៅជាទម្រង់ដើម (Root format)។	រក្សាទុកពាក្យនិងលក្ខណៈពិសេសច្រើនលើសលប់ ធ្វើឱ្យម៉ូដែលដំណើរការយឺត និងប៉ះពាល់ដល់ភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់ឯកសារ។	ទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៩៣% ប្រើពេលវេលារហូតដល់ ៤.២១៧ វិនាទី និងមានលក្ខណៈពិសេសរហូតដល់ទៅ ២០២៣ ក្នងទិន្នន័យ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនតម្រូវឱ្យមានធនធានកុំព្យូទ័រខ្នាតធំនោះទេ ដោយការសាកល្បងត្រូវបានធ្វើឡើងនៅលើកុំព្យូទ័រផ្ទាល់ខ្លួនកម្រិតមធ្យមជាទូទៅធម្មតា។

Software: ប្រើប្រាស់កម្មវិធី MATLAB (ជំនាន់ R2013a) សម្រាប់ការសរសេរកូដ និងឧបករណ៍រុករកទិន្នន័យ WEKA សម្រាប់ដំណើរការក្បួនដោះស្រាយចំណាត់ថ្នាក់ J48 (Decision Tree)។
Hardware: ដំណើរការលើកុំព្យូទ័រផ្ទាល់ខ្លួនដោយប្រព័ន្ធប្រតិបត្តិការ Windows 7 និងប្រើប្រាស់ស៊ីភីយូកម្រិតមធ្យម (Core i5 processor)។
Dataset: ប្រើប្រាស់សំណុំទិន្នន័យព័ត៌មានភាសាអង់គ្លេស Reuters (ReutersCorn) ដែលមានចំនួន ១៥៥៤ ឯកសារ (ចែកចេញជា២ចំណាត់ថ្នាក់)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសំណុំទិន្នន័យកាសែតអង់គ្លេស Reuters។ នេះជាបញ្ហាប្រឈមធំមួយនៅពេលយកមកអនុវត្តនៅប្រទេសកម្ពុជា ដោយសារភាសាខ្មែរគ្មានការដកឃ្លារវាងពាក្យ និងមិនមានការកាត់ឫសគល់ពាក្យ (Stemming) ដូចភាសាអង់គ្លេស (ឧទាហរណ៍ការបន្ថែម -ing, -ed) ដែលតម្រូវឱ្យមានការស្រាវជ្រាវបន្ថែមលើការកាត់ពាក្យ (Word Segmentation) ជាភាសាខ្មែរជាមុនសិន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានឧបសគ្គផ្នែកភាសាក៏ពិតមែន ប៉ុន្តែបច្ចេកទេសទាញយកលក្ខណៈពិសេស (TF-IDF) នេះនៅតែមានសក្តានុពលខ្លាំងក្នុងការដោះស្រាយបញ្ហាទិន្នន័យនៅកម្ពុជាប្រសិនបើត្រូវបានសម្របតាមភាសាជាតិ។

ក្រសួងព័ត៌មាន និងបណ្ណាល័យជាតិកម្ពុជា: អាចប្រើប្រាស់វិធីសាស្ត្រនេះដើម្បីរៀបចំ និងចាត់ថ្នាក់ឯកសារព័ត៌មាន កាសែត ឬសៀវភៅរាប់ម៉ឺនក្បាលទៅតាមប្រធានបទ (កីឡា នយោបាយ សេដ្ឋកិច្ច) ដោយស្វ័យប្រវត្តិ។
វិស័យច្បាប់ និងតុលាការ: អាចជួយឱ្យមេធាវី មន្ត្រីតុលាការ ឬនិស្សិតច្បាប់ អាចស្វែងរកសំណុំរឿងចាស់ៗ ឬឯកសារផ្លូវច្បាប់ដែលពាក់ព័ន្ធបានលឿន តាមរយៈការវាយតម្លៃពាក្យគន្លឹះសំខាន់ៗ (TF-IDF)។
វិស័យពាណិជ្ជកម្ម និងព័ត៌មានវិទ្យា (ឧ. Sabay, Fresh News): ក្រុមហ៊ុនសារព័ត៌មានអាចប្រើវាដើម្បីណែនាំអត្ថបទ (Article Recommendation) ទៅកាន់អ្នកអាន ដោយស្វែងរកអត្ថបទដែលមានលក្ខណៈ (Features) និងប្រធានបទស្រដៀងគ្នា។

ជារួម វិធីសាស្ត្រនេះគឺជាមូលដ្ឋានគ្រឹះដ៏សំខាន់មួយដែលអាចជួយជំរុញការធ្វើបរិវត្តកម្មឌីជីថល (Digital Transformation) លើការគ្រប់គ្រងឯកសារអេឡិចត្រូនិកនៅក្នុងស្ថាប័នរដ្ឋនិងឯកជននៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីមូលដ្ឋានគ្រឹះនៃការរៀបចំអត្ថបទខ្មែរ (Khmer Text Preprocessing): និស្សិតត្រូវចាប់ផ្តើមសិក្សាពីបញ្ហាកាត់ពាក្យ (Word Segmentation) ជាមុនសិន ដោយសាកល្បងប្រើប្រាស់បណ្ណាល័យកូដដែលមានស្រាប់ដូចជា KhmerNLP ឬ Khmer-NLTK ព្រមទាំងរៀបចំបញ្ជីពាក្យមិនចាំបាច់ (Khmer Stop-words) ដើម្បីលុបវាចេញពីឯកសារ។
អនុវត្តការគណនាប្រេកង់ពាក្យ TF-IDF ជាទម្រង់កូដ: ជំនួសឱ្យការប្រើប្រាស់ MATLAB និស្សិតគួរអនុវត្តការសរសេរកូដនៅក្នុង Python ដោយប្រើប្រាស់បណ្ណាល័យ Scikit-learn (TfidfVectorizer) ដើម្បីបំប្លែងអត្ថបទខ្មែរទៅជាទិន្នន័យលេខ (Numerical Vectors) ដែលកុំព្យូទ័រអាចយល់បាន។
ប្រមូលនិងរៀបចំសំណុំទិន្នន័យ (Dataset Collection): អនុវត្តការសរសេរកូដទាញយកទិន្នន័យ (Web Scraping) ពីគេហទំព័រព័ត៌មានក្នុងស្រុក (ឧទាហរណ៍ យកអត្ថបទកីឡា និងនយោបាយពីថ្មីៗ ឬ VOA) ដោយប្រើប្រាស់ឧបករណ៍ដូចជា BeautifulSoup ដើម្បីបង្កើតជាសំណុំទិន្នន័យហ្វឹកហាត់ផ្ទាល់ខ្លួន (Training Dataset)។
សាកល្បងជាមួយក្បួនដោះស្រាយ Machine Learning: យកទិន្នន័យដែលបានឆ្លងកាត់ដំណើរការ TF-IDF មកហ្វឹកហាត់ជាមួយម៉ូដែល J48 Decision Tree (ដោយប្រើ DecisionTreeClassifier ក្នុង Python) ឬសាកល្បងក្បួនដោះស្រាយផ្សេងទៀតដូចជា Naïve Bayes ដើម្បីចាត់ថ្នាក់អត្ថបទព័ត៌មានទាំងនោះដោយស្វ័យប្រវត្តិ។
វាស់ស្ទង់និងបង្កើនប្រសិទ្ធភាពម៉ូដែល (Model Optimization): ប្រៀបធៀបលទ្ធផលភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់ (Accuracy) រវាងការប្រើ TF-IDF ធម្មតា និងការប្រើបច្ចេកទេសតំណាងពាក្យកម្រិតខ្ពស់ទំនើបៗដូចជា Word2Vec ឬ FastText ដើម្បីស្វែងរកវិធីសាស្ត្រដែលស័ក្តិសមបំផុតសម្រាប់ទិន្នន័យភាសាខ្មែរ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Feature extraction	គឺជាដំណើរការនៃការទាញយកតែលក្ខណៈឬពាក្យសំខាន់ៗបំផុតពីក្នុងទិន្នន័យអត្ថបទដ៏ច្រើនសន្ធឹកសន្ធាប់ ហើយលុបចោលនូវទិន្នន័យដែលស្ទួនគ្នាឬមិនចាំបាច់ ដើម្បីជួយឱ្យកុំព្យូទ័រអាចធ្វើការវិភាគនិងចាត់ថ្នាក់ឯកសារបានលឿននិងមានភាពត្រឹមត្រូវខ្ពស់ជាងមុន។	ដូចជាការអានសៀវភៅមួយក្បាល ហើយយើងកត់ត្រាយកតែចំណុចសំខាន់ៗខ្លីៗចេញមកក្រៅ ដើម្បីងាយស្រួលចងចាំនិងប្រាប់អ្នកដទៃបន្ត ដោយមិនបាច់និយាយរៀបរាប់ពាក្យទាំងអស់នោះទេ។
High-dimensionality	ទាក់ទងនឹងបញ្ហានៅពេលដែលសំណុំទិន្នន័យមួយមានលក្ខណៈពិសេស (ដូចជាចំនួនពាក្យប្លែកៗគ្នា) ច្រើនលើសលប់ពេក ដែលធ្វើឱ្យប្រព័ន្ធកុំព្យូទ័រត្រូវចំណាយពេលយូរក្នុងការគណនា និងអាចធ្វើឱ្យភាពត្រឹមត្រូវនៃក្បួនដោះស្រាយធ្លាក់ចុះ។	ដូចជាការដើរចូលទៅក្នុងផ្សារដ៏ធំមួយដែលមានផ្លូវខ្វាត់ខ្វែងនិងទំនិញច្រើនរាប់ម៉ឺនមុខ ដែលធ្វើឱ្យយើងវិលមុខនិងពិបាករកទិញរបស់ដែលយើងចង់បានឱ្យបានលឿន។
Term frequency (TF)	គឺជារង្វាស់គណិតវិទ្យាដែលរាប់ចំនួនដងដែលពាក្យណាមួយបង្ហាញខ្លួននៅក្នុងឯកសារមួយ។ បើពាក្យនោះលេចឡើងកាន់តែច្រើនដង វាបញ្ជាក់ថាពាក្យនោះមានសារៈសំខាន់ខ្លាំងក្នុងការកំណត់អត្តសញ្ញាណនៃឯកសារនោះ។	ដូចជាការរាប់ចំនួនដងដែលឈ្មោះមិត្តភក្តិម្នាក់ត្រូវបានគេនិយាយដល់នៅក្នុងសាច់រឿងមួយ បើគេនិយាយឈ្មោះគាត់ច្រើនដង មានន័យថាគាត់ជាតួអង្គសំខាន់ក្នុងរឿងនោះ។
Inverse Document Frequency	គឺជារង្វាស់ដែលវាយតម្លៃថាតើពាក្យមួយជារឿងទូទៅ ឬកម្រមាននៅក្នុងបណ្តុំឯកសារទាំងអស់។ ពាក្យដែលមានញឹកញាប់ពេកនៅគ្រប់ឯកសារទាំងអស់ នឹងមានតម្លៃ IDF ទាប ខណៈពាក្យកម្រនិងមានលក្ខណៈជាក់លាក់មានតម្លៃ IDF ខ្ពស់។	ដូចជារបស់របរប្រើប្រាស់ប្រចាំថ្ងៃ អំបិលមាននៅគ្រប់ផ្ទះបាយ (តម្លៃទាបមិនសូវពិសេស) ប៉ុន្តែគ្រឿងទេសកម្រមានតែនៅភោជនីយដ្ឋានធំៗប៉ុណ្ណោះ (តម្លៃខ្ពស់និងបង្ហាញពីលក្ខណៈពិសេសរបស់ហាងនោះ)។
Stemming	គឺជាដំណើរការកាត់ចុងពាក្យ ឬបំប្លែងពាក្យភាសាអង់គ្លេសដែលមានទម្រង់វេយ្យាករណ៍ផ្សេងៗគ្នា (ឧទាហរណ៍ការបន្ថែម -ing, -ed, -s) ឱ្យទៅជាទម្រង់ដើម ឬឫសគល់តែមួយរបស់វាវិញ ដើម្បីកាត់បន្ថយទំហំវាក្យសព្ទនិងភាពស្មុគស្មាញនៃទិន្នន័យ។	ដូចជាការបេះស្លឹកនិងមែកតូចៗចេញពីដើមឈើ ដោយទុកតែគល់ឈើស្នូល ដើម្បីឱ្យវាងាយស្រួលរៀបចំនិងដឹកជញ្ជូន។
Stop words	គឺជាពាក្យទូទៅដែលគេតែងតែប្រើជាញឹកញាប់នៅក្នុងភាសា (ដូចជាពាក្យ "is", "the", "on") ប៉ុន្តែវាមិនមានអត្ថន័យសំខាន់ក្នុងការកំណត់ប្រធានបទនៃឯកសារនោះទេ ហើយជាទូទៅត្រូវបានគេលុបចោលតាំងពីដំបូងមុនពេលកុំព្យូទ័រចាប់ផ្តើមវិភាគទិន្នន័យអត្ថបទ។	ដូចជាកម្ទេចដីខ្សាច់ដែលជាប់មកជាមួយគ្រាប់មាស យើងត្រូវរែងយកដីខ្សាច់ចេញ ដើម្បីទទួលបានតែគ្រាប់មាសសុទ្ធដែលយើងត្រូវការយកទៅប្រើប្រាស់។
J48	គឺជាក្បួនដោះស្រាយចំណាត់ថ្នាក់តាមបែបដើមឈើសម្រេចចិត្ត (Decision Tree) ដែលប្រើសម្រាប់ទស្សន៍ទាយឬចាត់ថ្នាក់ទិន្នន័យ ដោយផ្អែកលើការបង្កើតច្បាប់លក្ខខណ្ឌដែលវាបានរៀនពីសំណុំទិន្នន័យហ្វឹកហាត់មុនៗ។	ដូចជាការលេងហ្គេមសួរសំណួរ "បាទ/ទេ" បន្តបន្ទាប់គ្នាតាមលំដាប់លំដោយ រហូតដល់ចុងបញ្ចប់យើងអាចទាយដឹងប្រាកដថាវត្ថុនោះជាអ្វី។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖