បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាទិន្នន័យដែលមានវិមាត្រខ្ពស់ (High-dimensionality) នៅក្នុងការចាត់ថ្នាក់ឯកសារអត្ថបទ ដែលធ្វើឱ្យថយចុះល្បឿននៃការទាញយកព័ត៌មាន និងភាពត្រឹមត្រូវនៃក្បួនដោះស្រាយ។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវវិធីសាស្ត្រទាញយកលក្ខណៈពិសេសដើម្បីកាត់បន្ថយវិមាត្រទិន្នន័យ ដោយប្រើប្រេកង់ពាក្យនិងប្រេកង់ឯកសារច្រាស រួមបញ្ចូលជាមួយការកាត់ឫសគល់ពាក្យ និងវាយតម្លៃដោយក្បួនដោះស្រាយ J48។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| TFT and IDFT with stemmer វិធីសាស្ត្រប្រើ TF-IDF រួមជាមួយការកាត់ឫសគល់ពាក្យ (Stemmer) |
កាត់បន្ថយចំនួនលក្ខណៈពិសេស (Features) ដែលមិនចាំបាច់បានច្រើន និងជួយបង្កើនភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់បានខ្ពស់។ វាក៏ជួយកាត់បន្ថយពេលវេលាក្នុងការដំណើរការទិន្នន័យផងដែរ។ | ទាមទារឱ្យមានការបង្កើតក្បួនកាត់ឫសគល់ពាក្យ (Stemming rules) ជាក់លាក់ទៅតាមភាសានីមួយៗ ដែលមានភាពលំបាកសម្រាប់ភាសាដែលស្មុគស្មាញដូចជាភាសាខ្មែរ។ | ទទួលបានភាពត្រឹមត្រូវ ៩៨.៥% ប្រើពេលវេលាត្រឹមតែ ៣.២៩ វិនាទី និងកាត់បន្ថយលក្ខណៈពិសេសមកត្រឹម ១១៨៣ សម្រាប់ការចាត់ថ្នាក់។ |
| Null stemmer វិធីសាស្ត្រមិនកាត់ឫសគល់ពាក្យ (Null stemmer baseline) |
ងាយស្រួលក្នុងការអនុវត្ត ព្រោះមិនចាំបាច់បង្កើតក្បួនដោះស្រាយសម្រាប់បំប្លែងពាក្យទៅជាទម្រង់ដើម (Root format)។ | រក្សាទុកពាក្យនិងលក្ខណៈពិសេសច្រើនលើសលប់ ធ្វើឱ្យម៉ូដែលដំណើរការយឺត និងប៉ះពាល់ដល់ភាពត្រឹមត្រូវនៃការចាត់ថ្នាក់ឯកសារ។ | ទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៩៣% ប្រើពេលវេលារហូតដល់ ៤.២១៧ វិនាទី និងមានលក្ខណៈពិសេសរហូតដល់ទៅ ២០២៣ ក្នងទិន្នន័យ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះមិនតម្រូវឱ្យមានធនធានកុំព្យូទ័រខ្នាតធំនោះទេ ដោយការសាកល្បងត្រូវបានធ្វើឡើងនៅលើកុំព្យូទ័រផ្ទាល់ខ្លួនកម្រិតមធ្យមជាទូទៅធម្មតា។
ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសំណុំទិន្នន័យកាសែតអង់គ្លេស Reuters។ នេះជាបញ្ហាប្រឈមធំមួយនៅពេលយកមកអនុវត្តនៅប្រទេសកម្ពុជា ដោយសារភាសាខ្មែរគ្មានការដកឃ្លារវាងពាក្យ និងមិនមានការកាត់ឫសគល់ពាក្យ (Stemming) ដូចភាសាអង់គ្លេស (ឧទាហរណ៍ការបន្ថែម -ing, -ed) ដែលតម្រូវឱ្យមានការស្រាវជ្រាវបន្ថែមលើការកាត់ពាក្យ (Word Segmentation) ជាភាសាខ្មែរជាមុនសិន។
ទោះបីជាមានឧបសគ្គផ្នែកភាសាក៏ពិតមែន ប៉ុន្តែបច្ចេកទេសទាញយកលក្ខណៈពិសេស (TF-IDF) នេះនៅតែមានសក្តានុពលខ្លាំងក្នុងការដោះស្រាយបញ្ហាទិន្នន័យនៅកម្ពុជាប្រសិនបើត្រូវបានសម្របតាមភាសាជាតិ។
ជារួម វិធីសាស្ត្រនេះគឺជាមូលដ្ឋានគ្រឹះដ៏សំខាន់មួយដែលអាចជួយជំរុញការធ្វើបរិវត្តកម្មឌីជីថល (Digital Transformation) លើការគ្រប់គ្រងឯកសារអេឡិចត្រូនិកនៅក្នុងស្ថាប័នរដ្ឋនិងឯកជននៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Feature extraction | គឺជាដំណើរការនៃការទាញយកតែលក្ខណៈឬពាក្យសំខាន់ៗបំផុតពីក្នុងទិន្នន័យអត្ថបទដ៏ច្រើនសន្ធឹកសន្ធាប់ ហើយលុបចោលនូវទិន្នន័យដែលស្ទួនគ្នាឬមិនចាំបាច់ ដើម្បីជួយឱ្យកុំព្យូទ័រអាចធ្វើការវិភាគនិងចាត់ថ្នាក់ឯកសារបានលឿននិងមានភាពត្រឹមត្រូវខ្ពស់ជាងមុន។ | ដូចជាការអានសៀវភៅមួយក្បាល ហើយយើងកត់ត្រាយកតែចំណុចសំខាន់ៗខ្លីៗចេញមកក្រៅ ដើម្បីងាយស្រួលចងចាំនិងប្រាប់អ្នកដទៃបន្ត ដោយមិនបាច់និយាយរៀបរាប់ពាក្យទាំងអស់នោះទេ។ |
| High-dimensionality | ទាក់ទងនឹងបញ្ហានៅពេលដែលសំណុំទិន្នន័យមួយមានលក្ខណៈពិសេស (ដូចជាចំនួនពាក្យប្លែកៗគ្នា) ច្រើនលើសលប់ពេក ដែលធ្វើឱ្យប្រព័ន្ធកុំព្យូទ័រត្រូវចំណាយពេលយូរក្នុងការគណនា និងអាចធ្វើឱ្យភាពត្រឹមត្រូវនៃក្បួនដោះស្រាយធ្លាក់ចុះ។ | ដូចជាការដើរចូលទៅក្នុងផ្សារដ៏ធំមួយដែលមានផ្លូវខ្វាត់ខ្វែងនិងទំនិញច្រើនរាប់ម៉ឺនមុខ ដែលធ្វើឱ្យយើងវិលមុខនិងពិបាករកទិញរបស់ដែលយើងចង់បានឱ្យបានលឿន។ |
| Term frequency (TF) | គឺជារង្វាស់គណិតវិទ្យាដែលរាប់ចំនួនដងដែលពាក្យណាមួយបង្ហាញខ្លួននៅក្នុងឯកសារមួយ។ បើពាក្យនោះលេចឡើងកាន់តែច្រើនដង វាបញ្ជាក់ថាពាក្យនោះមានសារៈសំខាន់ខ្លាំងក្នុងការកំណត់អត្តសញ្ញាណនៃឯកសារនោះ។ | ដូចជាការរាប់ចំនួនដងដែលឈ្មោះមិត្តភក្តិម្នាក់ត្រូវបានគេនិយាយដល់នៅក្នុងសាច់រឿងមួយ បើគេនិយាយឈ្មោះគាត់ច្រើនដង មានន័យថាគាត់ជាតួអង្គសំខាន់ក្នុងរឿងនោះ។ |
| Inverse Document Frequency | គឺជារង្វាស់ដែលវាយតម្លៃថាតើពាក្យមួយជារឿងទូទៅ ឬកម្រមាននៅក្នុងបណ្តុំឯកសារទាំងអស់។ ពាក្យដែលមានញឹកញាប់ពេកនៅគ្រប់ឯកសារទាំងអស់ នឹងមានតម្លៃ IDF ទាប ខណៈពាក្យកម្រនិងមានលក្ខណៈជាក់លាក់មានតម្លៃ IDF ខ្ពស់។ | ដូចជារបស់របរប្រើប្រាស់ប្រចាំថ្ងៃ អំបិលមាននៅគ្រប់ផ្ទះបាយ (តម្លៃទាបមិនសូវពិសេស) ប៉ុន្តែគ្រឿងទេសកម្រមានតែនៅភោជនីយដ្ឋានធំៗប៉ុណ្ណោះ (តម្លៃខ្ពស់និងបង្ហាញពីលក្ខណៈពិសេសរបស់ហាងនោះ)។ |
| Stemming | គឺជាដំណើរការកាត់ចុងពាក្យ ឬបំប្លែងពាក្យភាសាអង់គ្លេសដែលមានទម្រង់វេយ្យាករណ៍ផ្សេងៗគ្នា (ឧទាហរណ៍ការបន្ថែម -ing, -ed, -s) ឱ្យទៅជាទម្រង់ដើម ឬឫសគល់តែមួយរបស់វាវិញ ដើម្បីកាត់បន្ថយទំហំវាក្យសព្ទនិងភាពស្មុគស្មាញនៃទិន្នន័យ។ | ដូចជាការបេះស្លឹកនិងមែកតូចៗចេញពីដើមឈើ ដោយទុកតែគល់ឈើស្នូល ដើម្បីឱ្យវាងាយស្រួលរៀបចំនិងដឹកជញ្ជូន។ |
| Stop words | គឺជាពាក្យទូទៅដែលគេតែងតែប្រើជាញឹកញាប់នៅក្នុងភាសា (ដូចជាពាក្យ "is", "the", "on") ប៉ុន្តែវាមិនមានអត្ថន័យសំខាន់ក្នុងការកំណត់ប្រធានបទនៃឯកសារនោះទេ ហើយជាទូទៅត្រូវបានគេលុបចោលតាំងពីដំបូងមុនពេលកុំព្យូទ័រចាប់ផ្តើមវិភាគទិន្នន័យអត្ថបទ។ | ដូចជាកម្ទេចដីខ្សាច់ដែលជាប់មកជាមួយគ្រាប់មាស យើងត្រូវរែងយកដីខ្សាច់ចេញ ដើម្បីទទួលបានតែគ្រាប់មាសសុទ្ធដែលយើងត្រូវការយកទៅប្រើប្រាស់។ |
| J48 | គឺជាក្បួនដោះស្រាយចំណាត់ថ្នាក់តាមបែបដើមឈើសម្រេចចិត្ត (Decision Tree) ដែលប្រើសម្រាប់ទស្សន៍ទាយឬចាត់ថ្នាក់ទិន្នន័យ ដោយផ្អែកលើការបង្កើតច្បាប់លក្ខខណ្ឌដែលវាបានរៀនពីសំណុំទិន្នន័យហ្វឹកហាត់មុនៗ។ | ដូចជាការលេងហ្គេមសួរសំណួរ "បាទ/ទេ" បន្តបន្ទាប់គ្នាតាមលំដាប់លំដោយ រហូតដល់ចុងបញ្ចប់យើងអាចទាយដឹងប្រាកដថាវត្ថុនោះជាអ្វី។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖