បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការវិភាគអារម្មណ៍ និងការរកឃើញទិដ្ឋភាព (Aspect Detection) នៅក្នុងសារ Twitter ជាភាសាអេស្ប៉ាញ ដែលមានពាក្យពេចន៍ខ្លីៗ ការប្រើប្រាស់ពាក្យមិនផ្លូវការ និងកង្វះធនធានភាសា។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានអភិវឌ្ឍប្រព័ន្ធម៉ូឌុលដែលអាចបត់បែនបាន ដោយរួមបញ្ចូលបច្ចេកវិទ្យាដំណើរការភាសាធម្មជាតិ (NLP) និងការរៀនដោយម៉ាស៊ីន (Machine Learning) ដើម្បីវាយតម្លៃកម្រិតអារម្មណ៍។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| SVM with ElhPolar Lexicon (RUN-1) ម៉ូដែល SVM បញ្ចូលជាមួយវចនានុក្រម ElhPolar តែមួយមុខ (RUN-1) |
ទទួលបានលទ្ធផលល្អបំផុតក្នុងការវាយតម្លៃទាំងកម្រិតសកល និងកម្រិតទិដ្ឋភាព ដោយសារវចនានុក្រមនេះមានភាពស៊ីគ្នានឹងទិន្នន័យ (Domain-specific)។ ងាយស្រួលក្នុងការអនុវត្តដោយមិនចាំបាច់មានភាពស្មុគស្មាញច្រើន។ | ពឹងផ្អែកខ្លាំងលើវចនានុក្រមតែមួយគត់ ដែលអាចជួបការលំបាកក្នុងការចាប់យកពាក្យថ្មីៗ ឬពាក្យក្រៅវចនានុក្រម (Out-of-vocabulary) នៅក្នុងបរិបទផ្សេង។ | ទទួលបានភាពត្រឹមត្រូវ ៦៣.៥% និងពិន្ទុ F1-Score ៦០.៦% សម្រាប់ Task 2 (Aspect-based) និង ៦៩.០% សម្រាប់ Task 1 (៤ កម្រិត)។ |
| SVM with Combined Lexicons (RUN-3) ម៉ូដែល SVM បញ្ចូលជាមួយវចនានុក្រមអារម្មណ៍ចម្រុះ (RUN-3) |
រួមបញ្ចូលប្រភពវចនានុក្រមអារម្មណ៍ច្រើន (ISOL, SSL, SOCAL, ML-SentiCON) ដើម្បីបង្កើនវិសាលភាពនៃការរកឃើញពាក្យ (Coverage) ឱ្យបានទូលំទូលាយ។ | ការច្របាច់បញ្ចូលវចនានុក្រមច្រើនពេកបានបង្កើតជាសញ្ញារំខាន (Noise) ដែលធ្វើឱ្យភាពត្រឹមត្រូវធ្លាក់ចុះធៀបនឹងការប្រើវចនានុក្រមតែមួយដែលចំគោលដៅ។ | ភាពត្រឹមត្រូវធ្លាក់ចុះមកត្រឹម ៥៥.៧% និងពិន្ទុ F1-Score ៥៥.៨% សម្រាប់កិច្ចការទី ២ (Task 2)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធស្រាវជ្រាវនេះទាមទារធនធានកម្រិតមធ្យម ដែលផ្តោតជាចម្បងលើកម្មវិធីដំណើរការភាសាធម្មជាតិ (NLP) ឯកទេស និងវចនានុក្រមអារម្មណ៍ (Sentiment Lexicons) ច្បាស់លាស់។
ការសិក្សានេះត្រូវបានធ្វើឡើងទាំងស្រុងលើសំណុំទិន្នន័យសារ Twitter ជាភាសាអេស្ប៉ាញ ដែលប្រមូលបានក្នុងបរិបទការប្រកួតកីឡាបាល់ទាត់ (Copa del Rey) និងយុទ្ធនាការនយោបាយនៅប្រទេសអេស្ប៉ាញ។ ភាពលំអៀងទៅលើភាសា និងវប្បធម៌លោកខាងលិចនេះ មានសារៈសំខាន់ណាស់សម្រាប់ប្រទេសកម្ពុជា ព្រោះភាសាខ្មែរមានទម្រង់វាក្យសម្ព័ន្ធ ការប្រើប្រាស់ពាក្យស្លែង និងការភ្ជាប់ពាក្យខុសគ្នាស្រឡះ ដែលតម្រូវឱ្យមានការបង្កើតវចនានុក្រមមូលដ្ឋាន និងឧបករណ៍ NLP សម្រាប់ភាសាខ្មែរជាមុនសិនទើបអាចអនុវត្តប្រព័ន្ធនេះបាន។
ទោះបីជាការស្រាវជ្រាវនេះផ្តោតលើភាសាអេស្ប៉ាញក៏ដោយ ប៉ុន្តែស្ថាបត្យកម្មប្រព័ន្ធបែបម៉ូឌុល (Modular Architecture) ដែលបំបែកការចាប់យកទិដ្ឋភាព និងអារម្មណ៍ដាច់ពីគ្នា អាចយកមកកែច្នៃប្រើប្រាស់នៅកម្ពុជាបានយ៉ាងមានប្រសិទ្ធភាព។
ជារួម វិធីសាស្ត្រនៃការបំបែកម៉ូឌុល និងការប្រើប្រាស់ក្រាហ្វសម្រាប់ចាប់យកបរិបទ ផ្តល់នូវគំរូដ៏រឹងមាំមួយសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធវិភាគអារម្មណ៍ភាសាខ្មែរ ប្រសិនបើយើងមានការវិនិយោគត្រឹមត្រូវលើការចងក្រងទិន្នន័យ និងឧបករណ៍ NLP មូលដ្ឋាន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Aspect-based Sentiment Analysis | ដំណើរការនៃការបំបែកអត្ថបទដើម្បីវាយតម្លៃអារម្មណ៍ទៅលើផ្នែក ឬលក្ខណៈពិសេសណាមួយជាក់លាក់នៃវត្ថុមួយ ជំនួសឱ្យការវាយតម្លៃអារម្មណ៍ជារួមនៃអត្ថបទទាំងមូល។ | ដូចជាការភ្លក់ម្ហូបមួយចាន ហើយរិះគន់ដាច់ដោយឡែកពីគ្នាថា "សាច់ផុយឆ្ងាញ់" (វិជ្ជមាន) តែ "ទឹកស៊ុបប្រៃពេក" (អវិជ្ជមាន)។ |
| Support Vector Machine (SVM) | ជាប្រភេទម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលប្រើសម្រាប់ចាត់ថ្នាក់ទិន្នន័យដោយគូសបន្ទាត់ ឬព្រំដែនល្អបំផុត ដើម្បីបំបែកក្រុមទិន្នន័យផ្សេងៗគ្នានៅក្នុងលំហវិមាត្រច្រើន។ | ដូចជាការសង់របងមួយចំកណ្តាលទីធ្លា ដើម្បីបែងចែកហ្វូងចៀម និងហ្វូងគោឱ្យនៅដាច់ពីគ្នាយ៉ាងច្បាស់លាស់បំផុត។ |
| Polarity Lexicon | ជាបញ្ជីវចនានុក្រមដែលផ្ទុកពាក្យពេចន៍នានាអមដោយពិន្ទុបញ្ជាក់កម្រិតអារម្មណ៍ (វិជ្ជមាន អវិជ្ជមាន ឬកណ្តាល) ដើម្បីជួយកុំព្យូទ័រក្នុងការគណនាវាយតម្លៃអត្ថបទដោយស្វ័យប្រវត្តិ។ | ដូចជាសៀវភៅបញ្ជីពិន្ទុអាកប្បកិរិយា ដែលគ្រូកត់ត្រាថាពាក្យ "ល្អ" បានពិន្ទុបូក ឯពាក្យ "អាក្រក់" បានពិន្ទុដក។ |
| N-grams | ជាបច្ចេកទេសក្នុងដំណើរការភាសាធម្មជាតិ (NLP) សម្រាប់កាត់ផ្តាច់អត្ថបទជាកង់ៗ ដោយចាប់យកបណ្តុំពាក្យជាប់ៗគ្នាចំនួន N (ឧទាហរណ៍ ១ពាក្យ ៣ពាក្យ) ដើម្បីរក្សាបរិបទនៃឃ្លា។ | ដូចជាការមើលរូបភាពផាសសល (Puzzle) ក្នុងមួយដង២ទៅ៣ផ្ទាំងជាប់គ្នា ដើម្បីទាយដឹងថារូបនោះជារូបអ្វី ជាជាងមើលត្រឹមមួយផ្ទាំងៗ។ |
| Named Entity Recognition (NER) | ជាបច្ចេកទេសទាញយកព័ត៌មានដែលស្វែងរក និងចាត់ថ្នាក់ឈ្មោះរបស់អង្គភាពដែលមានក្នុងអត្ថបទ ទៅជាប្រភេទផ្សេងៗដូចជា ឈ្មោះមនុស្ស អង្គការ ទីតាំង ឬម៉ាកយីហោ ជាដើម។ | ដូចជាការអានកាសែតហើយប្រើប៊ិចពណ៌គូសចំណាំតែលើឈ្មោះតួអង្គ ឈ្មោះក្រុមហ៊ុន និងទីកន្លែងកើតហេតុ។ |
| Graph-based Algorithm | ជាក្បួនដោះស្រាយគណិតវិទ្យាដែលតំណាងទិន្នន័យជាបណ្តាញនៃចំណុចតភ្ជាប់គ្នា (Nodes & Edges) ដើម្បីស្វែងរកទំនាក់ទំនង និងកំណត់បរិបទរវាងពាក្យគន្លឹះនៅក្នុងប្រយោគស្មុគស្មាញ។ | ដូចជាការមើលផែនទីផ្លូវថ្នល់ ដើម្បីរកមើលថាតើផ្ទះនីមួយៗមានផ្លូវភ្ជាប់គ្នាទៅកាន់កន្លែងណាមួយដោយរបៀបណាខ្លះ។ |
| Feature Extraction | ជាដំណើរការបំប្លែងទិន្នន័យអត្ថបទឆៅទៅជាទម្រង់លេខ ឬវ៉ិចទ័រលក្ខណៈពិសេស (Feature vectors) ដែលម៉ាស៊ីនកុំព្យូទ័រអាចយល់ វិភាគ និងយកទៅបង្ហាត់ម៉ូដែលបាន។ | ដូចជាការយកផ្លែឈើស្រស់ទៅកិនច្របាច់យកតែទឹក ដើម្បីងាយស្រួលវាស់ស្ទង់កម្រិតជាតិស្ករ និងវីតាមីននៅក្នុងមន្ទីរពិសោធន៍។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖