Original Title: Aspect based Sentiment Analysis of Spanish Tweets
Source: ceur-ws.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគអារម្មណ៍ផ្អែកលើទិដ្ឋភាពនៃសារ Twitter ជាភាសាអេស្ប៉ាញ

ចំណងជើងដើម៖ Aspect based Sentiment Analysis of Spanish Tweets

អ្នកនិពន្ធ៖ Oscar Araque (Universidad Politécnica de Madrid), Ignacio Corcuera (Universidad Politécnica de Madrid), Constantino Román (Universidad Politécnica de Madrid), Carlos A. Iglesias (Universidad Politécnica de Madrid), J. Fernando Sánchez-Rada (Universidad Politécnica de Madrid)

ឆ្នាំបោះពុម្ព៖ 2015 CEUR Workshop Proceedings (TASS 2015)

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការវិភាគអារម្មណ៍ និងការរកឃើញទិដ្ឋភាព (Aspect Detection) នៅក្នុងសារ Twitter ជាភាសាអេស្ប៉ាញ ដែលមានពាក្យពេចន៍ខ្លីៗ ការប្រើប្រាស់ពាក្យមិនផ្លូវការ និងកង្វះធនធានភាសា។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានអភិវឌ្ឍប្រព័ន្ធម៉ូឌុលដែលអាចបត់បែនបាន ដោយរួមបញ្ចូលបច្ចេកវិទ្យាដំណើរការភាសាធម្មជាតិ (NLP) និងការរៀនដោយម៉ាស៊ីន (Machine Learning) ដើម្បីវាយតម្លៃកម្រិតអារម្មណ៍។

ការទាញយកលក្ខណៈពិសេសដោយប្រើ N-grams, សញ្ញាបញ្ជាក់វាក្យសម្ព័ន្ធ, និងវចនានុក្រមអារម្មណ៍ (Feature Extraction with N-grams and Lexicons)
ការប្រើប្រាស់ម៉ូដែលរៀនដោយម៉ាស៊ីន Support Vector Machine (SVM) សម្រាប់ការចាត់ថ្នាក់ (Machine Learning Classification)
ការរកឃើញឈ្មោះអង្គភាព និងក្បួនដោះស្រាយផ្អែកលើក្រាហ្វសម្រាប់កំណត់បរិបទនៃទិដ្ឋភាព (Named Entity Recognition and Graph-based Algorithm)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

នៅក្នុងកិច្ចការវិភាគអារម្មណ៍កម្រិតសកល (Task 1) ប្រព័ន្ធនេះទទួលបានភាពត្រឹមត្រូវ (Accuracy) រហូតដល់ ៦៩.០% និងពិន្ទុ F1-Score ៥៥.០% សម្រាប់ការចាត់ថ្នាក់ជា ៤ កម្រិត។
សម្រាប់កិច្ចការវិភាគអារម្មណ៍ផ្អែកលើទិដ្ឋភាព (Task 2) វិធីសាស្ត្រនេះទទួលបានពិន្ទុ F1-score ៦០.៦% និងភាពត្រឹមត្រូវ ៦៣.៥%។
ប្រព័ន្ធនេះបានជាប់ចំណាត់ថ្នាក់លេខ ១ លើពិន្ទុ F1-score និងលេខ ២ លើភាពត្រឹមត្រូវ នៅក្នុងការប្រកួតប្រជែង TASS 2015 សម្រាប់កិច្ចការទី ២ ចំណោមក្រុមដែលចូលរួមទាំងអស់។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
SVM with ElhPolar Lexicon (RUN-1) ម៉ូដែល SVM បញ្ចូលជាមួយវចនានុក្រម ElhPolar តែមួយមុខ (RUN-1)	ទទួលបានលទ្ធផលល្អបំផុតក្នុងការវាយតម្លៃទាំងកម្រិតសកល និងកម្រិតទិដ្ឋភាព ដោយសារវចនានុក្រមនេះមានភាពស៊ីគ្នានឹងទិន្នន័យ (Domain-specific)។ ងាយស្រួលក្នុងការអនុវត្តដោយមិនចាំបាច់មានភាពស្មុគស្មាញច្រើន។	ពឹងផ្អែកខ្លាំងលើវចនានុក្រមតែមួយគត់ ដែលអាចជួបការលំបាកក្នុងការចាប់យកពាក្យថ្មីៗ ឬពាក្យក្រៅវចនានុក្រម (Out-of-vocabulary) នៅក្នុងបរិបទផ្សេង។	ទទួលបានភាពត្រឹមត្រូវ ៦៣.៥% និងពិន្ទុ F1-Score ៦០.៦% សម្រាប់ Task 2 (Aspect-based) និង ៦៩.០% សម្រាប់ Task 1 (៤ កម្រិត)។
SVM with Combined Lexicons (RUN-3) ម៉ូដែល SVM បញ្ចូលជាមួយវចនានុក្រមអារម្មណ៍ចម្រុះ (RUN-3)	រួមបញ្ចូលប្រភពវចនានុក្រមអារម្មណ៍ច្រើន (ISOL, SSL, SOCAL, ML-SentiCON) ដើម្បីបង្កើនវិសាលភាពនៃការរកឃើញពាក្យ (Coverage) ឱ្យបានទូលំទូលាយ។	ការច្របាច់បញ្ចូលវចនានុក្រមច្រើនពេកបានបង្កើតជាសញ្ញារំខាន (Noise) ដែលធ្វើឱ្យភាពត្រឹមត្រូវធ្លាក់ចុះធៀបនឹងការប្រើវចនានុក្រមតែមួយដែលចំគោលដៅ។	ភាពត្រឹមត្រូវធ្លាក់ចុះមកត្រឹម ៥៥.៧% និងពិន្ទុ F1-Score ៥៥.៨% សម្រាប់កិច្ចការទី ២ (Task 2)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធស្រាវជ្រាវនេះទាមទារធនធានកម្រិតមធ្យម ដែលផ្តោតជាចម្បងលើកម្មវិធីដំណើរការភាសាធម្មជាតិ (NLP) ឯកទេស និងវចនានុក្រមអារម្មណ៍ (Sentiment Lexicons) ច្បាស់លាស់។

Software: ត្រូវការឧបករណ៍ដំណើរការភាសាធម្មជាតិដូចជា Stanford NER សម្រាប់ចាប់ឈ្មោះអង្គភាព និងក្បួនដោះស្រាយផ្អែកលើក្រាហ្វ (Graph-based algorithm) សម្រាប់កំណត់បរិបទ។
Dataset: ទាមទារទិន្នន័យអត្ថបទដែលមានការបែងចែកចំណាត់ថ្នាក់ជាស្រេច (ឧ. General corpus និង SocialTV corpus) ព្រមទាំងវចនានុក្រមបញ្ជាក់ប៉ូល (Polarity Lexicons) និងបញ្ជីពាក្យបដិសេធ (Negation words)។
Hardware: កុំព្យូទ័រដែលមានកម្លាំង CPU គួរសម និង RAM គ្រប់គ្រាន់ សម្រាប់បង្ហាត់ម៉ូដែល Support Vector Machine (SVM) និងដំណើរការការទាញយកលក្ខណៈពិសេស (Feature Extraction) ពីទិន្នន័យអត្ថបទរាប់ម៉ឺនសារ។
Expertise: ទាមទារចំណេះដឹងផ្នែក Machine Learning និងជំនាញភាសាវិទ្យាដើម្បីរៀបចំច្បាប់វាក្យសម្ព័ន្ធ (Syntactic rules) ការដោះស្រាយពាក្យបដិសេធ និងការទាញយកលក្ខណៈពិសេសដោយប្រើ N-grams។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងទាំងស្រុងលើសំណុំទិន្នន័យសារ Twitter ជាភាសាអេស្ប៉ាញ ដែលប្រមូលបានក្នុងបរិបទការប្រកួតកីឡាបាល់ទាត់ (Copa del Rey) និងយុទ្ធនាការនយោបាយនៅប្រទេសអេស្ប៉ាញ។ ភាពលំអៀងទៅលើភាសា និងវប្បធម៌លោកខាងលិចនេះ មានសារៈសំខាន់ណាស់សម្រាប់ប្រទេសកម្ពុជា ព្រោះភាសាខ្មែរមានទម្រង់វាក្យសម្ព័ន្ធ ការប្រើប្រាស់ពាក្យស្លែង និងការភ្ជាប់ពាក្យខុសគ្នាស្រឡះ ដែលតម្រូវឱ្យមានការបង្កើតវចនានុក្រមមូលដ្ឋាន និងឧបករណ៍ NLP សម្រាប់ភាសាខ្មែរជាមុនសិនទើបអាចអនុវត្តប្រព័ន្ធនេះបាន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាការស្រាវជ្រាវនេះផ្តោតលើភាសាអេស្ប៉ាញក៏ដោយ ប៉ុន្តែស្ថាបត្យកម្មប្រព័ន្ធបែបម៉ូឌុល (Modular Architecture) ដែលបំបែកការចាប់យកទិដ្ឋភាព និងអារម្មណ៍ដាច់ពីគ្នា អាចយកមកកែច្នៃប្រើប្រាស់នៅកម្ពុជាបានយ៉ាងមានប្រសិទ្ធភាព។

វិស័យទូរគមនាគមន៍ និងសេវាកម្ម (Telecom & Customer Service): ក្រុមហ៊ុនដូចជា Smart, Cellcard ឬធនាគារក្នុងស្រុក អាចប្រើប្រព័ន្ធរកឃើញទិដ្ឋភាព (Aspect Detection) ដើម្បីវិភាគយោបល់អតិថិជនលើ Facebook ដោយបំបែកការវាយតម្លៃរវាង សេវាអ៊ីនធឺណិត និង សេវាបម្រើអតិថិជន នៅក្នុងមតិយោបល់តែមួយ។
ការវិភាគមតិសាធារណៈសម្រាប់រដ្ឋាភិបាល (Public Opinion Analysis): ស្ថាប័នរដ្ឋ ឬក្រសួងនានាអាចយកគំរូតាមការសិក្សាលើ STOMPOL (ទិន្នន័យនយោបាយ) ដើម្បីតាមដានមតិប្រជាពលរដ្ឋជុំវិញគោលនយោបាយ សេវាសាធារណៈ ឬការស្ថាបនាហេដ្ឋារចនាសម្ព័ន្ធ ដើម្បីដោះស្រាយបញ្ហាបានទាន់ពេលវេលា។

ជារួម វិធីសាស្ត្រនៃការបំបែកម៉ូឌុល និងការប្រើប្រាស់ក្រាហ្វសម្រាប់ចាប់យកបរិបទ ផ្តល់នូវគំរូដ៏រឹងមាំមួយសម្រាប់ការអភិវឌ្ឍប្រព័ន្ធវិភាគអារម្មណ៍ភាសាខ្មែរ ប្រសិនបើយើងមានការវិនិយោគត្រឹមត្រូវលើការចងក្រងទិន្នន័យ និងឧបករណ៍ NLP មូលដ្ឋាន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ NLP និងការកាត់ពាក្យភាសាខ្មែរ: ចាប់ផ្តើមរៀនពីវិធីសាស្ត្រកាត់ពាក្យ (Tokenization) និងកាត់ប្រភេទពាក្យ (POS Tagging) ដោយសាកល្បងប្រើប្រាស់ឧបករណ៍ Khmer Natural Language Toolkit (Khmer NLTK) ឬបណ្ណាល័យកូដចំហផ្សេងៗ ដើម្បីបំបែកអត្ថបទភាសាខ្មែរជាឯកតាតូចៗ។
ការកសាងវចនានុក្រមអារម្មណ៍ (Sentiment Lexicon): ចាប់ផ្តើមប្រមូល និងចាត់ថ្នាក់ពាក្យវិជ្ជមាន អវិជ្ជមាន និងពាក្យបន្ទាប់បន្សំ (ដូចជាពាក្យបដិសេធ "មិន" ឬពាក្យបញ្ជាក់កម្រិត "ណាស់") ក្នុងភាសាខ្មែរ ដើម្បីបង្កើតជា Lexicon តូចមួយ យកគំរូតាមការបង្កើត ElhPolar ដែលមានក្នុងឯកសារនេះ។
ការអនុវត្តការទាញយកលក្ខណៈពិសេស (Feature Extraction): ប្រើប្រាស់បណ្ណាល័យ Scikit-Learn នៅក្នុង Python ដើម្បីទាញយក N-grams ពីអត្ថបទ និងបំប្លែងទិន្នន័យទៅជាវ៉ិចទ័រ ដោយយកវចនានុក្រមអារម្មណ៍ដែលបានបង្កើតមកធ្វើជាលក្ខណៈពិសេស (Feature vector) ។
ការបង្ហាត់ម៉ូដែលរៀនដោយម៉ាស៊ីន (Train Machine Learning Models): សាកល្បងអនុវត្តម៉ូដែល Support Vector Machine (SVM) ជាមួយទិន្នន័យសាកល្បងខ្នាតតូចដែលទាញចេញពីបណ្តាញសង្គម ដើម្បីធ្វើចំណាត់ថ្នាក់អារម្មណ៍ (Positive, Negative, Neutral) និងវាស់ស្ទង់ភាពត្រឹមត្រូវ (Accuracy/F1-Score)។
អនុវត្តក្បួនដោះស្រាយផ្អែកលើក្រាហ្វសម្រាប់ការរកឃើញទិដ្ឋភាព: សិក្សាស្រាវជ្រាវពី Graph-based Algorithms ដើម្បីកំណត់បរិបទ និងទំនាក់ទំនងរវាងពាក្យសំខាន់ៗ (Aspects) និងពាក្យបញ្ជាក់អារម្មណ៍ ដែលស្ថិតនៅក្នុងប្រយោគស្មុគស្មាញឬប្រយោគផ្សំភាសាខ្មែរ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Aspect-based Sentiment Analysis	ដំណើរការនៃការបំបែកអត្ថបទដើម្បីវាយតម្លៃអារម្មណ៍ទៅលើផ្នែក ឬលក្ខណៈពិសេសណាមួយជាក់លាក់នៃវត្ថុមួយ ជំនួសឱ្យការវាយតម្លៃអារម្មណ៍ជារួមនៃអត្ថបទទាំងមូល។	ដូចជាការភ្លក់ម្ហូបមួយចាន ហើយរិះគន់ដាច់ដោយឡែកពីគ្នាថា "សាច់ផុយឆ្ងាញ់" (វិជ្ជមាន) តែ "ទឹកស៊ុបប្រៃពេក" (អវិជ្ជមាន)។
Support Vector Machine (SVM)	ជាប្រភេទម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលប្រើសម្រាប់ចាត់ថ្នាក់ទិន្នន័យដោយគូសបន្ទាត់ ឬព្រំដែនល្អបំផុត ដើម្បីបំបែកក្រុមទិន្នន័យផ្សេងៗគ្នានៅក្នុងលំហវិមាត្រច្រើន។	ដូចជាការសង់របងមួយចំកណ្តាលទីធ្លា ដើម្បីបែងចែកហ្វូងចៀម និងហ្វូងគោឱ្យនៅដាច់ពីគ្នាយ៉ាងច្បាស់លាស់បំផុត។
Polarity Lexicon	ជាបញ្ជីវចនានុក្រមដែលផ្ទុកពាក្យពេចន៍នានាអមដោយពិន្ទុបញ្ជាក់កម្រិតអារម្មណ៍ (វិជ្ជមាន អវិជ្ជមាន ឬកណ្តាល) ដើម្បីជួយកុំព្យូទ័រក្នុងការគណនាវាយតម្លៃអត្ថបទដោយស្វ័យប្រវត្តិ។	ដូចជាសៀវភៅបញ្ជីពិន្ទុអាកប្បកិរិយា ដែលគ្រូកត់ត្រាថាពាក្យ "ល្អ" បានពិន្ទុបូក ឯពាក្យ "អាក្រក់" បានពិន្ទុដក។
N-grams	ជាបច្ចេកទេសក្នុងដំណើរការភាសាធម្មជាតិ (NLP) សម្រាប់កាត់ផ្តាច់អត្ថបទជាកង់ៗ ដោយចាប់យកបណ្តុំពាក្យជាប់ៗគ្នាចំនួន N (ឧទាហរណ៍ ១ពាក្យ ៣ពាក្យ) ដើម្បីរក្សាបរិបទនៃឃ្លា។	ដូចជាការមើលរូបភាពផាសសល (Puzzle) ក្នុងមួយដង២ទៅ៣ផ្ទាំងជាប់គ្នា ដើម្បីទាយដឹងថារូបនោះជារូបអ្វី ជាជាងមើលត្រឹមមួយផ្ទាំងៗ។
Named Entity Recognition (NER)	ជាបច្ចេកទេសទាញយកព័ត៌មានដែលស្វែងរក និងចាត់ថ្នាក់ឈ្មោះរបស់អង្គភាពដែលមានក្នុងអត្ថបទ ទៅជាប្រភេទផ្សេងៗដូចជា ឈ្មោះមនុស្ស អង្គការ ទីតាំង ឬម៉ាកយីហោ ជាដើម។	ដូចជាការអានកាសែតហើយប្រើប៊ិចពណ៌គូសចំណាំតែលើឈ្មោះតួអង្គ ឈ្មោះក្រុមហ៊ុន និងទីកន្លែងកើតហេតុ។
Graph-based Algorithm	ជាក្បួនដោះស្រាយគណិតវិទ្យាដែលតំណាងទិន្នន័យជាបណ្តាញនៃចំណុចតភ្ជាប់គ្នា (Nodes & Edges) ដើម្បីស្វែងរកទំនាក់ទំនង និងកំណត់បរិបទរវាងពាក្យគន្លឹះនៅក្នុងប្រយោគស្មុគស្មាញ។	ដូចជាការមើលផែនទីផ្លូវថ្នល់ ដើម្បីរកមើលថាតើផ្ទះនីមួយៗមានផ្លូវភ្ជាប់គ្នាទៅកាន់កន្លែងណាមួយដោយរបៀបណាខ្លះ។
Feature Extraction	ជាដំណើរការបំប្លែងទិន្នន័យអត្ថបទឆៅទៅជាទម្រង់លេខ ឬវ៉ិចទ័រលក្ខណៈពិសេស (Feature vectors) ដែលម៉ាស៊ីនកុំព្យូទ័រអាចយល់ វិភាគ និងយកទៅបង្ហាត់ម៉ូដែលបាន។	ដូចជាការយកផ្លែឈើស្រស់ទៅកិនច្របាច់យកតែទឹក ដើម្បីងាយស្រួលវាស់ស្ទង់កម្រិតជាតិស្ករ និងវីតាមីននៅក្នុងមន្ទីរពិសោធន៍។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖