Original Title: 基于证据理论和局部语义区分的嵌套命名实体识别
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការសម្គាល់អង្គភាពឈ្មោះដែលបានបង្កប់ដោយផ្អែកលើទ្រឹស្តីភស្តុតាង និងការបែងចែកអត្ថន័យក្នុងតំបន់

ចំណងជើងដើម៖ 基于证据理论和局部语义区分的嵌套命名实体识别

អ្នកនិពន្ធ៖ Bobo Xu, Shenyang Aerospace University, Na Ye, Shenyang Aerospace University, Mingchong Jiang, Shenyang Aerospace University

ឆ្នាំបោះពុម្ព៖ 2025 Proceedings of the 24th Chinese National Conference on Computational Linguistics (CCL)

វិស័យសិក្សា៖ Computer Science / Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាប្រឈមនៅក្នុងការសម្គាល់អង្គភាពឈ្មោះដែលបានបង្កប់ (Nested NER) ជាពិសេសអសមត្ថភាពនៃម៉ូដែលផ្អែកលើចន្លោះពាក្យ (span-based models) ក្នុងការបែងចែកភាពខុសគ្នាផ្នែកអត្ថន័យ និងសំឡេងរំខានដែលបង្កើតឡើងដោយការរាយចន្លោះពាក្យបេក្ខជនច្រើនពេក។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវវិធីសាស្រ្តថ្មីមួយដែលរួមបញ្ចូលការប៉ាន់ស្មានភាពមិនប្រាកដប្រជា និងការបែងចែកអត្ថន័យក្នុងតំបន់ ដើម្បីបង្កើនភាពរឹងមាំ និងភាពត្រឹមត្រូវនៃម៉ូដែល។

ការប៉ាន់ស្មានភាពមិនប្រាកដប្រជាផ្អែកលើទ្រឹស្តីភស្តុតាង (Uncertainty estimation based on Evidence Theory) សម្រាប់កាត់បន្ថយឥទ្ធិពលនៃចន្លោះពាក្យរំខាន។
យន្តការសម្រេចចិត្តដោយមានជំនួយពី KNN (KNN-assisted decision mechanism) សម្រាប់កែតម្រូវលទ្ធផលព្យាករណ៍នៅពេលមានភាពមិនប្រាកដប្រជាខ្ពស់។
ម៉ូឌុលបែងចែកអត្ថន័យក្នុងតំបន់ (Local semantic discrimination module) ដើម្បីចាប់យកភាពខុសគ្នានៃអត្ថន័យល្អិតល្អន់រវាងចន្លោះពាក្យបច្ចុប្បន្ន និងចន្លោះជិតខាង (surrounding spans)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

វិធីសាស្រ្តនេះទទួលបានពិន្ទុ F1 (F1-score) ចំនួន ៨១.២៧% នៅលើសំណុំទិន្នន័យភាសាអង់គ្លេស GENIA ។
ទទួលបានពិន្ទុ F1 ចំនួន ៨២.២៦% នៅលើសំណុំទិន្នន័យភាសាចិនដែលបានបង្កើតដោយខ្លួនឯង។
ម៉ូដែលនេះមានប្រសិទ្ធភាពខ្ពស់ជាងម៉ូដែលគោល (baseline models) ចំនួន ០.៥២% និង ១.៤៨% រៀងគ្នា ដែលបង្ហាញពីភាពជោគជ័យក្នុងការដោះស្រាយបញ្ហាព្រំដែនអង្គភាពមិនច្បាស់លាស់ និងការត្រួតស៊ីគ្នានៃអត្ថន័យ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
UGKNNLSD (Proposed) ការសម្រេចចិត្តដោយមានជំនួយពី KNN និងការបែងចែកអត្ថន័យក្នុងតំបន់ (ម៉ូដែលស្នើឡើង)	មានសមត្ថភាពខ្ពស់ក្នុងការបែងចែកអត្ថន័យអង្គភាពដែលត្រួតស៊ីគ្នា និងកាត់បន្ថយឥទ្ធិពលនៃសំឡេងរំខានបានយ៉ាងល្អដោយប្រើទ្រឹស្តីភស្តុតាង។	ទាមទារពេលវេលាធ្វើសេចក្តីសន្និដ្ឋាន (Inference) យឺតជាងម៉ូដែលមូលដ្ឋានបន្តិច ដោយសារការបន្ថែមដំណើរការស្វែងរក KNN ។	ទទួលបានពិន្ទុ F1 ៨១.២៧% លើទិន្នន័យ GENIA និង ៨២.២៦% លើទិន្នន័យភាសាចិន។
Biaffine ម៉ូដែលចំណាត់ថ្នាក់ចន្លោះពាក្យប្រើប្រាស់ Biaffine	មានល្បឿនលឿនក្នុងការទាញយក និងចាត់ថ្នាក់អង្គភាពដែលបង្កប់គ្នា និងជាម៉ូដែលមូលដ្ឋានដ៏រឹងមាំ។	ខ្វះសមត្ថភាពក្នុងការញែកភាពខុសគ្នាផ្នែកអត្ថន័យរវាងចន្លោះពាក្យដែលស្រដៀងគ្នាខ្លាំង។	ទទួលបានពិន្ទុ F1 ៨០.៥០% លើទិន្នន័យ GENIA និង ៧៧.៩៣% លើទិន្នន័យភាសាចិន។
GPT-NER ម៉ូដែលភាសាធំ GPT-NER	ប្រើប្រាស់សមត្ថភាពបង្កើតអត្ថបទ (Generative capabilities) ដ៏ខ្លាំងក្លារបស់ម៉ូដែលភាសាធំ (LLMs)។	ពឹងផ្អែកខ្លាំងលើសមត្ថភាពទូទៅ ធ្វើឱ្យខ្វះការយកចិត្តទុកដាក់លម្អិតលើលក្ខណៈពិសេសនៃកិច្ចការ Nested NER ដែលធ្វើឱ្យលទ្ធផលធ្លាក់ចុះ។	ទទួលបានពិន្ទុ F1 ត្រឹមតែ ៦៤.៤២% ប៉ុណ្ណោះលើទិន្នន័យ GENIA។
DiffusionNER ម៉ូដែលព្រំដែនព្រិលប្រើប្រាស់ Diffusion	អាចទាញយកព្រំដែនអង្គភាពបានល្អតាមរយៈដំណើរការបន្ថយសំឡេងរំខាន (Denoising) នៃ Diffusion។	នៅតែមានការកំណត់ក្នុងការញែកអត្ថន័យនៃអង្គភាពដែលមានការត្រួតស៊ីគ្នាស្មុគស្មាញ បើប្រៀបធៀបនឹងម៉ូដែលស្នើឡើង។	ទទួលបានពិន្ទុ F1 ៨០.៧០% លើទិន្នន័យ GENIA និង ៨០.៧៨% លើទិន្នន័យភាសាចិន។

ការចំណាយលើធនធាន (Resource Cost)៖ ការពិសោធន៍នៅក្នុងឯកសារនេះតម្រូវឱ្យមានធនធាន Hardware កម្រិតមធ្យមទៅខ្ពស់ សម្រាប់ការហ្វឹកហាត់ម៉ូដែល Deep Learning ។

Hardware: ប្រើប្រាស់ GPU ម៉ូដែល NVIDIA TITAN RTX ចំនួន១ សម្រាប់ការហ្វឹកហាត់និងធ្វើតេស្ត។ ត្រូវការ VRAM ប្រមាណ 1140MB សម្រាប់ដំណើរការសន្និដ្ឋាន (Inference)។
Software: ដំណើរការលើបរិស្ថាន (Framework) PyTorch ជាមួយភាសា Python។
Dataset: ប្រើប្រាស់ទិន្នន័យ GENIA (ជីវវេជ្ជសាស្ត្រភាសាអង់គ្លេស) និងទិន្នន័យស្រាវជ្រាវភាសាចិនដែលបង្កើតឡើងដោយក្រុមអ្នកស្រាវជ្រាវផ្ទាល់ចំនួនជាង ១៤០២៥ ពាក្យបច្ចេកទេស។
Time: ចំណាយពេលហ្វឹកហាត់ ៨៦៤០ វិនាទី (សម្រាប់ ៥ ជុំ/epochs) និងប្រើពេលប្រមាណ ២.៤ វិនាទី ក្នុងមួយគំរូ (Sample) ពេលធ្វើសេចក្តីសន្និដ្ឋាន។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើសំណុំទិន្នន័យអត្ថបទជីវវេជ្ជសាស្ត្រភាសាអង់គ្លេស (GENIA) និងឯកសារស្រាវជ្រាវភាសាចិនកម្រិតខ្ពស់។ វាមិនមានទិន្នន័យភាសាដែលមានធនធានទាប (Low-resource languages) ដូចជាភាសាខ្មែរឡើយ។ សម្រាប់កម្ពុជា នេះមានន័យថាមុននឹងអាចទាញយកអត្ថប្រយោជន៍ពីស្ថាបត្យកម្មនេះបានពេញលេញ យើងត្រូវចំណាយពេលកសាងសំណុំទិន្នន័យ Nested NER ជាភាសាខ្មែរជាមុនសិន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាភាសាខុសគ្នាក៏ដោយ ស្ថាបត្យកម្មវិភាគចន្លោះពាក្យ និងការប៉ាន់ស្មានភាពមិនប្រាកដប្រជានេះ អាចយកមកអនុវត្តយ៉ាងមានប្រសិទ្ធភាពសម្រាប់ដោះស្រាយបញ្ហាអត្ថបទស្មុគស្មាញនៅកម្ពុជា។

វិស័យសុខាភិបាលកម្ពុជា (Cambodian Healthcare Sector): អាចប្រើសម្រាប់ស្រង់យកឈ្មោះជំងឺ រោគសញ្ញា និងថ្នាំពេទ្យពីកំណត់ត្រាព្យាបាល ដែលជាញឹកញាប់មានពាក្យបច្ចេកទេសត្រួតស៊ីគ្នា (ឧទាហរណ៍៖ [មន្ទីរពេទ្យ [កាល់ម៉ែត]])។
ឯកសារច្បាប់ និងរដ្ឋបាល (Legal & Administrative Documents): មានប្រយោជន៍ខ្លាំងសម្រាប់ការវិភាគព្រះរាជក្រឹត្យ ឬអនុក្រឹត្យ ដើម្បីទាញយកឈ្មោះក្រសួង ស្ថាប័ន និងឋានន្តរស័ក្តិ ដែលតែងតែមានរចនាសម្ព័ន្ធបង្កប់គ្នា (ឧទាហរណ៍៖ [ក្រសួង [អប់រំ យុវជន និងកីឡា]])។
ប្រព័ន្ធផ្សព្វផ្សាយ និងព័ត៌មានវិទ្យា (News & Information Extraction): អាចជួយស្ថាប័នព័ត៌មាន ឬអ្នកអភិវឌ្ឍន៍កម្មវិធីស្វែងរក (Search Engines) ក្នុងការចាប់យកឈ្មោះបុគ្គល និងទីតាំងភូមិសាស្ត្រស្មុគស្មាញក្នុងអត្ថបទព័ត៌មានខ្មែរ។

សរុបមក ការអនុវត្តបច្ចេកទេសនេះអាចជួយជំរុញការអភិវឌ្ឍប្រព័ន្ធ AI យល់ដឹងភាសាខ្មែរ (Khmer NLP) ឱ្យកាន់តែស៊ីជម្រៅ ជាពិសេសលើការទាញយកទិន្នន័យពីឯកសារស្មុគស្មាញ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ NLP ទំនើប: ចាប់ផ្តើមដោយការរៀនប្រើប្រាស់បណ្ណាល័យ PyTorch និងម៉ូដែលភាសាដូចជា BERT ឬ RoBERTa ដើម្បីយល់ពីរបៀបដែលអត្ថបទត្រូវបានបំប្លែងទៅជាវ៉ិចទ័រ (Word Embeddings)។
ស្វែងយល់ពីបច្ចេកទេស Span-based NER: សិក្សាពីការរចនាម៉ូដែលផ្អែកលើចន្លោះពាក្យ (Span-based) និងការប្រើប្រាស់បណ្ដាញ Biaffine (Biaffine Attention) សម្រាប់ចាប់យកទំនាក់ទំនងរវាងពាក្យដើម និងពាក្យចុងបញ្ចប់នៃអង្គភាព។
អនុវត្តទ្រឹស្តីភស្តុតាង (Evidence Theory): សិក្សាគណិតវិទ្យានៅពីក្រោយការប៉ាន់ស្មានភាពមិនប្រាកដប្រជា ដោយអនុវត្ត Dirichlet Distribution និង KL Divergence Loss ទៅក្នុងកូដ PyTorch របស់អ្នកដើម្បីឱ្យម៉ូដែលដឹងពី 'ភាពមិនប្រាកដប្រជា' របស់វា។
អភិវឌ្ឍម៉ូឌុល KNN និងការកំណត់អត្ថន័យតំបន់: បន្ថែមយន្តការស្វែងរក K-Nearest Neighbors (KNN) ទៅក្នុងដំណាក់កាលធ្វើសេចក្តីសន្និដ្ឋាន (Inference) ដើម្បីប្រៀបធៀបគំរូដែលមិនច្បាស់លាស់ ជាមួយនឹងទិន្នន័យដែលមានស្រាប់ក្នុងលំហវ៉ិចទ័រ។
កសាងសំណុំទិន្នន័យភាសាខ្មែរ និងហ្វឹកហាត់: ប្រមូលអត្ថបទភាសាខ្មែរ (ឧទាហរណ៍៖ ព័ត៌មាន ឬឯកសារច្បាប់) រួចធ្វើការកត់សម្គាល់ (Annotate) ជាទម្រង់ Nested NER ហើយធ្វើការហ្វឹកហាត់ (Fine-tune) ម៉ូដែលដែលបានរៀបចំខាងលើជាមួយទិន្នន័យនេះ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Nested Named Entity Recognition (NER)	គឺជាដំណើរការនៅក្នុងការវិភាគភាសាធម្មជាតិ (NLP) ដែលមិនត្រឹមតែទាញយកឈ្មោះសំខាន់ៗពីអត្ថបទប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងអាចសម្គាល់អង្គភាពដែលមានរចនាសម្ព័ន្ធត្រួតស៊ីគ្នា ឬបង្កប់ក្នុងគ្នាទៅវិញទៅមកផងដែរ (ឧទាហរណ៍៖ ការចាប់យកទាំងពាក្យ 'ក្រសួងអប់រំ' និង 'អប់រំ')។	ដូចជាការបើកប្រអប់កាដូដែលមានប្រអប់តូចៗជាច្រើនទៀតនៅខាងក្នុង ហើយអ្នកត្រូវប្រាប់ពីឈ្មោះរបស់វត្ថុក្នុងប្រអប់នីមួយៗតាមលំដាប់លំដោយ។
Evidence Theory	ជាទ្រឹស្តីគណិតវិទ្យាដែលត្រូវបានប្រើដើម្បីវាស់ស្ទង់កម្រិតនៃ 'ភាពមិនប្រាកដប្រជា' របស់ម៉ូដែល ដោយប្រមូលភស្តុតាងពីទិន្នន័យដើម្បីវាយតម្លៃថា តើម៉ូដែលគួរតែជឿជាក់លើការទស្សន៍ទាយរបស់ខ្លួនកម្រិតណា ជាជាងការទាយដោយគ្មានមូលដ្ឋាន។	ដូចជាចៅក្រមដែលសម្រេចក្តីដោយផ្អែកលើទម្ងន់នៃភស្តុតាងជាក់ស្តែង ជាជាងការស្មានទុកជាមុន។ ប្រសិនបើគ្មានភស្តុតាង ចៅក្រមនឹងប្រកាសថា 'មិនប្រាកដ'។
Span-based modeling	ជាវិធីសាស្រ្តចាត់ថ្នាក់ទិន្នន័យអត្ថបទដោយចងក្រង និងវិភាគចន្លោះពាក្យ (រួមមានពាក្យផ្តើម និងពាក្យបញ្ចប់រួមគ្នាជាដុំតែមួយ) ជាជាងការដាក់ស្លាកពាក្យនីមួយៗដាច់ពីគ្នា ដែលជួយឱ្យងាយស្រួលរកពាក្យដែលបង្កប់គ្នា។	ដូចជាការប្រើហ្វឺតគូសរំលេច (Highlight) ឃ្លាទាំងមូលនៅក្នុងសៀវភៅ ជាជាងការគូសបន្ទាត់ពីក្រោមពាក្យម្តងមួយៗ។
Uncertainty Estimation	គឺជាបច្ចេកទេសដែលអនុញ្ញាតឱ្យម៉ូដែល AI ដឹងពីដែនកំណត់របស់ខ្លួន ដោយវាគណនាថាតើចម្លើយរបស់វាអាចនឹងខុសក្នុងកម្រិតណា នៅពេលជួបទិន្នន័យស្មុគស្មាញ ឬរំខាន។	ដូចជាសិស្សដែលប្រាប់គ្រូថា 'ខ្ញុំគិតថាចម្លើយគឺ ក ប៉ុន្តែខ្ញុំមិនសូវប្រាកដទេ' ជាជាងការឆ្លើយខុសដោយទំនុកចិត្តខ្វាក់ភ្នែក។
Local semantic distinction	ជាយន្តការរចនាឡើងដើម្បីប្រៀបធៀបអត្ថន័យនៃឃ្លាមួយទៅនឹងឃ្លាដែលនៅជុំវិញវា ដើម្បីញែកភាពខុសគ្នាតិចតួច និងជៀសវាងការចាប់យកព្រំដែនពាក្យខុសនៅពេលពាក្យមានន័យស្រដៀងគ្នាខ្លាំង។	ដូចជាការប្រៀបធៀបពណ៌បៃតងខ្ចី និងពណ៌បៃតងចាស់ដែលនៅក្បែរគ្នាផ្ទាល់ ដើម្បីរកឱ្យឃើញបន្ទាត់ព្រំដែនពិតប្រាកដរបស់វា។
Biaffine Attention	គឺជាបច្ចេកទេសគណនាបណ្តាញសរសៃប្រសាទ (Neural Network) សម្រាប់វាស់ស្ទង់ទំនាក់ទំនងរវាងចំណុចចាប់ផ្តើម និងចំណុចបញ្ចប់នៃឃ្លា ដើម្បីកំណត់ថាតើវាគួរផ្គួបគ្នាជាអង្គភាពតែមួយឬអត់។	ដូចជាការរកមើលមេដែកប៉ូលជើង និងប៉ូលត្បូងដែលស្រូបទាញគ្នាខ្លាំងបំផុត ដើម្បីភ្ជាប់វាជាគូតែមួយ។
K-Nearest Neighbors (KNN)	គឺជាក្បួនដោះស្រាយដែលជួយធ្វើការសម្រេចចិត្តនៅពេលម៉ូដែលមិនច្បាស់លាស់ ដោយស្វែងរកមើលទិន្នន័យចាស់ៗចំនួន K ដែលមានលក្ខណៈស្រដៀងនឹងទិន្នន័យថ្មីនេះបំផុត ក្នុងលំហទិន្នន័យ ដើម្បីយកមកធ្វើជាឯកសារយោងផ្ទៀងផ្ទាត់។	ដូចជានៅពេលអ្នកមិនស្គាល់ផ្លូវ អ្នកសួរមនុស្សដែលនៅក្បែរនោះចំនួន ៣ នាក់ រួចសម្រេចចិត្តដើរតាមផ្លូវណាដែលមានអ្នកប្រាប់ច្រើនជាងគេ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖