Original Title: 基于双维信息与剪枝的中文猕猴桃文本命名实体识别方法 (Chinese Kiwifruit Text Named Entity Recognition Method Based on Dual-Dimensional Information and Pruning)
Source: doi.org/10.12133/j.smartag.SA202410022
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្រសម្គាល់ឈ្មោះអង្គភាពអត្ថបទផ្លែគីវីជាភាសាចិន ដោយផ្អែកលើព័ត៌មានទ្វេវិមាត្រ និងការកាត់ចេញ

ចំណងជើងដើម៖ 基于双维信息与剪枝的中文猕猴桃文本命名实体识别方法 (Chinese Kiwifruit Text Named Entity Recognition Method Based on Dual-Dimensional Information and Pruning)

អ្នកនិពន្ធ៖ QI Zijun (Northwest A&F University), NIU Dangdang, WU Huarui, ZHANG Lilin, WANG Lunfeng, ZHANG Hongming

ឆ្នាំបោះពុម្ព៖ 2025 Smart Agriculture

វិស័យសិក្សា៖ Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ អត្ថបទផ្លែគីវីជាភាសាចិនមានរចនាសម្ព័ន្ធស្មុគស្មាញ និងមានទំនាក់ទំនងឆ្លងកាត់កថាខណ្ឌ (Cross-paragraph dependencies) ដែលធ្វើឱ្យម៉ូដែលបច្ចុប្បន្នពិបាកក្នុងការទាញយកព័ត៌មានអត្តសញ្ញាណឱ្យបានត្រឹមត្រូវ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវម៉ូដែល KIWI-Coord-Prune ដោយរួមបញ្ចូលយន្តការទាញយកព័ត៌មានទ្វេវិមាត្រ និងបច្ចេកទេសកាត់បន្ថយទិន្នន័យមិនចាំបាច់ (Pruning) ដើម្បីបង្កើនភាពត្រឹមត្រូវក្នុងការសម្គាល់។

ការបង្កើតសំណុំទិន្នន័យផ្ទាល់ខ្លួន (Custom Dataset KIWIPRO) ដែលមាន 62,093 ប្រយោគ។
ការប្រើប្រាស់ម៉ូឌុល CoordKIWINER ដើម្បីទាញយកលក្ខណៈពិសេសតាមវិមាត្របញ្ឈរ និងផ្ដេក (Dual-dimensional feature extraction)។
ការអនុវត្តបច្ចេកទេសកាត់ចេញ (Pruning strategy) នៅក្នុងម៉ូឌុល Bi-LSTM ដើម្បីកាត់បន្ថយប៉ារ៉ាម៉ែត្រមិនចាំបាច់ និងបង្កើនល្បឿនគណនា។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល KIWI-Coord-Prune សម្រេចបានពិន្ទុ F1 ចំនួន 89.55% លើសំណុំទិន្នន័យ KIWIPRO ដែលជាលទ្ធផលល្អជាងម៉ូដែលមូលដ្ឋានដូចជា LSTM, Bi-LSTM, និង LR-CNN។
ម៉ូដែលនេះក៏ទទួលបានលទ្ធផលល្អប្រសើរលើសំណុំទិន្នន័យសាធារណៈចំនួន 4 ផ្សេងទៀត រួមមានពិន្ទុ 91.02% លើ People's Daily និង 95.81% លើ ResumeNER។
ការកាត់ចេញនូវប៉ារ៉ាម៉ែត្រ (Pruning) ជួយកាត់បន្ថយការប្រើប្រាស់អង្គចងចាំបានយ៉ាងច្រើន ធ្វើឱ្យម៉ូដែលដំណើរការកាន់តែមានប្រសិទ្ធភាពសម្រាប់ការវិភាគអត្ថបទកសិកម្មខ្នាតធំ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
KIWI-Coord-Prune ម៉ូដែល KIWI-Coord-Prune (ស្នើឡើងដោយការសិក្សានេះ)	មានសមត្ថភាពខ្ពស់ក្នុងការទាញយកព័ត៌មានទ្វេវិមាត្រ (ទាំងទិសផ្ដេក និងបញ្ឈរ) កាត់បន្ថយប៉ារ៉ាម៉ែត្រមិនចាំបាច់ និងមានប្រសិទ្ធភាពក្នុងការសម្គាល់អង្គភាពស្មុគស្មាញ (Nested entities) ព្រមទាំងសន្សំសំចៃអង្គចងចាំ។	ត្រូវការការកែសម្រួល និងការស្រាវជ្រាវបន្ថែមដើម្បីយកទៅប្រើប្រាស់លើអត្ថបទដែលមិនមែនជាកសិកម្ម ឬបរិបទពហុភាសា។	ទទួលបានពិន្ទុ F1 ខ្ពស់បំផុតរហូតដល់ ៨៩.៥៥% លើសំណុំទិន្នន័យកសិកម្មផ្លែគីវី (KIWIPRO) និង ៩១.០២% លើសំណុំទិន្នន័យ People's Daily។
LSTM / Bi-LSTM ម៉ូដែល LSTM និង Bi-LSTM	ជាម៉ូដែលមូលដ្ឋានដ៏ល្អ និងមានភាពងាយស្រួលក្នុងការទាញយកព័ត៌មានពីបរិបទជាលំដាប់ (Sequential context)។	ពឹងផ្អែកតែលើការវាយតម្លៃអត្ថបទតាមទិសដៅតែមួយ ឬទ្វេទិស មិនអាចចាប់យកព័ត៌មានទ្វេវិមាត្រ និងខ្សោយក្នុងការវិភាគអង្គភាពដែលមានទំនាក់ទំនងឆ្លងកថាខណ្ឌ ឬទិន្នន័យកសិកម្មស្មុគស្មាញ។	ទទួលបានពិន្ទុ F1 ត្រឹមតែ ៧៧.២៧% សម្រាប់ LSTM និង ៨៥.៣១% សម្រាប់ Bi-LSTM លើសំណុំទិន្នន័យ KIWIPRO។
LR-CNN / Softlexicon-LSTM ម៉ូដែល LR-CNN និង Softlexicon-LSTM	មានការប្រើប្រាស់វចនានុក្រមខាងក្រៅ (External Lexicons) ដើម្បីបង្កើនសមត្ថភាពក្នុងការយល់ដឹងពីបរិបទ និងពាក្យនៅក្នុងអត្ថបទ។	វិធីសាស្ត្រក្នុងការទាញយកលក្ខណៈពិសេសមានលក្ខណៈទូទៅពេក ធ្វើឱ្យពិបាកក្នុងការសម្របខ្លួនទៅនឹងរចនាសម្ព័ន្ធចំណេះដឹងជាក់លាក់នៃអត្ថបទកសិកម្ម (Domain-specific)។	ទទួលបានពិន្ទុ F1 ៨៨.៥៥% (LR-CNN) និង ៨៧.៩៩% (Softlexicon-LSTM)។
KIWINER ម៉ូដែល KIWINER	ជាម៉ូដែលដែលត្រូវបានរចនាឡើងដោយមានការផ្តោតលើទិន្នន័យអត្ថបទកសិកម្មផ្លែគីវីរួចជាស្រេច។	នៅខ្វះសមត្ថភាពក្នុងការបែងចែកពាក្យដែលមានឈ្មោះស្រដៀងគ្នា (ឧទាហរណ៍ប្រភេទសត្វល្អិត) ដោយសារការមិនមានយន្តការកាត់ចេញប៉ារ៉ាម៉ែត្រកម្រិតខ្ពស់។	ទទួលបានពិន្ទុ F1 ៨៨.៧៥% លើសំណុំទិន្នន័យ KIWIPRO។

ការចំណាយលើធនធាន (Resource Cost)៖ យោងតាមឯកសារ ការពិសោធន៍នេះទាមទារផ្នែករឹងកម្រិតខ្ពស់ (High-end Hardware) និងផ្នែកទន់ជាក់លាក់ ដើម្បីដំណើរការការបណ្តុះបណ្តាលម៉ូដែល Deep Learning ឱ្យមានប្រសិទ្ធភាព។

Hardware: ត្រូវការកុំព្យូទ័រដែលមាន CPU Intel Core i9-13900H, RAM ទំហំ 64GB, ឃ្លាំងផ្ទុកទិន្នន័យ 2TB និង GPU NVIDIA GeForce RTX4060 (8GB)។
Software: ដំណើរការលើប្រព័ន្ធប្រតិបត្តិការ Windows 11 ប្រើប្រាស់ភាសា Python ជំនាន់ 3.7.16 និងបណ្ណាល័យ PyTorch ជំនាន់ 1.8.1។
Dataset: ទាមទារការសាងសង់សំណុំទិន្នន័យផ្ទាល់ខ្លួនឈ្មោះ KIWIPRO ដែលមានប្រយោគចំនួន ៦២,០៩៣ ប្រមូលពីប្រភពផ្សេងៗ និងផ្ទៀងផ្ទាត់ដោយអ្នកជំនាញកសិកម្ម។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទាំងស្រុងនូវទិន្នន័យអត្ថបទភាសាចិនទាក់ទងនឹងផ្លែគីវី (សំណុំទិន្នន័យ KIWIPRO) និងសំណុំទិន្នន័យសាធារណៈរបស់ចិន។ ដូច្នេះ ម៉ូដែលនេះត្រូវបានផ្សារភ្ជាប់យ៉ាងខ្លាំងទៅនឹងវេយ្យាករណ៍ និងរចនាសម្ព័ន្ធនៃភាសាចិន។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាបញ្ហាប្រឈម ពីព្រោះភាសាខ្មែរមានរចនាសម្ព័ន្ធខុសគ្នា (គ្មានការដកឃ្លារវាងពាក្យ) និងទាមទារសំណុំទិន្នន័យបរិបទកសិកម្មរបស់ខ្មែរផ្ទាល់ដើម្បីយកមកបណ្តុះបណ្តាលឡើងវិញ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានរបាំងភាសាក៏ដោយ វិធីសាស្ត្រនៃការទាញយកព័ត៌មានទ្វេវិមាត្រ និងយន្តការកាត់ចេញ (Pruning) នេះ មានសក្តានុពលខ្ពស់សម្រាប់អនុវត្តក្នុងវិស័យកសិកម្មនៅកម្ពុជា។

វិស័យស្រាវជ្រាវ និងការអភិវឌ្ឍកសិកម្ម (Agricultural R&D): អាចអនុវត្តបច្ចេកទេសនេះដើម្បីទាញយកព័ត៌មានសំខាន់ៗអំពីជំងឺស្រូវ និងវិធីសាស្ត្រកម្ចាត់សត្វល្អិត ពីឯកសារស្រាវជ្រាវរបស់វិទ្យាស្ថាន CARDI (Cambodian Agricultural Research and Development Institute) ដោយស្វ័យប្រវត្តិ។
ប្រព័ន្ធ Q&A ឆ្លាតវៃសម្រាប់កសិករ (Smart Farming Chatbots): ជួយរៀបចំនិងស្រង់យកទិន្នន័យបច្ចេកទេសកសិកម្ម ទៅក្នុងប្រព័ន្ធ Chatbot ដើម្បីឱ្យកសិករនៅតាមបណ្តាខេត្តដូចជា បាត់ដំបង និងកំពង់ធំ អាចសាកសួរអំពីបច្ចេកទេសដាំដុះកៅស៊ូ ឬដំឡូងមីបានយ៉ាងរហ័ស។
ការកសាងក្រាហ្វចំណេះដឹងកសិកម្ម (Agricultural Knowledge Graph): ជួយបំប្លែងទិន្នន័យឯកសារមិនមានរចនាសម្ព័ន្ធរបស់ក្រសួងកសិកម្ម រុក្ខាប្រមាញ់ និងនេសាទ ទៅជាប្រព័ន្ធទិន្នន័យរចនាសម្ព័ន្ធច្បាស់លាស់ (Knowledge Graph) ដើម្បីងាយស្រួលក្នុងការវិភាគ និងរៀបចំផែនការគោលនយោបាយកសិកម្ម។

ជារួម ក្របខ័ណ្ឌម៉ូដែលនេះផ្តល់នូវគំរូដ៏ល្អមួយសម្រាប់ការធ្វើទំនើបកម្មប្រព័ន្ធព័ត៌មានកសិកម្មនៅក្នុងប្រទេសកម្ពុជា ឱ្យតែមានការវិនិយោគលើការបង្កើតសំណុំទិន្នន័យភាសាខ្មែរឱ្យបានគ្រប់គ្រាន់។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីមូលដ្ឋានគ្រឹះនៃ NER និងទិន្នន័យអត្ថបទ: ចាប់ផ្តើមស្វែងយល់អំពី Named Entity Recognition (NER) ដោយផ្តោតលើស្ថាបត្យកម្ម LSTM, Bi-LSTM និង CRF តាមរយៈវគ្គសិក្សានៅលើ Coursera ឬការអនុវត្តផ្ទាល់ជាមួយ Hugging Face Transformers។
ប្រមូល និងវាយតម្លៃទិន្នន័យកសិកម្មជាភាសាខ្មែរ: ប្រមូលអត្ថបទកសិកម្មទាក់ទងនឹងដំណាំស្រូវ ឬដំឡូងមី ពីគេហទំព័រក្រសួងកសិកម្មកម្ពុជា រួចប្រើប្រាស់ឧបករណ៍ដូចជា Doccano ដើម្បីធ្វើការចំណាំ (Annotate) ទិន្នន័យដោយប្រើប្រព័ន្ធចំណាំប្រភេទ BMESO។
សាកល្បងអនុវត្តការទាញយកលក្ខណៈពិសេសទ្វេវិមាត្រ: សិក្សា និងសរសេរកូដសម្រាប់យន្តការ Attention Mechanism ជាពិសេស Coordinate Attention (CoordAtt) ដើម្បីឱ្យម៉ូដែលអាចចាប់យកទំនាក់ទំនងនៃពាក្យក្នុងអត្ថបទទាំងកម្រិតផ្ដេក និងបញ្ឈរ។
ប្រើប្រាស់បច្ចេកទេស Pruning ដើម្បីបង្កើនល្បឿនម៉ូដែល: អនុវត្តបច្ចេកទេសកាត់ចេញ (Weight Pruning) ទៅលើម៉ូដែលនៅក្នុង PyTorch ដើម្បីកាត់បន្ថយទំហំមេម៉ូរី និងសាកល្បងដំណើរការវាលើកុំព្យូទ័រដែលមានធនធាន GPU កម្រិតមធ្យម។
វាយតម្លៃប្រសិទ្ធភាព និងពង្រីកទៅជាប្រព័ន្ធជាក់ស្តែង: វាស់ស្ទង់ប្រសិទ្ធភាពម៉ូដែលរបស់អ្នកដោយប្រើប្រាស់រង្វាស់ Precision, Recall និង F1-Score រួចយកម៉ូដែលនេះទៅសាកល្បងបំប្លែងអត្ថបទទៅជាទិន្នន័យនៅក្នុងមូលដ្ឋានទិន្នន័យ Neo4j សម្រាប់កសាងប្រព័ន្ធ Q&A មូលដ្ឋាន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Named Entity Recognition (NER)	ជាដំណើរការនៅក្នុងបញ្ញាសិប្បនិម្មិត (AI) ឬដំណើរការភាសាធម្មជាតិ (NLP) ដែលស្កេនអត្ថបទដើម្បីរកមើល និងចាត់ថ្នាក់ពាក្យសំខាន់ៗដោយស្វ័យប្រវត្តិ ដូចជា ឈ្មោះទីតាំង ឈ្មោះជំងឺ ឬឈ្មោះថ្នាំសម្លាប់សត្វល្អិត ជាដើម។	ដូចជាការគូសបន្ទាត់ពីក្រោមពាក្យសំខាន់ៗក្នុងសៀវភៅដោយប្រើហ្វឺតពណ៌ផ្សេងៗគ្នាសម្រាប់ប្រភេទនីមួយៗ (ឧ. ពណ៌ក្រហមសម្រាប់ឈ្មោះ ពណ៌ខៀវសម្រាប់ទីកន្លែង)។
Dual-Dimensional Information	នៅក្នុងបរិបទនៃការសិក្សានេះ វាសំដៅលើការទាញយកព័ត៌មានពីអត្ថបទតាមពីរទិសដៅ គឺទិសផ្ដេក (ទំនាក់ទំនងពាក្យជាប់គ្នាក្នុងប្រយោគ) និងទិសបញ្ឈរ (ទំនាក់ទំនងពាក្យដែលឆ្លងកាត់កថាខណ្ឌផ្សេងៗគ្នាក្នុងអត្ថបទទាំងមូល)។	ដូចជាការលេងល្បែងផ្គុំពាក្យខ្វែង (Crossword) ដែលអ្នកត្រូវមើលទាំងពាក្យដេក និងពាក្យឈរ ដើម្បីយល់ន័យពេញលេញ។
Weight Pruning	ជាបច្ចេកទេសកាត់បន្ថយប៉ារ៉ាម៉ែត្រ ឬទិន្នន័យទម្ងន់ (Weights) ដែលមិនសូវមានឥទ្ធិពលចេញពីបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត ដើម្បីឱ្យម៉ូដែលដំណើរការបានលឿន ស៊ីទំហំផ្ទុកតិច និងកាត់បន្ថយភាពស្មុគស្មាញដោយមិនធ្វើឱ្យបាត់បង់ភាពត្រឹមត្រូវ។	ដូចជាការលួសកាត់មែកឈើដែលងាប់ ឬមិនសូវសំខាន់ចេញ ដើម្បីឱ្យដើមឈើលូតលាស់បានល្អ និងមើលទៅមានសណ្តាប់ធ្នាប់។
Bi-LSTM (Bidirectional Long Short-Term Memory)	ជាប្រភេទនៃបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត ដែលអាចចងចាំព័ត៌មានពីបរិបទទាំងសងខាង (ពោលគឺវាអានអត្ថបទពីឆ្វេងទៅស្តាំ និងពីស្តាំមកឆ្វេង) ដើម្បីយល់ពីអត្ថន័យនៃពាក្យនីមួយៗផ្អែកលើពាក្យនៅខាងមុខ និងខាងក្រោយវា។	ដូចជាការអានប្រយោគមួយដោយមើលសង្កេតទាំងពាក្យខាងមុខ និងពាក្យខាងក្រោយ ដើម្បីទាយអត្ថន័យនៃពាក្យដែលយើងមិនស្គាល់ច្បាស់។
CRF (Conditional Random Field)	ជាម៉ូដែលស្ថិតិដែលត្រូវបានប្រើនៅដំណាក់កាលចុងក្រោយនៃប្រព័ន្ធ NER ដើម្បីធានាថាការទស្សន៍ទាយស្លាក (Tags) សម្រាប់ពាក្យជាបន្តបន្ទាប់គ្នា គឺមានភាពសមហេតុផល និងត្រឹមត្រូវតាមលំដាប់វេយ្យាករណ៍ច្បាស់លាស់។	ដូចជាអ្នកត្រួតពិនិត្យអក្ខរាវិរុទ្ធនិងវេយ្យាករណ៍ចុងក្រោយគេ មុននឹងបោះពុម្ពអត្ថបទ ដើម្បីប្រាកដថាការរៀបចំលំដាប់ពាក្យគឺត្រឹមត្រូវតាមក្បួនខ្នាត។
Coordinate Attention (CoordAtt)	ជាយន្តការនៅក្នុងបណ្តាញ Neural Network ដែលជួយឱ្យម៉ូដែលផ្តោតការយកចិត្តទុកដាក់ទៅលើផ្នែកសំខាន់ៗនៃទិន្នន័យ ដោយគណនាទីតាំងជាក់លាក់ (កូអរដោនេ X និង Y) នៃលក្ខណៈពិសេសទាំងនោះ ដើម្បីចាប់យកព័ត៌មានលម្អិត។	ដូចជាការប្រើប្រាស់ភ្លើងពិល (Spotlight) ចាំងបញ្ចាំងចំៗទៅលើតួអង្គសំខាន់ ឬសកម្មភាពសំខាន់ដែលកំពុងកើតឡើងនៅលើឆាកងងឹត។
Nested Entities	សំដៅលើករណីដែលអង្គភាពមួយ (ឈ្មោះពាក្យសំខាន់) ត្រូវបានរុំព័ទ្ធ ឬបង្កប់នៅខាងក្នុងអង្គភាពមួយទៀត ដែលធ្វើឱ្យការកំណត់ព្រំដែនពាក្យមានភាពស្មុគស្មាញ (ឧទាហរណ៍៖ ពាក្យ 'សាកលវិទ្យាល័យភូមិន្ទភ្នំពេញ' មានបង្កប់ពាក្យទីតាំង 'ភ្នំពេញ')។	ដូចជាប្រអប់កាដូធំមួយ ដែលនៅពេលបើកទៅមានផ្ទុកប្រអប់កាដូតូចៗជាច្រើនទៀតនៅខាងក្នុង (ប្រអប់តុក្កតា Matryoshka)។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖