បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហាប្រឈមនៅក្នុងការសម្គាល់អង្គភាពឈ្មោះដែលបានបង្កប់ (Nested NER) ជាពិសេសអសមត្ថភាពនៃម៉ូដែលផ្អែកលើចន្លោះពាក្យ (span-based models) ក្នុងការបែងចែកភាពខុសគ្នាផ្នែកអត្ថន័យ និងសំឡេងរំខានដែលបង្កើតឡើងដោយការរាយចន្លោះពាក្យបេក្ខជនច្រើនពេក។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវវិធីសាស្រ្តថ្មីមួយដែលរួមបញ្ចូលការប៉ាន់ស្មានភាពមិនប្រាកដប្រជា និងការបែងចែកអត្ថន័យក្នុងតំបន់ ដើម្បីបង្កើនភាពរឹងមាំ និងភាពត្រឹមត្រូវនៃម៉ូដែល។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| UGKNNLSD (Proposed) ការសម្រេចចិត្តដោយមានជំនួយពី KNN និងការបែងចែកអត្ថន័យក្នុងតំបន់ (ម៉ូដែលស្នើឡើង) |
មានសមត្ថភាពខ្ពស់ក្នុងការបែងចែកអត្ថន័យអង្គភាពដែលត្រួតស៊ីគ្នា និងកាត់បន្ថយឥទ្ធិពលនៃសំឡេងរំខានបានយ៉ាងល្អដោយប្រើទ្រឹស្តីភស្តុតាង។ | ទាមទារពេលវេលាធ្វើសេចក្តីសន្និដ្ឋាន (Inference) យឺតជាងម៉ូដែលមូលដ្ឋានបន្តិច ដោយសារការបន្ថែមដំណើរការស្វែងរក KNN ។ | ទទួលបានពិន្ទុ F1 ៨១.២៧% លើទិន្នន័យ GENIA និង ៨២.២៦% លើទិន្នន័យភាសាចិន។ |
| Biaffine ម៉ូដែលចំណាត់ថ្នាក់ចន្លោះពាក្យប្រើប្រាស់ Biaffine |
មានល្បឿនលឿនក្នុងការទាញយក និងចាត់ថ្នាក់អង្គភាពដែលបង្កប់គ្នា និងជាម៉ូដែលមូលដ្ឋានដ៏រឹងមាំ។ | ខ្វះសមត្ថភាពក្នុងការញែកភាពខុសគ្នាផ្នែកអត្ថន័យរវាងចន្លោះពាក្យដែលស្រដៀងគ្នាខ្លាំង។ | ទទួលបានពិន្ទុ F1 ៨០.៥០% លើទិន្នន័យ GENIA និង ៧៧.៩៣% លើទិន្នន័យភាសាចិន។ |
| GPT-NER ម៉ូដែលភាសាធំ GPT-NER |
ប្រើប្រាស់សមត្ថភាពបង្កើតអត្ថបទ (Generative capabilities) ដ៏ខ្លាំងក្លារបស់ម៉ូដែលភាសាធំ (LLMs)។ | ពឹងផ្អែកខ្លាំងលើសមត្ថភាពទូទៅ ធ្វើឱ្យខ្វះការយកចិត្តទុកដាក់លម្អិតលើលក្ខណៈពិសេសនៃកិច្ចការ Nested NER ដែលធ្វើឱ្យលទ្ធផលធ្លាក់ចុះ។ | ទទួលបានពិន្ទុ F1 ត្រឹមតែ ៦៤.៤២% ប៉ុណ្ណោះលើទិន្នន័យ GENIA។ |
| DiffusionNER ម៉ូដែលព្រំដែនព្រិលប្រើប្រាស់ Diffusion |
អាចទាញយកព្រំដែនអង្គភាពបានល្អតាមរយៈដំណើរការបន្ថយសំឡេងរំខាន (Denoising) នៃ Diffusion។ | នៅតែមានការកំណត់ក្នុងការញែកអត្ថន័យនៃអង្គភាពដែលមានការត្រួតស៊ីគ្នាស្មុគស្មាញ បើប្រៀបធៀបនឹងម៉ូដែលស្នើឡើង។ | ទទួលបានពិន្ទុ F1 ៨០.៧០% លើទិន្នន័យ GENIA និង ៨០.៧៨% លើទិន្នន័យភាសាចិន។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការពិសោធន៍នៅក្នុងឯកសារនេះតម្រូវឱ្យមានធនធាន Hardware កម្រិតមធ្យមទៅខ្ពស់ សម្រាប់ការហ្វឹកហាត់ម៉ូដែល Deep Learning ។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើសំណុំទិន្នន័យអត្ថបទជីវវេជ្ជសាស្ត្រភាសាអង់គ្លេស (GENIA) និងឯកសារស្រាវជ្រាវភាសាចិនកម្រិតខ្ពស់។ វាមិនមានទិន្នន័យភាសាដែលមានធនធានទាប (Low-resource languages) ដូចជាភាសាខ្មែរឡើយ។ សម្រាប់កម្ពុជា នេះមានន័យថាមុននឹងអាចទាញយកអត្ថប្រយោជន៍ពីស្ថាបត្យកម្មនេះបានពេញលេញ យើងត្រូវចំណាយពេលកសាងសំណុំទិន្នន័យ Nested NER ជាភាសាខ្មែរជាមុនសិន។
ទោះបីជាភាសាខុសគ្នាក៏ដោយ ស្ថាបត្យកម្មវិភាគចន្លោះពាក្យ និងការប៉ាន់ស្មានភាពមិនប្រាកដប្រជានេះ អាចយកមកអនុវត្តយ៉ាងមានប្រសិទ្ធភាពសម្រាប់ដោះស្រាយបញ្ហាអត្ថបទស្មុគស្មាញនៅកម្ពុជា។
សរុបមក ការអនុវត្តបច្ចេកទេសនេះអាចជួយជំរុញការអភិវឌ្ឍប្រព័ន្ធ AI យល់ដឹងភាសាខ្មែរ (Khmer NLP) ឱ្យកាន់តែស៊ីជម្រៅ ជាពិសេសលើការទាញយកទិន្នន័យពីឯកសារស្មុគស្មាញ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Nested Named Entity Recognition (NER) | គឺជាដំណើរការនៅក្នុងការវិភាគភាសាធម្មជាតិ (NLP) ដែលមិនត្រឹមតែទាញយកឈ្មោះសំខាន់ៗពីអត្ថបទប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងអាចសម្គាល់អង្គភាពដែលមានរចនាសម្ព័ន្ធត្រួតស៊ីគ្នា ឬបង្កប់ក្នុងគ្នាទៅវិញទៅមកផងដែរ (ឧទាហរណ៍៖ ការចាប់យកទាំងពាក្យ 'ក្រសួងអប់រំ' និង 'អប់រំ')។ | ដូចជាការបើកប្រអប់កាដូដែលមានប្រអប់តូចៗជាច្រើនទៀតនៅខាងក្នុង ហើយអ្នកត្រូវប្រាប់ពីឈ្មោះរបស់វត្ថុក្នុងប្រអប់នីមួយៗតាមលំដាប់លំដោយ។ |
| Evidence Theory | ជាទ្រឹស្តីគណិតវិទ្យាដែលត្រូវបានប្រើដើម្បីវាស់ស្ទង់កម្រិតនៃ 'ភាពមិនប្រាកដប្រជា' របស់ម៉ូដែល ដោយប្រមូលភស្តុតាងពីទិន្នន័យដើម្បីវាយតម្លៃថា តើម៉ូដែលគួរតែជឿជាក់លើការទស្សន៍ទាយរបស់ខ្លួនកម្រិតណា ជាជាងការទាយដោយគ្មានមូលដ្ឋាន។ | ដូចជាចៅក្រមដែលសម្រេចក្តីដោយផ្អែកលើទម្ងន់នៃភស្តុតាងជាក់ស្តែង ជាជាងការស្មានទុកជាមុន។ ប្រសិនបើគ្មានភស្តុតាង ចៅក្រមនឹងប្រកាសថា 'មិនប្រាកដ'។ |
| Span-based modeling | ជាវិធីសាស្រ្តចាត់ថ្នាក់ទិន្នន័យអត្ថបទដោយចងក្រង និងវិភាគចន្លោះពាក្យ (រួមមានពាក្យផ្តើម និងពាក្យបញ្ចប់រួមគ្នាជាដុំតែមួយ) ជាជាងការដាក់ស្លាកពាក្យនីមួយៗដាច់ពីគ្នា ដែលជួយឱ្យងាយស្រួលរកពាក្យដែលបង្កប់គ្នា។ | ដូចជាការប្រើហ្វឺតគូសរំលេច (Highlight) ឃ្លាទាំងមូលនៅក្នុងសៀវភៅ ជាជាងការគូសបន្ទាត់ពីក្រោមពាក្យម្តងមួយៗ។ |
| Uncertainty Estimation | គឺជាបច្ចេកទេសដែលអនុញ្ញាតឱ្យម៉ូដែល AI ដឹងពីដែនកំណត់របស់ខ្លួន ដោយវាគណនាថាតើចម្លើយរបស់វាអាចនឹងខុសក្នុងកម្រិតណា នៅពេលជួបទិន្នន័យស្មុគស្មាញ ឬរំខាន។ | ដូចជាសិស្សដែលប្រាប់គ្រូថា 'ខ្ញុំគិតថាចម្លើយគឺ ក ប៉ុន្តែខ្ញុំមិនសូវប្រាកដទេ' ជាជាងការឆ្លើយខុសដោយទំនុកចិត្តខ្វាក់ភ្នែក។ |
| Local semantic distinction | ជាយន្តការរចនាឡើងដើម្បីប្រៀបធៀបអត្ថន័យនៃឃ្លាមួយទៅនឹងឃ្លាដែលនៅជុំវិញវា ដើម្បីញែកភាពខុសគ្នាតិចតួច និងជៀសវាងការចាប់យកព្រំដែនពាក្យខុសនៅពេលពាក្យមានន័យស្រដៀងគ្នាខ្លាំង។ | ដូចជាការប្រៀបធៀបពណ៌បៃតងខ្ចី និងពណ៌បៃតងចាស់ដែលនៅក្បែរគ្នាផ្ទាល់ ដើម្បីរកឱ្យឃើញបន្ទាត់ព្រំដែនពិតប្រាកដរបស់វា។ |
| Biaffine Attention | គឺជាបច្ចេកទេសគណនាបណ្តាញសរសៃប្រសាទ (Neural Network) សម្រាប់វាស់ស្ទង់ទំនាក់ទំនងរវាងចំណុចចាប់ផ្តើម និងចំណុចបញ្ចប់នៃឃ្លា ដើម្បីកំណត់ថាតើវាគួរផ្គួបគ្នាជាអង្គភាពតែមួយឬអត់។ | ដូចជាការរកមើលមេដែកប៉ូលជើង និងប៉ូលត្បូងដែលស្រូបទាញគ្នាខ្លាំងបំផុត ដើម្បីភ្ជាប់វាជាគូតែមួយ។ |
| K-Nearest Neighbors (KNN) | គឺជាក្បួនដោះស្រាយដែលជួយធ្វើការសម្រេចចិត្តនៅពេលម៉ូដែលមិនច្បាស់លាស់ ដោយស្វែងរកមើលទិន្នន័យចាស់ៗចំនួន K ដែលមានលក្ខណៈស្រដៀងនឹងទិន្នន័យថ្មីនេះបំផុត ក្នុងលំហទិន្នន័យ ដើម្បីយកមកធ្វើជាឯកសារយោងផ្ទៀងផ្ទាត់។ | ដូចជានៅពេលអ្នកមិនស្គាល់ផ្លូវ អ្នកសួរមនុស្សដែលនៅក្បែរនោះចំនួន ៣ នាក់ រួចសម្រេចចិត្តដើរតាមផ្លូវណាដែលមានអ្នកប្រាប់ច្រើនជាងគេ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖