បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយពីបញ្ហាប្រឈមក្នុងការធ្វើរោគវិនិច្ឆ័យទាន់ពេលវេលានៃភាពខ្សោយបញ្ញាស្មារតីកម្រិតស្រាល (Mild Cognitive Impairment - MCI) ដែលជាដំណាក់កាលគន្លឹះមុនការកើតជំងឺវង្វេង (Alzheimer's disease)។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតគំរូបណ្ដាញសរសៃប្រសាទដោយរួមបញ្ចូលការវិភាគភាសាវិទ្យា និងទិន្នន័យនៃការសន្ទនាធម្មជាតិរបស់អ្នកជំងឺចូលទៅក្នុងប្រព័ន្ធកុំព្យូទ័រ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Traditional Clinical Methods (EEG, MRI, Neuropsychological Scales) វិធីសាស្ត្រវិនិច្ឆ័យតាមគ្លីនិកបែបប្រពៃណី (ការស្កេនខួរក្បាល EEG, MRI និងកម្រងសំណួរ) |
មានភាពត្រឹមត្រូវខ្ពស់នៅពេលដែលរោគសញ្ញាខ្សោយបញ្ញាបង្ហាញលក្ខណៈច្បាស់លាស់តាមរយៈរូបភាពវេជ្ជសាស្ត្រ។ | មានតម្លៃថ្លៃ ត្រូវការគ្រូពេទ្យជំនាញ និងអាចផ្តល់ផលវិបាកដល់អ្នកជំងឺ (invasive) ហើយពិបាករកឃើញនៅដំណាក់កាលដំបូង។ | អត្រាមិនឃើញជំងឺ (Missed diagnosis rate) ខ្ពស់រហូតដល់ ៧៦.៨% សម្រាប់ដំណាក់កាលដំបូង។ |
| Logistic Regression with Acoustic/Linguistic Features (Fraser et al., 2016) តម្រែតម្រង់ឡូជីស្ទិក (Logistic Regression) ផ្អែកលើលក្ខណៈសំឡេងនិងភាសា |
អាចវិភាគសំឡេងដោយស្វ័យប្រវត្តិ ដែលជាឧបករណ៍ជំនួយវាយតម្លៃយ៉ាងមានប្រសិទ្ធភាព។ | មិនបានផ្តោតស៊ីជម្រៅលើទម្រង់ភាសាវិទ្យា ដែលធ្វើឱ្យភាពត្រឹមត្រូវនៅមានកម្រិត និងជួបប្រទះបញ្ហាក្នុងការបង្កើនប្រសិទ្ធភាពបន្ថែម។ | ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុតត្រឹមតែ ៨១.៩២% ប៉ុណ្ណោះ។ |
| Multi-feature TextCNN Neural Network (Proposed Model) គំរូបណ្ដាញសរសៃប្រសាទ TextCNN ពហុលក្ខណៈ (សំណើក្នុងឯកសារស្រាវជ្រាវ) |
មិនប៉ះពាល់ដល់រាងកាយអ្នកជំងឺ (non-invasive) ចំណាយតិច ងាយស្រួលពង្រីកទំហំស្រាវជ្រាវ និងអាចរកឃើញរោគសញ្ញានៅដំណាក់កាលដំបូងបានយ៉ាងល្អ។ | ទាមទារទិន្នន័យនៃការសន្ទនាដែលត្រូវបានបំប្លែងទៅជាអត្ថបទ (transcripts) យ៉ាងច្បាស់លាស់ និងការសម្អាតទិន្នន័យយ៉ាងល្អិតល្អន់។ | ទទួលបានភាពត្រឹមត្រូវ ៩៣%, ភាពរំញោច (Sensitivity) ១.០០ និងភាពជាក់លាក់ (Specificity) ០.៨០ នៅលើកម្រងទិន្នន័យ DementiaBank។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះមិនតម្រូវឱ្យមានធនធានកុំព្យូទ័រធំដុំ (GPU) នោះទេ ប៉ុន្តែទាមទារទិន្នន័យភាសាវិទ្យាដែលមានគុណភាពខ្ពស់សម្រាប់ការបង្ហាត់គំរូ។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់កម្រងទិន្នន័យ DementiaBank ដែលមានតែភាសាអង់គ្លេស និងផ្តោតលើអ្នកជំងឺវ័យចំណាស់នៅលោកខាងលិច។ សម្រាប់ប្រទេសកម្ពុជា នេះគឺជាគម្លាតទិន្នន័យដ៏ធំមួយ ពីព្រោះរចនាសម្ព័ន្ធវេយ្យាករណ៍ ការប្រើប្រាស់ពាក្យពេចន៍ និងវប្បធម៌នៃការសន្ទនាក្នុងភាសាខ្មែរ មានភាពខុសគ្នាស្រឡះពីភាសាអង់គ្លេស ដែលតម្រូវឱ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកជាមុនសិន។
ទោះបីជាមានឧបសគ្គខាងភាសាក៏ដោយ វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ខ្លាំងក្នុងការយកមកអនុវត្តនៅកម្ពុជា ដើម្បីធ្វើការពិនិត្យជំងឺវង្វេងក្នុងតម្លៃថោក។
សរុបមក ការវិភាគការសន្ទនាធម្មជាតិដើម្បីរកឃើញជំងឺវង្វេងគឺជាដំណោះស្រាយឌីជីថលដ៏មានប្រសិទ្ធភាពសម្រាប់ប្រព័ន្ធសុខាភិបាលកម្ពុជា តែចាំបាច់ត្រូវមានគម្រោងស្រាវជ្រាវនិងប្រមូលទិន្នន័យសំឡេងភាសាខ្មែរជាបន្ទាន់។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Mild cognitive impairment (MCI) | ភាពខ្សោយបញ្ញាស្មារតីកម្រិតស្រាល គឺជាដំណាក់កាលចន្លោះកណ្តាលរវាងការថយចុះការចងចាំតាមវ័យចំណាស់ធម្មតា និងការវិវត្តទៅជាជំងឺវង្វេង (Alzheimer's) ដែលអ្នកជំងឺចាប់ផ្តើមមានបញ្ហាភ្លេចភ្លាំង និងការប្រើប្រាស់ភាសា។ | ដូចជារថយន្តដែលចាប់ផ្តើមស៊ីប្រេងខុសធម្មតា និងរលត់ញឹកញាប់ មុនពេលម៉ាស៊ីនខូចទាំងស្រុង។ |
| Latent Dirichlet Allocation (LDA) | ជាក្បួនអាល់កូរីតម៉ូដែលប្រធានបទ (Topic modeling) ដែលប្រើសម្រាប់ទាញយកប្រធានបទលាក់កំបាំង និងពាក្យគន្លឹះចេញពីសំណុំអត្ថបទធំៗ ដើម្បីស្វែងយល់ពីរចនាសម្ព័ន្ធអត្ថន័យនៃការសន្ទនា។ | ដូចជាអ្នកបណ្ណារក្សដែលអានសៀវភៅរាប់ពាន់ក្បាល ហើយបែងចែកសៀវភៅទាំងនោះទៅតាមប្រធានបទ និងពាក្យគន្លឹះដោយស្វ័យប្រវត្តិ។ |
| TextCNN | ជាប្រភេទបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Convolutional Neural Network) ដែលត្រូវបានកែច្នៃពិសេសសម្រាប់វិភាគ និងចាត់ថ្នាក់អត្ថបទ (Text Classification) ដោយវាពូកែក្នុងការចាប់យកទំនាក់ទំនងរវាងពាក្យដែលនៅក្បែរៗគ្នា (N-grams)។ | ដូចជាអ្នកអានដែលប្រើវ៉ែនតាពង្រីក ដើម្បីអានកាត់ន័យសាច់រឿងម្ដងមួយឃ្លាៗ រហូតយល់ន័យរួមទាំងមូលថាតើអត្ថបទនេះចង់និយាយពីអ្វី។ |
| T-W matrix (Topic-Word matrix) | ជាតារាងម៉ាទ្រីសដែលបង្កើតចេញពីម៉ូដែល LDA ដែលបង្ហាញពីទំនាក់ទំនងរវាងប្រធានបទ (Topics) និងពាក្យ (Words) ដោយផ្ទុកនូវតម្លៃប្រូបាប៊ីលីតេដែលពាក្យនីមួយៗនឹងត្រូវប្រើប្រាស់ក្នុងប្រធានបទណាមួយ។ | ដូចជាតារាងបញ្ជីមុខម្ហូប និងគ្រឿងផ្សំ ដែលប្រាប់យើងថាមុខម្ហូបនេះ (ប្រធានបទ) ត្រូវប្រើគ្រឿងផ្សំអ្វីខ្លះ (ពាក្យ) និងក្នុងបរិមាណប៉ុន្មាន។ |
| anomia | រោគសញ្ញា 'មិនអាចហៅឈ្មោះបាន' គឺជាប្រភេទនៃការចុះខ្សោយផ្នែកភាសា ដែលអ្នកជំងឺចងចាំវត្ថុ និងដឹងពីមុខងាររបស់វា ប៉ុន្តែមិនអាចរកនឹកពាក្យ ឬឈ្មោះដើម្បីហៅវត្ថុនោះបាន (ឧទាហរណ៍ ភ្លេចពាក្យថា 'ប៊ិច' តែដឹងថាវាសម្រាប់សរសេរ)។ | ដូចជាពេលយើងចង់ហៅឈ្មោះមិត្តភក្តិម្នាក់ដែលយើងស្គាល់មុខច្បាស់ តែស្រាប់តែទើសនៅចុងមាត់ នឹកឈ្មោះមិនឃើញ។ |
| idea density | ដង់ស៊ីតេនៃអត្ថន័យ គឺជារង្វាស់ទម្ងន់ភាសាវិទ្យាដែលវាស់ថាតើក្នុងមួយប្រយោគ ឬមួយឃ្លា មានផ្ទុកព័ត៌មាន ឬគំនិតសំខាន់ៗប៉ុន្មាន ដោយធៀបនឹងចំនួនពាក្យសរុបដែលបាននិយាយ។ អ្នកជំងឺ MCI ច្រើនមានដង់ស៊ីតេនេះទាបដោយសារនិយាយពាក្យឥតប្រយោជន៍ច្រើន។ | ដូចជាការប្រៀបធៀបរវាងកាហ្វេខាប់ និងកាហ្វេរាវ; កាហ្វេខាប់ (Idea density ខ្ពស់) មានរសជាតិកាហ្វេខ្លាំងក្នុងទឹកមួយកែវតូច ចំណែកកាហ្វេរាវមានតែទឹកច្រើនតែគ្មានរសជាតិ។ |
| one-hot encoding | ជាវិធីសាស្ត្របំប្លែងទិន្នន័យចំណាត់ថ្នាក់ (Categorical data) ទៅជាវ៉ិចទ័រលេខ 0 និង 1 ដើម្បីឱ្យម៉ូដែល AI អាចយល់បាន ឧទាហរណ៍ បើជាអ្នកជំងឺ MCI លទ្ធផលចេញ [1, 0] បើជាមនុស្សធម្មតា លទ្ធផលចេញ [0, 1]។ | ដូចជាកុងតាក់ភ្លើងក្នុងផ្ទះច្រើនបន្ទប់; បើចង់បើកភ្លើងបន្ទប់ទឹក គឺចុចកុងតាក់បន្ទប់ទឹកឱ្យបើក (1) ហើយកុងតាក់ផ្សេងទៀតត្រូវបិទទាំងអស់ (0)។ |
| SGD Optimizer | Stochastic Gradient Descent គឺជាក្បួនគណិតវិទ្យាក្នុងការហ្វឹកហាត់ម៉ូដែល AI ដើម្បីស្វែងរកកម្រិតអប្បបរមានៃកំហុស (Loss function) ដោយធ្វើការកែតម្រូវប៉ារ៉ាម៉ែត្របន្តិចម្តងៗនៅរាល់ពេលវាយតម្លៃទិន្នន័យ។ | ដូចជាមនុស្សបិទភ្នែកដើរចុះពីកំពូលភ្នំ ដោយប្រើជើងស្ទាបរកផ្លូវដែលជម្រាលចុះក្រោមបំផុត ដើម្បីទៅដល់ជើងភ្នំឱ្យបានលឿននិងសុវត្ថិភាព។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖