បញ្ហា (The Problem)៖ ឯកសារនេះផ្តោតលើការរកឃើញជំងឺអាល់ហ្សៃមឺ (Alzheimer's Dementia) ដោយស្វ័យប្រវត្តិតាមរយៈការវិភាគសំឡេងនិយាយ ដើម្បីជួយដល់ការធ្វើរោគវិនិច្ឆ័យបានលឿន ទាន់ពេលវេលា និងមិនប៉ះពាល់ដល់រាងកាយ (Non-invasive)។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រៀបធៀបយ៉ាងមានប្រព័ន្ធលើវិធីសាស្ត្រនិងម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning models) ចំនួន ១៦ ផ្សេងៗគ្នា ដោយប្រើប្រាស់ទិន្នន័យសំឡេង និងអត្ថបទក្នុងកម្រិតភាពម៉ត់ (Resolution) ខុសៗគ្នា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| RoBERTa (File-Level Text) ម៉ូដែល RoBERTa (លក្ខណៈពិសេសអត្ថបទកម្រិតឯកសារ) |
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងការធ្វើរោគវិនិច្ឆ័យ ដោយចាប់យកអត្ថន័យនិងបរិបទនៃពាក្យបានយ៉ាងល្អិតល្អន់។ | អាស្រ័យយ៉ាងខ្លាំងទៅលើភាពត្រឹមត្រូវនៃការបំប្លែងសំឡេងទៅជាអត្ថបទ (ASR) និងមានកម្រិតចំពោះភាសាដែលបានបង្វឹក (ភាគច្រើនជាភាសាអង់គ្លេស)។ | សម្រេចបានភាពត្រឹមត្រូវ ៨៨.៧% (ខ្ពស់ជាងគេបំផុតក្នុងការសិក្សានេះ)។ |
| VGG (Frame-Level Audio) ម៉ូដែល VGG (លក្ខណៈពិសេសសំឡេងកម្រិតស៊ុម) |
មិនពឹងផ្អែកលើភាសាដែលកំពុងនិយាយ (Language-agnostic) និងដំណើរការបានល្អសូម្បីតែក្នុងស្ថានភាពដែលគុណភាពសំឡេងពិបាកស្តាប់ជាពាក្យ។ | ភាពត្រឹមត្រូវទាបជាងម៉ូដែលផ្អែកលើអត្ថបទបន្តិច ព្រោះវាមិនអាចចាប់យកទិន្នន័យអត្ថន័យនៃពាក្យ (Semantic data) បានទេ។ | សម្រេចបានភាពត្រឹមត្រូវ ៧៨.៩% (ខ្ពស់ជាងគេសម្រាប់ឯកសារប្រភេទវិភាគសំឡេងតែមួយមុខ)។ |
| Speech/Silence Analysis ការវិភាគអត្រាសំឡេងនិងភាពស្ងាត់ (Speech/Silence) |
ជាវិធីសាស្ត្រថ្មីដែលងាយស្រួលគណនា ដោយផ្តោតលើចង្វាក់នៃការនិយាយនិងការផ្អាករអាក់រអួល ដែលឆ្លុះបញ្ចាំងពីបញ្ហាក្នុងការគិតនិងការចងចាំ។ | ទាមទារការកែច្នៃបន្ថែមទៀត ព្រោះវាមានភាពត្រឹមត្រូវទាបជាងគេបើប្រៀបធៀបជាមួយម៉ូដែលកម្រិតខ្ពស់ផ្សេងទៀតនៅក្នុងការសិក្សានេះ។ | សម្រេចបានភាពត្រឹមត្រូវត្រឹមតែ ៦៦.២% ប៉ុណ្ណោះ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ និងកម្មវិធីពិសេសៗសម្រាប់ការទាញយកលក្ខណៈពិសេសនៃសំឡេង និងការបង្វឹកម៉ូដែល (Deep Learning)។
ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យ ADReSSo-2021 ដែលជាការនិយាយរបស់ជនជាតិបរទេសជាភាសាអង់គ្លេសទាំងស្រុង។ នេះមានន័យថាម៉ូដែលផ្អែកលើអត្ថបទ (Text-based models) ដូចជា RoBERTa ឬ BERT មិនអាចយកមកអនុវត្តផ្ទាល់ជាមួយអ្នកជំងឺនៅកម្ពុជាបានទេ ដោយសាររចនាសម្ព័ន្ធភាសាខ្មែរមានលក្ខណៈខុសគ្នា។ ទោះយ៉ាងណាក៏ដោយ វិធីសាស្ត្រកម្រិតសំឡេង (Audio-based) អាចយកមកអនុវត្តបានដោយមិនគិតពីភាសាឡើយ។
វិធីសាស្ត្រនៅក្នុងឯកសារនេះមានសក្តានុពលខ្ពស់សម្រាប់ប្រព័ន្ធថែទាំសុខភាពនៅកម្ពុជា ជាពិសេសការប្រើប្រាស់បច្ចេកវិទ្យាវិភាគសំឡេងដែលមិនពឹងផ្អែកលើភាសា (Language-agnostic)។
ការទាញយកបច្ចេកវិទ្យាវិភាគការនិយាយនេះមកកែច្នៃ អាចជួយបង្កើតឧបករណ៍តាមដានសុខភាពផ្លូវចិត្តនិងការថយចុះការចងចាំនៅកម្ពុជាបានយ៉ាងឆាប់រហ័ស ងាយស្រួល និងចំណាយតិច។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Multi-Modal Machine Learning | វិធីសាស្ត្របង្រៀនកុំព្យូទ័រឱ្យចេះទាញយកនិងវិភាគទិន្នន័យច្រើនទម្រង់ (ដូចជាការរួមបញ្ចូលគ្នារវាងសំឡេងនិយាយ និងអត្ថបទ) ក្នុងពេលតែមួយ ដើម្បីធ្វើការសម្រេចចិត្តឬទស្សន៍ទាយលទ្ធផលបានកាន់តែសុក្រឹត។ | ដូចជាគ្រូពេទ្យម្នាក់ដែលមិនត្រឹមតែស្តាប់ពាក្យសម្តីរបស់អ្នកជំងឺប៉ុណ្ណោះទេ តែថែមទាំងសង្កេតមើលកាយវិការនិងទឹកដមសំឡេងព្រមគ្នាទើបធ្វើរោគវិនិច្ឆ័យ។ |
| Frame-Level Features | ការកាត់ផ្តាច់ទិន្នន័យសំឡេងឬអត្ថបទទៅជាចំណែកតូចៗបំផុត (គិតជាមីលីវិនាទី) ដើម្បីទាញយកលក្ខណៈលម្អិតនៃបម្រែបម្រួលចង្វាក់ ឬការរអាក់រអួលភ្លាមៗរបស់អ្នកនិយាយ ដែលងាយស្រួលក្នុងការរកមើលសញ្ញានៃជំងឺ។ | ដូចជាការយកវីដេអូមកចាក់មើលមួយប្លង់ម្តងៗ (Frame by frame) ដើម្បីរកមើលកំហុសតូចមួយដែលភ្នែកធម្មតាមើលរំលង។ |
| File-Level Features | ការវិភាគយកលក្ខណៈសរុបនៃទិន្នន័យទាំងមូល (ឧទាហរណ៍ ឯកសារសំឡេងពេញមួយវគ្គនៃការសម្ភាសន៍) ដើម្បីវាយតម្លៃជារូបភាពធំ និងរកមើលគំរូទូទៅនៃការប្រើប្រាស់ពាក្យឬសំឡេងរបស់អ្នកជំងឺ។ | ដូចជាការអានសៀវភៅចប់មួយក្បាលទើបសរសេរសេចក្តីសង្ខេបជារួម ជំនួសឱ្យការបកស្រាយរាល់ពាក្យនីមួយៗតាំងពីដើមដល់ចប់។ |
| Spontaneous speech | ការនិយាយចេញមកភ្លាមៗដោយឯកឯង គ្មានការព្រាងទុក ឬទន្ទេញចាំមាត់ ដែលជួយបង្ហាញពីសមត្ថភាពពិតប្រាកដនៃខួរក្បាលក្នុងការគិត រៀបចំពាក្យសម្តី និងការចងចាំរបស់អ្នកជំងឺអាល់ហ្សៃមឺ។ | ដូចជាការឆ្លើយសំណួរភ្លាមៗក្នុងការសម្ភាសន៍ការងារ ដែលខុសពីការអានអត្ថបទដែលបានសរសេរត្រៀមទុកនៅលើក្រដាស។ |
| Low Level Descriptors (LLDs) | តម្លៃលក្ខណៈរូបវន្តមូលដ្ឋាននៃរលកសំឡេង (ដូចជាកម្ពស់សំឡេង ថាមពល ភាពញ័រ ឬភាពតឹងនៃសំឡេង) ដែលកម្មវិធីកុំព្យូទ័រទាញយកដោយផ្ទាល់ពីរលកសំឡេងឆៅ ដើម្បីយកទៅវិភាគបន្តក្នុងម៉ូដែល។ | ដូចជាការបំបែកមុខម្ហូបមួយចានទៅជាគ្រឿងផ្សំដើម (អំបិល ស្ករ សាច់ ទឹកត្រី) ដើម្បីដឹងប្រាកដថាវាមានរសជាតិផ្សំឡើងពីអ្វីខ្លះ។ |
| Word Embedding | បច្ចេកទេសបំប្លែងពាក្យពេចន៍ទៅជាតួលេខឬវ៉ិចទ័រគណិតវិទ្យាដ៏ស្មុគស្មាញ ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ពីអត្ថន័យ ភាពស្រដៀងគ្នា និងទំនាក់ទំនងនៃពាក្យទាំងនោះនៅក្នុងបរិបទប្រយោគផ្សេងៗគ្នា។ | ដូចជាការដាក់លេខកូដសម្គាល់ឱ្យមនុស្សម្នាក់ៗតាមចំណង់ចំណូលចិត្តនិងចរិតលក្ខណៈ ដើម្បីងាយស្រួលស្វែងរកអ្នកដែលមានទម្លាប់ស្រដៀងគ្នា។ |
| RoBERTa | ជាម៉ូដែលបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតខ្ពស់សម្រាប់វិភាគអត្ថបទ ដែលត្រូវបានបង្វឹកឱ្យយល់ដឹងពីបរិបទប្រយោគបានយ៉ាងជ្រៅជ្រះ ដោយប្រើបច្ចេកទេសលាក់ពាក្យប្តូរចុះឡើង (Dynamic masking) ពេលកំពុងបង្វឹក។ | ដូចជាសិស្សពូកែម្នាក់ដែលរៀនទាយពាក្យដែលបាត់ក្នុងលំហាត់បំពេញចន្លោះរាប់លានដង រហូតដល់អាចយល់អត្ថន័យស៊ីជម្រៅនៃភាសាបានយ៉ាងស្ទាត់ជំនាញ។ |
| Voice Activity Detection (VAD) | ក្បួនអាល់កូរីតដែលកុំព្យូទ័រប្រើសម្រាប់បែងចែកនិងកាត់ផ្តាច់រវាង 'ពេលដែលមានសំឡេងមនុស្សនិយាយ' និង 'ពេលស្ងាត់ ឬមានតែសំឡេងរំខាន' នៅក្នុងឯកសារសំឡេង ដើម្បីយកតែទិន្នន័យចាំបាច់មកវិភាគ។ | ដូចជាអំពូលភ្លើងឆ្លាតវៃនៅតាមសួនច្បារ ដែលភ្លឺឡើងដោយស្វ័យប្រវត្តិតែនៅពេលមានមនុស្សដើរកាត់ និងរលត់វិញនៅពេលគ្មានមនុស្ស។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖