Original Title: Alzheimer’s Dementia Speech (Audio vs. Text): Multi-Modal Machine Learning at High vs. Low Resolution
Source: doi.org/10.3390/app13074244
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការនិយាយរបស់អ្នកជំងឺអាល់ហ្សៃមឺ (សំឡេង ធៀបនឹង អត្ថបទ)៖ ការរៀនដោយម៉ាស៊ីនបែបពហុមធ្យោបាយក្នុងកម្រិតភាពម៉ត់ខ្ពស់ និងទាប

ចំណងជើងដើម៖ Alzheimer’s Dementia Speech (Audio vs. Text): Multi-Modal Machine Learning at High vs. Low Resolution

អ្នកនិពន្ធ៖ Prachee Priyadarshinee (Singapore University of Technology and Design), Christopher Johann Clarke (Singapore University of Technology and Design), Jan Melechovsky (Singapore University of Technology and Design), Cindy Ming Ying Lin (Singapore University of Technology and Design), Balamurali B. T. (Singapore University of Technology and Design), Jer-Ming Chen (Singapore University of Technology and Design)

ឆ្នាំបោះពុម្ព៖ 2023, Applied Sciences (MDPI)

វិស័យសិក្សា៖ Machine Learning in Healthcare

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះផ្តោតលើការរកឃើញជំងឺអាល់ហ្សៃមឺ (Alzheimer's Dementia) ដោយស្វ័យប្រវត្តិតាមរយៈការវិភាគសំឡេងនិយាយ ដើម្បីជួយដល់ការធ្វើរោគវិនិច្ឆ័យបានលឿន ទាន់ពេលវេលា និងមិនប៉ះពាល់ដល់រាងកាយ (Non-invasive)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រៀបធៀបយ៉ាងមានប្រព័ន្ធលើវិធីសាស្ត្រនិងម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning models) ចំនួន ១៦ ផ្សេងៗគ្នា ដោយប្រើប្រាស់ទិន្នន័យសំឡេង និងអត្ថបទក្នុងកម្រិតភាពម៉ត់ (Resolution) ខុសៗគ្នា។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
RoBERTa (File-Level Text)
ម៉ូដែល RoBERTa (លក្ខណៈពិសេសអត្ថបទកម្រិតឯកសារ)
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងការធ្វើរោគវិនិច្ឆ័យ ដោយចាប់យកអត្ថន័យនិងបរិបទនៃពាក្យបានយ៉ាងល្អិតល្អន់។ អាស្រ័យយ៉ាងខ្លាំងទៅលើភាពត្រឹមត្រូវនៃការបំប្លែងសំឡេងទៅជាអត្ថបទ (ASR) និងមានកម្រិតចំពោះភាសាដែលបានបង្វឹក (ភាគច្រើនជាភាសាអង់គ្លេស)។ សម្រេចបានភាពត្រឹមត្រូវ ៨៨.៧% (ខ្ពស់ជាងគេបំផុតក្នុងការសិក្សានេះ)។
VGG (Frame-Level Audio)
ម៉ូដែល VGG (លក្ខណៈពិសេសសំឡេងកម្រិតស៊ុម)
មិនពឹងផ្អែកលើភាសាដែលកំពុងនិយាយ (Language-agnostic) និងដំណើរការបានល្អសូម្បីតែក្នុងស្ថានភាពដែលគុណភាពសំឡេងពិបាកស្តាប់ជាពាក្យ។ ភាពត្រឹមត្រូវទាបជាងម៉ូដែលផ្អែកលើអត្ថបទបន្តិច ព្រោះវាមិនអាចចាប់យកទិន្នន័យអត្ថន័យនៃពាក្យ (Semantic data) បានទេ។ សម្រេចបានភាពត្រឹមត្រូវ ៧៨.៩% (ខ្ពស់ជាងគេសម្រាប់ឯកសារប្រភេទវិភាគសំឡេងតែមួយមុខ)។
Speech/Silence Analysis
ការវិភាគអត្រាសំឡេងនិងភាពស្ងាត់ (Speech/Silence)
ជាវិធីសាស្ត្រថ្មីដែលងាយស្រួលគណនា ដោយផ្តោតលើចង្វាក់នៃការនិយាយនិងការផ្អាករអាក់រអួល ដែលឆ្លុះបញ្ចាំងពីបញ្ហាក្នុងការគិតនិងការចងចាំ។ ទាមទារការកែច្នៃបន្ថែមទៀត ព្រោះវាមានភាពត្រឹមត្រូវទាបជាងគេបើប្រៀបធៀបជាមួយម៉ូដែលកម្រិតខ្ពស់ផ្សេងទៀតនៅក្នុងការសិក្សានេះ។ សម្រេចបានភាពត្រឹមត្រូវត្រឹមតែ ៦៦.២% ប៉ុណ្ណោះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ និងកម្មវិធីពិសេសៗសម្រាប់ការទាញយកលក្ខណៈពិសេសនៃសំឡេង និងការបង្វឹកម៉ូដែល (Deep Learning)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យ ADReSSo-2021 ដែលជាការនិយាយរបស់ជនជាតិបរទេសជាភាសាអង់គ្លេសទាំងស្រុង។ នេះមានន័យថាម៉ូដែលផ្អែកលើអត្ថបទ (Text-based models) ដូចជា RoBERTa ឬ BERT មិនអាចយកមកអនុវត្តផ្ទាល់ជាមួយអ្នកជំងឺនៅកម្ពុជាបានទេ ដោយសាររចនាសម្ព័ន្ធភាសាខ្មែរមានលក្ខណៈខុសគ្នា។ ទោះយ៉ាងណាក៏ដោយ វិធីសាស្ត្រកម្រិតសំឡេង (Audio-based) អាចយកមកអនុវត្តបានដោយមិនគិតពីភាសាឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៅក្នុងឯកសារនេះមានសក្តានុពលខ្ពស់សម្រាប់ប្រព័ន្ធថែទាំសុខភាពនៅកម្ពុជា ជាពិសេសការប្រើប្រាស់បច្ចេកវិទ្យាវិភាគសំឡេងដែលមិនពឹងផ្អែកលើភាសា (Language-agnostic)។

ការទាញយកបច្ចេកវិទ្យាវិភាគការនិយាយនេះមកកែច្នៃ អាចជួយបង្កើតឧបករណ៍តាមដានសុខភាពផ្លូវចិត្តនិងការថយចុះការចងចាំនៅកម្ពុជាបានយ៉ាងឆាប់រហ័ស ងាយស្រួល និងចំណាយតិច។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. ស្វែងយល់ពីបច្ចេកទេសវិភាគសំឡេង (Audio Signal Processing): សិក្សាពីរបៀបទាញយកលក្ខណៈពិសេសនៃរលកសំឡេង (ដូចជា Spectrograms, MFCCs, eGeMAPS) ដោយរៀនប្រើប្រាស់បណ្ណាល័យកូដ OpenSMILELibrosa នៅក្នុងភាសា Python
  2. សិក្សាពីម៉ូដែលភាសា (Natural Language Processing): ស្វែងយល់ពីរបៀបប្រើប្រាស់ HuggingFace Transformers ជាពិសេសម៉ូដែល BERTRoBERTa ដើម្បីយល់ពីការបំប្លែងអត្ថបទទៅជាវ៉ិចទ័រ (Text Embeddings) សម្រាប់ការចាត់ថ្នាក់ទិន្នន័យ។
  3. ប្រមូលទិន្នន័យសាកល្បងជាភាសាខ្មែរ (Local Data Collection): រៀបចំយុទ្ធនាការថតសំឡេងអ្នកជំងឺ ឬមនុស្សចាស់នៅកម្ពុជា (ដោយគោរពតាមក្រមសីលធម៌ និងមានការអនុញ្ញាត) តាមរយៈការឱ្យពួកគេពិពណ៌នារូបភាព ដើម្បីបង្កើតជាទិន្នន័យមូលដ្ឋានសម្រាប់ការស្រាវជ្រាវ។
  4. បង្វឹកម៉ូដែលសាកល្បងកម្រិតសំឡេង (Train Audio-First Models): ចាប់ផ្តើមដោយការសរសេរកូដបង្វឹកម៉ូដែល BiLSTMCNN លើទិន្នន័យសំឡេងដែលប្រមូលបាន ដោយប្រើប្រាស់ VGG Embeddings ដោយសារវាមិនតម្រូវឱ្យមានប្រព័ន្ធបកប្រែអត្ថបទភាសាខ្មែរស្មុគស្មាញនៅដំណាក់កាលដំបូងឡើយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Multi-Modal Machine Learning វិធីសាស្ត្របង្រៀនកុំព្យូទ័រឱ្យចេះទាញយកនិងវិភាគទិន្នន័យច្រើនទម្រង់ (ដូចជាការរួមបញ្ចូលគ្នារវាងសំឡេងនិយាយ និងអត្ថបទ) ក្នុងពេលតែមួយ ដើម្បីធ្វើការសម្រេចចិត្តឬទស្សន៍ទាយលទ្ធផលបានកាន់តែសុក្រឹត។ ដូចជាគ្រូពេទ្យម្នាក់ដែលមិនត្រឹមតែស្តាប់ពាក្យសម្តីរបស់អ្នកជំងឺប៉ុណ្ណោះទេ តែថែមទាំងសង្កេតមើលកាយវិការនិងទឹកដមសំឡេងព្រមគ្នាទើបធ្វើរោគវិនិច្ឆ័យ។
Frame-Level Features ការកាត់ផ្តាច់ទិន្នន័យសំឡេងឬអត្ថបទទៅជាចំណែកតូចៗបំផុត (គិតជាមីលីវិនាទី) ដើម្បីទាញយកលក្ខណៈលម្អិតនៃបម្រែបម្រួលចង្វាក់ ឬការរអាក់រអួលភ្លាមៗរបស់អ្នកនិយាយ ដែលងាយស្រួលក្នុងការរកមើលសញ្ញានៃជំងឺ។ ដូចជាការយកវីដេអូមកចាក់មើលមួយប្លង់ម្តងៗ (Frame by frame) ដើម្បីរកមើលកំហុសតូចមួយដែលភ្នែកធម្មតាមើលរំលង។
File-Level Features ការវិភាគយកលក្ខណៈសរុបនៃទិន្នន័យទាំងមូល (ឧទាហរណ៍ ឯកសារសំឡេងពេញមួយវគ្គនៃការសម្ភាសន៍) ដើម្បីវាយតម្លៃជារូបភាពធំ និងរកមើលគំរូទូទៅនៃការប្រើប្រាស់ពាក្យឬសំឡេងរបស់អ្នកជំងឺ។ ដូចជាការអានសៀវភៅចប់មួយក្បាលទើបសរសេរសេចក្តីសង្ខេបជារួម ជំនួសឱ្យការបកស្រាយរាល់ពាក្យនីមួយៗតាំងពីដើមដល់ចប់។
Spontaneous speech ការនិយាយចេញមកភ្លាមៗដោយឯកឯង គ្មានការព្រាងទុក ឬទន្ទេញចាំមាត់ ដែលជួយបង្ហាញពីសមត្ថភាពពិតប្រាកដនៃខួរក្បាលក្នុងការគិត រៀបចំពាក្យសម្តី និងការចងចាំរបស់អ្នកជំងឺអាល់ហ្សៃមឺ។ ដូចជាការឆ្លើយសំណួរភ្លាមៗក្នុងការសម្ភាសន៍ការងារ ដែលខុសពីការអានអត្ថបទដែលបានសរសេរត្រៀមទុកនៅលើក្រដាស។
Low Level Descriptors (LLDs) តម្លៃលក្ខណៈរូបវន្តមូលដ្ឋាននៃរលកសំឡេង (ដូចជាកម្ពស់សំឡេង ថាមពល ភាពញ័រ ឬភាពតឹងនៃសំឡេង) ដែលកម្មវិធីកុំព្យូទ័រទាញយកដោយផ្ទាល់ពីរលកសំឡេងឆៅ ដើម្បីយកទៅវិភាគបន្តក្នុងម៉ូដែល។ ដូចជាការបំបែកមុខម្ហូបមួយចានទៅជាគ្រឿងផ្សំដើម (អំបិល ស្ករ សាច់ ទឹកត្រី) ដើម្បីដឹងប្រាកដថាវាមានរសជាតិផ្សំឡើងពីអ្វីខ្លះ។
Word Embedding បច្ចេកទេសបំប្លែងពាក្យពេចន៍ទៅជាតួលេខឬវ៉ិចទ័រគណិតវិទ្យាដ៏ស្មុគស្មាញ ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ពីអត្ថន័យ ភាពស្រដៀងគ្នា និងទំនាក់ទំនងនៃពាក្យទាំងនោះនៅក្នុងបរិបទប្រយោគផ្សេងៗគ្នា។ ដូចជាការដាក់លេខកូដសម្គាល់ឱ្យមនុស្សម្នាក់ៗតាមចំណង់ចំណូលចិត្តនិងចរិតលក្ខណៈ ដើម្បីងាយស្រួលស្វែងរកអ្នកដែលមានទម្លាប់ស្រដៀងគ្នា។
RoBERTa ជាម៉ូដែលបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតខ្ពស់សម្រាប់វិភាគអត្ថបទ ដែលត្រូវបានបង្វឹកឱ្យយល់ដឹងពីបរិបទប្រយោគបានយ៉ាងជ្រៅជ្រះ ដោយប្រើបច្ចេកទេសលាក់ពាក្យប្តូរចុះឡើង (Dynamic masking) ពេលកំពុងបង្វឹក។ ដូចជាសិស្សពូកែម្នាក់ដែលរៀនទាយពាក្យដែលបាត់ក្នុងលំហាត់បំពេញចន្លោះរាប់លានដង រហូតដល់អាចយល់អត្ថន័យស៊ីជម្រៅនៃភាសាបានយ៉ាងស្ទាត់ជំនាញ។
Voice Activity Detection (VAD) ក្បួនអាល់កូរីតដែលកុំព្យូទ័រប្រើសម្រាប់បែងចែកនិងកាត់ផ្តាច់រវាង 'ពេលដែលមានសំឡេងមនុស្សនិយាយ' និង 'ពេលស្ងាត់ ឬមានតែសំឡេងរំខាន' នៅក្នុងឯកសារសំឡេង ដើម្បីយកតែទិន្នន័យចាំបាច់មកវិភាគ។ ដូចជាអំពូលភ្លើងឆ្លាតវៃនៅតាមសួនច្បារ ដែលភ្លឺឡើងដោយស្វ័យប្រវត្តិតែនៅពេលមានមនុស្សដើរកាត់ និងរលត់វិញនៅពេលគ្មានមនុស្ស។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖