Original Title: Alzheimer’s Dementia Speech (Audio vs. Text): Multi-Modal Machine Learning at High vs. Low Resolution
Source: doi.org/10.3390/app13074244
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការនិយាយរបស់អ្នកជំងឺអាល់ហ្សៃមឺ (សំឡេង ធៀបនឹង អត្ថបទ)៖ ការរៀនដោយម៉ាស៊ីនបែបពហុមធ្យោបាយក្នុងកម្រិតភាពម៉ត់ខ្ពស់ និងទាប

ចំណងជើងដើម៖ Alzheimer’s Dementia Speech (Audio vs. Text): Multi-Modal Machine Learning at High vs. Low Resolution

អ្នកនិពន្ធ៖ Prachee Priyadarshinee (Singapore University of Technology and Design), Christopher Johann Clarke (Singapore University of Technology and Design), Jan Melechovsky (Singapore University of Technology and Design), Cindy Ming Ying Lin (Singapore University of Technology and Design), Balamurali B. T. (Singapore University of Technology and Design), Jer-Ming Chen (Singapore University of Technology and Design)

ឆ្នាំបោះពុម្ព៖ 2023, Applied Sciences (MDPI)

វិស័យសិក្សា៖ Machine Learning in Healthcare

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះផ្តោតលើការរកឃើញជំងឺអាល់ហ្សៃមឺ (Alzheimer's Dementia) ដោយស្វ័យប្រវត្តិតាមរយៈការវិភាគសំឡេងនិយាយ ដើម្បីជួយដល់ការធ្វើរោគវិនិច្ឆ័យបានលឿន ទាន់ពេលវេលា និងមិនប៉ះពាល់ដល់រាងកាយ (Non-invasive)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រៀបធៀបយ៉ាងមានប្រព័ន្ធលើវិធីសាស្ត្រនិងម៉ូដែលរៀនដោយម៉ាស៊ីន (Machine Learning models) ចំនួន ១៦ ផ្សេងៗគ្នា ដោយប្រើប្រាស់ទិន្នន័យសំឡេង និងអត្ថបទក្នុងកម្រិតភាពម៉ត់ (Resolution) ខុសៗគ្នា។

ការទាញយកលក្ខណៈពិសេសពីអត្ថបទកម្រិតឯកសារ (File-Level Text Features) ដោយប្រើប្រាស់ម៉ូដែលភាសាដូចជា RoBERTa, BERT, DistilBERT និង XLNet។
ការវិភាគលក្ខណៈពិសេសនៃសំឡេងកម្រិតស៊ុម (Frame-Level Audio Features) និងកម្រិតឯកសារ (File-Level) ដូចជា VGG, OpenL3, eGeMAPS និងវិធីសាស្ត្របង្កើតថ្មីៗ។
ការប្រើប្រាស់ទិន្នន័យការនិយាយដោយឯកឯង ADReSSo-2021 (Spontaneous speech dataset) សម្រាប់ការបង្វឹកនិងធ្វើតេស្តម៉ូដែល។
ការណែនាំវិធីសាស្ត្រទាញយកលក្ខណៈពិសេសថ្មីៗចំនួន ៤ រួមមាន៖ Energy-Time plots, Keg of Text Analytics, Keg of Text Analytics-Extended និង Speech to Silence ratio។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការចាត់ថ្នាក់ផ្អែកលើអត្ថបទ (Text-based classification) ទទួលបានលទ្ធផលល្អជាងការប្រើសំឡេងទាំងស្រុង ដោយម៉ូដែល RoBERTa សម្រេចបានភាពត្រឹមត្រូវខ្ពស់បំផុតរហូតដល់ ៨៨.៧% ដែលជាលទ្ធផលល្អបំផុតប្រចាំទិន្នន័យនេះ។
សម្រាប់ទិន្នន័យសំឡេង (Audio-based) វិធីសាស្ត្រកម្រិតស៊ុម (Frame-level) ទទួលបានភាពត្រឹមត្រូវខ្ពស់ជាងកម្រិតឯកសារ ហើយវាផ្តល់នូវភាពបត់បែនល្អជាងអត្ថបទ ព្រោះវាមិនអាស្រ័យលើភាសាដែលកំពុងនិយាយ (Language-agnostic)។
ការរួមបញ្ចូលគ្នារវាងអត្ថបទនិងសំឡេង (Multi-modal) រួមជាមួយនឹងបច្ចេកទេសថ្មីៗ បង្ហាញពីសក្តានុពលយ៉ាងធំធេងសម្រាប់ការបង្កើតឧបករណ៍តាមដានសុខភាពផ្លូវចិត្តក្នុងវិស័យគ្លីនិកប្រកបដោយប្រសិទ្ធភាពនិងភាពងាយស្រួល។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
RoBERTa (File-Level Text) ម៉ូដែល RoBERTa (លក្ខណៈពិសេសអត្ថបទកម្រិតឯកសារ)	ផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងការធ្វើរោគវិនិច្ឆ័យ ដោយចាប់យកអត្ថន័យនិងបរិបទនៃពាក្យបានយ៉ាងល្អិតល្អន់។	អាស្រ័យយ៉ាងខ្លាំងទៅលើភាពត្រឹមត្រូវនៃការបំប្លែងសំឡេងទៅជាអត្ថបទ (ASR) និងមានកម្រិតចំពោះភាសាដែលបានបង្វឹក (ភាគច្រើនជាភាសាអង់គ្លេស)។	សម្រេចបានភាពត្រឹមត្រូវ ៨៨.៧% (ខ្ពស់ជាងគេបំផុតក្នុងការសិក្សានេះ)។
VGG (Frame-Level Audio) ម៉ូដែល VGG (លក្ខណៈពិសេសសំឡេងកម្រិតស៊ុម)	មិនពឹងផ្អែកលើភាសាដែលកំពុងនិយាយ (Language-agnostic) និងដំណើរការបានល្អសូម្បីតែក្នុងស្ថានភាពដែលគុណភាពសំឡេងពិបាកស្តាប់ជាពាក្យ។	ភាពត្រឹមត្រូវទាបជាងម៉ូដែលផ្អែកលើអត្ថបទបន្តិច ព្រោះវាមិនអាចចាប់យកទិន្នន័យអត្ថន័យនៃពាក្យ (Semantic data) បានទេ។	សម្រេចបានភាពត្រឹមត្រូវ ៧៨.៩% (ខ្ពស់ជាងគេសម្រាប់ឯកសារប្រភេទវិភាគសំឡេងតែមួយមុខ)។
Speech/Silence Analysis ការវិភាគអត្រាសំឡេងនិងភាពស្ងាត់ (Speech/Silence)	ជាវិធីសាស្ត្រថ្មីដែលងាយស្រួលគណនា ដោយផ្តោតលើចង្វាក់នៃការនិយាយនិងការផ្អាករអាក់រអួល ដែលឆ្លុះបញ្ចាំងពីបញ្ហាក្នុងការគិតនិងការចងចាំ។	ទាមទារការកែច្នៃបន្ថែមទៀត ព្រោះវាមានភាពត្រឹមត្រូវទាបជាងគេបើប្រៀបធៀបជាមួយម៉ូដែលកម្រិតខ្ពស់ផ្សេងទៀតនៅក្នុងការសិក្សានេះ។	សម្រេចបានភាពត្រឹមត្រូវត្រឹមតែ ៦៦.២% ប៉ុណ្ណោះ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះទាមទារធនធានកុំព្យូទ័រដែលមានសមត្ថភាពខ្ពស់ និងកម្មវិធីពិសេសៗសម្រាប់ការទាញយកលក្ខណៈពិសេសនៃសំឡេង និងការបង្វឹកម៉ូដែល (Deep Learning)។

Software: ត្រូវការកម្មវិធី និងបណ្ណាល័យកូដដូចជា OpenSMILE (សម្រាប់ទាញយកលក្ខណៈសំឡេង), MATLAB, HuggingFace Transformers និងសេវាកម្ម Otter.ai សម្រាប់បំប្លែងសំឡេងជាអត្ថបទ (ASR)។
Hardware: ទាមទារក្រាហ្វិកកាត (GPU) ដែលមានកម្លាំងខ្លាំង ដើម្បីបង្វឹកម៉ូដែលបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតជ្រៅ (DNN, CNN, BiLSTM)។
Dataset: ប្រើប្រាស់ទិន្នន័យ ADReSSo-2021 (DementiaBank Pitt corpus) ដែលជាទិន្នន័យស្តង់ដាររួមមានសំឡេងអ្នកជំងឺអាល់ហ្សៃមឺនិងអ្នកធម្មតាដែលនិយាយរៀបរាប់ពីរូបភាព។
Expertise: ទាមទារអ្នកជំនាញផ្នែក Machine Learning, Natural Language Processing (NLP) និងការវិភាគរលកសំឡេង (Audio Signal Processing)។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងដោយប្រើប្រាស់ទិន្នន័យ ADReSSo-2021 ដែលជាការនិយាយរបស់ជនជាតិបរទេសជាភាសាអង់គ្លេសទាំងស្រុង។ នេះមានន័យថាម៉ូដែលផ្អែកលើអត្ថបទ (Text-based models) ដូចជា RoBERTa ឬ BERT មិនអាចយកមកអនុវត្តផ្ទាល់ជាមួយអ្នកជំងឺនៅកម្ពុជាបានទេ ដោយសាររចនាសម្ព័ន្ធភាសាខ្មែរមានលក្ខណៈខុសគ្នា។ ទោះយ៉ាងណាក៏ដោយ វិធីសាស្ត្រកម្រិតសំឡេង (Audio-based) អាចយកមកអនុវត្តបានដោយមិនគិតពីភាសាឡើយ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនៅក្នុងឯកសារនេះមានសក្តានុពលខ្ពស់សម្រាប់ប្រព័ន្ធថែទាំសុខភាពនៅកម្ពុជា ជាពិសេសការប្រើប្រាស់បច្ចេកវិទ្យាវិភាគសំឡេងដែលមិនពឹងផ្អែកលើភាសា (Language-agnostic)។

មន្ទីរពេទ្យ និងមណ្ឌលថែទាំមនុស្សចាស់នៅកម្ពុជា (ឧ. មន្ទីរពេទ្យកាល់ម៉ែត): អាចសាកល្បងប្រើប្រាស់ម៉ូដែលវិភាគសំឡេង (Audio-based models) ដើម្បីស្កេនរកសញ្ញាជំងឺអាល់ហ្សៃមឺដំបូងៗ ព្រោះវិធីនេះមិនតម្រូវឱ្យមានប្រព័ន្ធបកប្រែជាអត្ថបទភាសាខ្មែរដ៏ស្មុគស្មាញ និងមានភាពងាយស្រួលក្នុងការប្រមូលទិន្នន័យពីអ្នកជំងឺជានិច្ចកាល។
ការស្រាវជ្រាវផ្នែក AI នៅសាកលវិទ្យាល័យ (ឧ. ITC ឬ RUPP): និស្សិតនិងអ្នកស្រាវជ្រាវអាចច្នៃប្រឌិតបន្តដោយអភិវឌ្ឍប្រព័ន្ធបំប្លែងសំឡេងជាអត្ថបទ (Khmer ASR) ឱ្យបានប្រសើរ រួចរួមបញ្ចូលជាមួយម៉ូដែលភាសា ដើម្បីបង្កើតប្រព័ន្ធស្កេនបែបពហុមធ្យោបាយ (Multi-modal) សម្រាប់ជនជាតិខ្មែរ។

ការទាញយកបច្ចេកវិទ្យាវិភាគការនិយាយនេះមកកែច្នៃ អាចជួយបង្កើតឧបករណ៍តាមដានសុខភាពផ្លូវចិត្តនិងការថយចុះការចងចាំនៅកម្ពុជាបានយ៉ាងឆាប់រហ័ស ងាយស្រួល និងចំណាយតិច។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

ស្វែងយល់ពីបច្ចេកទេសវិភាគសំឡេង (Audio Signal Processing): សិក្សាពីរបៀបទាញយកលក្ខណៈពិសេសនៃរលកសំឡេង (ដូចជា Spectrograms, MFCCs, eGeMAPS) ដោយរៀនប្រើប្រាស់បណ្ណាល័យកូដ OpenSMILE ឬ Librosa នៅក្នុងភាសា Python។
សិក្សាពីម៉ូដែលភាសា (Natural Language Processing): ស្វែងយល់ពីរបៀបប្រើប្រាស់ HuggingFace Transformers ជាពិសេសម៉ូដែល BERT ឬ RoBERTa ដើម្បីយល់ពីការបំប្លែងអត្ថបទទៅជាវ៉ិចទ័រ (Text Embeddings) សម្រាប់ការចាត់ថ្នាក់ទិន្នន័យ។
ប្រមូលទិន្នន័យសាកល្បងជាភាសាខ្មែរ (Local Data Collection): រៀបចំយុទ្ធនាការថតសំឡេងអ្នកជំងឺ ឬមនុស្សចាស់នៅកម្ពុជា (ដោយគោរពតាមក្រមសីលធម៌ និងមានការអនុញ្ញាត) តាមរយៈការឱ្យពួកគេពិពណ៌នារូបភាព ដើម្បីបង្កើតជាទិន្នន័យមូលដ្ឋានសម្រាប់ការស្រាវជ្រាវ។
បង្វឹកម៉ូដែលសាកល្បងកម្រិតសំឡេង (Train Audio-First Models): ចាប់ផ្តើមដោយការសរសេរកូដបង្វឹកម៉ូដែល BiLSTM ឬ CNN លើទិន្នន័យសំឡេងដែលប្រមូលបាន ដោយប្រើប្រាស់ VGG Embeddings ដោយសារវាមិនតម្រូវឱ្យមានប្រព័ន្ធបកប្រែអត្ថបទភាសាខ្មែរស្មុគស្មាញនៅដំណាក់កាលដំបូងឡើយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Multi-Modal Machine Learning	វិធីសាស្ត្របង្រៀនកុំព្យូទ័រឱ្យចេះទាញយកនិងវិភាគទិន្នន័យច្រើនទម្រង់ (ដូចជាការរួមបញ្ចូលគ្នារវាងសំឡេងនិយាយ និងអត្ថបទ) ក្នុងពេលតែមួយ ដើម្បីធ្វើការសម្រេចចិត្តឬទស្សន៍ទាយលទ្ធផលបានកាន់តែសុក្រឹត។	ដូចជាគ្រូពេទ្យម្នាក់ដែលមិនត្រឹមតែស្តាប់ពាក្យសម្តីរបស់អ្នកជំងឺប៉ុណ្ណោះទេ តែថែមទាំងសង្កេតមើលកាយវិការនិងទឹកដមសំឡេងព្រមគ្នាទើបធ្វើរោគវិនិច្ឆ័យ។
Frame-Level Features	ការកាត់ផ្តាច់ទិន្នន័យសំឡេងឬអត្ថបទទៅជាចំណែកតូចៗបំផុត (គិតជាមីលីវិនាទី) ដើម្បីទាញយកលក្ខណៈលម្អិតនៃបម្រែបម្រួលចង្វាក់ ឬការរអាក់រអួលភ្លាមៗរបស់អ្នកនិយាយ ដែលងាយស្រួលក្នុងការរកមើលសញ្ញានៃជំងឺ។	ដូចជាការយកវីដេអូមកចាក់មើលមួយប្លង់ម្តងៗ (Frame by frame) ដើម្បីរកមើលកំហុសតូចមួយដែលភ្នែកធម្មតាមើលរំលង។
File-Level Features	ការវិភាគយកលក្ខណៈសរុបនៃទិន្នន័យទាំងមូល (ឧទាហរណ៍ ឯកសារសំឡេងពេញមួយវគ្គនៃការសម្ភាសន៍) ដើម្បីវាយតម្លៃជារូបភាពធំ និងរកមើលគំរូទូទៅនៃការប្រើប្រាស់ពាក្យឬសំឡេងរបស់អ្នកជំងឺ។	ដូចជាការអានសៀវភៅចប់មួយក្បាលទើបសរសេរសេចក្តីសង្ខេបជារួម ជំនួសឱ្យការបកស្រាយរាល់ពាក្យនីមួយៗតាំងពីដើមដល់ចប់។
Spontaneous speech	ការនិយាយចេញមកភ្លាមៗដោយឯកឯង គ្មានការព្រាងទុក ឬទន្ទេញចាំមាត់ ដែលជួយបង្ហាញពីសមត្ថភាពពិតប្រាកដនៃខួរក្បាលក្នុងការគិត រៀបចំពាក្យសម្តី និងការចងចាំរបស់អ្នកជំងឺអាល់ហ្សៃមឺ។	ដូចជាការឆ្លើយសំណួរភ្លាមៗក្នុងការសម្ភាសន៍ការងារ ដែលខុសពីការអានអត្ថបទដែលបានសរសេរត្រៀមទុកនៅលើក្រដាស។
Low Level Descriptors (LLDs)	តម្លៃលក្ខណៈរូបវន្តមូលដ្ឋាននៃរលកសំឡេង (ដូចជាកម្ពស់សំឡេង ថាមពល ភាពញ័រ ឬភាពតឹងនៃសំឡេង) ដែលកម្មវិធីកុំព្យូទ័រទាញយកដោយផ្ទាល់ពីរលកសំឡេងឆៅ ដើម្បីយកទៅវិភាគបន្តក្នុងម៉ូដែល។	ដូចជាការបំបែកមុខម្ហូបមួយចានទៅជាគ្រឿងផ្សំដើម (អំបិល ស្ករ សាច់ ទឹកត្រី) ដើម្បីដឹងប្រាកដថាវាមានរសជាតិផ្សំឡើងពីអ្វីខ្លះ។
Word Embedding	បច្ចេកទេសបំប្លែងពាក្យពេចន៍ទៅជាតួលេខឬវ៉ិចទ័រគណិតវិទ្យាដ៏ស្មុគស្មាញ ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ពីអត្ថន័យ ភាពស្រដៀងគ្នា និងទំនាក់ទំនងនៃពាក្យទាំងនោះនៅក្នុងបរិបទប្រយោគផ្សេងៗគ្នា។	ដូចជាការដាក់លេខកូដសម្គាល់ឱ្យមនុស្សម្នាក់ៗតាមចំណង់ចំណូលចិត្តនិងចរិតលក្ខណៈ ដើម្បីងាយស្រួលស្វែងរកអ្នកដែលមានទម្លាប់ស្រដៀងគ្នា។
RoBERTa	ជាម៉ូដែលបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតខ្ពស់សម្រាប់វិភាគអត្ថបទ ដែលត្រូវបានបង្វឹកឱ្យយល់ដឹងពីបរិបទប្រយោគបានយ៉ាងជ្រៅជ្រះ ដោយប្រើបច្ចេកទេសលាក់ពាក្យប្តូរចុះឡើង (Dynamic masking) ពេលកំពុងបង្វឹក។	ដូចជាសិស្សពូកែម្នាក់ដែលរៀនទាយពាក្យដែលបាត់ក្នុងលំហាត់បំពេញចន្លោះរាប់លានដង រហូតដល់អាចយល់អត្ថន័យស៊ីជម្រៅនៃភាសាបានយ៉ាងស្ទាត់ជំនាញ។
Voice Activity Detection (VAD)	ក្បួនអាល់កូរីតដែលកុំព្យូទ័រប្រើសម្រាប់បែងចែកនិងកាត់ផ្តាច់រវាង 'ពេលដែលមានសំឡេងមនុស្សនិយាយ' និង 'ពេលស្ងាត់ ឬមានតែសំឡេងរំខាន' នៅក្នុងឯកសារសំឡេង ដើម្បីយកតែទិន្នន័យចាំបាច់មកវិភាគ។	ដូចជាអំពូលភ្លើងឆ្លាតវៃនៅតាមសួនច្បារ ដែលភ្លឺឡើងដោយស្វ័យប្រវត្តិតែនៅពេលមានមនុស្សដើរកាត់ និងរលត់វិញនៅពេលគ្មានមនុស្ស។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖