Original Title: NLP-BASED SPEECH INTERFACES IN MEDICAL VR: A Pilot Study on Usability and Interaction
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ចំណុចប្រទាក់សំឡេងផ្អែកលើ NLP ក្នុងការព្យាបាលតាមការពិតនិម្មិត (Medical VR)៖ ការសិក្សាសាកល្បងលើភាពងាយស្រួលប្រើប្រាស់ និងអន្តរកម្ម

ចំណងជើងដើម៖ NLP-BASED SPEECH INTERFACES IN MEDICAL VR: A Pilot Study on Usability and Interaction

អ្នកនិពន្ធ៖ Mohit Nayak (Tampere University)

ឆ្នាំបោះពុម្ព៖ August 2024, Tampere University

វិស័យសិក្សា៖ Human-Technology Interaction

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការផ្លាស់ប្តូរពីអេក្រង់ 2D ទៅបរិស្ថាន 3D ក្នុងផ្នែកវេជ្ជសាស្ត្រតាមរយៈការពិតនិម្មិត (Medical VR) បង្កឱ្យមានការលំបាកដោយសារភាពស្មុគស្មាញនៃការគ្រប់គ្រងឧបករណ៍ ដែលបណ្តាលឱ្យអ្នកប្រើប្រាស់មានបន្ទុកផ្លូវចិត្តខ្ពស់ និងទាមទារបច្ចេកទេសអន្តរកម្មដែលងាយស្រួលជាងមុន។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានរចនាប្រព័ន្ធជំនួយសំឡេងក្នុង VR ដោយប្រៀបធៀបវាទៅនឹងចំណុចប្រទាក់ប៊ូតុងប្រពៃណី តាមរយៈការធ្វើតេស្តសាកល្បងជាមួយអ្នកចូលរួមចំនួន ២០នាក់។

ការបង្កើតម៉ូដែលភាសាធម្មជាតិដោយប្រើ Azure STT និង NLU (Natural Language Understanding) សម្រាប់សម្គាល់ចេតនា និងឆ្លើយសំណួរ
ការរចនាបរិស្ថានការពិតនិម្មិតសម្រាប់ការវះកាត់ធ្មេញ (Dental Implant VR Environment Design)
ការវាស់ស្ទង់ភាពងាយស្រួលប្រើប្រាស់ និងបន្ទុកផ្លូវចិត្តតាមរយៈទម្រង់សួរមតិ NASA TLX (NASA TLX Cognitive Load Assessment)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ចំណុចប្រទាក់សំឡេង (Speech Interface) ទទួលបានពិន្ទុភាពងាយស្រួលប្រើប្រាស់សរុបខ្ពស់ជាងប៊ូតុងបន្តិច (៥.៨២ ទល់នឹង ៥.៦៩) និងផ្តល់ភាពងាយស្រួលជាងមុនក្នុងការស្វែងរកមុខងារបញ្ជា។
ការបញ្ជាតាមសំឡេងកាត់បន្ថយការប្រើប្រាស់កម្លាំងកាយ ប៉ុន្តែបង្កើនបន្ទុកផ្លូវចិត្តបន្តិចបន្តួច (Mental Demand) ដោយសារភាពមិនសុក្រឹតនៃការសម្គាល់សំឡេងមួយចំនួន។
អ្នកចូលរួមភាគច្រើនបានវាយតម្លៃថាចំណុចប្រទាក់សំឡេងមានភាពធម្មជាតិ ងាយស្រួលរៀន និងជួយឱ្យពួកគេអាចផ្តោតអារម្មណ៍បានពេញលេញលើការងារក្នុងបរិស្ថាន VR ដោយមិនចាំបាច់ប្រើដៃបញ្ជាច្រើន (Hands-free control)។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
NLP-Based Speech Interface ចំណុចប្រទាក់បញ្ជាតាមសំឡេងផ្អែកលើ NLP	ផ្តល់ភាពងាយស្រួលក្នុងការស្វែងរកមុខងារមុខងារ បន្ថយការប្រើប្រាស់កម្លាំងកាយ (Physical Demand) និងផ្តល់បទពិសោធន៍ធម្មជាតិ (Hands-free) ដែលជួយឱ្យអ្នកប្រើប្រាស់ផ្តោតលើការងារ។	ទាមទារបន្ទុកផ្លូវចិត្តខ្ពស់ជាងមុន (Mental Demand) ដោយសារភាពមិនសុក្រឹតនៃការសម្គាល់សំឡេង និងទាមទារឱ្យមានការបញ្ជាកែតម្រូវឡើងវិញនៅពេលប្រព័ន្ធស្តាប់ខុស។	ពិន្ទុភាពងាយស្រួលប្រើប្រាស់សរុប (Usability Score) ខ្ពស់ជាង (៥.៨២/៧) ធៀបនឹង ៥.៦៩ នៃការបញ្ជាតាមប៊ូតុង។
Traditional Button Interface ចំណុចប្រទាក់បញ្ជាតាមប៊ូតុងប្រពៃណី	មានភាពងាយស្រួលក្នុងការកែតម្រូវកំហុស កាត់បន្ថយបន្ទុកផ្លូវចិត្តនៅពេលប្រើប្រាស់ និងផ្តល់ភាពជាក់លាក់ខ្ពស់ក្នុងការជ្រើសរើសដោយផ្ទាល់។	ទាមទារការប្រើប្រាស់កម្លាំងកាយច្រើនជាងមុន ហើយអ្នកប្រើប្រាស់អាចជួបការលំបាកក្នុងការស្វែងរកប៊ូតុងបញ្ជានៅពេលប្រព័ន្ធមានមុខងារច្រើន និងស្មុគស្មាញ។	មានពិន្ទុបន្ទុកផ្លូវចិត្ត និងការប្រើប្រាស់ខួរក្បាលទាបជាង (Cognitive Load Score ២.៤/៧) ធៀបនឹង ២.៥ នៃការបញ្ជាតាមសំឡេង (ពិន្ទុទាបគឺល្អជាង)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធនេះទាមទារការប្រើប្រាស់ឧបករណ៍ការពិតនិម្មិតកម្រិតខ្ពស់ និងសេវាកម្ម Cloud សម្រាប់ដំណើរការភាសាធម្មជាតិ (NLP) ដែលអាចតម្រូវឱ្យមានការចំណាយលើផ្នែករឹង និងសេវាកម្ម API ប្រចាំខែ។

Hardware: ឧបករណ៍ VR Headset (ឧទាហរណ៍៖ Oculus Quest 3) និងកុំព្យូទ័រដែលមានសមត្ថភាពក្រាហ្វិកខ្ពស់សម្រាប់ដំណើរការបរិស្ថាន 3D។
Software & APIs: ម៉ាស៊ីនបង្កើតហ្គេម (Unity 3D) និងសេវាកម្ម Cloud ដូចជា Azure Cognitive Services (STT, TTS, Conversational Language Understanding)។
Dataset: ទិន្នន័យសំឡេង (Audio samples) និងអត្ថបទសន្ទនាក្នុងទម្រង់ផ្សេងៗគ្នា (Utterances) សម្រាប់ការបង្វឹកម៉ូដែលឱ្យស្គាល់ពាក្យបច្ចេកទេសពេទ្យ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅសាកលវិទ្យាល័យ Tampere ប្រទេសហ្វាំងឡង់ ដោយប្រើប្រាស់និស្សិតចំនួន ២០នាក់ ដែលមិនមានជំនាញពេទ្យ និងមានប្រវត្តិជាតិសាសន៍ចម្រុះ។ សម្រាប់ប្រទេសកម្ពុជា ចំណុចនេះមានសារៈសំខាន់ណាស់ ព្រោះការបញ្ចេញសំឡេងភាសាអង់គ្លេសតាមសំនៀងខ្មែរ (Khmer accent) អាចធ្វើឱ្យប្រព័ន្ធស្តាប់ខុសច្រើន ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យសំឡេងសំនៀងខ្មែរបន្ថែម ដើម្បីបង្វឹកម៉ូដែលកុំឱ្យមានរើសអើងសំនៀង (Accent Bias)។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាបច្ចេកវិទ្យានេះនៅថ្មី ប៉ុន្តែវាមានសក្តានុពលខ្ពស់ក្នុងការផ្លាស់ប្តូរការបណ្តុះបណ្តាល និងប្រតិបត្តិការវេជ្ជសាស្ត្រនៅកម្ពុជា។

ការបណ្តុះបណ្តាលវេជ្ជសាស្ត្រ (Medical Education): និស្សិតពេទ្យនៅតាមសាកលវិទ្យាល័យ (ឧ. សាកលវិទ្យាល័យវិទ្យាសាស្ត្រសុខាភិបាល) អាចអនុវត្តការវះកាត់ធ្មេញ ឬមុខវិជ្ជាកាយវិភាគវិទ្យាក្នុងបរិស្ថាន 3D ដោយប្រើសំឡេងបញ្ជា ដែលកាត់បន្ថយការពឹងផ្អែកលើសាកសពពិត ឬឧបករណ៍ថ្លៃៗ។
ការពិគ្រោះជំងឺពីចម្ងាយ (Telemedicine & Remote Consultation): វេជ្ជបណ្ឌិតនៅមន្ទីរពេទ្យថ្នាក់ជាតិ អាចណែនាំគ្រូពេទ្យនៅតាមខេត្តក្នុងទម្រង់ VR ដោយប្រើសំឡេងដើម្បីទាញយកទិន្នន័យអ្នកជំងឺ ឬរូបភាព X-ray មកមើលដោយមិនបាច់ប្រើដៃប៉ះពាល់ឧបករណ៍កុំព្យូទ័រ ដែលជួយរក្សាអនាម័យ (Sterility) ក្នុងបន្ទប់វះកាត់។

សរុបមក ការរួមបញ្ចូលបច្ចេកវិទ្យា VR និង NLP អាចជួយបង្កើនប្រសិទ្ធភាពការងារពេទ្យនៅកម្ពុជា ប៉ុន្តែទាមទារឱ្យមានការប្ដូរតាមបំណង (Customization) ម៉ូដែលភាសាឱ្យស្របតាមបរិបទ និងសំនៀងអ្នកប្រើប្រាស់ក្នុងស្រុកជាមុនសិន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាពីការអភិវឌ្ឍបរិស្ថាន VR (VR Environment Development): ចាប់ផ្តើមរៀនប្រើប្រាស់ Unity 3D និងឧបករណ៍ Meta Quest SDK ព្រមទាំង XR Interaction Toolkit ដើម្បីបង្កើតបរិស្ថាន 3D និងយល់ដឹងពីអន្តរកម្មតាមរយៈឧបករណ៍បញ្ជាដោយដៃ (Controllers)។
ស្វែងយល់ពីបច្ចេកវិទ្យាដំណើរការភាសាធម្មជាតិ (NLP & Speech APIs): សិក្សាពីរបៀបតភ្ជាប់ API របស់ Azure Cognitive Services, OpenAI Whisper ឬ Google Cloud Speech-to-Text ដើម្បីបំប្លែងសំឡេងទៅជាអត្ថបទ (STT) និងអត្ថបទទៅជាសំឡេង (TTS) នៅក្នុងកម្មវិធី។
អភិវឌ្ឍម៉ូដែលសម្គាល់ចេតនា (Intent Recognition Model): ប្រើប្រាស់ឧបករណ៍ដូចជា Azure Conversational Language Understanding (CLU) ឬ Rasa ដើម្បីបង្វឹកប្រព័ន្ធឱ្យយល់ពីពាក្យបញ្ជា (Intents) និងវត្ថុបំណង (Entities) ក្នុងបរិបទជាក់លាក់នៃកម្មវិធីរបស់អ្នក។
ធ្វើសមាហរណកម្មប្រព័ន្ធទាំងពីរចូលគ្នា (Integration): សរសេរកូដភ្ជាប់ប្រព័ន្ធ NLP ទៅក្នុងបរិស្ថាន VR ក្នុង Unity (ប្រើ C#) ដើម្បីអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់បញ្ជាវត្ថុ 3D, បិទបើកឧបករណ៍ ឬទាញយកទិន្នន័យចេញមកក្រៅតាមរយៈការនិយាយបញ្ជា។
ធ្វើតេស្តសាកល្បងនិងប្រមូលទិន្នន័យ (User Testing): រៀបចំការធ្វើតេស្តជាមួយអ្នកប្រើប្រាស់ពិតប្រាកដ ដោយផ្តោតលើការវាស់ស្ទង់បន្ទុកផ្លូវចិត្តតាមរយៈទម្រង់ NASA TLX និងប្រមូលទិន្នន័យសំនៀងបន្ថែមដើម្បីកែលម្អម៉ូដែល STT ឱ្យកាន់តែសុក្រឹតសម្រាប់សំនៀងរបស់អ្នកប្រើប្រាស់។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Natural Language Understanding (NLU)	NLU គឺជាផ្នែកមួយនៃបច្ចេកវិទ្យា AI (បញ្ញាសិប្បនិម្មិត) ដែលជួយឱ្យម៉ាស៊ីន ឬកុំព្យូទ័រអាចយល់ពីអត្ថន័យ និងបរិបទនៃភាសារបស់មនុស្ស មិនត្រឹមតែស្គាល់ពាក្យប៉ុណ្ណោះទេ ថែមទាំងដឹងពីគោលបំណងពិតប្រាកដរបស់អ្នកនិយាយទៀតផង។	វាប្រៀបដូចជាការបង្រៀនកុំព្យូទ័រឱ្យចេះស្តាប់ធ្លាយដល់អត្ថន័យដែលយើងចង់បាន ដូចមិត្តភក្តិយល់ចិត្តគ្នាអញ្ចឹង។
Intent Recognition	ការសម្គាល់ចេតនា គឺជាដំណើរការដែលប្រព័ន្ធកុំព្យូទ័រវិភាគលើពាក្យសម្តី ឬអត្ថបទ ដើម្បីកំណត់ថាអ្នកប្រើប្រាស់មានបំណងចង់ឱ្យវាធ្វើអ្វីឱ្យប្រាកដ (ឧទាហរណ៍៖ បញ្ជាឱ្យបើកភ្លើង ឬទាញយកឧបករណ៍ពេទ្យជាដើម) ទោះបីជាអ្នកប្រើប្រាស់និយាយក្នុងទម្រង់ផ្សេងៗគ្នាក៏ដោយ។	ដូចជាពេលយើងប្រាប់អ្នករត់តុថា "សុំទឹកមួយកែវ" អ្នករត់តុដឹងភ្លាមថាគោលបំណងរបស់យើងគឺចង់ញ៉ាំទឹក។
Automatic Speech Recognition (ASR)	ASR គឺជាបច្ចេកវិទ្យាដែលបំប្លែងសំឡេងនិយាយរបស់មនុស្សទៅជាអត្ថបទ (Speech-to-Text) ដោយស្វ័យប្រវត្តិ ដើម្បីឱ្យប្រព័ន្ធកុំព្យូទ័រអាចយកទិន្នន័យអត្ថបទនោះទៅដំណើរការ ឬបញ្ជាបន្ត។	វាប្រៀបដូចជាលេខាដែលអង្គុយស្តាប់ចៅហ្វាយនិយាយ រួចវាយអត្ថបទតាមពាក្យសម្តីទាំងនោះចូលក្នុងកុំព្យូទ័រភ្លាមៗ។
Cognitive Load	បន្ទុកផ្លូវចិត្ត ឬការប្រើប្រាស់ខួរក្បាល សំដៅលើបរិមាណនៃការប្រឹងប្រែងផ្នែកស្មារតីដែលអ្នកប្រើប្រាស់ត្រូវចំណាយដើម្បីរៀន យល់ និងចងចាំនៅពេលប្រើប្រាស់ប្រព័ន្ធ ឬកម្មវិធីណាមួយ។ នៅក្នុងការរចនាប្រព័ន្ធ ប្រព័ន្ធដែលល្អត្រូវមានចំណុចនេះទាប ដើម្បីកុំឱ្យអ្នកប្រើប្រាស់ស្មុគស្មាញ។	ដូចជាការព្យាយាមដោះស្រាយលំហាត់គណិតវិទ្យាដ៏ស្មុគស្មាញមួយក្នុងពេលកំពុងបើកបរ ដែលធ្វើឱ្យខួរក្បាលយើងហត់នឿយខ្លាំងតម្រូវឱ្យមានការផ្តោតអារម្មណ៍ទ្វេដង។
Multimodal Interaction	អន្តរកម្មពហុទម្រង់ គឺជាការប្រើប្រាស់វិធីសាស្ត្របញ្ជាជាច្រើនបញ្ចូលគ្នា ដូចជាការបញ្ជាតាមសំឡេង បញ្ជាតាមកាយវិការ ការសម្លឹងមើល និងការប៉ះ ដើម្បីប្រាស្រ័យទាក់ទងជាមួយប្រព័ន្ធកុំព្យូទ័រ ឬបរិស្ថានការពិតនិម្មិត (VR) ក្នុងគោលបំណងបង្កើនភាពងាយស្រួលនិងសុក្រឹតភាព។	ដូចជាពេលយើងនិយាយប្រាប់មិត្តភក្តិបណ្តើរ និងចង្អុលដៃបង្ហាញផ្លូវបណ្តើរ ដើម្បីឱ្យគេងាយយល់កាន់តែច្បាស់ដោយប្រើប្រាស់ទាំងសំឡេងនិងកាយវិការក្នុងពេលតែមួយ។
Entity Extraction	គឺជាបច្ចេកទេសមួយនៅក្នុងដំណើរការភាសាធម្មជាតិ (NLP) ដែលប្រព័ន្ធមានសមត្ថភាពទាញយកព័ត៌មានលម្អិតសំខាន់ៗ (Entities) ពីក្នុងប្រយោគ ដូចជាឈ្មោះមនុស្ស ទីកន្លែង កាលបរិច្ឆេទ ឬប្រភេទឧបករណ៍ពេទ្យ ដើម្បីយកទៅអនុវត្តបញ្ជាណាមួយ។	ដូចជាសិស្សគូសបន្ទាត់ពណ៌ពីក្រោមពាក្យគន្លឹះសំខាន់ៗនៅក្នុងសៀវភៅ ដើម្បីងាយស្រួលចំណាំនិងទាញយកមកប្រើប្រាស់។
NASA TLX	NASA TLX (Task Load Index) គឺជាឧបករណ៍វាស់ស្ទង់ស្តង់ដារមួយដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយនៅក្នុងការស្រាវជ្រាវ ដើម្បីវាយតម្លៃកម្រិតនៃបន្ទុកផ្លូវចិត្ត កាយសម្បទា ការខិតខំប្រឹងប្រែង និងភាពតានតឹង ដែលអ្នកប្រើប្រាស់ជួបប្រទះក្នុងពេលបំពេញការងារណាមួយ។	ដូចជាកម្រងសំណួររបស់គ្រូពេទ្យដែលសួរអ្នកជំងឺថា "តើអ្នកឈឺកម្រិតណាពីលេខ ១ ដល់ ១០?" ប៉ុន្តែនេះគឺជាការវាស់ស្ទង់ពីកម្រិតភាពហត់នឿយរបស់ខួរក្បាលពេលកំពុងបញ្ជាឧបករណ៍។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖