Original Title: NLP-BASED SPEECH INTERFACES IN MEDICAL VR: A Pilot Study on Usability and Interaction
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ចំណុចប្រទាក់សំឡេងផ្អែកលើ NLP ក្នុងការព្យាបាលតាមការពិតនិម្មិត (Medical VR)៖ ការសិក្សាសាកល្បងលើភាពងាយស្រួលប្រើប្រាស់ និងអន្តរកម្ម

ចំណងជើងដើម៖ NLP-BASED SPEECH INTERFACES IN MEDICAL VR: A Pilot Study on Usability and Interaction

អ្នកនិពន្ធ៖ Mohit Nayak (Tampere University)

ឆ្នាំបោះពុម្ព៖ August 2024, Tampere University

វិស័យសិក្សា៖ Human-Technology Interaction

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការផ្លាស់ប្តូរពីអេក្រង់ 2D ទៅបរិស្ថាន 3D ក្នុងផ្នែកវេជ្ជសាស្ត្រតាមរយៈការពិតនិម្មិត (Medical VR) បង្កឱ្យមានការលំបាកដោយសារភាពស្មុគស្មាញនៃការគ្រប់គ្រងឧបករណ៍ ដែលបណ្តាលឱ្យអ្នកប្រើប្រាស់មានបន្ទុកផ្លូវចិត្តខ្ពស់ និងទាមទារបច្ចេកទេសអន្តរកម្មដែលងាយស្រួលជាងមុន។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានរចនាប្រព័ន្ធជំនួយសំឡេងក្នុង VR ដោយប្រៀបធៀបវាទៅនឹងចំណុចប្រទាក់ប៊ូតុងប្រពៃណី តាមរយៈការធ្វើតេស្តសាកល្បងជាមួយអ្នកចូលរួមចំនួន ២០នាក់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
NLP-Based Speech Interface
ចំណុចប្រទាក់បញ្ជាតាមសំឡេងផ្អែកលើ NLP
ផ្តល់ភាពងាយស្រួលក្នុងការស្វែងរកមុខងារមុខងារ បន្ថយការប្រើប្រាស់កម្លាំងកាយ (Physical Demand) និងផ្តល់បទពិសោធន៍ធម្មជាតិ (Hands-free) ដែលជួយឱ្យអ្នកប្រើប្រាស់ផ្តោតលើការងារ។ ទាមទារបន្ទុកផ្លូវចិត្តខ្ពស់ជាងមុន (Mental Demand) ដោយសារភាពមិនសុក្រឹតនៃការសម្គាល់សំឡេង និងទាមទារឱ្យមានការបញ្ជាកែតម្រូវឡើងវិញនៅពេលប្រព័ន្ធស្តាប់ខុស។ ពិន្ទុភាពងាយស្រួលប្រើប្រាស់សរុប (Usability Score) ខ្ពស់ជាង (៥.៨២/៧) ធៀបនឹង ៥.៦៩ នៃការបញ្ជាតាមប៊ូតុង។
Traditional Button Interface
ចំណុចប្រទាក់បញ្ជាតាមប៊ូតុងប្រពៃណី
មានភាពងាយស្រួលក្នុងការកែតម្រូវកំហុស កាត់បន្ថយបន្ទុកផ្លូវចិត្តនៅពេលប្រើប្រាស់ និងផ្តល់ភាពជាក់លាក់ខ្ពស់ក្នុងការជ្រើសរើសដោយផ្ទាល់។ ទាមទារការប្រើប្រាស់កម្លាំងកាយច្រើនជាងមុន ហើយអ្នកប្រើប្រាស់អាចជួបការលំបាកក្នុងការស្វែងរកប៊ូតុងបញ្ជានៅពេលប្រព័ន្ធមានមុខងារច្រើន និងស្មុគស្មាញ។ មានពិន្ទុបន្ទុកផ្លូវចិត្ត និងការប្រើប្រាស់ខួរក្បាលទាបជាង (Cognitive Load Score ២.៤/៧) ធៀបនឹង ២.៥ នៃការបញ្ជាតាមសំឡេង (ពិន្ទុទាបគឺល្អជាង)។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធនេះទាមទារការប្រើប្រាស់ឧបករណ៍ការពិតនិម្មិតកម្រិតខ្ពស់ និងសេវាកម្ម Cloud សម្រាប់ដំណើរការភាសាធម្មជាតិ (NLP) ដែលអាចតម្រូវឱ្យមានការចំណាយលើផ្នែករឹង និងសេវាកម្ម API ប្រចាំខែ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅសាកលវិទ្យាល័យ Tampere ប្រទេសហ្វាំងឡង់ ដោយប្រើប្រាស់និស្សិតចំនួន ២០នាក់ ដែលមិនមានជំនាញពេទ្យ និងមានប្រវត្តិជាតិសាសន៍ចម្រុះ។ សម្រាប់ប្រទេសកម្ពុជា ចំណុចនេះមានសារៈសំខាន់ណាស់ ព្រោះការបញ្ចេញសំឡេងភាសាអង់គ្លេសតាមសំនៀងខ្មែរ (Khmer accent) អាចធ្វើឱ្យប្រព័ន្ធស្តាប់ខុសច្រើន ដែលទាមទារឱ្យមានការប្រមូលទិន្នន័យសំឡេងសំនៀងខ្មែរបន្ថែម ដើម្បីបង្វឹកម៉ូដែលកុំឱ្យមានរើសអើងសំនៀង (Accent Bias)។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាបច្ចេកវិទ្យានេះនៅថ្មី ប៉ុន្តែវាមានសក្តានុពលខ្ពស់ក្នុងការផ្លាស់ប្តូរការបណ្តុះបណ្តាល និងប្រតិបត្តិការវេជ្ជសាស្ត្រនៅកម្ពុជា។

សរុបមក ការរួមបញ្ចូលបច្ចេកវិទ្យា VR និង NLP អាចជួយបង្កើនប្រសិទ្ធភាពការងារពេទ្យនៅកម្ពុជា ប៉ុន្តែទាមទារឱ្យមានការប្ដូរតាមបំណង (Customization) ម៉ូដែលភាសាឱ្យស្របតាមបរិបទ និងសំនៀងអ្នកប្រើប្រាស់ក្នុងស្រុកជាមុនសិន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាពីការអភិវឌ្ឍបរិស្ថាន VR (VR Environment Development): ចាប់ផ្តើមរៀនប្រើប្រាស់ Unity 3D និងឧបករណ៍ Meta Quest SDK ព្រមទាំង XR Interaction Toolkit ដើម្បីបង្កើតបរិស្ថាន 3D និងយល់ដឹងពីអន្តរកម្មតាមរយៈឧបករណ៍បញ្ជាដោយដៃ (Controllers)។
  2. ស្វែងយល់ពីបច្ចេកវិទ្យាដំណើរការភាសាធម្មជាតិ (NLP & Speech APIs): សិក្សាពីរបៀបតភ្ជាប់ API របស់ Azure Cognitive Services, OpenAI WhisperGoogle Cloud Speech-to-Text ដើម្បីបំប្លែងសំឡេងទៅជាអត្ថបទ (STT) និងអត្ថបទទៅជាសំឡេង (TTS) នៅក្នុងកម្មវិធី។
  3. អភិវឌ្ឍម៉ូដែលសម្គាល់ចេតនា (Intent Recognition Model): ប្រើប្រាស់ឧបករណ៍ដូចជា Azure Conversational Language Understanding (CLU)Rasa ដើម្បីបង្វឹកប្រព័ន្ធឱ្យយល់ពីពាក្យបញ្ជា (Intents) និងវត្ថុបំណង (Entities) ក្នុងបរិបទជាក់លាក់នៃកម្មវិធីរបស់អ្នក។
  4. ធ្វើសមាហរណកម្មប្រព័ន្ធទាំងពីរចូលគ្នា (Integration): សរសេរកូដភ្ជាប់ប្រព័ន្ធ NLP ទៅក្នុងបរិស្ថាន VR ក្នុង Unity (ប្រើ C#) ដើម្បីអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់បញ្ជាវត្ថុ 3D, បិទបើកឧបករណ៍ ឬទាញយកទិន្នន័យចេញមកក្រៅតាមរយៈការនិយាយបញ្ជា។
  5. ធ្វើតេស្តសាកល្បងនិងប្រមូលទិន្នន័យ (User Testing): រៀបចំការធ្វើតេស្តជាមួយអ្នកប្រើប្រាស់ពិតប្រាកដ ដោយផ្តោតលើការវាស់ស្ទង់បន្ទុកផ្លូវចិត្តតាមរយៈទម្រង់ NASA TLX និងប្រមូលទិន្នន័យសំនៀងបន្ថែមដើម្បីកែលម្អម៉ូដែល STT ឱ្យកាន់តែសុក្រឹតសម្រាប់សំនៀងរបស់អ្នកប្រើប្រាស់។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Natural Language Understanding (NLU) NLU គឺជាផ្នែកមួយនៃបច្ចេកវិទ្យា AI (បញ្ញាសិប្បនិម្មិត) ដែលជួយឱ្យម៉ាស៊ីន ឬកុំព្យូទ័រអាចយល់ពីអត្ថន័យ និងបរិបទនៃភាសារបស់មនុស្ស មិនត្រឹមតែស្គាល់ពាក្យប៉ុណ្ណោះទេ ថែមទាំងដឹងពីគោលបំណងពិតប្រាកដរបស់អ្នកនិយាយទៀតផង។ វាប្រៀបដូចជាការបង្រៀនកុំព្យូទ័រឱ្យចេះស្តាប់ធ្លាយដល់អត្ថន័យដែលយើងចង់បាន ដូចមិត្តភក្តិយល់ចិត្តគ្នាអញ្ចឹង។
Intent Recognition ការសម្គាល់ចេតនា គឺជាដំណើរការដែលប្រព័ន្ធកុំព្យូទ័រវិភាគលើពាក្យសម្តី ឬអត្ថបទ ដើម្បីកំណត់ថាអ្នកប្រើប្រាស់មានបំណងចង់ឱ្យវាធ្វើអ្វីឱ្យប្រាកដ (ឧទាហរណ៍៖ បញ្ជាឱ្យបើកភ្លើង ឬទាញយកឧបករណ៍ពេទ្យជាដើម) ទោះបីជាអ្នកប្រើប្រាស់និយាយក្នុងទម្រង់ផ្សេងៗគ្នាក៏ដោយ។ ដូចជាពេលយើងប្រាប់អ្នករត់តុថា "សុំទឹកមួយកែវ" អ្នករត់តុដឹងភ្លាមថាគោលបំណងរបស់យើងគឺចង់ញ៉ាំទឹក។
Automatic Speech Recognition (ASR) ASR គឺជាបច្ចេកវិទ្យាដែលបំប្លែងសំឡេងនិយាយរបស់មនុស្សទៅជាអត្ថបទ (Speech-to-Text) ដោយស្វ័យប្រវត្តិ ដើម្បីឱ្យប្រព័ន្ធកុំព្យូទ័រអាចយកទិន្នន័យអត្ថបទនោះទៅដំណើរការ ឬបញ្ជាបន្ត។ វាប្រៀបដូចជាលេខាដែលអង្គុយស្តាប់ចៅហ្វាយនិយាយ រួចវាយអត្ថបទតាមពាក្យសម្តីទាំងនោះចូលក្នុងកុំព្យូទ័រភ្លាមៗ។
Cognitive Load បន្ទុកផ្លូវចិត្ត ឬការប្រើប្រាស់ខួរក្បាល សំដៅលើបរិមាណនៃការប្រឹងប្រែងផ្នែកស្មារតីដែលអ្នកប្រើប្រាស់ត្រូវចំណាយដើម្បីរៀន យល់ និងចងចាំនៅពេលប្រើប្រាស់ប្រព័ន្ធ ឬកម្មវិធីណាមួយ។ នៅក្នុងការរចនាប្រព័ន្ធ ប្រព័ន្ធដែលល្អត្រូវមានចំណុចនេះទាប ដើម្បីកុំឱ្យអ្នកប្រើប្រាស់ស្មុគស្មាញ។ ដូចជាការព្យាយាមដោះស្រាយលំហាត់គណិតវិទ្យាដ៏ស្មុគស្មាញមួយក្នុងពេលកំពុងបើកបរ ដែលធ្វើឱ្យខួរក្បាលយើងហត់នឿយខ្លាំងតម្រូវឱ្យមានការផ្តោតអារម្មណ៍ទ្វេដង។
Multimodal Interaction អន្តរកម្មពហុទម្រង់ គឺជាការប្រើប្រាស់វិធីសាស្ត្របញ្ជាជាច្រើនបញ្ចូលគ្នា ដូចជាការបញ្ជាតាមសំឡេង បញ្ជាតាមកាយវិការ ការសម្លឹងមើល និងការប៉ះ ដើម្បីប្រាស្រ័យទាក់ទងជាមួយប្រព័ន្ធកុំព្យូទ័រ ឬបរិស្ថានការពិតនិម្មិត (VR) ក្នុងគោលបំណងបង្កើនភាពងាយស្រួលនិងសុក្រឹតភាព។ ដូចជាពេលយើងនិយាយប្រាប់មិត្តភក្តិបណ្តើរ និងចង្អុលដៃបង្ហាញផ្លូវបណ្តើរ ដើម្បីឱ្យគេងាយយល់កាន់តែច្បាស់ដោយប្រើប្រាស់ទាំងសំឡេងនិងកាយវិការក្នុងពេលតែមួយ។
Entity Extraction គឺជាបច្ចេកទេសមួយនៅក្នុងដំណើរការភាសាធម្មជាតិ (NLP) ដែលប្រព័ន្ធមានសមត្ថភាពទាញយកព័ត៌មានលម្អិតសំខាន់ៗ (Entities) ពីក្នុងប្រយោគ ដូចជាឈ្មោះមនុស្ស ទីកន្លែង កាលបរិច្ឆេទ ឬប្រភេទឧបករណ៍ពេទ្យ ដើម្បីយកទៅអនុវត្តបញ្ជាណាមួយ។ ដូចជាសិស្សគូសបន្ទាត់ពណ៌ពីក្រោមពាក្យគន្លឹះសំខាន់ៗនៅក្នុងសៀវភៅ ដើម្បីងាយស្រួលចំណាំនិងទាញយកមកប្រើប្រាស់។
NASA TLX NASA TLX (Task Load Index) គឺជាឧបករណ៍វាស់ស្ទង់ស្តង់ដារមួយដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយនៅក្នុងការស្រាវជ្រាវ ដើម្បីវាយតម្លៃកម្រិតនៃបន្ទុកផ្លូវចិត្ត កាយសម្បទា ការខិតខំប្រឹងប្រែង និងភាពតានតឹង ដែលអ្នកប្រើប្រាស់ជួបប្រទះក្នុងពេលបំពេញការងារណាមួយ។ ដូចជាកម្រងសំណួររបស់គ្រូពេទ្យដែលសួរអ្នកជំងឺថា "តើអ្នកឈឺកម្រិតណាពីលេខ ១ ដល់ ១០?" ប៉ុន្តែនេះគឺជាការវាស់ស្ទង់ពីកម្រិតភាពហត់នឿយរបស់ខួរក្បាលពេលកំពុងបញ្ជាឧបករណ៍។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖