Original Title: 脑启发视频用户体验评测关键技术
Source: doi.org/10.12142/ZTETJ.202101008
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

បច្ចេកទេសគន្លឹះនៃការវាយតម្លៃបទពិសោធន៍អ្នកប្រើប្រាស់វីដេអូដោយផ្អែកលើការបំផុសគំនិតពីខួរក្បាល

ចំណងជើងដើម៖ 脑启发视频用户体验评测关键技术

អ្នកនិពន្ធ៖ 陶晓明 /TAO Xiaoming (Tsinghua University), 杜冰 /DU Bing (University of Science and Technology Beijing), 段一平 /DUAN Yiping (Tsinghua University)

ឆ្នាំបោះពុម្ព៖ 2021, ZTE TECHNOLOGY JOURNAL

វិស័យសិក្សា៖ Telecommunications and Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការវាយតម្លៃគុណភាពបទពិសោធន៍អ្នកប្រើប្រាស់ (QoE) សម្រាប់សេវាកម្មវីដេអូ ដែលវិធីសាស្ត្រប្រពៃណីផ្អែកលើគុណភាពសេវាកម្ម (QoS) មិនអាចឆ្លុះបញ្ចាំងពីការយល់ឃើញ និងការពេញចិត្តពិតប្រាកដរបស់អ្នកប្រើប្រាស់បាន។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់យន្តការសរីរវិទ្យានៃការឆ្លើយតបរបស់រលកខួរក្បាល (EEG) រួមបញ្ចូលជាមួយបច្ចេកវិទ្យាសិក្សាស៊ីជម្រៅ (Deep Learning) ដើម្បីបង្កើតគំរូវាយតម្លៃគុណភាពបទពិសោធន៍ប្រកបដោយភាពច្បាស់លាស់។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Traditional QoS Measurement (PSNR, SSIM)
ការវាស់វែងផ្អែកលើគុណភាពសេវាកម្មប្រពៃណី (QoS ដូចជា PSNR, SSIM)
ងាយស្រួលវាស់វែងដោយប្រើសូចនាករបណ្តាញផ្ទាល់ (ដូចជាកម្រិតបញ្ជូន កម្រិតពន្យារពេល) ដោយមិនត្រូវការការចូលរួមពីអ្នកប្រើប្រាស់ឡើយ។ មិនអាចឆ្លុះបញ្ចាំងពីការយល់ឃើញ និងការពេញចិត្តពិតប្រាកដរបស់អ្នកប្រើប្រាស់ (QoE) នោះទេ ដែលអាចបណ្តាលឱ្យខ្ជះខ្ជាយធនធានបណ្តាញឥតប្រយោជន៍។ ធានាបានត្រឹមតែភាពជាក់លាក់កម្រិតមីក្រូប៉ុណ្ណោះ (Micro-accuracy) តែខ្វះការវាយតម្លៃអារម្មណ៍អ្នកប្រើប្រាស់ជារួម។
Traditional Subjective QoE Measurement (MOS, DMOS)
ការវាស់វែង QoE ផ្អែកលើការវាយតម្លៃប្រធានបទ (MOS, DMOS)
ឆ្លុះបញ្ចាំងដោយផ្ទាល់ពីអារម្មណ៍ និងការយល់ឃើញរបស់អ្នកប្រើប្រាស់ចំពោះសេវាកម្មវីដេអូ។ ត្រូវការសំណាកទិន្នន័យធំខ្លាំង (ឧទាហរណ៍៖ អ្នកប្រើប្រាស់រហូតដល់ ១០០,០០០នាក់) ហើយងាយរងឥទ្ធិពលពីភាពលម្អៀង និងការយល់ឃើញខុសៗគ្នារបស់បុគ្គល។ ទាមទារទិន្នន័យច្រើនសន្ធឹកសន្ធាប់ដើម្បីទាញយកទំនាក់ទំនងស្ថិតស្ថេររវាងគុណភាពវីដេអូ និងបទពិសោធន៍។
Brain-Inspired Video QoE Prediction (EEG + Deep Learning)
ការទស្សន៍ទាយ QoE ផ្អែកលើរលកខួរក្បាល និងការសិក្សាស៊ីជម្រៅ (គំរូដែលបានស្នើ)
អាចវាស់វែងបានយ៉ាងច្បាស់លាស់ និងមានស្ថិរភាពទោះបីជាមានសំណាកទិន្នន័យតូចក៏ដោយ ដោយលុបបំបាត់ភាពលម្អៀងរបស់បុគ្គល។ ត្រូវការឧបករណ៍វាស់រលកខួរក្បាល (EEG) និងសមត្ថភាពគណនាខ្ពស់សម្រាប់ការហ្វឹកហាត់គំរូ AI ក៏ដូចជាការរៀបចំទិន្នន័យស្មុគស្មាញ។ សម្រេចបាននូវប្រព័ន្ធវាយតម្លៃវីដេអូតាមពេលវេលាជាក់ស្តែង (Real-time online prediction) ដោយគូសវាសសូចនាករបណ្តាញទៅជាពិន្ទុបទពិសោធន៍។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតអំពីតម្លៃធនធានជាក់លាក់នោះទេ ប៉ុន្តែផ្អែកលើវិធីសាស្ត្រដែលបានប្រើប្រាស់ ការអនុវត្តគម្រោងនេះទាមទារការវិនិយោគគួរឱ្យកត់សម្គាល់លើឧបករណ៍ផ្នែករឹង និងសមត្ថភាពគណនា។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះទំនងជាពឹងផ្អែកលើសំណាកទិន្នន័យនៅក្នុងបរិបទប្រទេសចិន និងអ្នកចូលរួមនៅក្នុងមន្ទីរពិសោធន៍ដែលប្រើប្រាស់បណ្តាញទូរគមនាគមន៍ចិន។ គុណភាពនៃបណ្តាញ ល្បឿនអ៊ិនធឺណិត និងអាកប្បកិរិយារបស់អ្នកប្រើប្រាស់នៅកម្ពុជាអាចមានភាពខុសគ្នាស្រឡះ។ ហេតុនេះ ការយកមកអនុវត្តផ្ទាល់ចាំបាច់ត្រូវមានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែមដើម្បីកែសម្រួលគំរូ (Fine-tuning) ឱ្យស្របតាមបរិបទកម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់សម្រាប់ប្រតិបត្តិករទូរគមនាគមន៍ និងអ្នកផ្តល់សេវាឌីជីថលនៅកម្ពុជា ក្នុងការផ្លាស់ប្តូរពីការប្រកួតប្រជែងលើទំហំសេវា ទៅជាការប្រកួតប្រជែងលើគុណភាពបទពិសោធន៍។

ជារួម ការអនុវត្តប្រព័ន្ធវាយតម្លៃ QoE ផ្អែកលើរលកខួរក្បាលនេះ នឹងជួយឱ្យអ្នកផ្តល់សេវាអ៊ិនធឺណិតនៅកម្ពុជាអាចសន្សំសំចៃធនធានបណ្តាញប្រកបដោយប្រសិទ្ធភាព និងផ្តល់សេវាកម្មដែលឆ្លើយតបចំតម្រូវការអារម្មណ៍របស់អតិថិជន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃបញ្ញាសិប្បនិម្មិត និងទូរគមនាគមន៍: ចាប់ផ្តើមពីការស្វែងយល់ពីសូចនាករបណ្តាញ (QoS, KPI, KQI) និងការរៀនសរសេរកូដដោយប្រើ Python រួមជាមួយ TensorFlowKeras សម្រាប់ការកសាងគំរូ Deep Learning ដំបូង។
  2. ប្រមូលទិន្នន័យបណ្តាញក្នុងស្រុក: បង្កើតគម្រោងខ្នាតតូចដោយប្រើកម្មវិធីដូចជា Wireshark ដើម្បីប្រមូលទិន្នន័យ Network Parameters (ដូចជា Bitrate, Latency, Packet loss) ពេលកំពុងមើលវីដេអូនៅលើបណ្តាញទូរស័ព្ទចល័តនៅកម្ពុជា រួមជាមួយការកត់ត្រាពិន្ទុវាយតម្លៃ (MOS)។
  3. ធ្វើការសាកល្បងជាមួយឧបករណ៍វាស់រលកខួរក្បាល (EEG): ប្រើប្រាស់ឧបករណ៍ Consumer-grade EEG ដែលមានតម្លៃសមរម្យ (ឧទាហរណ៍៖ Emotiv EPOCOpenBCI) ដើម្បីប្រមូលសញ្ញាខួរក្បាលរបស់អ្នកចូលរួមពេលកំពុងមើលវីដេអូ និងសិក្សាពីបច្ចេកទេសទាញយកលក្ខណៈពិសេស ERPs ពីសញ្ញាទាំងនោះ។
  4. អភិវឌ្ឍគំរូទស្សន៍ទាយគុណភាពបទពិសោធន៍ (QoE Model): ប្រើប្រាស់ទិន្នន័យដែលប្រមូលបានដើម្បីបង្វឹកបណ្តាញសរសៃប្រសាទ (Neural Network) ដោយអនុវត្តបច្ចេកទេស One-hot encoding និងវាយតម្លៃភាពត្រឹមត្រូវនៃគំរូក្នុងការទស្សន៍ទាយពិន្ទុដោយស្វ័យប្រវត្តិ។
  5. សាងសង់ប្រព័ន្ធវាយតម្លៃតាមពេលវេលាជាក់ស្តែង: បង្កើតកម្មវិធីកុំព្យូទ័រខ្នាតតូចដោយប្រើ REST API ដើម្បីទាញយកទិន្នន័យបណ្តាញភ្លាមៗ រួចបញ្ជូនទៅកាន់គំរូ AI ដែលបានហ្វឹកហាត់រួច ដើម្បីបង្ហាញពីកម្រិតគុណភាពបទពិសោធន៍ (QoE) របស់អ្នកប្រើប្រាស់ក្នុងពេលជាក់ស្តែងនៅលើផ្ទាំងគ្រប់គ្រង (Dashboard)។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Quality of Experience (QoE) រង្វាស់នៃការយល់ឃើញ ការពេញចិត្ត និងបទពិសោធន៍ជារួមរបស់អ្នកប្រើប្រាស់ចំពោះសេវាកម្មណាមួយ (ឧទាហរណ៍៖ ការមើលវីដេអូ) ដោយផ្តោតលើអារម្មណ៍ពិតប្រាកដរបស់អ្នកប្រើប្រាស់ជាជាងត្រឹមតែលក្ខណៈបច្ចេកទេសនៃបណ្តាញ។ ដូចជាការសួរអតិថិជនផ្ទាល់ថាម្ហូបនេះឆ្ងាញ់កម្រិតណា និងពេញចិត្តឬអត់ ជាជាងគ្រាន់តែវាស់កម្តៅឬថ្លឹងទម្ងន់នៃម្ហូបនោះ។
Quality of Service (QoS) សូចនាករបច្ចេកទេសសុទ្ធសាធដែលវាស់វែងដំណើរការរបស់បណ្តាញទូរគមនាគមន៍ (ដូចជាល្បឿនបញ្ជូនទិន្នន័យ កម្រិតពន្យារពេល និងការបាត់បង់កញ្ចប់ទិន្នន័យ) ដោយមិនគិតពីអារម្មណ៍ ឬការយល់ឃើញរបស់អ្នកប្រើប្រាស់ឡើយ។ ដូចជាការវាស់ល្បឿនរថយន្ត និងទំហំផ្លូវ ប៉ុន្តែមិនបានដឹងថាអ្នកជិះនៅខាងក្នុងមានអារម្មណ៍ធុញថប់ រលាក់ ឬមានផាសុកភាពនោះទេ។
Electroencephalogram (EEG) វិធីសាស្ត្រជីវសាស្ត្រក្នុងការវាស់វែង និងកត់ត្រាសកម្មភាពចរន្តអគ្គិសនីនៃខួរក្បាលរបស់មនុស្ស ដោយប្រើឧបករណ៍ចាប់សញ្ញាបំពាក់នៅលើស្បែកក្បាល ដើម្បីតាមដានប្រតិកម្មខួរក្បាលតបតនឹងអ្វីមួយ (ដូចជាពេលកំពុងមើលវីដេអូ)។ ដូចជាការដាក់ប្រដាប់ស្តាប់ចង្វាក់បេះដូងដើម្បីដឹងពីកម្រិតរំភើប ប៉ុន្តែនេះជាឧបករណ៍សម្រាប់ស្តាប់រលកសញ្ញានៅក្នុងខួរក្បាលជំនួសវិញ។
Event-Related Potentials (ERPs) ការឆ្លើយតបនៃរលកខួរក្បាលជាក់លាក់ណាមួយ ដែលកើតឡើងភ្លាមៗបន្ទាប់ពីមានព្រឹត្តិការណ៍រំញោច (ដូចជាពេលវីដេអូចាប់ផ្តើមគាំង ឬរអាក់រអួល) ដែលជួយឱ្យអ្នកស្រាវជ្រាវដឹងពីកម្រិតនៃការចាប់អារម្មណ៍របស់អ្នកប្រើប្រាស់។ ដូចជាប្រតិកម្មញាក់មុខភ្លាមៗដោយអូតូម៉ាទិច នៅពេលអ្នកភ្លក់ប៉ះអាហារដែលមានរសជាតិជូរខ្លាំង។
Just Noticeable Difference (JND) កម្រិតនៃការផ្លាស់ប្តូរតូចបំផុតនៃគុណភាពវីដេអូ (ឬរំញោចផ្សេងៗ) ដែលភ្នែកមនុស្សអាចកត់សម្គាល់ ឬមើលដឹងថាមានភាពខុសគ្នា។ បើទាបជាងចំណុចនេះ មនុស្សនឹងគិតថាវីដេអូទាំងពីរមានគុណភាពដូចគ្នា។ ដូចជាការថែមអំបិលមួយគ្រាប់ចូលសម្ល អ្នកមិនដឹងរសជាតិខុសគ្នាទេ លុះត្រាតែអ្នកថែមដល់កម្រិតបរិមាណមួយទើបអ្នកដឹងថាវាប្រៃជាងមុន (កម្រិតនោះហើយគឺ JND)។
One-hot encoding បច្ចេកទេសរៀបចំទិន្នន័យក្នុងការសិក្សាម៉ាស៊ីន (Machine Learning) ដែលបំប្លែងទិន្នន័យប្រភេទអក្សរ ឬចំណាត់ថ្នាក់ ទៅជាទម្រង់លេខសូន្យ និងមួយ (0 និង 1) ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ និងគណនាបាន។ ដូចជាការប្តូរឈ្មោះសិស្សទៅជាលេខកូដសម្ងាត់ដែលមានតែលេខ 0 និង 1 ដើម្បីឱ្យម៉ាស៊ីនងាយស្រួលអានជាជាងការអានឈ្មោះវែងៗ។
Spearman correlation coefficient រង្វាស់ស្ថិតិដែលប្រើសម្រាប់គណនារកទំនាក់ទំនង និងកម្រិតឥទ្ធិពលរវាងអថេរពីរ (ឧទាហរណ៍៖ រវាងចំនួនដងនៃការគាំងវីដេអូ និងការពិន្ទុរបស់អ្នកប្រើប្រាស់) ថាតើវាដើរស្របគ្នាឬផ្ទុយគ្នា។ ដូចជាការវាស់លេខដើម្បីបញ្ជាក់ថា តើការចំណាយពេលអានសៀវភៅច្រើន មានទំនាក់ទំនងខ្លាំងកម្រិតណាជាមួយការទទួលបានពិន្ទុប្រឡងខ្ពស់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖