បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃគម្លាតន័យវិទ្យារវាងសកម្មភាពដែលអាចសង្កេតបាន និងសកម្មភាពពិតប្រាកដរបស់មនុស្ស នៅក្នុងប្រព័ន្ធទទួលស្គាល់សកម្មភាព (Activity Recognition)។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឡើងនូវវិធីសាស្ត្រធ្វើគំរូបរិបទបរិស្ថានដោយប្រយោល និងក្របខ័ណ្ឌអនុមានសកម្មភាពន័យវិទ្យាច្រើនស្រទាប់ដែលបែងចែកដំណើរការជា ២ ដំណាក់កាល។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Single-layer Inference (Logistic Regression/HMM) គំរូអនុមាន១ស្រទាប់ (ប្រើប្រាស់ភ័ស្តុតាងទាំងអស់ក្នុងពេលតែមួយ) |
មានភាពសាមញ្ញក្នុងការរៀបចំ និងត្រូវការចំនួនប៉ារ៉ាម៉ែត្រសរុបតិចតួចជាងគំរូច្រើនស្រទាប់។ | ងាយប្រឈមនឹងបញ្ហា Overfitting លើគំរូនីមួយៗ ហើយមិនអាចទាញយកអត្ថប្រយោជន៍ពីការបែងចែកប្រភេទលក្ខណៈពិសេស (Features) ឡើយ ដែលធ្វើឱ្យរងការរំខានពីទិន្នន័យមិនចាំបាច់។ | សម្រេចបានភាពត្រឹមត្រូវ ៨៥,២០% ជាមួយនឹងគំរូចំនួន១ និងប៉ារ៉ាម៉ែត្រសរុប ៣១៥ (សម្រាប់ការធ្វើតេស្តដោយប្រើ Logistic Regression)។ |
| Two-layer Semantic Inference (Proposed Method) គំរូអនុមានន័យវិទ្យា២ស្រទាប់ (វិធីសាស្ត្រស្នើឡើង) |
កាត់បន្ថយប៉ារ៉ាម៉ែត្រក្នុងគំរូនីមួយៗ (ជៀសវាងហានិភ័យ Overfitting) និងបង្កើនប្រសិទ្ធភាពប្រព័ន្ធដោយទាញយកលក្ខណៈពិសេសតាមលំដាប់លំដោយ ពីព្រិលៗទៅច្បាស់លាស់។ | ទាមទារការបែងចែកលក្ខណៈពិសេសជាសាធារណៈ និងឯកជន (Public/Private Features) ជាមុនដោយប្រើប្រាស់ចំណេះដឹងពីអ្នកជំនាញ ព្រមទាំងមានការកើនឡើងនូវចំនួនប៉ារ៉ាម៉ែត្រសរុបនៃប្រព័ន្ធទាំងមូល។ | សម្រេចបានភាពត្រឹមត្រូវកើនឡើងដល់ ៨៥,៦១% ជាមួយនឹងគំរូចំនួន៨ និងប៉ារ៉ាម៉ែត្រសរុប ៥៣៩ (សម្រាប់ការធ្វើតេស្តដោយប្រើ Logistic Regression)។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារឧបករណ៍ចាប់យករូបភាពវីដេអូច្រើនជ្រុង (Multi-camera hardware) និងសមត្ថភាពកុំព្យូទ័រក្នុងការគណនាម៉ូដែល Machine Learning។
ការសិក្សានេះប្រមូលទិន្នន័យនៅក្នុងបរិស្ថានមន្ទីរពិសោធន៍ក្នុងផ្ទះដែលបានរៀបចំទុកជាមុន ដោយផ្តោតលើសកម្មភាពតែ ៧ ប្រភេទប៉ុណ្ណោះ។ នេះមានន័យថា វានឹងជួបប្រទះបញ្ហានៅពេលយកមកប្រើប្រាស់ក្នុងបរិបទជាក់ស្តែងនៅប្រទេសកម្ពុជា ដែលមានការរៀបចំផ្ទះ ពន្លឺ វត្ថុប្រើប្រាស់ និងទម្លាប់នៃការរស់នៅខុសប្លែកពីទិន្នន័យពិសោធន៍មួយនេះទាំងស្រុង។
ទោះបីជាមានកម្រិតទិន្នន័យក្តី ប៉ុន្តែក្របខ័ណ្ឌអនុមាននេះមានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធឆ្លាតវៃ (Smart Systems) នៅកម្ពុជា។
ដើម្បីឱ្យប្រព័ន្ធនេះដំណើរការល្អនៅកម្ពុជា គេចាំបាច់ត្រូវប្រមូលទិន្នន័យវីដេអូបន្ថែមពីបរិស្ថានជាក់ស្តែងនៅក្នុងប្រទេស ដើម្បីបង្វឹកម៉ូដែលនេះឡើងវិញឱ្យស៊ីគ្នានឹងបរិបទក្នុងស្រុក។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Human-Centered Computing | ជាគំរូនៃប្រព័ន្ធកុំព្យូទ័រដែលផ្តោតលើការយល់ដឹងពីអាកប្បកិរិយា តម្រូវការ និងអារម្មណ៍របស់មនុស្ស ជាជាងការឱ្យមនុស្សសម្របតាមម៉ាស៊ីន (ដូចជាការវាយអក្សរលើក្ដារចុច) ដោយប្រើការប្រាស្រ័យទាក់ទងតាមបែបធម្មជាតិ។ | ដូចជាការបង្រៀនកុំព្យូទ័រឱ្យចេះមើលទឹកមុខ និងកាយវិការរបស់យើង ដើម្បីដឹងថាយើងចង់បានអ្វី ដោយមិនបាច់បញ្ជាវាផ្ទាល់។ |
| Semantic Gap | គឺជាភាពខុសគ្នារវាងទិន្នន័យកម្រិតទាបដែលម៉ាស៊ីនចាប់យកបាន (ឧទាហរណ៍៖ ចលនាដៃ ឬភីកសែលក្នុងវីដេអូ) និងអត្ថន័យពិតប្រាកដដែលមនុស្សអាចយល់បាន (ឧទាហរណ៍៖ សកម្មភាព "ផឹកទឹក") នៅក្នុងប្រព័ន្ធចក្ខុកុំព្យូទ័រ។ | ដូចជាការឃើញមនុស្សម្នាក់លើកដៃឡើង ប៉ុន្តែយើងមិនដឹងច្បាស់ថាគាត់ចង់សួរសំណួរ ឬគ្រាន់តែពត់ខ្លួននោះទេ ទាល់តែមានបរិបទដើម្បីបញ្ជាក់។ |
| Environment Context | ជាព័ត៌មានអំពីបរិយាកាសជុំវិញខ្លួនមនុស្ស ដូចជាទីតាំង វត្ថុប្រើប្រាស់ (កៅអី តុ ទូរទស្សន៍) ដែលត្រូវបានប្រើដើម្បីជួយគណនាប្រូបាប៊ីលីតេថាតើសកម្មភាពអ្វីមួយងាយនឹងកើតឡើងនៅទីនោះឬអត់។ | ដូចជាការសន្និដ្ឋានថា បើមនុស្សម្នាក់នៅក្នុងផ្ទះបាយ គាត់ទំនងជាកំពុងធ្វើម្ហូបជាជាងការដេក។ |
| Hidden Markov Model | ជាម៉ូដែលស្ថិតិប្រើសម្រាប់ទស្សន៍ទាយស្ថានភាពដែលលាក់កំបាំង (ដូចជាអត្ថន័យនៃសកម្មភាព) ដោយផ្អែកលើការសង្កេតមើលព្រឹត្តិការណ៍ជាបន្តបន្ទាប់តាមពេលវេលា (Time-series data)។ | ដូចជាការទាយថាអាកាសធាតុថ្ងៃនេះភ្លៀងឬអត់ ដោយគ្រាន់តែសង្កេតមើលថាតើមនុស្សនៅខាងក្រៅកាន់ឆ័ត្រឬអត់ជាច្រើនថ្ងៃជាប់ៗគ្នា។ |
| Logistic Regression | ជាក្បួនដោះស្រាយផ្នែក Machine Learning ដែលប្រើសម្រាប់គណនាឱកាស (Probability) ដែលព្រឹត្តិការណ៍មួយនឹងកើតឡើង ឬសម្រាប់បែងចែកចំណាត់ថ្នាក់ទិន្នន័យជាក្រុមៗ ដោយផ្អែកលើលក្ខណៈពិសេសដែលបានសង្កេតឃើញ។ | ដូចជាការថ្លឹងទម្ងន់នៃភស្តុតាងផ្សេងៗ ដើម្បីសម្រេចចិត្តចុងក្រោយថា "មែន" ឬ "មិនមែន" (ឧទាហរណ៍៖ តើគាត់កំពុងញ៉ាំបាយមែនទេ?)។ |
| Public and Private Features | នៅក្នុងក្របខ័ណ្ឌនេះ លក្ខណៈពិសេសសាធារណៈ (Public) គឺជាចំណុចរួមដែលមាននៅក្នុងសកម្មភាពច្រើន (ឧ. ការកាន់វត្ថុក្នុងដៃ) ចំណែកលក្ខណៈពិសេសឯកជន (Private) គឺជាចំណុចជាក់លាក់ដែលមានតែក្នុងសកម្មភាពណាមួយប៉ុណ្ណោះ (ឧ. វត្ថុនោះជាកែវទឹក)។ | ដូចជាសត្វស្លាបទាំងអស់មានស្លាប (Public Feature) ប៉ុន្តែមានតែសត្វសេកទេដែលអាចនិយាយបាន (Private Feature)។ |
| Multilayer Inference | ជាដំណើរការនៃការទាញសេចក្តីសន្និដ្ឋានជាដំណាក់កាលៗ ដោយកាត់បន្ថយភាពស្មុគស្មាញ។ វាចាប់ផ្តើមពីការយល់ដឹងជារួម (ព្រិលៗ) ដោយប្រើប្រាស់ Public Features បន្ទាប់មកទើបស្វែងរក Private Features បន្ថែម ដើម្បីកំណត់អត្ថន័យឱ្យបានច្បាស់លាស់។ | ដូចជាការលេងល្បែងទាយពាក្យ ដោយផ្ដើមពីការទាយថាវាជា "សត្វ" រួចទើបសួររកតម្រុយបន្តបន្ទាប់រហូតដឹងថាវាជា "សត្វឆ្កែ"។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖