Original Title: Design and Implementation of a ROS-Based Voice-Controlled Intelligent Robotic Arm for Automatic Medical Waste Segregation Using YOLOv3 and Real-Time Object Detection
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការរចនា និងការអនុវត្តដៃមនុស្សយន្តឆ្លាតវៃបញ្ជាដោយសំឡេងផ្អែកលើ ROS សម្រាប់ការបែងចែកសំណល់វេជ្ជសាស្ត្រដោយស្វ័យប្រវត្តិដោយប្រើប្រាស់ YOLOv3 និងការរកឃើញវត្ថុក្នុងពេលវេលាជាក់ស្តែង

ចំណងជើងដើម៖ Design and Implementation of a ROS-Based Voice-Controlled Intelligent Robotic Arm for Automatic Medical Waste Segregation Using YOLOv3 and Real-Time Object Detection

អ្នកនិពន្ធ៖ Sherif Youseff, Adekola Philip, Farinu Hamzah, Adedokun Taofeek, Barnty Barnanas, Bueden John, Dorcas Lucas, Stephenie Popoola, Phebe Adeola, Emmanuel Francis, Mayowa Alonge, Aremu Oluwaferanmi, David Olagunju, David Oluremi, Emmanuel Edward, Philip Adekola, Warren Liang, Moses Blessing, Adam Rajoy

ឆ្នាំបោះពុម្ព៖ 2025

វិស័យសិក្សា៖ Robotics and Healthcare Automation

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការគ្រប់គ្រង និងការបែងចែកសំណល់វេជ្ជសាស្ត្រដោយដៃមានហានិភ័យខ្ពស់ដល់សុខភាពអ្នកបម្រើការងារ និងបរិស្ថាន ជាពិសេសនៅតាមមន្ទីរពេទ្យដែលខ្វះប្រព័ន្ធស្វ័យប្រវត្តិកម្ម។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះរចនា និងអនុវត្តប្រព័ន្ធមនុស្សយន្តរួមបញ្ចូលគ្នាជាមួយបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិត និងកាមេរ៉ា ដើម្បីគ្រប់គ្រងនិងបែងចែកសំណល់ដោយស្វ័យប្រវត្តិ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Manual Waste Segregation
ការបែងចែកសំណល់ដោយដៃ (វិធីសាស្ត្របុរាណ)
មិនទាមទារការវិនិយោគលើបច្ចេកវិទ្យាស្មុគស្មាញ និងមានភាពបត់បែនខ្ពស់តាមស្ថានភាពជាក់ស្តែង។ មានហានិភ័យខ្ពស់ចំពោះបុគ្គលិកពេទ្យ (ការឆ្លងមេរោគ មុតម្ជុល) ងាយមានកំហុសដោយសារភាពនឿយហត់ និងចំណាយពេលយូរ។ មានប្រសិទ្ធភាពទាប និងមានហានិភ័យខ្ពស់ដល់សុវត្ថិភាពការងារ។
ROS-based Robotic Arm with YOLOv3 & Voice Control
ប្រព័ន្ធមនុស្សយន្តផ្អែកលើ ROS ប្រើ YOLOv3 និងបញ្ជាដោយសំឡេង (វិធីសាស្ត្រស្នើឡើង)
កាត់បន្ថយហានិភ័យនៃការប៉ះពាល់ផ្ទាល់ មានសុវត្ថិភាពខ្ពស់ មានភាពត្រឹមត្រូវខ្ពស់ក្នុងការរកឃើញ និងបែងចែកសំណល់ក្នុងពេលវេលាជាក់ស្តែងដោយស្វ័យប្រវត្តិ។ ទាមទារការចំណាយលើផ្នែករឹង (Hardware) ដំបូង និងអាចមានការលំបាកក្នុងការចាប់យកវត្ថុដែលទន់ពេក ឬខូចទ្រង់ទ្រាយខ្លាំង។ សម្រេចបានអត្រាជោគជ័យខ្ពស់ក្នុងការរកឃើញ (mAP ខ្ពស់) ភាពជាក់លាក់ក្នុងការចាប់យក និងការឆ្លើយតបលឿនចំពោះការបញ្ជាដោយសំឡេងក្នុងមន្ទីរពិសោធន៍។
Faster R-CNN Detection Architecture
ម៉ូដែលរកឃើញវត្ថុ Faster R-CNN (ម៉ូដែលប្រៀបធៀប)
ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុតក្នុងការរកឃើញវត្ថុ និងប្រអប់ព្រំដែន (Bounding box)។ ត្រូវការថាមពលគណនាធំ (Computational complexity) និងដំណើរការយឺត ដែលមិនស័ក្តិសមសម្រាប់ប្រតិបត្តិការមនុស្សយន្តក្នុងពេលវេលាជាក់ស្តែង។ មិនសូវស័ក្តិសមសម្រាប់ប្រព័ន្ធនេះបើធៀបនឹង YOLOv3 ដែលមានតុល្យភាពរវាងល្បឿន និងភាពត្រឹមត្រូវ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអភិវឌ្ឍប្រព័ន្ធនេះទាមទារឱ្យមានការរៀបចំផ្នែករឹង (Hardware) ច្បាស់លាស់ ឧបករណ៍ចាប់សញ្ញា និងប្រព័ន្ធកុំព្យូទ័រដែលមានសមត្ថភាពគ្រប់គ្រាន់ដើម្បីដំណើរការម៉ូដែល AI ក្នុងពេលវេលាជាក់ស្តែង។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅក្នុងបរិយាកាសមន្ទីរពិសោធន៍ដែលគ្រប់គ្រងបាន (Controlled laboratory environment) ដោយប្រើសំណុំទិន្នន័យដែលបានរៀបចំទុកជាមុន មិនមែននៅក្នុងមន្ទីរពេទ្យជាក់ស្តែងនោះទេ។ នេះមានន័យថា ប្រព័ន្ធនេះអាចនឹងជួបបញ្ហានៅពេលប្រឈមនឹងពន្លឺមិនល្អ សំឡេងរំខានខ្លាំង ឬកាកសំណល់ប្លែកៗដែលមិនធ្លាប់មានក្នុងទិន្នន័យបណ្តុះបណ្តាល។ សម្រាប់ប្រទេសកម្ពុជា ការយកប្រព័ន្ធនេះមកប្រើប្រាស់ចាំបាច់ត្រូវមានការប្រមូលទិន្នន័យសំណល់វេជ្ជសាស្ត្រជាក់ស្តែងនៅតាមមន្ទីរពេទ្យក្នុងស្រុកដើម្បីឱ្យម៉ូដែលដំណើរការបានល្អ និងចៀសវាងភាពលម្អៀង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ប្រព័ន្ធមនុស្សយន្តនេះពិតជាមានសក្តានុពលខ្ពស់សម្រាប់ប្រទេសកម្ពុជា ជាពិសេសក្នុងការលើកកម្ពស់សុវត្ថិភាព និងស្តង់ដារអនាម័យស្របតាមគោលការណ៍គ្រប់គ្រងសំណល់វេជ្ជសាស្ត្រ។

សរុបមក ទោះបីជាទាមទារការវិនិយោគដំបូង និងការបណ្តុះបណ្តាលទិន្នន័យថ្មីក៏ដោយ ការអនុវត្តបច្ចេកវិទ្យានេះនឹងជួយផ្លាស់ប្តូរមុខមាត់ប្រព័ន្ធគ្រប់គ្រងសំណល់វេជ្ជសាស្ត្រនៅកម្ពុជាឱ្យកាន់តែមានសុវត្ថិភាព ទំនើប និងស្របតាមស្តង់ដារអន្តរជាតិ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃមនុស្សយន្ត និង ROS: ចាប់ផ្តើមរៀនពីប្រព័ន្ធប្រតិបត្តិការ ROS (Robot Operating System) និងវិធីសាស្ត្របញ្ជាចលនាមនុស្សយន្តកម្រិតមូលដ្ឋានដោយប្រើប្រាស់ ROS MoveIt! សម្រាប់ការធ្វើផែនការចលនា (Motion planning)។
  2. អភិវឌ្ឍជំនាញផ្នែក Computer Vision ជាមួយ Deep Learning: សិក្សាពីការប្រើប្រាស់ OpenCV និងបណ្តុះបណ្តាលម៉ូដែលរកឃើញវត្ថុដូចជា YOLOv3 ឬម៉ូដែលថ្មីជាងនេះដូចជា YOLOv8 ដោយសាកល្បងជាមួយទិន្នន័យរូបភាពសំណល់ (កញ្ចក់ ស៊ីរ៉ាំង កេស)។
  3. សាកល្បងប្រព័ន្ធគ្រប់គ្រងដោយសំឡេង (Voice Control): ស្រាវជ្រាវ និងសាកល្បងបណ្ណាល័យទទួលស្គាល់សំឡេង (Speech Recognition) ដូចជា Vosk (សម្រាប់ការប្រើប្រាស់ Offline) ឫ Google Speech-to-Text ហើយតភ្ជាប់វាទៅកាន់បណ្តាញ ROS Topics ដើម្បីបញ្ជាសកម្មភាពសាមញ្ញៗដូចជា 'Start' ឬ 'Stop'។
  4. បង្កើតគំរូសាកល្បងខ្នាតតូច (Hardware Prototype): ប្រើប្រាស់ក្តារ Arduino ជាមួយ Raspberry Pi និងកាមេរ៉ា Webcam តម្លៃសមរម្យ ដើម្បីផ្គុំដៃមនុស្សយន្តតូចមួយ ព្រមទាំងរចនាដង្កៀប (Gripper) ទន់ៗ រួចធ្វើតេស្តការចាប់យកវត្ថុផ្អែកលើការរកឃើញដោយកាមេរ៉ា។
  5. ប្រមូលទិន្នន័យជាក់ស្តែង និងធ្វើតេស្តក្នុងបរិយាកាសពិត: ចុះទៅថតរូបភាពសំណល់វេជ្ជសាស្ត្រពិតប្រាកដនៅតាមគ្លីនិកកម្ពុជា រួចធ្វើការបិទស្លាកទិន្នន័យ (Data Annotation) ដើម្បីយកមកបង្វឹកម៉ូដែល AI ឡើងវិញ (Retrain) ធានាថាប្រព័ន្ធអាចស្គាល់សំណល់ក្នុងស្រុកបានច្បាស់លាស់ ទោះក្នុងស្ថានភាពពន្លឺខ្សោយក៏ដោយ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Robot Operating System (ROS) វាមិនមែនជាប្រព័ន្ធប្រតិបត្តិការដូចវីនដូ (Windows) នោះទេ ប៉ុន្តែវាជាបណ្តុំនៃកម្មវិធី ឬក្របខណ្ឌកណ្តាល (Middleware) ដែលជួយឱ្យផ្នែកផ្សេងៗនៃមនុស្សយន្ត (ដូចជាកាមេរ៉ា ម៉ូទ័រ និងសេនស័រ) អាចទាក់ទង និងធ្វើការជាមួយគ្នាបានយ៉ាងរលូនតាមរយៈការបញ្ជូនសារ។ ប្រៀបដូចជាអ្នកសម្របសម្រួលនៅកណ្តាល ដែលជួយឱ្យផ្នែករាងកាយផ្សេងៗរបស់មនុស្សយន្តអាចយល់ចិត្តគ្នា និងធ្វើការព្រមគ្នាបាន។
YOLOv3 វាជាម៉ូដែលបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិត (Deep Learning) សម្រាប់កុំព្យូទ័រចក្ខុ (Computer Vision) ដែលអាចរកឃើញ និងធ្វើចំណាត់ថ្នាក់វត្ថុដោយប្រើតែការស្កេនរូបភាពទាំងមូលតែម្តងគត់ ដែលធ្វើឱ្យវាមានល្បឿនលឿនខ្លាំងសម្រាប់ការរកឃើញក្នុងពេលជាក់ស្តែង (Real-time)។ ប្រៀបដូចជាភ្នែកវេទមន្តដែលអាចមើលឃើញរូបភាពមួយផ្ទាំងភ្លាម ដឹងភ្លាមថាមានរបស់អ្វីខ្លះ និងនៅទីតាំងណាខ្លះដោយមិនបាច់ចំណាយពេលសម្លឹងមើលម្តងមួយៗ។
Kinematics ជាផ្នែកនៃរូបវិទ្យា និងគណិតវិទ្យាដែលគណនាចលនារបស់មនុស្សយន្ត។ វារួមមាន Forward Kinematics (គណនាទីតាំងចុងដៃដោយផ្អែកលើមុំសន្លាក់) និង Inverse Kinematics (គណនាមុំសន្លាក់នីមួយៗដើម្បីឱ្យចុងដៃទៅដល់ទីតាំងដែលចង់បាន)។ ប្រៀបដូចជាការគិតក្នុងខួរក្បាលថាតើត្រូវបត់កែងដៃ និងស្មាមានមុំប៉ុន្មាន ដើម្បីលូកដៃទៅចាប់យកកែវទឹកនៅលើតុបានចំគោលដៅ។
Motion Planning គឺជាដំណើរការនៃការបង្កើតផ្លូវ ឬគន្លងធ្វើដំណើរដោយស្វ័យប្រវត្តិសម្រាប់ដៃមនុស្សយន្ត ពីទីតាំងបច្ចុប្បន្នទៅទីតាំងគោលដៅ ដោយធានាថាវាធ្វើចលនាដោយរលូន សុវត្ថិភាព និងមិនទៅបុកទង្គិចជាមួយឧបសគ្គផ្សេងៗ។ ប្រៀបដូចជាការប្រើប្រាស់កម្មវិធីផែនទី (Google Maps) ដើម្បីរកផ្លូវដែលល្អ និងមានសុវត្ថិភាពបំផុតពីផ្ទះទៅសាលារៀន ដោយចៀសវាងផ្លូវដែលកំពុងស្ទះឬមានឧបសគ្គ។
Bounding Box ក្នុងប្រព័ន្ធកុំព្យូទ័រចក្ខុ វាគឺជាប្រអប់ចតុកោណកែងនិម្មិតដែលម៉ូដែលកុំព្យូទ័រគូសព័ទ្ធជុំវិញវត្ថុដែលវាបានរកឃើញក្នុងរូបភាព ដើម្បីបញ្ជាក់ពីទីតាំង ទំហំ និងព្រំដែននៃវត្ថុនោះយ៉ាងជាក់លាក់។ ដូចជាការយកប៊ិចទៅគូសរង្វង់ ឬប្រអប់ព័ទ្ធជុំវិញមុខរបស់មនុស្សនៅក្នុងរូបថត ដើម្បីប្រាប់កុំព្យូទ័រថា "វត្ថុដែលយើងចង់បានគឺនៅត្រង់នេះ"។
Mean Average Precision (mAP) វាជារង្វាស់ស្តង់ដារមួយដែលប្រើសម្រាប់វាយតម្លៃគុណភាពម៉ូដែល AI ក្នុងការរកឃើញវត្ថុ ដោយគិតបញ្ចូលទាំងភាពច្បាស់លាស់នៃការគូសប្រអប់ទីតាំង (Localization) និងភាពត្រឹមត្រូវនៃការកំណត់ប្រភេទវត្ថុ (Classification)។ ប្រៀបដូចជាពិន្ទុប្រឡងសរុបរបស់សិស្សម្នាក់ ដែលបង្ហាញពីសមត្ថភាពរួមរបស់គាត់ក្នុងការរកវត្ថុបានត្រូវកន្លែងផង និងកំណត់ឈ្មោះវត្ថុបានត្រឹមត្រូវផងចេញពី ១០០%។
ROS MoveIt! ជាកម្មវិធី ឬកញ្ចប់ឧបករណ៍ដ៏សំខាន់មួយនៅក្នុងប្រព័ន្ធ ROS ដែលជួយសម្រួលដល់ការធ្វើផែនការចលនា (Motion Planning) ការគណនា Kinematics និងយន្តការបញ្ជៀសការប៉ះទង្គិច សម្រាប់ប្រព័ន្ធដៃមនុស្សយន្ត។ ប្រៀបដូចជាខួរក្បាលផ្នែកបញ្ជាចលនារបស់អ្នករាំ ដែលជួយគណនាថាតើត្រូវបត់បែនខ្លួនបែបណាដើម្បីកុំឱ្យទង្គិចជាមួយអ្នកដទៃនៅលើឆាក។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖