Original Title: Analysis of Tuberculosis (TB) on X-ray Image Using SURF Feature Extraction and the K-Nearest Neighbor (KNN) Classification Method
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការវិភាគជំងឺរបេង (TB) លើរូបភាពកាំរស្មីអ៊ិច ដោយប្រើការទាញយកលក្ខណៈពិសេស SURF និងវិធីសាស្ត្រចំណាត់ថ្នាក់ K-Nearest Neighbor (KNN)

ចំណងជើងដើម៖ Analysis of Tuberculosis (TB) on X-ray Image Using SURF Feature Extraction and the K-Nearest Neighbor (KNN) Classification Method

អ្នកនិពន្ធ៖ Reyhan Achmad Rizal (Universitas Prima Indonesia), Nurlela Octavia Purba (Universitas Prima Indonesia), Lidya Aprilla Siregar (Universitas Prima Indonesia), Kristina Sinaga (Universitas Prima Indonesia), Nur Azizah (Universitas Prima Indonesia)

ឆ្នាំបោះពុម្ព៖ 2020 JAICT, Journal of Applied Information and Communication Technologies

វិស័យសិក្សា៖ Machine Learning / Medical Imaging

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការធ្វើរោគវិនិច្ឆ័យជំងឺរបេង (TB) ដោយប្រើប្រាស់បច្ចេកវិទ្យាសិក្សារបស់ម៉ាស៊ីន (Machine Learning) លើរូបភាពកាំរស្មីអ៊ិច ដើម្បីជួយកាត់បន្ថយកំហុសឆ្គងក្នុងការធ្វើរោគវិនិច្ឆ័យដោយគ្រូពេទ្យ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យរូបភាពកាំរស្មីអ៊ិចចំនួន ៦២២ សន្លឹក (ហ្វឹកហាត់ ៦០% និងសាកល្បង ៤០%) ដោយឆ្លងកាត់ដំណើរការវិភាគជាបន្តបន្ទាប់៖

ការបំប្លែងរូបភាពពណ៌ទៅជារូបភាពសខ្មៅ (Grayscale Conversion)
ការទាញយកលក្ខណៈពិសេសនៃរូបភាពដោយប្រើក្បួន (SURF Feature Extraction)
ការចាត់ថ្នាក់ទិន្នន័យរូបភាពដោយប្រើវិធីសាស្ត្រក្បែរខាងបំផុត (K-Nearest Neighbor Classification)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ភាពត្រឹមត្រូវក្នុងការកំណត់អត្តសញ្ញាណរូបភាពកាំរស្មីអ៊ិចដែលគ្មានជំងឺរបេង (Negative TB) គឺសម្រេចបាន ៦៩,៧% ។
ភាពត្រឹមត្រូវក្នុងការកំណត់អត្តសញ្ញាណរូបភាពកាំរស្មីអ៊ិចដែលមានជំងឺរបេង (Positive TB) គឺសម្រេចបានខ្ពស់រហូតដល់ ៧៦,៦៧% ។
វិធីសាស្ត្រចំណាត់ថ្នាក់ KNN ជាមួយនឹងការទាញយកលក្ខណៈពិសេស SURF ទទួលបានភាពត្រឹមត្រូវជាមធ្យម ៧៣,១៨% ដែលមានភាពប្រសើរជាងការប្រើប្រាស់ HOG ចំនួន ២% ក្នុងការចាត់ថ្នាក់រូបភាពជំងឺរបេង។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
SURF Feature Extraction + KNN ការទាញយកលក្ខណៈពិសេស SURF រួមជាមួយចំណាត់ថ្នាក់ KNN	មានសមត្ថភាពក្នុងការចាប់យកចំណុចលម្អិតនៃរូបភាពបានល្អ និងមានភាពត្រឹមត្រូវខ្ពស់ជាងបច្ចេកទេស HOG បន្តិច។ សន្សំសំចៃពេលវេលាគណនាដោយបំប្លែងរូបភាពទៅជាសខ្មៅ (Grayscale) ជាមុន។	ភាពត្រឹមត្រូវក្នុងការកំណត់អត្តសញ្ញាណរូបភាពអវិជ្ជមានជំងឺរបេង (Negative TB) នៅមានកម្រិតទាប (៦៩,៧%) នៅឡើយ ដែលអាចបណ្តាលឱ្យមានការសន្និដ្ឋានខុស។	ទទួលបានភាពត្រឹមត្រូវជាមធ្យម ៧៣,១៨% ។
HOG Feature Extraction + KNN (Reference [21]) ការទាញយកលក្ខណៈពិសេស HOG រួមជាមួយចំណាត់ថ្នាក់ KNN (ឯកសារយោង [21])	មានភាពរឹងមាំក្នុងការកំណត់ទិសដៅនៃគែម (Edge orientation) និងទម្រង់ជារូបរាងនៅក្នុងរូបភាពវិភាគវេជ្ជសាស្ត្រ។	ទទួលបានភាពត្រឹមត្រូវទាបជាងការប្រើប្រាស់បច្ចេកទេស SURF ប្រមាណ ២% ក្នុងការសាកល្បងលើទិន្នន័យស្រដៀងគ្នា។	ទទួលបានភាពត្រឹមត្រូវជាមធ្យម ៧១,៨១% ។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់លម្អិតពីតម្រូវការផ្នែករឹង (Hardware) ក៏ដោយ ប៉ុន្តែការបំប្លែងរូបភាពទៅជាសខ្មៅ (Grayscale) ត្រូវបានប្រើដើម្បីសន្សំសំចៃពេលវេលាគណនា ដែលបង្ហាញថាម៉ូដែលនេះមិនទាមទារធនធានកុំព្យូទ័រខ្ពស់ខ្លាំងដូចម៉ូដែល Deep Learning នោះទេ។

Dataset: សំណុំទិន្នន័យរូបភាពកាំរស្មីអ៊ិច (X-ray) ចំនួន ៦២២ សន្លឹក ដែលមានទំហំ 256x256 យកពីមូលដ្ឋានទិន្នន័យសាធារណៈ OpenI (ChinaSet_AllFiles.zip) ។
Hardware: ដោយសារតែប្រើប្រាស់ត្រឹមបច្ចេកទេស KNN និង SURF ម៉ាស៊ីនកុំព្យូទ័រធម្មតាដែលមានស៊ីភីយូ (Standard CPU) គឺគ្រប់គ្រាន់សម្រាប់ដំណើរការវគ្គបណ្តុះបណ្តាល និងសាកល្បង។
Software & Expertise: ទាមទារអ្នកជំនាញដែលមានចំណេះដឹងផ្នែកកែច្នៃរូបភាព (Image Processing) និងការប្រើប្រាស់ភាសាសរសេរកូដសម្រាប់ Machine Learning ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

សំណុំទិន្នន័យដែលប្រើក្នុងការសិក្សានេះត្រូវបានទាញយកពីមូលដ្ឋានទិន្នន័យសាធារណៈ (ChinaSet) ដែលភាគច្រើនជារូបភាពពីអ្នកជំងឺនៅប្រទេសចិន។ នេះមានសារៈសំខាន់សម្រាប់ប្រទេសកម្ពុជា ព្រោះគុណភាពម៉ាស៊ីនថតកាំរស្មីអ៊ិច និងលក្ខណៈរូបសាស្ត្ររបស់អ្នកជំងឺនៅតាមមន្ទីរពេទ្យកម្ពុជាអាចមានភាពខុសគ្នា ដែលទាមទារឱ្យមានការសាកល្បងម៉ូដែលនេះឡើងវិញជាមួយទិន្នន័យក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តជាប្រព័ន្ធជំនួយក្នុងវិស័យសុខាភិបាលនៅប្រទេសកម្ពុជា ជាពិសេសក្នុងការជួយពន្លឿនការស្វែងរកជំងឺរបេង។

មជ្ឈមណ្ឌលជាតិកំចាត់រោគរបេង និងហង់សិន (CENAT): អាចប្រើប្រាស់ជាឧបករណ៍ជំនួយ (Computer-Aided Diagnosis) ដើម្បីផ្ទៀងផ្ទាត់លទ្ធផលពិនិត្យរបស់គ្រូពេទ្យ កាត់បន្ថយកំហុសឆ្គង និងបង្កើនល្បឿនក្នុងការធ្វើរោគវិនិច្ឆ័យ។
មន្ទីរពេទ្យបង្អែក និងមណ្ឌលសុខភាពជនបទ: អាចជួយគាំទ្រដល់ការធ្វើរោគវិនិច្ឆ័យបឋមនៅតាមតំបន់ដាច់ស្រយាលដែលខ្វះខាតគ្រូពេទ្យឯកទេសខាងកាំរស្មីអ៊ិច ដោយគ្រាន់តែបញ្ចូលរូបភាពទៅក្នុងប្រព័ន្ធកុំព្យូទ័រ។

សរុបមក ការអនុវត្តម៉ូដែលចំណាត់ថ្នាក់នេះនឹងជួយកាត់បន្ថយបន្ទុកការងាររបស់គ្រូពេទ្យនៅកម្ពុជា ប៉ុន្តែគប្បីត្រូវអភិវឌ្ឍបន្ថែមដោយប្រើទិន្នន័យក្នុងស្រុក ដើម្បីបង្កើនភាពត្រឹមត្រូវឱ្យបានខ្ពស់ជាង ៧៣% មុននឹងដាក់ឱ្យប្រើប្រាស់ជាក់ស្តែង។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃដំណើរការរូបភាព (Image Processing): និស្សិតគួរចាប់ផ្តើមសិក្សាអំពីការកែច្នៃរូបភាពវេជ្ជសាស្ត្រ ដោយប្រើប្រាស់បណ្ណាល័យ OpenCV នៅក្នុង Python ដើម្បីអនុវត្តការបំប្លែងរូបភាពពណ៌ទៅជាសខ្មៅ (Grayscale Conversion) និងកាត់បន្ថយទំហំរូបភាព (Resizing)។
អនុវត្តការទាញយកលក្ខណៈពិសេសដោយប្រើ SURF: ស្វែងយល់ស៊ីជម្រៅពីក្បួនគណិតវិទ្យានៅពីក្រោយ SURF feature extraction និងសាកល្បងសរសេរកូដទាញយកចំណុចសំខាន់ៗ (Interest Points) ពីរូបភាព X-ray ដោយប្រើប្រាស់មុខងារមានស្រាប់នៅក្នុង OpenCV ។
សាងសង់ម៉ូដែល Machine Learning ជាមួយ KNN: ប្រើប្រាស់បណ្ណាល័យ Scikit-Learn ដើម្បីសាងសង់និងហ្វឹកហាត់ម៉ូដែល K-Nearest Neighbor (KNN) ដោយយកលទ្ធផលលក្ខណៈពិសេសដែលទាញបានពី SURF មកធ្វើជាទិន្នន័យបញ្ចូល (Input Features)។
ប្រមូលទិន្នន័យ និងធ្វើតេស្តក្នុងស្រុក: សហការជាមួយស្ថាប័នស្រាវជ្រាវ ឬមន្ទីរពេទ្យនៅកម្ពុជា (ឧទាហរណ៍៖ មន្ទីរពេទ្យមិត្តភាពខ្មែរ-សូវៀត) ដើម្បីសុំការអនុញ្ញាតប្រើប្រាស់រូបភាព X-ray ជំងឺរបេងក្នុងស្រុក (Anonymized Data) ដើម្បីយកមកវាយតម្លៃម៉ូដែលឡើងវិញ។
ប្រៀបធៀបជាមួយបច្ចេកវិទ្យា Deep Learning: បន្ទាប់ពីយល់ច្បាស់ពី KNN សូមសាកល្បងប្រៀបធៀបលទ្ធផលជាមួយបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតទំនើបៗដូចជា Convolutional Neural Networks (CNN) ដោយប្រើ TensorFlow ឬ PyTorch ដើម្បីបង្កើនភាពត្រឹមត្រូវឱ្យបានលើសពី ៩០%។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
K-Nearest Neighbor (KNN)	ជាក្បួនដោះស្រាយសម្រាប់ចាត់ថ្នាក់ទិន្នន័យ (Machine Learning Classification) ដោយវាធ្វើការប្រៀបធៀបទិន្នន័យថ្មី ទៅនឹងទិន្នន័យចាស់ៗដែលនៅក្បែរវាបំផុតចំនួន K ដើម្បីកំណត់ថាតើទិន្នន័យថ្មីនោះគួរស្ថិតក្នុងក្រុមណា។	ដូចជាការទាយអត្តចរិតរបស់មនុស្សម្នាក់ ដោយមើលទៅលើមិត្តភក្តិជិតស្និទ្ធបំផុតទាំង ៥ នាក់របស់គាត់ (បើមិត្តភក្តិភាគច្រើនជាសិស្សពូកែ គាត់ក៏ប្រហែលជាសិស្សពូកែដែរ)។
SURF Feature Extraction	ជាក្បួនសម្រាប់រុករកនិងទាញយកចំណុចពិសេសៗ (Keypoints ឬ Features) ពីរូបភាព ដែលមានលក្ខណៈរហ័ស និងមិនប្រែប្រួលទោះបីជារូបភាពនោះត្រូវបង្រួម ពង្រីក ឬបង្វិលក៏ដោយ។	ដូចជាការកត់ចំណាំលក្ខណៈពិសេសៗនៅលើមុខរបស់មនុស្សម្នាក់ (ដូចជាទីតាំងប្រជ្រុយ ឬទម្រង់ភ្នែក) ដើម្បីចំណាំគាត់នៅពេលក្រោយ ទោះបីជាគាត់ពាក់មួក ឬថតរូបពីចម្ងាយក៏ដោយ។
Supervised machine learning	ជាវិធីសាស្ត្រមួយនៃបញ្ញាសិប្បនិម្មិត ដែលម៉ូដែលកុំព្យូទ័រត្រូវបានបណ្តុះបណ្តាលដោយប្រើសំណុំទិន្នន័យដែលមានភ្ជាប់មកជាមួយនូវចម្លើយ ឬស្លាកសញ្ញាត្រឹមត្រូវរួចជាស្រេច ដើម្បីឱ្យវាអាចទស្សន៍ទាយលទ្ធផលសម្រាប់ទិន្នន័យថ្មីៗ។	ដូចជាសិស្សរៀនធ្វើលំហាត់គណិតវិទ្យា ដោយមានចម្លើយត្រឹមត្រូវនៅខាងក្រោយសៀវភៅសម្រាប់ផ្ទៀងផ្ទាត់ និងកែតម្រូវកំហុស។
Feature Extraction	ជាដំណើរការបំប្លែងទិន្នន័យឆៅ (ដូចជារូបភាព ឬសំឡេង) ទៅជាសំណុំនៃលក្ខណៈសម្បត្តិគណិតវិទ្យាដែលតំណាងឱ្យទិន្នន័យនោះ ដើម្បីកាត់បន្ថយទំហំផ្ទុក និងជួយឱ្យម៉ូដែលម៉ាស៊ីនរៀនយល់បានលឿន។	ដូចជាការសង្ខេបសៀវភៅមួយក្បាលធំ ឱ្យនៅសល់តែចំណុចសំខាន់ៗ ដើម្បីឱ្យអ្នកអានយល់ពីអត្ថន័យបានលឿន និងចំណាយពេលតិច។
HOG feature extraction	ជាបច្ចេកទេសទាញយកលក្ខណៈពិសេសពីរូបភាព ដោយផ្តោតលើការរាប់ចំនួនទិសដៅនៃបន្ទាត់គែម (Gradients/Edges) នៅក្នុងផ្នែកតូចៗនៃរូបភាព ដែលជារឿយៗត្រូវបានប្រើសម្រាប់ស្វែងរកវត្ថុឬរូបរាងគែម។	ដូចជាការគូរគំនូរព្រាងដែលផ្តោតតែលើគែម និងទិសដៅនៃវណ្ឌវង្ករបស់វត្ថុ ជំនួសឱ្យការផាត់ពណ៌លម្អិត។
Grayscale	ជារូបភាពដែលមានតែទម្រង់ពណ៌ស និងខ្មៅ (គ្មានពណ៌ធម្មជាតិដូចជា ក្រហម បៃតង ខៀវ) ដែលការបំប្លែងរូបភាពពណ៌ទៅជា Grayscale ជួយកាត់បន្ថយទិន្នន័យដែលម៉ាស៊ីនត្រូវគណនាពី ៣ ស្រទាប់ពណ៌ មកត្រឹម ១ ស្រទាប់ពណ៌។	ដូចជាការបោះពុម្ពរូបភាពពណ៌ទៅជាសខ្មៅ ដើម្បីសន្សំសំចៃទឹកថ្នាំ និងសន្សំពេលវេលា ប៉ុន្តែនៅតែអាចមើលដឹងពីរូបរាងវត្ថុច្បាស់លាស់។
Machine learning	ជាផ្នែកមួយនៃបញ្ញាសិប្បនិម្មិត (AI) ដែលផ្តោតលើការបង្កើតប្រព័ន្ធដែលអាចរៀនសូត្រពីទិន្នន័យ ស្វែងរកទម្រង់នៃបញ្ហា និងធ្វើការសម្រេចចិត្តដោយខ្លួនឯង ដោយមិនចាំបាច់មានការសរសេរកូដបញ្ជាគ្រប់ជំហានពីមនុស្ស។	ដូចជាការបង្រៀនក្មេងឱ្យស្គាល់សត្វឆ្កែ ដោយគ្រាន់តែបង្ហាញរូបសត្វឆ្កែជាច្រើនសន្លឹក រហូតដល់ក្មេងអាចចំណាំវាបានដោយខ្លួនឯងនៅពេលឃើញឆ្កែនៅខាងក្រៅ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖