Original Title: Effect of Distance Metric and Feature Scaling on KNN Algorithm while Classifying X-rays
Source: ceur-ws.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ឥទ្ធិពលនៃរង្វាស់ចម្ងាយ (Distance Metric) និងការពង្រីកលក្ខណៈ (Feature Scaling) លើក្បួនដោះស្រាយ KNN ក្នុងចំណាត់ថ្នាក់រូបភាពកាំរស្មីអ៊ិច

ចំណងជើងដើម៖ Effect of Distance Metric and Feature Scaling on KNN Algorithm while Classifying X-rays

អ្នកនិពន្ធ៖ Ishan Arora (Gurukul Kangri University), Namit Khanduja (Gurukul Kangri University), Mayank Bansal (Gurukul Kangri University)

ឆ្នាំបោះពុម្ព៖ 2021 RIF'21: The 10th Seminary of Computer Science Research

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការស្វែងរកវិធីសាស្ត្ររង្វាស់ចម្ងាយ (Distance Metric) និងការពង្រីកលក្ខណៈ (Feature Scaling) ដ៏ល្អបំផុតដើម្បីកាត់បន្ថយចំណាយពេលវេលា និងបង្កើនភាពត្រឹមត្រូវរបស់ក្បួនដោះស្រាយ k-Nearest Neighbors (k-NN) ក្នុងការធ្វើចំណាត់ថ្នាក់រូបភាពកាំរស្មីអ៊ិច (X-ray)។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានធ្វើការពិសោធន៍លើសំណុំទិន្នន័យរូបភាពកាំរស្មីអ៊ិចពី Kaggle ចំនួន ៣ ដោយប្រៀបធៀបដំណើរការរបស់ម៉ូដែលតាមរយៈការផ្លាស់ប្តូរតម្លៃ K រង្វាស់ចម្ងាយ និងវិធីសាស្ត្រពង្រីកលក្ខណៈ។

ការធ្វើតេស្តប្រៀបធៀបរង្វាស់ចម្ងាយ (Distance Metrics) ចំនួន ៨ ដូចជា Euclidean, Manhattan, Canberra, Cosine ជាដើម។
ការអនុវត្តវិធីសាស្ត្រពង្រីកលក្ខណៈ (Feature Scaling) ចំនួន ៣៖ Min-Max Scaler, Standard Scaler, និង Robust Scaler។
ការវាយតម្លៃប្រសិទ្ធភាពម៉ូដែលដោយប្រើប្រាស់រង្វាស់ភាពត្រឹមត្រូវ (Accuracy) និងខ្សែកោង (ROC-AUC Curve)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

រង្វាស់ចម្ងាយ Canberra (Canberra Distance Metric) ផ្តល់លទ្ធផលល្អដាច់គេក្នុងការធ្វើចំណាត់ថ្នាក់ ដោយទទួលបានភាពត្រឹមត្រូវរហូតដល់ ៨៥,៥៦% សម្រាប់សំណុំទិន្នន័យទី១ និង ៨៤,៦១% សម្រាប់សំណុំទិន្នន័យទី៣។
ការប្រើប្រាស់វិធីសាស្ត្រ Robust Feature Scaling ទទួលបានប្រសិទ្ធភាពថេរ និងល្អជាងវិធីសាស្ត្រ Min-Max ឬ Standard Scaler នៅលើគ្រប់សំណុំទិន្នន័យ។
ម៉ូដែលដែលប្រើប្រាស់រង្វាស់ចម្ងាយ Canberra និង Robust Scaling បង្ហាញពីប្រសិទ្ធភាពខ្ពស់ក្នុងការយកឈ្នះលើរង្វាស់ចម្ងាយ Euclidean ដែលតែងតែត្រូវបានគេប្រើប្រាស់ជាទូទៅ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
k-NN with Canberra Distance + Robust Scaling ក្បួនដោះស្រាយ k-NN ប្រើរង្វាស់ចម្ងាយ Canberra និងវិធីពង្រីកលក្ខណៈ Robust	មានភាពត្រឹមត្រូវខ្ពស់ជាងគេបំបាត់ក្នុងចំណោមវិធីសាស្ត្រដែលបានធ្វើតេស្ត និងមានភាពធន់នឹងទិន្នន័យខុសប្រក្រតី (Outliers)។	ទាមទារការគណនារូបមន្តស្មុគស្មាញជាងរង្វាស់ចម្ងាយធម្មតាបន្តិច ដែលអាចប្រើពេលគណនាយូរបន្តិចលើសំណុំទិន្នន័យធំៗ។	ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត ៨៥,៥៦% សម្រាប់សំណុំទិន្នន័យទី១ និងមានពិន្ទុ AUC រហូតដល់ ០,៩១៧៨។
k-NN with Euclidean Distance + Standard/Min-Max Scaling ក្បួនដោះស្រាយ k-NN ប្រើរង្វាស់ចម្ងាយ Euclidean (វិធីសាស្រ្តទូទៅ)	ជារង្វាស់ចម្ងាយដែលគេនិយមប្រើប្រាស់ទូទៅបំផុត ងាយស្រួលយល់ និងមានរូបមន្តគណនាសាមញ្ញ។	ផ្តល់លទ្ធផលមិនសូវបានល្អប្រសើរក្នុងការធ្វើចំណាត់ថ្នាក់រូបភាពកាំរស្មីអ៊ិច បើធៀបនឹងរង្វាស់ចម្ងាយផ្សេងទៀត។	អត្រាភាពត្រឹមត្រូវទាបជាងការប្រើរង្វាស់ចម្ងាយ Canberra ដាច់ឆ្ងាយ និងមានប្រសិទ្ធភាពប្រហាក់ប្រហែលនឹងរង្វាស់ចម្ងាយ Minkowski។
k-NN with Bray Curtis Distance ក្បួនដោះស្រាយ k-NN ប្រើរង្វាស់ចម្ងាយ Bray Curtis	ជាដៃគូប្រកួតប្រជែងដ៏ខ្លាំងមួយដែលផ្តល់លទ្ធផលល្អប្រហាក់ប្រហែលនឹង Canberra Metric សម្រាប់សំណុំទិន្នន័យមួយចំនួន។	រូបមន្តមិនអាចកំណត់បាន (Undefined) ប្រសិនបើប្រវែងវ៉ិចទ័រមានតម្លៃស្មើនឹងសូន្យ។	ទទួលបានភាពត្រឹមត្រូវ ៨៣,៩៥% សម្រាប់សំណុំទិន្នន័យទី១ ដែលជាលទ្ធផលល្អលំដាប់ទីពីរ បន្ទាប់ពី Canberra។

ការចំណាយលើធនធាន (Resource Cost)៖ ក្បួនដោះស្រាយ k-NN មិនទាមទារធនធានកុំព្យូទ័រធំដុំដូចបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Deep Learning) នោះទេ ប៉ុន្តែវាត្រូវការកម្លាំងគណនាខ្ពស់នៅពេលទាញយកទិន្នន័យមកប្រៀបធៀប (Time complexity O(n²))។

Software: ភាសាប្រូក្រាម Python និងបណ្ណាល័យជំនួយសរសេរកូដដូចជា scikit-learn សម្រាប់ Machine Learning។
Hardware: កុំព្យូទ័រខ្នាតធម្មតា (Standard CPU) គឺអាចដំណើរការបាន ដោយមិនចាំបាច់តម្រូវឱ្យមានក្រាហ្វិកកាត (GPU) កម្រិតខ្ពស់នោះទេ។
Dataset: សំណុំទិន្នន័យរូបភាពកាំរស្មីអ៊ិច (X-ray images) ដូចជាទិន្នន័យពាក់ព័ន្ធនឹងជំងឺកូវីដ១៩ ដែលអាចទាញយកបានពី Kaggle។
Expertise: ចំណេះដឹងមូលដ្ឋានលើ Machine Learning ការប្រើប្រាស់ក្បួន k-NN ការធ្វើ Data Preprocessing និងការវាស់វែងប្រសិទ្ធភាពម៉ូដែលតាមរយៈខ្សែកោង ROC-AUC។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យរូបភាពកាំរស្មីអ៊ិចពី Kaggle ដែលប្រមូលពីប្រភពអន្តរជាតិ (medRxiv, JAMA ល) ដែលអាចមានគុណភាពបង្ហាញ និងកម្រិតស្តង់ដារខុសពីរូបភាពកាំរស្មីអ៊ិចនៅតាមគ្លីនិកជនបទក្នុងប្រទេសកម្ពុជា។ ភាពខុសគ្នានៃការកំណត់ម៉ាស៊ីនថត និងគុណភាពរូបភាពក្នុងស្រុក អាចជះឥទ្ធិពលដល់ភាពត្រឹមត្រូវរបស់ម៉ូដែលនៅពេលយកមកអនុវត្តជាក់ស្តែង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ និងស័ក្តិសមក្នុងការអនុវត្តនៅប្រទេសកម្ពុជា ដោយសារវាទាមទារធនធានកុំព្យូទ័រទាប និងផ្តល់លទ្ធផលវិភាគរូបភាពវេជ្ជសាស្ត្របានល្អ។

មន្ទីរពេទ្យបង្អែកខេត្ត និងគ្លីនិកជនបទ (Provincial Hospitals and Rural Clinics): ម៉ូដែល k-NN នេះអាចប្រើជាជំនួយការរោគវិនិច្ឆ័យជំងឺសួត (ដូចជាកូវីដ១៩ ឬរបេង) តាមរយៈការវិភាគកាំរស្មីអ៊ិច ដោយមិនតម្រូវឱ្យទិញម៉ាស៊ីន Server ឬ GPU ថ្លៃៗឡើយ។
វិស័យអប់រំ និងស្ថាប័នស្រាវជ្រាវវេជ្ជសាស្ត្រ (Medical Research & Academic Institutions): និស្សិតកុំព្យូទ័រ ឬវិទ្យាស្ថានប៉ាស្ទ័រកម្ពុជា អាចប្រើប្រាស់របកគំហើញពីការជ្រើសរើស Canberra Metric នេះដើម្បីអភិវឌ្ឍប្រព័ន្ធ AI ដែលមានស្រាប់ឱ្យកាន់តែមានភាពសុក្រឹតជាងមុន។

ជារួម ការប្រើប្រាស់ក្បួន k-NN ជាមួយរង្វាស់ចម្ងាយ Canberra និង Robust scaling គឺជាដំណោះស្រាយ AI ដ៏មានប្រសិទ្ធភាព សន្សំសំចៃ និងងាយស្រួលដាក់ពង្រាយសម្រាប់ប្រព័ន្ធសុខាភិបាលឌីជីថលនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃក្បួនដោះស្រាយ និងរង្វាស់ចម្ងាយ: ស្វែងយល់ទ្រឹស្តី និងរូបមន្តគណនាចម្ងាយ (Distance Metrics) ដូចជា Canberra ធៀបនឹង Euclidean និងស្វែងយល់ពីរបៀបដំណើរការរបស់ចំណាត់ថ្នាក់ k-NN។
ប្រមូល និងរៀបចំទិន្នន័យ (Data Preprocessing): ទាញយកសំណុំទិន្នន័យកាំរស្មីអ៊ិចពី Kaggle ធ្វើការបំប្លែងរូបភាពទៅជាទម្រង់វ៉ិចទ័រ (Flatten Image) និងប្រើប្រាស់ Robust Scaler ពីបណ្ណាល័យ scikit-learn ដើម្បីកាត់បន្ថយឥទ្ធិពលពី Outliers។
សរសេរកូដបង្កើតម៉ូដែល និងធ្វើការពិសោធន៍: ប្រើប្រាស់ Python ដើម្បីសរសេរកូដម៉ូដែល ដោយកំណត់តម្លៃ K ពី ១ ដល់ ១៥ និងសាកល្បងបញ្ចូលរង្វាស់ចម្ងាយទាំង ៨ មុខ ដើម្បីស្វែងរកការកំណត់ដែលល្អបំផុត។
វាយតម្លៃប្រសិទ្ធភាពនៃម៉ូដែល (Evaluation): ប្រើប្រាស់រង្វាស់ភាពត្រឹមត្រូវ (Accuracy metrics) និងគូរខ្សែកោង ROC-AUC Curve ដើម្បីធ្វើការប្រៀបធៀប និងកំណត់អត្តសញ្ញាណវិធីសាស្ត្រដែលឈ្នះដាច់គេ។
ការសាកល្បងក្នុងបរិបទជាក់ស្តែងនៅកម្ពុជា: ប្រមូលរូបភាពកាំរស្មីអ៊ិចដែលបានថតចេញពីមន្ទីរពេទ្យក្នុងស្រុក (Local Datasets) មកបញ្ចូលក្នុងម៉ូដែល ដើម្បីវាយតម្លៃថាតើម៉ូដែលនៅតែរក្សាបានភាពត្រឹមត្រូវកម្រិតខ្ពស់ឬយ៉ាងណា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
k-Nearest Neighbors (k-NN)	ក្បួនដោះស្រាយចំណាត់ថ្នាក់នៅក្នុងម៉ាស៊ីនរៀន (Machine Learning) ដែលកំណត់អត្តសញ្ញាណនៃទិន្នន័យថ្មីមួយ ដោយផ្អែកលើចំណុចទិន្នន័យដែលនៅជិតវាបំផុតចំនួន k នៅក្នុងលំហទិន្នន័យ។ វាជាវិធីសាស្ត្រដែលរៀនពីទិន្នន័យដោយផ្ទាល់នៅពេលត្រូវធ្វើការទស្សន៍ទាយ ដោយមិនចាំបាច់ហ្វឹកហាត់ទុកជាមុន។	ដូចជាការទាយអត្តចរិតរបស់មនុស្សម្នាក់ ដោយមើលទៅលើអត្តចរិតមិត្តភក្តិជិតស្និទ្ធបំផុតទាំង ៥ នាក់របស់គាត់។
Distance Metric	រូបមន្តគណិតវិទ្យាដែលប្រើសម្រាប់វាស់ចម្ងាយ ឬកម្រិតភាពខុសគ្នារវាងចំណុចទិន្នន័យពីរនៅក្នុងលំហ។ ការជ្រើសរើសរង្វាស់ចម្ងាយបានត្រឹមត្រូវ (ដូចជាបន្ទាត់ត្រង់ ឬរង្វាស់តាមប្លុក) គឺជាកត្តាសំខាន់ដែលជះឥទ្ធិពលដល់ភាពត្រឹមត្រូវរបស់ម៉ូដែល។	ដូចជាការវាស់ចម្ងាយពីផ្ទះមួយទៅផ្ទះមួយទៀត ថាតើគួវាស់កាត់តាមអាកាស (បន្ទាត់ត្រង់) ឬវាស់តាមផ្លូវខ្វែងខ្វាត់ក្នុងទីក្រុង។
Canberra Distance	ប្រភេទនៃរង្វាស់ចម្ងាយមួយដែលគណនាផលធៀបនៃគម្លាតដាច់ខាត (Absolute difference) ធៀបនឹងផលបូកដាច់ខាតនៃតម្លៃទិន្នន័យនីមួយៗ។ រង្វាស់នេះមានប្រសិទ្ធភាពខ្ពស់ក្នុងការកាត់បន្ថយឥទ្ធិពលអវិជ្ជមានពីទិន្នន័យដែលនៅឆ្ងាយៗខុសគេ ហើយវាស័ក្តិសមខ្លាំងសម្រាប់សំណុំទិន្នន័យមានតម្លៃមិនស្មើគ្នា។	ដូចជាការគិតភាពខុសគ្នានៃប្រាក់ខែអ្នកពីរនាក់ ដោយយកប្រាក់ខែដែលខុសគ្នាទៅចែកនឹងផលបូកប្រាក់ខែអ្នកទាំងពីរ ដើម្បីទទួលបានភាគរយខុសគ្នាដែលយុត្តិធម៌។
Robust Scaler	បច្ចេកទេសកែសម្រួលទំហំទិន្នន័យ (Feature Scaling) ឱ្យស្ថិតក្នុងកម្រិតស្តង់ដារ ដោយប្រើប្រាស់មេដ្យាន (Median) និងចន្លោះកាតាល់ (Interquartile Range)។ បច្ចេកទេសនេះមានប្រយោជន៍បំផុតក្នុងការគ្រប់គ្រងទិន្នន័យដែលមានតម្លៃខុសប្រក្រតី (Outliers) ដោយមិនធ្វើឱ្យខូចទម្រង់ដើមនៃទិន្នន័យ។	ដូចជាការគិតមធ្យមភាគពិន្ទុសិស្សក្នុងថ្នាក់ ដោយលុបចោលពិន្ទុអ្នកខ្សោយបំផុត និងពូកែបំផុតចេញ ដើម្បីមើលកម្រិតទូទៅពិតប្រាកដរបស់សិស្សភាគច្រើន។
ROC-AUC Curve	រង្វាស់សម្រាប់វាយតម្លៃប្រសិទ្ធភាពរបស់ម៉ូដែលចំណាត់ថ្នាក់។ ROC គឺជាខ្សែកោងដែលបង្ហាញពីអត្រានៃការទាយត្រូវ និងការទាយខុស ចំណែក AUC គឺជាទំហំផ្ទៃក្រោមកោង ដែលពិន្ទុ AUC កាន់តែខិតជិត ១ មានន័យថាម៉ូដែលកាន់តែមានភាពត្រឹមត្រូវក្នុងការបែងចែកក្រុមទិន្នន័យ។	ដូចជាសញ្ញាបត្របញ្ជាក់សមត្ថភាពរបស់គ្រូពេទ្យក្នុងការបែងចែករវាងអ្នកមានជំងឺ និងអ្នកគ្មានជំងឺ ពិន្ទុកាន់តែជិត ១០០% គឺគាត់កាន់តែពូកែ។
Non-parametric classification	វិធីសាស្ត្រចាត់ថ្នាក់ដែលមិនធ្វើការសន្មត់ជាមុនអំពីទម្រង់ ឬរបាយនៃទិន្នន័យ (Data distribution) នោះទេ។ ម៉ូដែលប្រភេទនេះកសាងក្បួននៃការសម្រេចចិត្តដោយពឹងផ្អែកទាំងស្រុងទៅលើទិន្នន័យដែលមានស្រាប់។	ដូចជាអ្នកធ្វើម្ហូបដែលមិនប្រើសៀវភៅរូបមន្តគោល តែគាត់ភ្លក់ និងកែច្នៃរសជាតិភ្លាមៗនៅពេលកំពុងចម្អិនជាក់ស្តែង។
Feature Scaling	ដំណើរការបំប្លែងទិន្នន័យដែលមានខ្នាតរង្វាស់ធំតូចខុសៗគ្នា ឱ្យមកនៅក្នុងជួរតម្លៃ (Range) ប្រហាក់ប្រហែលគ្នា (ឧទាហរណ៍ ពី ០ ទៅ ១) ដើម្បីកុំឱ្យលក្ខណៈទិន្នន័យដែលមានតម្លៃធំ មានឥទ្ធិពលគ្របដណ្ដប់លើលក្ខណៈដែលមានតម្លៃតូច កំឡុងពេលម៉ាស៊ីនធ្វើការគណនា។	ដូចជាការប្តូររូបិយប័ណ្ណលុយរៀល និងលុយដុល្លារ ឱ្យទៅជាលុយអឺរ៉ូទាំងអស់ ដើម្បីងាយស្រួលប្រៀបធៀបតម្លៃឱ្យស្មើភាពគ្នា។
Outliers	ចំណុចទិន្នន័យដែលមានតម្លៃខុសប្លែកដាច់ឆ្ងាយពីទិន្នន័យភាគច្រើន (ធំពេក ឬតូចពេក)។ វត្តមានរបស់ Outliers អាចធ្វើឱ្យម៉ូដែលវិភាគមានភាពលំអៀង ឬទាញលទ្ធផលឱ្យខុសឆ្គងពីការពិត ប្រសិនបើមិនមានប្រើវិធីសាស្ត្រទប់ស្កាត់ត្រឹមត្រូវ។	ដូចជាសិស្សម្នាក់ដែលប្រលងបានពិន្ទុ ១០០ ពេញ ខណៈដែលសិស្ស ៩៩ នាក់ទៀតទទួលបានពិន្ទុត្រឹមតែ ៤០ ទៅ ៥០ ធ្វើឱ្យមធ្យមភាគពិន្ទុក្នុងថ្នាក់កើនឡើងខ្ពស់ខុសពីការពិត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖