Original Title: Effect of Distance Metric and Feature Scaling on KNN Algorithm while Classifying X-rays
Source: ceur-ws.org
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ឥទ្ធិពលនៃរង្វាស់ចម្ងាយ (Distance Metric) និងការពង្រីកលក្ខណៈ (Feature Scaling) លើក្បួនដោះស្រាយ KNN ក្នុងចំណាត់ថ្នាក់រូបភាពកាំរស្មីអ៊ិច

ចំណងជើងដើម៖ Effect of Distance Metric and Feature Scaling on KNN Algorithm while Classifying X-rays

អ្នកនិពន្ធ៖ Ishan Arora (Gurukul Kangri University), Namit Khanduja (Gurukul Kangri University), Mayank Bansal (Gurukul Kangri University)

ឆ្នាំបោះពុម្ព៖ 2021 RIF'21: The 10th Seminary of Computer Science Research

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការស្វែងរកវិធីសាស្ត្ររង្វាស់ចម្ងាយ (Distance Metric) និងការពង្រីកលក្ខណៈ (Feature Scaling) ដ៏ល្អបំផុតដើម្បីកាត់បន្ថយចំណាយពេលវេលា និងបង្កើនភាពត្រឹមត្រូវរបស់ក្បួនដោះស្រាយ k-Nearest Neighbors (k-NN) ក្នុងការធ្វើចំណាត់ថ្នាក់រូបភាពកាំរស្មីអ៊ិច (X-ray)។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានធ្វើការពិសោធន៍លើសំណុំទិន្នន័យរូបភាពកាំរស្មីអ៊ិចពី Kaggle ចំនួន ៣ ដោយប្រៀបធៀបដំណើរការរបស់ម៉ូដែលតាមរយៈការផ្លាស់ប្តូរតម្លៃ K រង្វាស់ចម្ងាយ និងវិធីសាស្ត្រពង្រីកលក្ខណៈ។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
k-NN with Canberra Distance + Robust Scaling
ក្បួនដោះស្រាយ k-NN ប្រើរង្វាស់ចម្ងាយ Canberra និងវិធីពង្រីកលក្ខណៈ Robust
មានភាពត្រឹមត្រូវខ្ពស់ជាងគេបំបាត់ក្នុងចំណោមវិធីសាស្ត្រដែលបានធ្វើតេស្ត និងមានភាពធន់នឹងទិន្នន័យខុសប្រក្រតី (Outliers)។ ទាមទារការគណនារូបមន្តស្មុគស្មាញជាងរង្វាស់ចម្ងាយធម្មតាបន្តិច ដែលអាចប្រើពេលគណនាយូរបន្តិចលើសំណុំទិន្នន័យធំៗ។ ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត ៨៥,៥៦% សម្រាប់សំណុំទិន្នន័យទី១ និងមានពិន្ទុ AUC រហូតដល់ ០,៩១៧៨។
k-NN with Euclidean Distance + Standard/Min-Max Scaling
ក្បួនដោះស្រាយ k-NN ប្រើរង្វាស់ចម្ងាយ Euclidean (វិធីសាស្រ្តទូទៅ)
ជារង្វាស់ចម្ងាយដែលគេនិយមប្រើប្រាស់ទូទៅបំផុត ងាយស្រួលយល់ និងមានរូបមន្តគណនាសាមញ្ញ។ ផ្តល់លទ្ធផលមិនសូវបានល្អប្រសើរក្នុងការធ្វើចំណាត់ថ្នាក់រូបភាពកាំរស្មីអ៊ិច បើធៀបនឹងរង្វាស់ចម្ងាយផ្សេងទៀត។ អត្រាភាពត្រឹមត្រូវទាបជាងការប្រើរង្វាស់ចម្ងាយ Canberra ដាច់ឆ្ងាយ និងមានប្រសិទ្ធភាពប្រហាក់ប្រហែលនឹងរង្វាស់ចម្ងាយ Minkowski។
k-NN with Bray Curtis Distance
ក្បួនដោះស្រាយ k-NN ប្រើរង្វាស់ចម្ងាយ Bray Curtis
ជាដៃគូប្រកួតប្រជែងដ៏ខ្លាំងមួយដែលផ្តល់លទ្ធផលល្អប្រហាក់ប្រហែលនឹង Canberra Metric សម្រាប់សំណុំទិន្នន័យមួយចំនួន។ រូបមន្តមិនអាចកំណត់បាន (Undefined) ប្រសិនបើប្រវែងវ៉ិចទ័រមានតម្លៃស្មើនឹងសូន្យ។ ទទួលបានភាពត្រឹមត្រូវ ៨៣,៩៥% សម្រាប់សំណុំទិន្នន័យទី១ ដែលជាលទ្ធផលល្អលំដាប់ទីពីរ បន្ទាប់ពី Canberra។

ការចំណាយលើធនធាន (Resource Cost)៖ ក្បួនដោះស្រាយ k-NN មិនទាមទារធនធានកុំព្យូទ័រធំដុំដូចបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (Deep Learning) នោះទេ ប៉ុន្តែវាត្រូវការកម្លាំងគណនាខ្ពស់នៅពេលទាញយកទិន្នន័យមកប្រៀបធៀប (Time complexity O(n²))។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យរូបភាពកាំរស្មីអ៊ិចពី Kaggle ដែលប្រមូលពីប្រភពអន្តរជាតិ (medRxiv, JAMA ល) ដែលអាចមានគុណភាពបង្ហាញ និងកម្រិតស្តង់ដារខុសពីរូបភាពកាំរស្មីអ៊ិចនៅតាមគ្លីនិកជនបទក្នុងប្រទេសកម្ពុជា។ ភាពខុសគ្នានៃការកំណត់ម៉ាស៊ីនថត និងគុណភាពរូបភាពក្នុងស្រុក អាចជះឥទ្ធិពលដល់ភាពត្រឹមត្រូវរបស់ម៉ូដែលនៅពេលយកមកអនុវត្តជាក់ស្តែង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ និងស័ក្តិសមក្នុងការអនុវត្តនៅប្រទេសកម្ពុជា ដោយសារវាទាមទារធនធានកុំព្យូទ័រទាប និងផ្តល់លទ្ធផលវិភាគរូបភាពវេជ្ជសាស្ត្របានល្អ។

ជារួម ការប្រើប្រាស់ក្បួន k-NN ជាមួយរង្វាស់ចម្ងាយ Canberra និង Robust scaling គឺជាដំណោះស្រាយ AI ដ៏មានប្រសិទ្ធភាព សន្សំសំចៃ និងងាយស្រួលដាក់ពង្រាយសម្រាប់ប្រព័ន្ធសុខាភិបាលឌីជីថលនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃក្បួនដោះស្រាយ និងរង្វាស់ចម្ងាយ: ស្វែងយល់ទ្រឹស្តី និងរូបមន្តគណនាចម្ងាយ (Distance Metrics) ដូចជា Canberra ធៀបនឹង Euclidean និងស្វែងយល់ពីរបៀបដំណើរការរបស់ចំណាត់ថ្នាក់ k-NN។
  2. ប្រមូល និងរៀបចំទិន្នន័យ (Data Preprocessing): ទាញយកសំណុំទិន្នន័យកាំរស្មីអ៊ិចពី Kaggle ធ្វើការបំប្លែងរូបភាពទៅជាទម្រង់វ៉ិចទ័រ (Flatten Image) និងប្រើប្រាស់ Robust Scaler ពីបណ្ណាល័យ scikit-learn ដើម្បីកាត់បន្ថយឥទ្ធិពលពី Outliers។
  3. សរសេរកូដបង្កើតម៉ូដែល និងធ្វើការពិសោធន៍: ប្រើប្រាស់ Python ដើម្បីសរសេរកូដម៉ូដែល ដោយកំណត់តម្លៃ K ពី ១ ដល់ ១៥ និងសាកល្បងបញ្ចូលរង្វាស់ចម្ងាយទាំង ៨ មុខ ដើម្បីស្វែងរកការកំណត់ដែលល្អបំផុត។
  4. វាយតម្លៃប្រសិទ្ធភាពនៃម៉ូដែល (Evaluation): ប្រើប្រាស់រង្វាស់ភាពត្រឹមត្រូវ (Accuracy metrics) និងគូរខ្សែកោង ROC-AUC Curve ដើម្បីធ្វើការប្រៀបធៀប និងកំណត់អត្តសញ្ញាណវិធីសាស្ត្រដែលឈ្នះដាច់គេ។
  5. ការសាកល្បងក្នុងបរិបទជាក់ស្តែងនៅកម្ពុជា: ប្រមូលរូបភាពកាំរស្មីអ៊ិចដែលបានថតចេញពីមន្ទីរពេទ្យក្នុងស្រុក (Local Datasets) មកបញ្ចូលក្នុងម៉ូដែល ដើម្បីវាយតម្លៃថាតើម៉ូដែលនៅតែរក្សាបានភាពត្រឹមត្រូវកម្រិតខ្ពស់ឬយ៉ាងណា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
k-Nearest Neighbors (k-NN) ក្បួនដោះស្រាយចំណាត់ថ្នាក់នៅក្នុងម៉ាស៊ីនរៀន (Machine Learning) ដែលកំណត់អត្តសញ្ញាណនៃទិន្នន័យថ្មីមួយ ដោយផ្អែកលើចំណុចទិន្នន័យដែលនៅជិតវាបំផុតចំនួន k នៅក្នុងលំហទិន្នន័យ។ វាជាវិធីសាស្ត្រដែលរៀនពីទិន្នន័យដោយផ្ទាល់នៅពេលត្រូវធ្វើការទស្សន៍ទាយ ដោយមិនចាំបាច់ហ្វឹកហាត់ទុកជាមុន។ ដូចជាការទាយអត្តចរិតរបស់មនុស្សម្នាក់ ដោយមើលទៅលើអត្តចរិតមិត្តភក្តិជិតស្និទ្ធបំផុតទាំង ៥ នាក់របស់គាត់។
Distance Metric រូបមន្តគណិតវិទ្យាដែលប្រើសម្រាប់វាស់ចម្ងាយ ឬកម្រិតភាពខុសគ្នារវាងចំណុចទិន្នន័យពីរនៅក្នុងលំហ។ ការជ្រើសរើសរង្វាស់ចម្ងាយបានត្រឹមត្រូវ (ដូចជាបន្ទាត់ត្រង់ ឬរង្វាស់តាមប្លុក) គឺជាកត្តាសំខាន់ដែលជះឥទ្ធិពលដល់ភាពត្រឹមត្រូវរបស់ម៉ូដែល។ ដូចជាការវាស់ចម្ងាយពីផ្ទះមួយទៅផ្ទះមួយទៀត ថាតើគួវាស់កាត់តាមអាកាស (បន្ទាត់ត្រង់) ឬវាស់តាមផ្លូវខ្វែងខ្វាត់ក្នុងទីក្រុង។
Canberra Distance ប្រភេទនៃរង្វាស់ចម្ងាយមួយដែលគណនាផលធៀបនៃគម្លាតដាច់ខាត (Absolute difference) ធៀបនឹងផលបូកដាច់ខាតនៃតម្លៃទិន្នន័យនីមួយៗ។ រង្វាស់នេះមានប្រសិទ្ធភាពខ្ពស់ក្នុងការកាត់បន្ថយឥទ្ធិពលអវិជ្ជមានពីទិន្នន័យដែលនៅឆ្ងាយៗខុសគេ ហើយវាស័ក្តិសមខ្លាំងសម្រាប់សំណុំទិន្នន័យមានតម្លៃមិនស្មើគ្នា។ ដូចជាការគិតភាពខុសគ្នានៃប្រាក់ខែអ្នកពីរនាក់ ដោយយកប្រាក់ខែដែលខុសគ្នាទៅចែកនឹងផលបូកប្រាក់ខែអ្នកទាំងពីរ ដើម្បីទទួលបានភាគរយខុសគ្នាដែលយុត្តិធម៌។
Robust Scaler បច្ចេកទេសកែសម្រួលទំហំទិន្នន័យ (Feature Scaling) ឱ្យស្ថិតក្នុងកម្រិតស្តង់ដារ ដោយប្រើប្រាស់មេដ្យាន (Median) និងចន្លោះកាតាល់ (Interquartile Range)។ បច្ចេកទេសនេះមានប្រយោជន៍បំផុតក្នុងការគ្រប់គ្រងទិន្នន័យដែលមានតម្លៃខុសប្រក្រតី (Outliers) ដោយមិនធ្វើឱ្យខូចទម្រង់ដើមនៃទិន្នន័យ។ ដូចជាការគិតមធ្យមភាគពិន្ទុសិស្សក្នុងថ្នាក់ ដោយលុបចោលពិន្ទុអ្នកខ្សោយបំផុត និងពូកែបំផុតចេញ ដើម្បីមើលកម្រិតទូទៅពិតប្រាកដរបស់សិស្សភាគច្រើន។
ROC-AUC Curve រង្វាស់សម្រាប់វាយតម្លៃប្រសិទ្ធភាពរបស់ម៉ូដែលចំណាត់ថ្នាក់។ ROC គឺជាខ្សែកោងដែលបង្ហាញពីអត្រានៃការទាយត្រូវ និងការទាយខុស ចំណែក AUC គឺជាទំហំផ្ទៃក្រោមកោង ដែលពិន្ទុ AUC កាន់តែខិតជិត ១ មានន័យថាម៉ូដែលកាន់តែមានភាពត្រឹមត្រូវក្នុងការបែងចែកក្រុមទិន្នន័យ។ ដូចជាសញ្ញាបត្របញ្ជាក់សមត្ថភាពរបស់គ្រូពេទ្យក្នុងការបែងចែករវាងអ្នកមានជំងឺ និងអ្នកគ្មានជំងឺ ពិន្ទុកាន់តែជិត ១០០% គឺគាត់កាន់តែពូកែ។
Non-parametric classification វិធីសាស្ត្រចាត់ថ្នាក់ដែលមិនធ្វើការសន្មត់ជាមុនអំពីទម្រង់ ឬរបាយនៃទិន្នន័យ (Data distribution) នោះទេ។ ម៉ូដែលប្រភេទនេះកសាងក្បួននៃការសម្រេចចិត្តដោយពឹងផ្អែកទាំងស្រុងទៅលើទិន្នន័យដែលមានស្រាប់។ ដូចជាអ្នកធ្វើម្ហូបដែលមិនប្រើសៀវភៅរូបមន្តគោល តែគាត់ភ្លក់ និងកែច្នៃរសជាតិភ្លាមៗនៅពេលកំពុងចម្អិនជាក់ស្តែង។
Feature Scaling ដំណើរការបំប្លែងទិន្នន័យដែលមានខ្នាតរង្វាស់ធំតូចខុសៗគ្នា ឱ្យមកនៅក្នុងជួរតម្លៃ (Range) ប្រហាក់ប្រហែលគ្នា (ឧទាហរណ៍ ពី ០ ទៅ ១) ដើម្បីកុំឱ្យលក្ខណៈទិន្នន័យដែលមានតម្លៃធំ មានឥទ្ធិពលគ្របដណ្ដប់លើលក្ខណៈដែលមានតម្លៃតូច កំឡុងពេលម៉ាស៊ីនធ្វើការគណនា។ ដូចជាការប្តូររូបិយប័ណ្ណលុយរៀល និងលុយដុល្លារ ឱ្យទៅជាលុយអឺរ៉ូទាំងអស់ ដើម្បីងាយស្រួលប្រៀបធៀបតម្លៃឱ្យស្មើភាពគ្នា។
Outliers ចំណុចទិន្នន័យដែលមានតម្លៃខុសប្លែកដាច់ឆ្ងាយពីទិន្នន័យភាគច្រើន (ធំពេក ឬតូចពេក)។ វត្តមានរបស់ Outliers អាចធ្វើឱ្យម៉ូដែលវិភាគមានភាពលំអៀង ឬទាញលទ្ធផលឱ្យខុសឆ្គងពីការពិត ប្រសិនបើមិនមានប្រើវិធីសាស្ត្រទប់ស្កាត់ត្រឹមត្រូវ។ ដូចជាសិស្សម្នាក់ដែលប្រលងបានពិន្ទុ ១០០ ពេញ ខណៈដែលសិស្ស ៩៩ នាក់ទៀតទទួលបានពិន្ទុត្រឹមតែ ៤០ ទៅ ៥០ ធ្វើឱ្យមធ្យមភាគពិន្ទុក្នុងថ្នាក់កើនឡើងខ្ពស់ខុសពីការពិត។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖