Original Title: A Feature Engineering Focused System for Acoustic UAV Payload Detection
Source: doi.org/10.5220/0010843800003116
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ប្រព័ន្ធផ្តោតលើវិស្វកម្មលក្ខណៈពិសេស (Feature Engineering) សម្រាប់ការរកឃើញការផ្ទុកទម្ងន់របស់ឧបករណ៍ហោះហើរគ្មានមនុស្សបើក (UAV) តាមរយៈសំឡេង

ចំណងជើងដើម៖ A Feature Engineering Focused System for Acoustic UAV Payload Detection

អ្នកនិពន្ធ៖ Yaqin Wang (Computer and Information Technology, Purdue University, USA), Facundo Esquivel Fagiani (Renard Analytics, Argentina), Kar Ee Ho (Computer and Information Technology, Purdue University, USA), Eric T. Matson (Computer and Information Technology, Purdue University, USA)

ឆ្នាំបោះពុម្ព៖ 2022, Proceedings of the 14th International Conference on Agents and Artificial Intelligence (ICAART 2022)

វិស័យសិក្សា៖ Machine Learning and Acoustic Security

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការវិវត្តនៃឧបករណ៍ហោះហើរគ្មានមនុស្សបើក (UAVs) ឬដ្រូន បានបង្កឲ្យមានក្តីបារម្ភផ្នែកសន្តិសុខ ដោយសារពួកវាអាចត្រូវបានប្រើប្រាស់ដើម្បីផ្ទុកគ្រឿងផ្ទុះ ឬអាវុធសម្រាប់ការវាយប្រហារផ្សេងៗ ហើយការរកឃើញថាតើដ្រូនកំពុងផ្ទុកទម្ងន់ឬអត់នៅមានកម្រិតនៅឡើយ។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះបានប្រើប្រាស់ក្បួនដោះស្រាយការរៀនដោយម៉ាស៊ីន (Machine Learning algorithms) ដើម្បីកំណត់អត្តសញ្ញាណ និងចំណាត់ថ្នាក់ដ្រូនដែលកំពុងផ្ទុកទម្ងន់ ដោយផ្អែកលើការវិភាគទិន្នន័យសំឡេងដែលពួកវាបានបញ្ចេញ។

ការប្រមូលទិន្នន័យសំឡេង (Audio Recording Dataset): ប្រមូលសំឡេងដ្រូនប្រភេទ DJI Phantom 4 និង EVO 2 Pro ទាំងពេលផ្ទុកទម្ងន់ (ទឹក 500ml) និងមិនផ្ទុកទម្ងន់ សរុបចំនួន 1232 សំណាកក្នុងរយៈពេល 204.5 នាទី។
ការទាញយកលក្ខណៈពិសេស (Feature Extraction): ប្រើប្រាស់បណ្ណាល័យ Librosa ក្នុងភាសា Python ដើម្បីទាញយកលក្ខណៈពិសេសសំខាន់ៗចំនួន ៥ ពីទិន្នន័យសំឡេងរួមមាន mfcc, chroma, mel, contrast និង tonnetz។
ការបង្វឹកម៉ូដែល (Model Training): យកលក្ខណៈពិសេសទោលនីមួយៗ និងបន្សំនៃលក្ខណៈពិសេសទាំងនោះទៅបង្វឹកក្នុងម៉ូដែលចំនួន ៤ គឺ Support Vector Machine (SVM), Gaussian Naive Bayes (GNB), K-Nearest Neighbor (KNN) និង Neural Network (NN)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការប្រើប្រាស់បន្សំនៃលក្ខណៈពិសេសសំឡេងបញ្ចូលគ្នា ផ្តល់នូវប្រសិទ្ធភាពខ្ពស់ជាងការប្រើប្រាស់លក្ខណៈពិសេសដាច់ដោយឡែកពីគ្នា ដោយទទួលបានភាពត្រឹមត្រូវ (Accuracy) ជាមធ្យមរហូតដល់ ៩៩% នៅលើម៉ូដែលទាំង ៤។
សម្រាប់លក្ខណៈពិសេសទោល លក្ខណៈពិសេស MFCC និង Chroma មានដំណើរការល្អជាងគេបំផុត ដោយផ្តល់នូវពិន្ទុភាពត្រឹមត្រូវ និង F-1 Score ខ្ពស់បំផុតនៅក្នុងការធ្វើតេស្ត។
វិធីសាស្ត្រនៃការបន្សំលក្ខណៈពិសេសសំឡេងនេះ មានភាពត្រឹមត្រូវខ្ពស់ជាងការសិក្សាមុនៗដែលប្រើប្រាស់រ៉ាដា (Micro-Doppler Radar) ដែលមានភាពត្រឹមត្រូវត្រឹមតែ ៩២.៦១% ហើយថែមទាំងចំណាយធនធានកុំព្យូទ័រតិចជាងមុន និងងាយស្រួលពន្យល់ (Higher explainability) ផងដែរ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Individual Feature + Machine Learning (e.g., MFCC with SVM) ការប្រើប្រាស់លក្ខណៈពិសេសទោល + ម៉ូដែលរៀនដោយម៉ាស៊ីន (ឧទាហរណ៍ MFCC ជាមួយ SVM)	ចំណាយពេលគណនាតិច និងដំណើរការទាញយកលក្ខណៈពិសេស (Feature Extraction) លឿន ដោយសារទំហំទិន្នន័យបញ្ចូលតូចជាង។	ការផ្តោតលើលក្ខណៈពិសេសតែមួយមិនអាចផ្តល់ព័ត៌មានគ្រប់គ្រាន់ដើម្បីឈានដល់ភាពត្រឹមត្រូវអតិបរមាបានទេ ជាពិសេសក្នុងស្ថានភាពមានសំឡេងរំខាន។	ទទួលបានភាពត្រឹមត្រូវខ្ពស់បំផុត ៩៨.៦% (សម្រាប់ម៉ូដែល SVM) និង ៩៩.៧% (សម្រាប់ MFCC ក្នុង GNB)។
Feature Combination + Standard ML (Proposed Method) ការប្រើប្រាស់បន្សំនៃលក្ខណៈពិសេស + ម៉ូដែលរៀនដោយម៉ាស៊ីន (វិធីសាស្ត្រដែលបានស្នើ)	ផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុត និងមានស្ថិរភាពលើគ្រប់ម៉ូដែល ML ព្រមទាំងងាយស្រួលពន្យល់ពីលទ្ធផល (Explainability) ដោយមិនប្រើប្រាស់ធនធានកុំព្យូទ័រធំដុំ។	ទាមទារពេលវេលាបន្ថែមបន្តិចបន្តួចសម្រាប់ការគណនា និងទាញយកលក្ខណៈពិសេស (mfcc, chroma, mel, contrast, tonnetz) ចូលគ្នា។	សម្រេចបានភាពត្រឹមត្រូវជាមធ្យម ៩៩% ដោយឡើងដល់ ៩៩.៧% សម្រាប់ម៉ូដែល GNB និង Neural Network។
Micro-Doppler Radar Signatures (Baseline from Pallotta et al.) ការប្រើប្រាស់រ៉ាដា Micro-Doppler (វិធីសាស្ត្រពីការស្រាវជ្រាវមុនៗ)	មិនសូវរងឥទ្ធិពលពីបរិស្ថានដែលមានសំឡេងរំខាន (Environmental noise) ដូចជាសំឡេងខ្យល់ ឬចរាចរណ៍។	ត្រូវការឧបករណ៍រ៉ាដាដែលមានតម្លៃថ្លៃ និងទាមទារធនធានគណនាខ្ពស់សម្រាប់ដំណើរការទិន្នន័យ។	ភាពត្រឹមត្រូវជាមធ្យមត្រឹមតែ ៩២.៦១% ប៉ុណ្ណោះក្នុងការធ្វើចំណាត់ថ្នាក់បន្ទុកដ្រូន។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះមិនតម្រូវឲ្យមានធនធានកុំព្យូទ័រ ឬឧបករណ៍ថ្លៃៗនោះទេ ដោយប្រើប្រាស់ត្រឹមតែកុំព្យូទ័រយួរដៃផ្ទាល់ខ្លួនធម្មតាសម្រាប់ការទាញយកលក្ខណៈពិសេស និងការបង្វឹកម៉ូដែល។

Hardware: កុំព្យូទ័រយួរដៃ (Macbook Air) ដែលមានស៊ីភីយូ 1.1 GHz Quad-Core Intel Core i5 និងអង្គចងចាំ (RAM) 8 GB ប៉ុណ្ណោះ។
Software: ប្រើប្រាស់ភាសា Python ជាពិសេសបណ្ណាល័យ Librosa សម្រាប់ការទាញយក និងវិភាគលក្ខណៈពិសេសនៃសំឡេង (Audio feature processing)។
Dataset: ឯកសារសំឡេងចំនួន ១២៣២ សំណាក (២០៤.៥ នាទី) ដែលតម្រូវឲ្យប្រើប្រាស់ដ្រូន (DJI Phantom 4, EVO 2 Pro) និងឧបករណ៍ថតសំឡេងដើម្បីប្រមូលទិន្នន័យជាក់ស្តែង។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះត្រូវបានធ្វើឡើងនៅឧទ្យាន McAllister ក្នុងរដ្ឋ Indiana សហរដ្ឋអាមេរិក ដោយប្រើប្រាស់ដ្រូនតែ២ម៉ូដែល និងប្រភេទបន្ទុកតែមួយគត់ (ដបទឹក 500ml)។ សម្រាប់ប្រទេសកម្ពុជា ទិន្នន័យនេះមិនទាន់អាចគ្របដណ្តប់បរិបទជាក់ស្តែងបានទាំងស្រុងនោះទេ ដោយសារកម្ពុជាមានប្រភេទសំឡេងរំខានផ្សេងៗ (ដូចជាសំឡេងម៉ូតូ សត្វល្អិត) អាកាសធាតុខុសគ្នា និងការប្រើប្រាស់ដ្រូនកែច្នៃចម្រុះ ដែលទាមទារឲ្យមានការប្រមូលទិន្នន័យក្នុងស្រុកបន្ថែមដើម្បីបង្វឹកម៉ូដែលឲ្យបានច្បាស់លាស់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យាតាមដានដ្រូនតាមរយៈសំឡេងនេះ មានសក្តានុពលខ្ពស់សម្រាប់ការយកមកអនុវត្តនៅកម្ពុជា ដោយសារវាជាដំណោះស្រាយចំណាយតិចជាងការប្រើប្រាស់រ៉ាដា។

ព្រលានយន្តហោះអន្តរជាតិ (ភ្នំពេញ សៀមរាប តារាសាគរ): អាចដំឡើងប្រព័ន្ធស្រូបសំឡេងតម្លៃថោកនៅជុំវិញរបងព្រលានយន្តហោះ ដើម្បីតាមដាន និងផ្តល់សញ្ញាព្រមាននៅពេលមានដ្រូនហោះចូលតំបន់ហាមឃាត់ ដែលអាចបង្កគ្រោះថ្នាក់ដល់ការហោះហើរ។
ការការពារតំបន់ព្រំដែន និងតំបន់អភិរក្ស (ខេត្តមណ្ឌលគិរី កោះកុង): ជួយអាជ្ញាធរក្នុងការចាប់សញ្ញាដ្រូនដែលលួចដឹកជញ្ជូនទំនិញខុសច្បាប់ ឬបទល្មើសព្រៃឈើ ដោយផ្តោតពិសេសលើការរកឃើញដ្រូនដែលមានផ្ទុកទម្ងន់។
សន្តិសុខព្រឹត្តិការណ៍សាធារណៈ (រាជធានីភ្នំពេញ): កងកម្លាំងសន្តិសុខអាចដាក់ពង្រាយប្រព័ន្ធនេះជាបណ្តោះអាសន្នក្នុងអំឡុងពេលបុណ្យជាតិធំៗ (ដូចជាបុណ្យអុំទូក) ដើម្បីរកឃើញយ៉ាងរហ័សនូវដ្រូនដែលសង្ស័យថាមានផ្ទុកគ្រឿងផ្ទុះ ឬអាវុធគីមី។

ជារួម វិធីសាស្ត្រនេះអាចក្លាយជាឧបករណ៍សន្តិសុខដ៏មានប្រសិទ្ធភាព និងសន្សំសំចៃសម្រាប់ស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជា ប្រសិនបើមានការស្រាវជ្រាវបន្ថែមដើម្បីសម្របម៉ូដែលនេះទៅនឹងបរិស្ថានសំឡេងក្នុងស្រុក។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃការវិភាគសញ្ញាសំឡេង (Audio Signal Processing): និស្សិតត្រូវសិក្សាពីទ្រឹស្តីសំឡេង និងអនុវត្តការសរសេរកូដដោយប្រើប្រាស់បណ្ណាល័យ Librosa ក្នុង Python ដើម្បីរៀនទាញយកលក្ខណៈពិសេសសំខាន់ៗដូចជា MFCC, Chroma, និង Mel Spectrogram ពីឯកសារសំឡេង (.wav ឬ .mp3)។
ប្រមូលទិន្នន័យសំឡេងដ្រូនក្នុងស្រុក (Dataset Collection): រៀបចំយុទ្ធនាការថតសំឡេងដ្រូនប្រភេទផ្សេងៗដែលពេញនិយមនៅកម្ពុជា ទាំងពេលមានផ្ទុក និងមិនផ្ទុកទម្ងន់ នៅក្នុងបរិស្ថានជាក់ស្តែង (ឧទាហរណ៍៖ កន្លែងមានសំឡេងខ្យល់ ចរាចរណ៍ ឬសំឡេងធម្មជាតិ) ដើម្បីបង្កើតឈុតទិន្នន័យផ្ទាល់ខ្លួន។
សាងសង់ និងបង្វឹកម៉ូដែល Machine Learning: ប្រើប្រាស់បណ្ណាល័យ Scikit-Learn ឬ TensorFlow ដើម្បីសរសេរកូដបង្កើតម៉ូដែល SVM, KNN, ឬ Neural Network ដោយយកឈុតទិន្នន័យដែលបានទាញយកលក្ខណៈពិសេសរួច មកបង្វឹក (Train) និងវាយតម្លៃ (Test) ស្វែងរកម៉ូដែលដែលល្អបំផុត។
អភិវឌ្ឍប្រព័ន្ធតាមដានជាក់ស្តែង (Real-time Detection System): ភ្ជាប់ម៉ូដែលដែលបានបង្វឹករួចទៅកាន់ឧបករណ៍ស្រូបសំឡេង (Microphone) និងកុំព្យូទ័រខ្នាតតូចដូចជា Raspberry Pi ដើម្បីបង្កើតប្រព័ន្ធឆ្លាតវៃដែលអាចស្តាប់ និងផ្តល់សញ្ញាព្រមាន (Alert) ភ្លាមៗនៅលើអេក្រង់នៅពេលមានដ្រូនផ្ទុកទម្ងន់ហោះកាត់។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Feature Extraction	គឺជាដំណើរការនៃការទាញយកព័ត៌មាន ឬលក្ខណៈសម្បត្តិសំខាន់ៗចេញពីទិន្នន័យឆៅ (ដូចជាឯកសារសំឡេងរវល់ៗ) ដើម្បីបំប្លែងវាទៅជាទម្រង់វ៉ិចទ័រលេខដែលកុំព្យូទ័រអាចយល់ និងយកទៅសិក្សាបានយ៉ាងងាយស្រួលដោយមិនមានភាពស្មុគស្មាញ។	ដូចជាការស្តាប់មនុស្សម្នាក់និយាយ រួចកត់ត្រាតែចំណុចសំខាន់ៗ (កម្ពស់សំឡេង និងល្បឿន) ជាជាងការចងចាំគ្រប់ពាក្យពេចន៍ទាំងអស់របស់គាត់។
mfcc	ជាបច្ចេកទេសទាញយកលក្ខណៈពិសេសនៃសំឡេង ដោយក្លែងធ្វើតាមរបៀបដែលត្រចៀកមនុស្សស្តាប់ឮ (វាផ្តោតលើរលកសំឡេងប្រេកង់ទាបច្រើនជាងប្រេកង់ខ្ពស់) ដើម្បីកំណត់អត្តសញ្ញាណប្រភព និងទម្រង់នៃសំឡេងម៉ូទ័ររបស់ដ្រូន។	ដូចជាឧបករណ៍តម្រងសំឡេងឆ្លាតវៃ ដែលជួយឲ្យកុំព្យូទ័រស្តាប់ និងបែងចែកសំឡេងដ្រូនបានដូចទៅនឹងត្រចៀករបស់មនុស្សយើងដែរ។
Support Vector Machine (SVM)	ជាក្បួនដោះស្រាយរៀនដោយម៉ាស៊ីន (Machine Learning) ដែលព្យាយាមគូសបន្ទាត់ ឬបង្កើតព្រំដែនដ៏ល្អបំផុតមួយ ដើម្បីបែងចែកក្រុមទិន្នន័យពីរប្រភេទផ្សេងគ្នា (ឧទាហរណ៍៖ ដ្រូនមានផ្ទុកទម្ងន់ និងដ្រូនគ្មានផ្ទុកទម្ងន់) ឲ្យដាច់ពីគ្នាច្បាស់លាស់បំផុតដោយមានគម្លាតធំទូលាយ។	ដូចជាការគូសបន្ទាត់លើដីដើម្បីញែកក្រុមក្មេងពាក់អាវក្រហម និងក្រុមក្មេងពាក់អាវខៀវឲ្យនៅម្ខាងម្នាក់ ដោយធានាថាបន្ទាត់នោះនៅចំកណ្តាលឃ្លាតពីក្មេងទាំងសងខាងឆ្ងាយបំផុត។
K-Nearest Neighbor (KNN)	ជាម៉ូដែលចំណាត់ថ្នាក់ដែលសម្រេចចិត្តថាទិន្នន័យថ្មីមួយ (ឧ. សំឡេងដ្រូនថ្មី) គួរតែស្ថិតក្នុងក្រុមណា ដោយផ្អែកលើការប្រៀបធៀបភាពស្រដៀងគ្នារបស់វាទៅនឹងទិន្នន័យចាស់ៗដែលនៅក្បែរវាបំផុតចំនួន K (ក្នុងឯកសារនេះគេកំណត់ K=6)។	ដូចជាការទស្សន៍ទាយចំណង់ចំណូលចិត្តរបស់សិស្សថ្មីម្នាក់ ដោយមើលទៅលើសិស្សចាស់៦នាក់ផ្សេងទៀតដែលមានចរិតលក្ខណៈស្រដៀងគេបំផុត។
Neural Network (NN)	ជាប្រព័ន្ធម៉ូដែលបញ្ញាសិប្បនិម្មិតដែលត្រូវបានរចនាឡើងដោយត្រាប់តាមបណ្តាញកោសិកាខួរក្បាលរបស់មនុស្ស ដែលមានស្រទាប់ (Layers) ជាច្រើនតភ្ជាប់គ្នា ដើម្បីរៀនស្គាល់លំនាំស្មុគស្មាញពីទិន្នន័យសំឡេង និងធ្វើការសម្រេចចិត្តបានត្រឹមត្រូវ។	ដូចជាក្រុមការងារមួយដែលមានបុគ្គលិកច្រើនជាន់ថ្នាក់ ដោយអ្នកថ្នាក់ក្រោមវិភាគព័ត៌មានរួចបញ្ជូនបន្តទៅអ្នកថ្នាក់លើ រហូតដល់មេធំបំផុតអាចធ្វើការសម្រេចចិត្តបានយ៉ាងសុក្រឹត។
chroma	ជារង្វាស់លក្ខណៈពិសេសនៃសំឡេងដែលតំណាងឱ្យកម្រិតថាមពលនៃសម្លេងធៀបនឹងណោតភ្លេងទាំង១២ (Pitch classes) ដើម្បីអាចយល់ពីទម្រង់ភ្លេង ឬចង្វាក់ (Rhythmic patterns) នៃសញ្ញាសំឡេងរបស់ស្លាបចាក់ដ្រូន។	ដូចជាការស្តាប់បទចម្រៀងមួយ រួចកត់សម្គាល់តែណោតភ្លេងគោល (ដូ រ៉េ មី...) ដែលលេចធ្លោជាងគេនៅក្នុងវិនាទីនីមួយៗ ដោយមិនខ្វល់ពីអ្នកច្រៀង។
tonnetz	ជាបច្ចេកទេសទាញយកលក្ខណៈពិសេសដែលគណនាពីភាពសុខដុម (Harmony) និងទំនាក់ទំនងនៃសំឡេងនៅក្នុងលំហធរណីមាត្រ ដើម្បីស្វែងយល់ពីរបៀបដែលប្រេកង់សំឡេងខុសៗគ្នាលាយឡំចូលគ្នា។	ដូចជាការមើលផែនទីសាច់ពណ៌ ដែលបង្ហាញពីភាពស៊ីចង្វាក់គ្នានៃសំឡេងផ្សេងៗដែលបន្លឺឡើងព្រមគ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖