បញ្ហា (The Problem)៖ តើការប្រើប្រាស់តម្លៃ Shapley (Shapley values) សម្រាប់ការជ្រើសរើសលក្ខណៈពិសេស (Feature selection) នៅក្នុងម៉ូដែល Machine Learning ពិតជាមានប្រសិទ្ធភាព និងអាចជំនួសវិធីសាស្ត្រប្រពៃណីផ្សេងទៀតបានដែរឬទេ?
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានប្រៀបធៀបវិធីសាស្ត្រជ្រើសរើសលក្ខណៈពិសេសដោយផ្អែកលើតម្លៃ Shapley ជាមួយនឹងវិធីសាស្ត្រ Filter និង Wrapper ប្រពៃណីផ្សេងៗទៀត ទៅលើទិន្នន័យអត្ថបទ និងទិន្នន័យលេខ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Naive Shapley Values (SHAP) វិធីសាស្ត្រតម្លៃ Shapley ធម្មតា |
អាចចាប់យកឥទ្ធិពលរួមបញ្ចូលគ្នានៃលក្ខណៈពិសេសតាមរយៈម៉ូដែល Tree-based និងផ្តល់ការបកស្រាយបានយ៉ាងល្អ។ វាមានល្បឿនលឿនគួរសមបើធៀបនឹងវិធីសាស្ត្រ Wrapper ដទៃទៀត។ | មិនមានសមត្ថភាពក្នុងការដោះស្រាយភាពជាន់គ្នា (Redundancy) ដោយស្វ័យប្រវត្តិទេ ដែលអាចធ្វើឱ្យជ្រើសរើសលក្ខណៈពិសេសស្រដៀងគ្នាច្រើនពេក។ ទាមទារការប្រើប្រាស់ម៉ូដែល Tree-based ប៉ុណ្ណោះ។ | ទទួលបានលទ្ធផល F1-Score ខ្ពស់បំផុតលើទិន្នន័យ Enron Spam ប៉ុន្តែមានប្រសិទ្ធភាពទាបជាងវិធីសាស្ត្រប្រពៃណីផ្សេងទៀតលើទិន្នន័យ Brown Corpus។ |
| Interaction Shapley Values (ISV) វិធីសាស្ត្រអន្តរកម្មតម្លៃ Shapley |
ដោះស្រាយបញ្ហាភាពជាន់គ្នាបានយ៉ាងល្អ ដោយលុបបំបាត់ឥទ្ធិពលមិនល្អពីលក្ខណៈពិសេសដែលមិនបានជ្រើសរើស។ វាពិចារណាលើអន្តរកម្ម (Interactions) រវាងលក្ខណៈពិសេសនីមួយៗ។ | ទាមទារអង្គចងចាំ Memory ខ្ពស់បំផុតរហូតដល់ O(M^2) និងស៊ីពេលគណនាខ្លាំង ដែលធ្វើឱ្យវាមិនអាចប្រើប្រាស់បានទាល់តែសោះសម្រាប់ទិន្នន័យខ្នាតធំ (High-dimensional data)។ | ផ្តល់លទ្ធផលល្អប្រសើរខ្លាំងលើសំណុំទិន្នន័យតូចៗដូចជា MIT-BIH និង Arcene ប៉ុន្តែមិនអាចអនុវត្តលើទិន្នន័យអត្ថបទបានទេ។ |
| Minimum Redundancy Maximum Relevance (mRMR) វិធីសាស្ត្រកាត់បន្ថយភាពជាន់គ្នានិងបង្កើនភាពពាក់ព័ន្ធ (mRMR) |
មានដំណើរការលឿន អាចកាត់បន្ថយលក្ខណៈពិសេសដែលជាន់គ្នាបានល្អ និងមានប្រសិទ្ធភាពខ្ពស់ជាប់លាប់នៅគ្រប់សំណុំទិន្នន័យ។ វាមានតុល្យភាពល្អរវាងពេលវេលាដំណើរការនិងភាពសុក្រឹត។ | មិនអាចចាប់យកឥទ្ធិពលអន្តរកម្ម (Interactions) ស្មុគស្មាញរវាងលក្ខណៈពិសេសដូចវិធីសាស្ត្រ ISV ឬ Wrapper ដទៃទៀតនោះទេ។ | ជាវិធីសាស្ត្រដ៏រឹងមាំមួយដែលផ្តល់លទ្ធផលល្អខ្លាំង និងលឿន ជាពិសេសលើទិន្នន័យ Ionosphere និង Brown Corpus។ |
| Chi-Square (χ2) វិធីសាស្ត្រ Chi-Square |
មានល្បឿនលឿនខ្លាំងសម្រាប់ការគណនា និងមានប្រសិទ្ធភាពខ្ពស់ក្នុងការស្វែងរកទំនាក់ទំនងរវាងលក្ខណៈពិសេសនិងប្រភេទចំណាត់ថ្នាក់ (Categorical data)។ | អាចប្រើបានតែជាមួយទិន្នន័យដែលមានលក្ខណៈជាប្រភេទ (Categorical/Discrete) ប៉ុណ្ណោះ និងមិនអាចដោះស្រាយភាពជាន់គ្នាបានទេ។ | ជាវិធីសាស្ត្រដែលដំណើរការបានល្អបំផុត និងមានល្បឿនលឿនលើសំណុំទិន្នន័យ Brown Corpus ក្នុងចំណោមវិធីសាស្ត្រ Filter ដទៃទៀត។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការប្រើប្រាស់វិធីសាស្ត្រផ្អែកលើ Shapley Values ទាមទារថាមពលកុំព្យូទ័រ និងអង្គចងចាំ (Memory) ខ្ពស់ខុសៗគ្នា អាស្រ័យលើទំហំទិន្នន័យ និងប្រភេទក្បួនដោះស្រាយដែលត្រូវបានជ្រើសរើស។
ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសំណុំទិន្នន័យលោកខាងលិច ដូចជា Enron Spam (អ៊ីមែលភាសាអង់គ្លេស), Brown corpus និងទិន្នន័យវេជ្ជសាស្ត្រ MIT-BIH ជាដើម។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តវិធីសាស្ត្រទាំងនេះទៅលើទិន្នន័យអត្ថបទភាសាខ្មែរ (Khmer NLP) នឹងជួបប្រទះបញ្ហាប្រឈមធំៗទាក់ទងនឹងរចនាសម្ព័ន្ធវេយ្យាករណ៍ និងការកាត់ពាក្យ (Word segmentation) ដែលតម្រូវឱ្យមានការកែច្នៃទិន្នន័យឱ្យស្របតាមបរិបទភាសាក្នុងស្រុកជាមុនសិន។
វិធីសាស្ត្រជ្រើសរើសលក្ខណៈពិសេស (Feature Selection) ដែលបង្ហាញក្នុងឯកសារនេះ គឺមានសារៈសំខាន់ និងអាចយកមកអនុវត្តប្រកបដោយប្រសិទ្ធភាពដើម្បីអភិវឌ្ឍប្រព័ន្ធ Machine Learning នៅកម្ពុជា។
ជារួម ការច្របាច់បញ្ចូលគ្នារវាងវិធីសាស្ត្រកាត់បន្ថយទំហំទិន្នន័យរហ័ស (ដូចជា mRMR) និងការពន្យល់ម៉ូដែលលម្អិត (Shapley Values) គឺជាយុទ្ធសាស្ត្រដ៏មានសក្តានុពលសម្រាប់ស្ថាប័ននានានៅកម្ពុជា ក្នុងការបង្កើត AI ដែលមានតម្លៃទាបតែអាចទុកចិត្តបាន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Shapley values | ជាគោលគំនិតមានប្រភពពីទ្រឹស្តីល្បែង (Game Theory) ដែលត្រូវបានប្រើប្រាស់ក្នុង Machine Learning ដើម្បីគណនា និងបែងចែកចំណែកនៃឥទ្ធិពលរបស់លក្ខណៈពិសេស (Feature) នីមួយៗទៅលើលទ្ធផលរបស់ម៉ូដែល ដោយធានាបាននូវភាពយុត្តិធម៌ក្នុងការវាយតម្លៃ។ | ដូចជាការបែងចែកប្រាក់រង្វាន់ដល់សមាជិកក្រុមនីមួយៗ ដោយផ្អែកលើទំហំការងារនិងការចូលរួមចំណែកជាក់ស្តែងរបស់ពួកគេក្នុងការសម្រេចលទ្ធផលការងារនោះ។ |
| Feature Selection | ជាដំណើរការនៃការជ្រើសរើសយកតែទិន្នន័យ ឬអថេរណាដែលពាក់ព័ន្ធ និងមានប្រយោជន៍បំផុត ដើម្បីយកមកបង្វឹកម៉ូដែល Machine Learning និងកាត់ចោលនូវទិន្នន័យដែលមិនចាំបាច់ ឬជាន់គ្នា។ | ដូចជាការរៀបចំវ៉ាលីមុនពេលធ្វើដំណើរ ដោយជ្រើសរើសយកតែរបស់ចាំបាច់បំផុតទៅតាម និងទុកចោលរបស់ដែលមិនចាំបាច់ដើម្បីកុំឲ្យធ្ងន់។ |
| Markov Blanket | គឺជាសំណុំតូចបំផុតនៃអថេរជុំវិញអថេរគោលដៅ ដែលផ្ទុកនូវព័ត៌មានទាំងអស់ចាំបាច់សម្រាប់ធ្វើការទស្សន៍ទាយអថេរគោលដៅនោះ ដោយមិនត្រូវការទិន្នន័យពីអថេរផ្សេងទៀតឡើយ។ | ដូចជាក្រុមអ្នកជិតខាងនិងគ្រួសារផ្ទាល់របស់អ្នក ដែលដឹងរឿងរ៉ាវពិតប្រាកដរបស់អ្នកច្បាស់ជាងគេ រហូតដល់អ្នកដទៃមិនចាំបាច់ទៅសួរអ្នកភូមិផ្សេងទៀតឡើយ។ |
| Wrapper methods | ជាក្បួនជ្រើសរើសលក្ខណៈពិសេស ដែលវាយតម្លៃសំណុំរងនៃលក្ខណៈពិសេស ដោយយកវាទៅបង្វឹកម៉ូដែល Machine Learning ពិតប្រាកដ រួចវាស់ស្ទង់មើលប្រសិទ្ធភាពរបស់ម៉ូដែលនោះ។ វាមានភាពសុក្រឹតខ្ពស់តែស៊ីពេលគណនាខ្លាំង។ | ដូចជាការសាកល្បងពាក់ខោអាវផ្ទាល់ម្តងមួយឈុតៗ ដើម្បីចង់ដឹងថាមួយណាស័ក្តិសមនឹងអ្នកបំផុត ជាជាងការគ្រាន់តែស្មានដោយមើលនឹងភ្នែក។ |
| Filter methods | ជាវិធីសាស្ត្រជ្រើសរើសលក្ខណៈពិសេសដោយផ្អែកលើការគណនាស្ថិតិ (ដូចជា Mutual Information ឬ Chi-Square) ដោយមិនពឹងផ្អែកលើម៉ូដែល Machine Learning ឡើយ ដែលធ្វើឲ្យវាមានដំណើរការលឿន តែមិនបានគិតពីអន្តរកម្មរវាងអថេរទេ។ | ដូចជាការរែងយកគ្រាប់ខ្សាច់ម៉ត់ៗដោយប្រើកញ្ច្រែង ដែលអាចធ្វើបានលឿនដោយមិនចាំបាច់យកខ្សាច់នោះទៅសាកល្បងលាយស៊ីម៉ងត៍ជាមុនឡើយ។ |
| Mutual Information | ជារង្វាស់នៃការវាយតម្លៃថាតើព័ត៌មានពីអថេរមួយ អាចជួយកាត់បន្ថយភាពមិនប្រាកដប្រជា (Uncertainty) របស់អថេរមួយទៀតបានកម្រិតណា។ វាជួយប្រាប់យើងថាអថេរទាំងពីរមានទំនាក់ទំនងគ្នាកម្រិតណា។ | ដូចជាការទស្សន៍ទាយអាកាសធាតុ បើអ្នកឃើញមេឃងងឹត (អថេរមួយ) វាផ្តល់ព័ត៌មានយ៉ាងច្បាស់ថាភ្លៀងនឹងធ្លាក់ (អថេរគោលដៅ)។ |
| TF-IDF | ជារូបមន្តគណនាទម្ងន់នៃពាក្យក្នុងអត្ថបទ ដើម្បីកំណត់ថាតើពាក្យនោះមានសារៈសំខាន់កម្រិតណាសម្រាប់អត្ថបទនោះធៀបនឹងឯកសារទាំងអស់ក្នុងសំណុំទិន្នន័យ។ វាផ្តល់តម្លៃខ្ពស់ដល់ពាក្យដែលមានញឹកញាប់ក្នុងឯកសារមួយ តែមានតិចតួចក្នុងឯកសារផ្សេងទៀត។ | ដូចជាការសម្គាល់មនុស្សដោយចំណុចពិសេសរបស់គាត់ (ឧ. មានសម្លាកលើមុខ) ជាជាងការសម្គាល់ដោយចំណុចធម្មតាដែលមានលើមនុស្សគ្រប់គ្នា (ឧ. មានច្រមុះមួយ)។ |
| mRMR | ជាក្បួនដោះស្រាយសម្រាប់ជ្រើសរើសលក្ខណៈពិសេស ដែលមានគោលដៅស្វែងរកអថេរដែលមានទំនាក់ទំនងខ្លាំងបំផុតជាមួយអថេរគោលដៅ (Relevance) ព្រមទាំងព្យាយាមកាត់បន្ថយអថេរណាដែលមានព័ត៌មានជាន់គ្នា (Redundancy)។ | ដូចជាការជ្រើសរើសក្រុមបាល់ទាត់ ដោយជ្រើសរើសកីឡាករពូកែៗ និងត្រូវប្រាកដថាអ្នកទាំងនោះមានជំនាញលេងនៅទីតាំងខុសៗគ្នា មិនជាន់តួនាទីគ្នា។ |
| Tree-based models | ជាប្រភេទម៉ូដែល Machine Learning (ដូចជា Random Forest ឬ XGBoost) ដែលធ្វើការសម្រេចចិត្តដោយបំបែកទិន្នន័យជាមែកធាងជាបន្តបន្ទាប់។ វាមានលក្ខណៈពិសេសអាចឲ្យការគណនាតម្លៃ Shapley បានលឿន (Polynomial time)។ | ដូចជាតារាងសំណួរយេសនូ (Yes/No) ជាបន្តបន្ទាប់ ដែលជួយណែនាំអ្នកឆ្ពោះទៅរកចម្លើយចុងក្រោយមួយជាក់លាក់។ |
| Curse of dimensionality | ជាបញ្ហាក្នុងវិទ្យាសាស្ត្រទិន្នន័យ ដែលនៅពេលចំនួនអថេរ (Features) កើនឡើងកាន់តែច្រើន ទំហំលំហទិន្នន័យកាន់តែធំ ដែលតម្រូវឲ្យមានសំណាកទិន្នន័យច្រើនជាអិចស្ប៉ូណង់ស្យែល (Exponential) ដើម្បីបង្វឹកម៉ូដែលឲ្យបានល្អ និងចៀសវាងការ Overfitting។ | ដូចជាការព្យាយាមរកម្ជុលក្នុងបាតសមុទ្រ បើផ្ទៃសមុទ្រកាន់តែធំ និងជ្រៅ អ្នកកាន់តែពិបាករកម្ជុលនោះទាន់ពេលវេលា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖