បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការស្វែងរកលំនាំ ឬរចនាសម្ព័ន្ធដែលលាក់កំបាំងនៅក្នុងទិន្នន័យធំៗ និងស្មុគស្មាញដោយមិនមានការកំណត់ស្លាកជាមុន (Unsupervised Learning) ដែលអ្នកជំនាញមិនអាចមើលឃើញដោយងាយ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានអភិវឌ្ឍប្រព័ន្ធ AutoClass ដោយប្រើប្រាស់ទ្រឹស្តីបាយេស (Bayesian theory) ដើម្បីស្វែងរកចំនួនថ្នាក់ (Classes) និងការពិពណ៌នាថ្នាក់ដែលទំនងបំផុតដោយស្វ័យប្រវត្តិ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| AutoClass (Bayesian Mixture Model) ការធ្វើចំណាត់ថ្នាក់ស្វ័យប្រវត្តិបែបបាយេស (AutoClass) |
អាចកំណត់ចំនួនថ្នាក់ (Classes) ដោយស្វ័យប្រវត្តិមិនចាំបាច់កំណត់ទុកជាមុន និងផ្តល់នូវប្រូបាប៊ីលីតេនៃការចូលជាសមាជិករបស់ទិន្នន័យនីមួយៗជំនួសឱ្យការកាត់សេចក្តីដាច់ខាត។ | ទាមទារថាមពលកុំព្យូទ័រខ្ពស់សម្រាប់ការគណនា (Computationally Expensive) និងអាចជាប់គាំងត្រឹមចំណុចល្អបំផុតក្នុងតំបន់ (Local Maxima) នៃលំហស្វែងរក។ | បានរកឃើញប្រភេទផ្កាយថ្មីៗនៅក្នុងទិន្នន័យ IRAS និងលំនាំ DNA ដែលវិធីសាស្ត្រផ្សេងទៀតមិនអាចរកឃើញ។ |
| Traditional Maximum Likelihood / Hard Clustering ការបែងចែកក្រុមតាមបែបប្រពៃណី (Hard Clustering) |
មានដំណើរការលឿនជាង និងងាយស្រួលយល់សម្រាប់ទិន្នន័យដែលមានព្រំដែនច្បាស់លាស់។ | ងាយរងគ្រោះចំពោះទិន្នន័យដែលមានភាពស្រពិចស្រពិល (Brittle behavior) និងមិនអាចផ្តល់ព័ត៌មានលម្អិតអំពីភាពមិនច្បាស់លាស់នៃការចាត់ថ្នាក់បានទេ។ | មិនត្រូវបានណែនាំក្នុងឯកសារនេះទេ ដោយសារវាខ្វះសមត្ថភាពក្នុងការដោះស្រាយទិន្នន័យស្មុគស្មាញ និងទិន្នន័យដែលមានលក្ខណៈចម្រុះ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រនេះទាមទារធនធានកុំព្យូទ័រខ្ពស់ និងកិច្ចសហការជិតស្និទ្ធជាមួយអ្នកជំនាញតាមវិស័យ។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យតារាសាស្ត្រ (IRAS), ជីវវិទ្យា (DNA), និងរូបភាពផ្កាយរណប (LandSat) ពីសហរដ្ឋអាមេរិក។ សម្រាប់កម្ពុជា បញ្ហាមិនមែនជាភាពលំអៀងនៃក្បួនដោះស្រាយទេ ប៉ុន្តែគឺកង្វះខាតទិន្នន័យឌីជីថលដែលមានគុណភាពខ្ពស់ និងទិន្នន័យដើម (Raw Data) ក្នុងវិស័យកសិកម្ម ឬសុខាភិបាលដើម្បីយកមកវិភាគ។
វិធីសាស្ត្រនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់កម្ពុជាក្នុងការរុករកចំណេះដឹងថ្មីៗពីទិន្នន័យធំៗដែលមិនទាន់មានការចាត់ថ្នាក់។
AutoClass គឺជាឧបករណ៍ដ៏មានឥទ្ធិពលសម្រាប់ការស្រាវជ្រាវបែបស្វែងរក (Exploratory Research) នៅកម្ពុជា ប៉ុន្តែវាទាមទារឱ្យមានការប្រមូលទិន្នន័យដែលមានស្តង់ដារ និងការបណ្តុះបណ្តាលអ្នកវិភាគទិន្នន័យកម្រិតខ្ពស់។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Unsupervised Classification | ជាដំណើរការដែលកុំព្យូទ័រស្វែងរកក្រុម ឬលំនាំនៅក្នុងទិន្នន័យដោយខ្លួនឯង ដោយមិនចាំបាច់មានមនុស្សប្រាប់ជាមុនថាទិន្នន័យនោះជាអ្វី ឬស្ថិតក្នុងក្រុមណា។ វាខុសពីការរៀនដែលមានការណែនាំ (Supervised Learning) ដែលត្រូវការឧទាហរណ៍ដែលមានស្លាកឈ្មោះជាមុន។ | ដូចជាការឱ្យក្មេងបែងចែកគ្រាប់ឃ្លីជាក្រុមៗដោយខ្លួនឯង ដោយមិនប្រាប់ថាត្រូវបែងចែកតាមពណ៌ ឬទំហំ។ |
| Finite Mixture Model | ជាគំរូគណិតវិទ្យាដែលសន្មតថា ទិន្នន័យសរុបគឺកើតចេញពីការលាយបញ្ចូលគ្នានៃក្រុមតូចៗ (Components/Classes) ជាច្រើន ដែលក្រុមនីមួយៗមានលក្ខណៈស្ថិតិរៀងៗខ្លួន។ AutoClass ប្រើគំរូនេះដើម្បីបំបែកទិន្នន័យចម្រុះឱ្យទៅជាក្រុមដើមវិញ។ | ដូចជាចានសម្លកគោដែលកើតចេញពីការលាយបញ្ចូលគ្នានៃគ្រឿងផ្សំជាច្រើនមុខ ហើយយើងព្យាយាមវិភាគរកថាមានគ្រឿងផ្សំអ្វីខ្លះ និងបរិមាណប៉ុន្មាននៅក្នុងនោះ។ |
| Posterior Probability | គឺជាប្រូបាប៊ីលីតេ ឬកម្រិតនៃការជឿជាក់ថារឿងមួយពិតជាត្រឹមត្រូវ (ឧទាហរណ៍៖ ទិន្នន័យនេះស្ថិតក្នុងក្រុម A) បន្ទាប់ពីបានពិចារណាលើភស្តុតាងជាក់ស្តែង និងចំណេះដឹងដែលមានពីមុន (Priors)។ | ដូចជាការផ្លាស់ប្តូរការទស្សន៍ទាយថាក្រុមបាល់ទាត់ណានឹងឈ្នះ បន្ទាប់ពីបានឃើញលទ្ធផលនៅតង់ទីមួយរួចហើយ (ការទស្សន៍ទាយមានភាពច្បាស់លាស់ជាងមុន)។ |
| Occam Factor | ជាយន្តការគណិតវិទ្យានៅក្នុងទ្រឹស្តីបាយេស ដែលដាក់ពិន័យទៅលើគំរូណាដែលមានភាពស្មុគស្មាញពេក។ វាជួយការពារមិនឱ្យកុំព្យូទ័របង្កើតក្រុម (Classes) ច្រើនហួសហេតុពេក ដោយអនុលោមតាមគោលការណ៍ថា 'ការពន្យល់ដែលសាមញ្ញបំផុត តែងតែល្អបំផុត'។ | ដូចជាការជ្រើសរើសផ្លូវដែលត្រង់ និងខ្លីបំផុតដើម្បីទៅដល់គោលដៅ ជាជាងការជ្រើសរើសផ្លូវវាងឆ្ងាយដែលនាំឱ្យស្មុគស្មាញ។ |
| Expectation Maximization (EM) | ជាក្បួនដោះស្រាយដែលធ្វើការដដែលៗដើម្បីស្វែងរកប៉ារ៉ាម៉ែត្រល្អបំផុត។ វាចាប់ផ្តើមដោយការស្មាន (Expectation) បន្ទាប់មកគណនាដើម្បីកែតម្រូវការស្មាននោះឱ្យកាន់តែច្បាស់ (Maximization) ហើយធ្វើបែបនេះរហូតដល់ទទួលបានលទ្ធផលដែលមិនប្រែប្រួល។ | ដូចជាការរាវរកប៉ុស្តិ៍វិទ្យុ ដោយបង្វិលប៊ូតុងទៅមកតិចៗ រហូតទាល់តែសំឡេងច្បាស់ល្អបំផុត។ |
| Class Probability Density Function (p.d.f) | ជាអនុគមន៍ដែលពិពណ៌នាអំពីលក្ខណៈ ឬ 'រូបរាង' នៃការចែកចាយទិន្នន័យនៅក្នុងក្រុមមួយ។ វាប្រាប់យើងថា តើទិន្នន័យប្រភេទណាដែលមានឱកាសកើតឡើងខ្ពស់នៅក្នុងក្រុមនោះ។ | ដូចជាពុម្ពនំដែលកំណត់រូបរាងរបស់នំ។ ក្រុមនីមួយៗមាន 'ពុម្ព' (p.d.f) ផ្ទាល់ខ្លួនសម្រាប់បង្កើតទិន្នន័យដែលមានលក្ខណៈដូចៗគ្នា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖