បញ្ហា (The Problem)៖ ការសិក្សានេះដោះស្រាយបញ្ហានៃការប៉ាន់ស្មានមេគុណសហសម្ព័ន្ធ (Correlation Coefficient) សម្រាប់ទិន្នន័យដែលមានការចែកចាយធម្មតាទ្វេអថេរ ដែលមានទិន្នន័យបាត់បង់ (Missing Data) ដែលតែងតែបង្កឱ្យមានភាពលម្អៀង និងភាពមិនច្បាស់លាស់ក្នុងការវិភាគទិន្នន័យ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើឧបករណ៍ប៉ាន់ស្មានថ្មីមួយដោយប្រើវិធីសាស្រ្តកាត់បន្ថយភាពលម្អៀង Jackknife និងបានវាយតម្លៃវាប្រៀបធៀបទៅនឹងមេគុណ Pearson តាមរយៈការក្លែងធ្វើកុំព្យូទ័រ (Simulation study) ដែលមានទំហំសំណាក និងភាគរយទិន្នន័យបាត់បង់ខុសៗគ្នា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Pearson Correlation Coefficient មេគុណសហសម្ព័ន្ធ Pearson សម្រាប់ទិន្នន័យសង្កេតពេញលេញ |
ងាយស្រួលគណនា និងប្រើប្រាស់ទូទៅ ជាជម្រើសដ៏សមស្របសម្រាប់ការវិភាគទិន្នន័យធម្មតាដែលមិនមានបញ្ហាបាត់បង់ច្រើន។ | មានភាពលម្អៀង (Bias) ខ្ពស់នៅពេលមានទិន្នន័យបាត់បង់ច្រើន និងទំហំសំណាកតូច ឬនៅពេលមេគុណសហសម្ព័ន្ធមិនកៀកនឹងសូន្យ។ | មានភាពលម្អៀងដាច់ខាត (Absolute bias) ខ្ពស់ជាងវិធីសាស្រ្តដែលបានស្នើនៅពេលដែលទំហំសំណាកមានចន្លោះពី ៣០ ទៅ ៦០ ជាមួយនឹងទិន្នន័យបាត់បង់ច្រើនជាង ១០%។ |
| Proposed Estimator (Jackknife's method) ឧបករណ៍ប៉ាន់ស្មានដែលបានស្នើដោយប្រើវិធីសាស្រ្ត Jackknife |
កាត់បន្ថយភាពលម្អៀងបានយ៉ាងមានប្រសិទ្ធភាពសម្រាប់សំណាកធំ ដែលមានអត្រាបាត់បង់ទិន្នន័យខ្ពស់ ដោយរក្សានូវភាពសុក្រឹតខ្ពស់។ | ត្រូវការការគណនាស្មុគស្មាញ និងស៊ីពេលច្រើនជាងមុន ដោយទាមទារការដកចេញទិន្នន័យម្តងមួយៗ (leave-one-out) ដើម្បីគណនាសារជាថ្មី។ | ភាពលម្អៀងដាច់ខាតត្រូវបានកាត់បន្ថយមកត្រឹមកម្រិតតិចជាង ០.០០៤ សម្រាប់ទំហំសំណាក ៣០ និង ៦០ ដោយកំហុសមធ្យមការ៉េ (MSE) មិនមានភាពខុសគ្នាពីវិធីសាស្រ្ត Pearson ឡើយ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះពឹងផ្អែកលើការក្លែងធ្វើកុំព្យូទ័រ (Simulation study) ដែលមិនត្រូវការធនធានសម្ភារៈរូបវន្តថ្លៃៗឡើយ ប៉ុន្តែទាមទារចំណេះដឹងផ្នែកស្ថិតិ និងកម្មវិធីកុំព្យូទ័រដើម្បីដំណើរការគណនា។
ការសិក្សានេះប្រើប្រាស់ទិន្នន័យក្លែងធ្វើ (Simulated data) តាមទម្រង់ការចែកចាយធម្មតាទ្វេអថេរ ជាមួយនឹងការបាត់បង់ទិន្នន័យដោយចៃដន្យ (Missing Completely at Random - MCAR) ពុំមែនជាទិន្នន័យជាក់ស្តែងពីប្រជាជនណាមួយឡើយ។ សម្រាប់ប្រទេសកម្ពុជា នេះមានន័យថាវិធីសាស្រ្តនេះអាចយកទៅអនុវត្តបានយ៉ាងទូលំទូលាយលើគ្រប់វិស័យ ដរាបណាទិន្នន័យគោលមានលក្ខណៈចែកចាយធម្មតា និងការបាត់បង់ទិន្នន័យកើតឡើងដោយចៃដន្យ។
វិធីសាស្រ្តនេះមានសារៈសំខាន់ និងអាចយកមកអនុវត្តបានយ៉ាងប្រសើរនៅក្នុងបរិបទនៃការស្រាវជ្រាវនៅកម្ពុជា ជាពិសេសនៅពេលការប្រមូលទិន្នន័យជួបប្រទះបញ្ហាបាត់បង់ព័ត៌មាន។
ជារួម ឧបករណ៍ប៉ាន់ស្មាន Jackknife នេះផ្តល់នូវដំណោះស្រាយដ៏រឹងមាំមួយក្នុងការវិភាគទិន្នន័យមិនពេញលេញ ដែលជួយឱ្យអ្នកស្រាវជ្រាវកម្ពុជាអាចធ្វើការសន្និដ្ឋានបានត្រឹមត្រូវនិងមានភាពជឿជាក់ជាងមុន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Bivariate Normal Distribution (ការចែកចាយធម្មតាទ្វេអថេរ) | ជាទម្រង់ស្ថិតិដែលអថេរពីរមានទំនាក់ទំនងគ្នា ហើយអថេរនីមួយៗមានការចែកចាយរាងដូចជួង (Bell curve)។ វាត្រូវបានប្រើដើម្បីសិក្សាពីរបៀបដែលអថេរទាំងពីរប្រែប្រួលជាមួយគ្នាក្នុងពេលតែមួយ។ | ដូចជាការមើលទំនាក់ទំនងរវាងកម្ពស់ និងទម្ងន់របស់មនុស្សមួយក្រុម ដែលជាទូទៅមនុស្សខ្ពស់ច្រើនតែធ្ងន់ ហើយតម្លៃទាំងពីរនេះប្រមូលផ្តុំច្រើននៅចំណុចកណ្តាល។ |
| Correlation Coefficient (មេគុណសហសម្ព័ន្ធ) | ជារង្វាស់ស្ថិតិដែលបង្ហាញពីកម្រិត និងទិសដៅនៃទំនាក់ទំនងរវាងអថេរពីរ ដែលមានតម្លៃចន្លោះពី -១ ដល់ ១។ តម្លៃខិតជិត ១ ឬ -១ បញ្ជាក់ពីទំនាក់ទំនងខ្លាំង។ | ដូចជាត្រីវិស័យនិងរង្វាស់ល្បឿន ដែលប្រាប់យើងថា តើឡានពីរគ្រឿងកំពុងបើកទៅទិសដៅតែមួយឬផ្ទុយគ្នា ហើយល្បឿនរបស់ពួកគេប្រែប្រួលស្របគ្នាកម្រិតណា។ |
| Jackknife's method (វិធីសាស្រ្តកាត់បន្ថយភាពលម្អៀង Jackknife) | ជាបច្ចេកទេសក្នុងស្ថិតិដើម្បីវាយតម្លៃកំហុស ឬកាត់បន្ថយភាពលម្អៀង (Bias) នៃការប៉ាន់ស្មាន ដោយដកទិន្នន័យចេញម្តងមួយៗ (leave-one-out) រួចធ្វើការគណនាសារជាថ្មីរហូតអស់ទិន្នន័យគ្រប់តួ ដើម្បីរកតម្លៃមធ្យមដែលសុក្រឹតជាងមុន។ | ដូចជាការភ្លក់សម្លមួយឆ្នាំងដោយសាកល្បងដកគ្រឿងផ្សំចេញម្តងមួយមុខៗ ដើម្បីចង់ដឹងថាគ្រឿងផ្សំណាមួយដែលធ្វើឲ្យសម្លនោះប្រៃពេកឬសាបពេក។ |
| Missing Completely at Random (ការបាត់បង់ទិន្នន័យដោយចៃដន្យ) | ជាស្ថានភាពដែលទិន្នន័យខ្លះមិនត្រូវបានកត់ត្រា ឬបាត់បង់ដោយមិនមានមូលហេតុជាក់លាក់ណាមួយទាក់ទងនឹងតម្លៃនៃទិន្នន័យនោះ ឬអថេរផ្សេងទៀតឡើយ (អត្រានៃការបាត់បង់គឺស្មើគ្នាសម្រាប់គ្រប់ករណី)។ | ដូចជាសៀវភៅបញ្ជីវត្តមានសិស្សដែលត្រូវទឹកភ្លៀងលុបឈ្មោះខ្លះដោយចៃដន្យ ដោយវាមិនពាក់ព័ន្ធថាសិស្សដែលរលុបឈ្មោះនោះជារបស់សិស្សពូកែ ឬសិស្សខ្សោយនោះទេ។ |
| Absolute bias (ភាពលម្អៀងដាច់ខាត) | ជាទំហំនៃភាពខុសគ្នារវាងតម្លៃដែលប៉ាន់ស្មានបានពីគំរូ និងតម្លៃពិតប្រាកដនៃប្រជាជនគោល ដោយមិនគិតពីសញ្ញាដក ឬបូក (យកតម្លៃដាច់ខាត)។ | ដូចជាការទាយទម្ងន់ផ្លែឪឡឹក បើអ្នកទាយខុស ១គីឡូ (មិនថាអ្នកទាយលើស ១គីឡូ ឬទាយខ្វះ ១គីឡូទេ) គឺរាប់ថាអ្នកមានភាពលម្អៀង ១គីឡូដូចគ្នា។ |
| Mean Square Error (កំហុសមធ្យមការ៉េ / MSE) | ជារង្វាស់ដែលវាយតម្លៃភាពសុក្រឹតនៃរូបមន្តប៉ាន់ស្មាន ដោយគណនាមធ្យមនៃកំហុសការ៉េ (ភាពខុសគ្នារវាងតម្លៃប៉ាន់ស្មាន និងតម្លៃពិត)។ វាវាស់ទាំងភាពលម្អៀង (Bias) និងភាពប្រែប្រួលរាយប៉ាយ (Variance) នៃទិន្នន័យ។ | ដូចជាការបាញ់ព្រួញទៅកាន់ផ្ទាំងស៊ីប បើព្រួញបាញ់ទៅចំក្បែរៗគ្នាតែខុសចំណុចកណ្តាល នោះកំហុសមធ្យមការ៉េប្រាប់ពីចម្ងាយសរុបនៃព្រួញទាំងអស់ពីចំណុចកណ្តាលនោះ។ |
| Simulation study (ការសិក្សាតាមការក្លែងធ្វើកុំព្យូទ័រ) | ជាការប្រើប្រាស់កម្មវិធីកុំព្យូទ័រដើម្បីបង្កើតទិន្នន័យសិប្បនិម្មិតជាច្រើនពាន់ដង ក្នុងគោលបំណងសាកល្បង និងវាយតម្លៃប្រសិទ្ធភាពនៃរូបមន្ត ឬវិធីសាស្រ្តស្ថិតិណាមួយនៅក្រោមលក្ខខណ្ឌផ្សេងៗគ្នា។ | ដូចជាការប្រើប្រាស់ម៉ាស៊ីន Simulator ដើម្បីសាកល្បងសមត្ថភាពអ្នកបើកបរយន្តហោះ ក្នុងស្ថានភាពអាកាសធាតុផ្សេងៗ មុនពេលឲ្យគាត់ទៅបើកយន្តហោះពិតប្រាកដ។ |
| Complete observation analysis (ការវិភាគលើទិន្នន័យសង្កេតពេញលេញ) | ជាវិធីសាស្រ្តវិភាគទិន្នន័យដែលប្រើប្រាស់តែគូទិន្នន័យ (រវាងអថេរពីរ) ដែលមានតម្លៃពេញលេញទាំងសងខាង និងផាត់ចោលនូវគូទិន្នន័យណាដែលមានបាត់តម្លៃម្ខាងៗចេញពីការវិភាគ។ | ដូចជាការរាប់ចំនួនគូស្វាមីភរិយាក្នុងកម្មវិធីជប់លៀង ដោយរាប់តែគូណាដែលមកទាំងពីរនាក់ ហើយមិនរាប់អ្នកដែលមកតែឯង (ដោយដៃគូអវត្តមាន) នោះទេ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖