បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះដោះស្រាយបញ្ហានៃការយល់ដឹងអំពីសក្ដានុពលដែលជំរុញការវិវត្តនៃបណ្តាញសង្គម (Social Networks) ដោយផ្តោតលើការទស្សន៍ទាយទំនាក់ទំនងនាពេលអនាគតរវាងបុគ្គលពីរនាក់ដែលមិនទាន់មានទំនាក់ទំនងនឹងគ្នា។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកនិពន្ធបានសិក្សាលើការទស្សន៍ទាយតំណភ្ជាប់ក្នុងទម្រង់ជាកិច្ចការរៀនដែលមានការត្រួតពិនិត្យ (Supervised learning task) ដោយបង្កើតម៉ូដែលចំណាត់ថ្នាក់ដើម្បីបែងចែករវាងគូអ្នកនិពន្ធដែលនឹងសហការគ្នានិងអ្នកដែលមិនសហការគ្នា។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Support Vector Machine (SVM) with RBF Kernel ម៉ាស៊ីនវ៉ិចទ័រគាំទ្រ (SVM) ដែលប្រើមុខងារខឺណែល RBF |
ផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុត (Highest Accuracy) និងកំហុសរង្វាស់ការ៉េ (Squared Error) ទាបបំផុតក្នុងចំណោមគ្រប់វិធីសាស្ត្រទាំងអស់។ | ទាមទារការកំណត់ប៉ារ៉ាម៉ែត្រឲ្យបានត្រឹមត្រូវ (Parameter tuning) ដើម្បីទទួលបានលទ្ធផលល្អបំផុត។ | ទទួលបានភាពត្រឹមត្រូវ ៩០.៥៦% លើទិន្នន័យ BIOBASE និង ៨៣.១៨% លើទិន្នន័យ DBLP។ |
| Decision Tree (C4.5) ដើមឈើសម្រេចចិត្ត (Decision Tree) |
ងាយស្រួលក្នុងការបកស្រាយ និងយល់ពីដំណើរការនៃការសម្រេចចិត្ត ហើយមានប្រសិទ្ធភាពប្រហាក់ប្រហែលនឹង SVM ដែរ។ | អាចមានបញ្ហាជាមួយនឹងទិន្នន័យដែលមានភាពរំខាន (Noisy data) បើមិនមានការកាត់មែក (Pruning) ត្រឹមត្រូវ។ | ទទួលបានភាពត្រឹមត្រូវ ៩០.០១% លើទិន្នន័យ BIOBASE និង ៨២.៥៦% លើទិន្នន័យ DBLP។ |
| Multilayer Perceptron (MLP) បណ្តាញសរសៃប្រសាទសិប្បនិម្មិតពហុស្រទាប់ (Neural Network) |
មានសមត្ថភាពចាប់យកទំនាក់ទំនងមិនលីនេអ៊ែរ (Non-linear relationships) បានល្អ។ | ត្រូវការពេលវេលាសម្រាប់បណ្តុះបណ្តាល (Training time) យូរជាងវិធីសាស្ត្រផ្សេងទៀត។ | ទទួលបានភាពត្រឹមត្រូវ ៨៩.៧៨% លើទិន្នន័យ BIOBASE។ |
| Naive Bayes វិធីសាស្ត្រ Naive Bayes |
សាមញ្ញ និងរហ័សក្នុងការគណនា។ | ដំណើរការមិនសូវល្អដោយសារការសន្មតថា លក្ខណៈពិសេសទាំងអស់គឺឯករាជ្យពីគ្នា (Feature independence assumption) ដែលមិនឆ្លុះបញ្ចាំងពីការពិតក្នុងបណ្តាញសង្គម។ | ទទួលបានភាពត្រឹមត្រូវទាបជាងគេ គឺ ៨៣.៣២% លើ BIOBASE និង ៨១.២៤% លើ DBLP។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះបង្ហាញថា លក្ខណៈពិសេសដែលប្រើប្រាស់មានតម្លៃថោកក្នុងការគណនា (Cheap to compute) ប៉ុន្តែការបង្កើតក្រាហ្វពេញលេញអាចទាមទារធនធានច្រើន។
ការសិក្សានេះធ្វើឡើងលើទិន្នន័យនៃការបោះពុម្ពផ្សាយអត្ថបទវិទ្យាសាស្ត្រ (Co-authorship networks) ពី BIOBASE និង DBLP ដែលភាគច្រើនឆ្លុះបញ្ចាំងពីសហគមន៍ស្រាវជ្រាវនៅលោកខាងលិច។ សម្រាប់កម្ពុជា បណ្តាញសង្គមនៃការស្រាវជ្រាវនៅមានកម្រិតតូច និងអាចមានរចនាសម្ព័ន្ធដាច់ដោយឡែកពីគ្នា (Isolated clusters) ច្រើនជាង ដែលអាចធ្វើឱ្យលក្ខណៈពិសេសមួយចំនួនមានប្រសិទ្ធភាពខុសគ្នា។
វិធីសាស្ត្រនេះមានប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់កម្ពុជា ព្រោះគោលការណ៍នៃការទស្សន៍ទាយតំណភ្ជាប់ (Link Prediction) អាចអនុវត្តបានលើគ្រប់ប្រភេទនៃបណ្តាញទំនាក់ទំនង។
ទោះបីជាទិន្នន័យដើមជារបស់បរទេស ប៉ុន្តែវិធីសាស្ត្រ Feature Engineering និងការប្រើប្រាស់ Supervised Learning នេះអាចយកមកប្រើប្រាស់ជាមូលដ្ឋានគ្រឹះក្នុងការដោះស្រាយបញ្ហាជាក់ស្តែងនៅក្នុងវិស័យបច្ចេកវិទ្យានិងសង្គមនៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Link Prediction | គឺជាដំណើរការនៃការប្រើប្រាស់ទិន្នន័យដែលមានស្រាប់នៅក្នុងបណ្តាញ (Social Network) ដើម្បីទស្សន៍ទាយពីលទ្ធភាពនៃការកើតឡើងនូវទំនាក់ទំនងថ្មី ឬការតភ្ជាប់គ្នារវាងថ្នាំងពីរ (Nodes) នាពេលអនាគត។ | ដូចជាការទាយទុកមុនថា តើមិត្តភក្តិពីរនាក់ដែលមិនធ្លាប់ស្គាល់គ្នា អាចនឹងក្លាយជាមិត្តនឹងគ្នានៅថ្ងៃមុខឬអត់ ដោយមើលលើមិត្តភក្តិរួមដែលពួកគេមាន។ |
| Supervised Learning | ជាវិធីសាស្ត្របង្រៀនកុំព្យូទ័រ (Machine Learning) ដោយផ្តល់ទិន្នន័យដែលមានចម្លើយត្រឹមត្រូវស្រាប់ (Labeled data) ដើម្បីឱ្យវាបង្កើតគំរូមួយដែលអាចទស្សន៍ទាយចម្លើយសម្រាប់ទិន្នន័យថ្មីៗដែលវាមិនធ្លាប់ឃើញ។ | ប្រៀបដូចជាគ្រូបង្រៀនសិស្សដោយបង្ហាញរូបភាពសត្វ និងប្រាប់ឈ្មោះសត្វនីមួយៗ ដើម្បីឱ្យសិស្សអាចចំណាំ និងប្រាប់ឈ្មោះសត្វបានដោយខ្លួនឯងនៅពេលក្រោយ។ |
| Coauthorship Graph | ជាប្រភេទនៃបណ្តាញសង្គមដែលតំណាងឱ្យកិច្ចសហការរវាងអ្នកស្រាវជ្រាវ ដោយចំណុចនីមួយៗតំណាងឱ្យអ្នកនិពន្ធ ហើយខ្សែភ្ជាប់តំណាងឱ្យការសរសេរអត្ថបទរួមគ្នា។ | ដូចជាផែនទីមួយដែលគូសខ្សែភ្ជាប់រវាងមនុស្សពីរនាក់ រាល់ពេលដែលពួកគេបានធ្វើការងារ ឬសរសេរសៀវភៅជាមួយគ្នា។ |
| Topological Features | សំដៅលើលក្ខណៈសម្បត្តិដែលត្រូវបានគណនាចេញពីទ្រង់ទ្រាយ ឬរចនាសម្ព័ន្ធនៃបណ្តាញទាំងមូល (ដូចជាចម្ងាយ ឬចំនួនអ្នកស្គាល់គ្នា) ដើម្បីប្រើប្រាស់ក្នុងការវិភាគទិន្នន័យ។ | ដូចជាការវាស់វែងមើលថាតើផ្ទះពីរនៅជិតគ្នា ឬមានផ្លូវតភ្ជាប់គ្នាងាយស្រួលប៉ុណ្ណា ដោយមើលទៅលើរូបរាងនៃផែនទីផ្លូវថ្នល់។ |
| Clustering Index | រង្វាស់ដែលបង្ហាញពីកម្រិតដង់ស៊ីតេនៃទំនាក់ទំនងនៅក្នុងក្រុមមួយ ពោលគឺវាស់ថាតើមិត្តភក្តិរបស់បុគ្គលម្នាក់ ក៏ជាមិត្តភក្តិនឹងគ្នាដែរឬទេ។ | ដូចជាការពិនិត្យមើលថា តើមិត្តភក្តិរបស់អ្នក ស្គាល់គ្នាទៅវិញទៅមកដែរឬទេ (បង្កើតជាក្រុមជិតស្និទ្ធ)។ |
| Support Vector Machine (SVM) | ជាក្បួនដោះស្រាយកុំព្យូទ័រដ៏មានប្រសិទ្ធភាពមួយសម្រាប់បែងចែកប្រភេទទិន្នន័យ ដោយការព្យាយាមរកបន្ទាត់ព្រំដែន (Hyperplane) ដ៏ល្អបំផុតដើម្បីបំបែកក្រុមទិន្នន័យពីរចេញពីគ្នា។ | ដូចជាការគូសបន្ទាត់ព្រំដែននៅលើដី ដើម្បីបែងចែកហ្វូងចៀម និងហ្វូងពពែចេញពីគ្នាឱ្យដាច់ស្រឡះ ដើម្បីកុំឱ្យវារញ៉េរញ៉ៃ។ |
| 5-fold cross validation | ជាបច្ចេកទេសវាយតម្លៃភាពត្រឹមត្រូវនៃម៉ូដែល ដោយបែងចែកទិន្នន័យជា ៥ ផ្នែក ហើយធ្វើការតេស្តចំនួន ៥ ដង ដោយប្ដូរផ្នែកដែលត្រូវតេស្តរៀងរាល់ដង ដើម្បីធានាថាលទ្ធផលមិនមែនជារឿងចៃដន្យ។ | ដូចជាការឱ្យសិស្សធ្វើលំហាត់តេស្តចំនួន ៥ លើកផ្សេងៗគ្នា ដើម្បីឱ្យប្រាកដថាពិន្ទុដែលគេទទួលបាន គឺឆ្លុះបញ្ចាំងពីសមត្ថភាពពិតប្រាកដ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖