បញ្ហា (The Problem)៖ ការគ្រប់គ្រង ស្វែងរក និងធ្វើទស្សនីយភាពទិន្នន័យអត្ថបទធំៗ (Big Data) ដែលគ្មានរចនាសម្ព័ន្ធ ជាពិសេសសម្រាប់ភាសាវៀតណាម នៅតែមានការលំបាក ដោយសារខ្វះប្រព័ន្ធរួមបញ្ចូលគ្នាដែលអាចជួយដល់ថ្នាក់ដឹកនាំក្នុងការសម្រេចចិត្តដោយផ្អែកលើទិន្នន័យ។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះស្នើឡើងនូវគំរូថ្មីមួយដោយប្រើប្រាស់បណ្ដុំបច្ចេកវិទ្យាកូដបើកចំហ (Open Source) រួមបញ្ចូលគ្នា ដើម្បីប្រមូល ធ្វើលិបិក្រម និងបង្ហាញទិន្នន័យជាទម្រង់ក្រាហ្វិក។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Traditional SQL / Manual Querying ការស្វែងរកទិន្នន័យដោយប្រើប្រាស់ SQL ធម្មតា ឬដោយដៃ |
ងាយស្រួលអនុវត្តសម្រាប់ទិន្នន័យដែលមានរចនាសម្ព័ន្ធ (Structured Data) ទំហំតូច។ | មានភាពយឺតយ៉ាវ និងមិនអាចឆ្លើយតបសំណួរស្មុគស្មាញលើទិន្នន័យអត្ថបទធំៗ (Big Data) ដែលគ្មានរចនាសម្ព័ន្ធបានទេ។ | ត្រូវចំណាយពេលយូរក្នុងការទាញយកទិន្នន័យ ដោយត្រូវអានឯកសាររាប់ពាន់ដោយដៃដើម្បីធ្វើស្ថិតិ។ |
| Commercial Big Data Integration (Cloudera / Hortonworks) ការប្រើប្រាស់ប្រព័ន្ធពាណិជ្ជកម្ម Big Data (Cloudera / Hortonworks) |
មានមុខងារស្រាប់ និងមានសមត្ថភាពខ្ពស់ក្នុងការគ្រប់គ្រងទិន្នន័យធំៗ។ | ជារឿយៗជាកម្មវិធីពាណិជ្ជកម្មដែលត្រូវចំណាយថវិកាទិញ ហើយមិនមានការគាំទ្រពេញលេញសម្រាប់ការវិភាគវាក្យសព្ទភាសាក្នុងស្រុក (ដូចជាភាសាវៀតណាម ឬខ្មែរ) នោះទេ។ | មិនស័ក្តិសមសម្រាប់ស្ថាប័នដែលចង់បានប្រព័ន្ធកូដបើកចំហ (Open Source) ប្រកបដោយភាពបត់បែន។ |
| Proposed Model (HDFS + Solr + Banana + VnAnalyzer) គំរូដែលបានស្នើឡើង (HDFS + Solr + Banana + ការវិភាគភាសាវៀតណាម) |
ជាកូដបើកចំហ (Open Source) គាំទ្រការស្វែងរកអត្ថបទពេញលេញ (Full-text search) លឿន និងមានការវិភាគក្រាហ្វិកស្ថិតិដ៏ល្អឥតខ្ចោះ។ | ទាមទារចំណេះដឹងផ្នែកបច្ចេកទេស និងជំនាញក្នុងការដំឡើង ព្រមទាំងធ្វើសមាហរណកម្មប្រព័ន្ធទាំងនេះបញ្ចូលគ្នា។ | គ្រប់គ្រង ស្វែងរក និងធ្វើទស្សនីយភាពឯកសារស្រាវជ្រាវចំនួន ១.៥៨៤ ប្រកបដោយជោគជ័យ និងមានប្រសិទ្ធភាពខ្ពស់។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតពីតម្លៃធនធានជាទឹកប្រាក់នោះទេ ប៉ុន្តែដោយសារគំរូនេះប្រើប្រាស់បច្ចេកវិទ្យាកូដបើកចំហ (Open Source) ការចំណាយចម្បងគឺទៅលើផ្នែករឹង (Hardware) និងធនធានមនុស្សដែលមានជំនាញពាក់ព័ន្ធ។
ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យឯកសារស្រាវជ្រាវរបស់សាកលវិទ្យាល័យ Can Tho ចន្លោះឆ្នាំ ២០១១-២០១៥ និងប្រើប្រាស់ឧបករណ៍វិភាគពាក្យភាសាវៀតណាម (VnAnalyzer)។ សម្រាប់បរិបទប្រទេសកម្ពុជា ទិន្នន័យ និងឧបករណ៍នេះមិនអាចយកមកអនុវត្តផ្ទាល់បានទេ គឺតម្រូវឱ្យមានការប្តូរទៅប្រើប្រាស់ទិន្នន័យក្នុងស្រុក និងឧបករណ៍បំបែកពាក្យភាសាខ្មែរ (Khmer Word Segmentation)។
គំរូនេះមានអត្ថប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់ប្រទេសកម្ពុជា ជាពិសេសក្នុងការកសាងប្រព័ន្ធបណ្ណាល័យឌីជីថលកម្រិតជាតិ និងការគ្រប់គ្រងឯកសារតាមស្ថាប័នរដ្ឋ។
ជារួម បច្ចេកវិទ្យានេះផ្តល់នូវដំណោះស្រាយចំណាយតិច (Open Source) ប្រកបដោយប្រសិទ្ធភាព ប៉ុន្តែទាមទារការអភិវឌ្ឍបន្ថែមលើបច្ចេកវិទ្យាដំណើរការភាសាខ្មែរ (Khmer NLP) ដើម្បីដំណើរការជាមួយ Apache Solr ឱ្យបានល្អឥតខ្ចោះ។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Big Data | ការប្រមូលផ្តុំទិន្នន័យដែលមានទំហំធំខ្លាំង (Volume) កើនឡើងក្នុងល្បឿនលឿន (Velocity) និងមានទម្រង់ចម្រុះ (Variety) ដែលប្រព័ន្ធមូលដ្ឋានទិន្នន័យធម្មតាមិនអាចផ្ទុក និងដំណើរការបានទាន់ពេល។ | ដូចជាបណ្ណាល័យជាតិមួយដែលមានសៀវភៅរាប់លានក្បាល ហើយមានសៀវភៅថ្មីៗចូលមករាល់វិនាទី ដែលទាមទារប្រព័ន្ធចាត់ចែងពិសេសទើបអាចស្វែងរកបានលឿន។ |
| HDFS (Hadoop Distributed File System) | ប្រព័ន្ធផ្ទុកទិន្នន័យបែបវិមជ្ឈការរបស់បណ្តុំបច្ចេកវិទ្យា Hadoop ដែលបំបែកឯកសារធំៗជាចំណែកតូចៗ ហើយរក្សាទុកវានៅលើម៉ាស៊ីនកុំព្យូទ័រ (Servers) ជាច្រើនផ្សេងៗគ្នា ដើម្បីធានាសុវត្ថិភាពនិងបង្កើនល្បឿនដំណើរការ។ | ដូចជាការយកសៀវភៅដ៏ក្រាស់មួយក្បាលទៅហែកជាទំព័រតូចៗ ហើយចែកឱ្យមនុស្ស១០នាក់ជួយកាន់ ដើម្បីកុំឱ្យធ្ងន់ម្នាក់ឯង និងងាយស្រួលអានព្រមៗគ្នា។ |
| Inverted Index | រចនាសម្ព័ន្ធទិន្នន័យស្នូលដែលប្រើនៅក្នុងម៉ាស៊ីនស្វែងរក (Search Engine) ដោយវាធ្វើការកត់ត្រាទុកនូវពាក្យនីមួយៗ និងចងក្រងបញ្ជីទីតាំងឯកសារទាំងអស់ដែលពាក្យទាំងនោះស្ថិតនៅ ដើម្បីងាយស្រួលទាញយកទិន្នន័យបានរហ័ស។ | ដូចជាទំព័រលិបិក្រម (Index) នៅចុងបញ្ចប់នៃសៀវភៅ ដែលប្រាប់យើងថាពាក្យគន្លឹះនីមួយៗស្ថិតនៅទំព័រទីប៉ុន្មានខ្លះ ជួយឱ្យយើងរកឃើញលឿនដោយមិនបាច់អានសៀវភៅទាំងមូលពីដើមដល់ចប់។ |
| Full-text Search | បច្ចេកទេសស្វែងរកឯកសារដោយប្រព័ន្ធធ្វើការផ្ទៀងផ្ទាត់រាល់ពាក្យទាំងអស់ដែលមាននៅក្នុងអត្ថបទទាំងមូល ជាជាងការស្វែងរកតែចំណងជើង ឬទិន្នន័យសង្ខេប (Metadata)។ | ដូចជាការមានម៉ាស៊ីនស្កេនដែលអាចអានរាល់អក្សរទាំងអស់ក្នុងសៀវភៅ១០០០ក្បាលក្នុងពេលតែមួយ ដើម្បីរកមើលថាមានប្រយោគណានិយាយពីពាក្យដែលយើងចង់រក។ |
| Metadata | ទិន្នន័យដែលពិពណ៌នា ឬផ្តល់ព័ត៌មានបន្ថែមអំពីទិន្នន័យមួយទៀត ដូចជា ឈ្មោះអ្នកនិពន្ធ កាលបរិច្ឆេទបោះពុម្ព ប្រភេទឯកសារ ឬទីតាំងផ្ទុក ដើម្បីងាយស្រួលក្នុងការចាត់ថ្នាក់ និងស្វែងរក។ | ដូចជាស្លាកសញ្ញាដែលបិទនៅលើប្រអប់អីវ៉ាន់ ដែលប្រាប់ថាខាងក្នុងមានអ្វីខ្លះ ជារបស់នរណា និងផ្ញើមកពីណា ដោយមិនបាច់បើកប្រអប់នោះមើលផ្ទាល់។ |
| Word Segmentation | ដំណើរការបំបែកអត្ថបទដែលសរសេរជាប់ៗគ្នា (ដូចជាភាសាវៀតណាម ខ្មែរ ថៃ) ទៅជាពាក្យ ឬកន្សោមពាក្យដែលមានន័យ ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ និងធ្វើលិបិក្រម (Indexing) បានត្រឹមត្រូវ។ | ដូចជាការយកកន្ត្រៃមកកាត់ប្រយោគមួយជាបំណែកពាក្យតូចៗ ងាយស្រួលយកទៅតម្រៀបតាមអក្ខរក្រមក្នុងវចនានុក្រម។ |
| Data Visualization | ការបំប្លែងទិន្នន័យអត្ថបទ ឬតួលេខស្មុគស្មាញ ទៅជាទម្រង់ក្រាហ្វិក រូបភាព ឬផ្ទាំងគ្រប់គ្រង (Dashboard) ដើម្បីជួយឱ្យអ្នកប្រើប្រាស់ងាយស្រួលមើលឃើញនិន្នាការ និងធ្វើការសម្រេចចិត្ត។ | ដូចជាការប្តូរតារាងពិន្ទុសិស្សរាប់ពាន់នាក់ ទៅជាគំនូសតាងរាងនំខេក (Pie chart) ដើម្បីឱ្យគ្រូមើលដឹងភ្លាមៗថាសិស្សកម្រិតណាមួយមានចំនួនប៉ុន្មានភាគរយ។ |
| MapReduce | យន្តការសម្រាប់ដំណើរការទិន្នន័យធំៗ ដោយបែងចែកការងារទៅឱ្យកុំព្យូទ័រជាច្រើន (Map) ធ្វើការព្រមៗគ្នា រួចទើបប្រមូលលទ្ធផលតូចៗទាំងនោះមកបូកបញ្ចូលគ្នាវិញ (Reduce)។ | ដូចជាការចាត់ចែងសិស្ស១០នាក់ឱ្យរាប់សន្លឹកឆ្នោតម្នាក់មួយដុំធំ (Map) រួចយកចំនួនដែលម្នាក់ៗរាប់បានមកបូកបញ្ចូលគ្នាដើម្បីបានលទ្ធផលសរុប (Reduce) ជំនួសឱ្យការឱ្យមនុស្សម្នាក់រាប់តែឯង។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖