Original Title: MÔ HÌNH QUẢN LÝ TẬP DỮ LIỆU VĂN BẢN LỚN CHO PHÉP TÌM KIẾM TOÀN VĂN VÀ PHÂN TÍCH THỐNG KÊ TRỰC QUAN
Source: sj.ctu.edu.vn
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

គំរូគ្រប់គ្រងសំណុំទិន្នន័យអត្ថបទធំៗ ដែលអនុញ្ញាតឱ្យមានការស្វែងរកអត្ថបទពេញលេញ និងការវិភាគស្ថិតិជាលក្ខណៈទស្សនីយភាព

ចំណងជើងដើម៖ MÔ HÌNH QUẢN LÝ TẬP DỮ LIỆU VĂN BẢN LỚN CHO PHÉP TÌM KIẾM TOÀN VĂN VÀ PHÂN TÍCH THỐNG KÊ TRỰC QUAN

អ្នកនិពន្ធ៖ Nguyễn Hùng Dũng (Trung tâm Công nghệ Phần mềm − Đại học Cần Thơ), Trương Xuân Việt (Trung tâm Công nghệ Phần mềm − Đại học Cần Thơ), Trương Quốc Định (Khoa Công nghệ Thông tin & Truyền thông − Đại học Cần Thơ), Nguyễn Hoàng Việt (Trung tâm Công nghệ Phần mềm − Đại học Cần Thơ)

ឆ្នាំបោះពុម្ព៖ 2016 (Hội nghị Quốc gia lần thứ IX về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin - FAIR)

វិស័យសិក្សា៖ Information Technology

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការគ្រប់គ្រង ស្វែងរក និងធ្វើទស្សនីយភាពទិន្នន័យអត្ថបទធំៗ (Big Data) ដែលគ្មានរចនាសម្ព័ន្ធ ជាពិសេសសម្រាប់ភាសាវៀតណាម នៅតែមានការលំបាក ដោយសារខ្វះប្រព័ន្ធរួមបញ្ចូលគ្នាដែលអាចជួយដល់ថ្នាក់ដឹកនាំក្នុងការសម្រេចចិត្តដោយផ្អែកលើទិន្នន័យ។

វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះស្នើឡើងនូវគំរូថ្មីមួយដោយប្រើប្រាស់បណ្ដុំបច្ចេកវិទ្យាកូដបើកចំហ (Open Source) រួមបញ្ចូលគ្នា ដើម្បីប្រមូល ធ្វើលិបិក្រម និងបង្ហាញទិន្នន័យជាទម្រង់ក្រាហ្វិក។

ការផ្ទុកនិងគ្រប់គ្រងឯកសារ (Hadoop Distributed File System - HDFS)
ការធ្វើលិបិក្រមបញ្ច្រាសនិងស្វែងរកអត្ថបទពេញលេញ (Inverted Indexing & Full-text Search via Apache Lucene/Solr)
ការវិភាគនិងបំបែកពាក្យភាសាវៀតណាម (Vietnamese Text Analyzer - VnAnalyzer)
ការធ្វើទស្សនីយភាពទិន្នន័យនិងស្ថិតិ (Data Visualization via Banana/Kibana)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ប្រព័ន្ធនេះត្រូវបានសាកល្បងដោយជោគជ័យលើឯកសារអត្ថបទស្រាវជ្រាវវិទ្យាសាស្ត្រចំនួន ១.៥៨៤ នៃសាកលវិទ្យាល័យ Can Tho ពីឆ្នាំ ២០១១ ដល់ ២០១៥។
ការធ្វើតេស្តស្វែងរកអាចបង្ហាញយ៉ាងច្បាស់នូវស្ថិតិអ្នកនិពន្ធ និងមហាវិទ្យាល័យដែលបោះពុម្ពច្រើនជាងគេ (ឧទាហរណ៍៖ មហាវិទ្យាល័យកសិកម្មមានចំនួន ២៨៥ អត្ថបទ) រួមទាំងប្រធានបទអាទិភាពផងដែរ។
គំរូនេះមានសមត្ថភាពខ្ពស់ក្នុងការឆ្លើយតបនឹងការស្វែងរកកម្រិតខ្ពស់ (Advanced Search) និងជួយសម្រួលដល់ការតាមដាននិន្នាការស្រាវជ្រាវ និងការវាយតម្លៃរបស់ស្ថាប័នយ៉ាងមានប្រសិទ្ធភាព។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Traditional SQL / Manual Querying ការស្វែងរកទិន្នន័យដោយប្រើប្រាស់ SQL ធម្មតា ឬដោយដៃ	ងាយស្រួលអនុវត្តសម្រាប់ទិន្នន័យដែលមានរចនាសម្ព័ន្ធ (Structured Data) ទំហំតូច។	មានភាពយឺតយ៉ាវ និងមិនអាចឆ្លើយតបសំណួរស្មុគស្មាញលើទិន្នន័យអត្ថបទធំៗ (Big Data) ដែលគ្មានរចនាសម្ព័ន្ធបានទេ។	ត្រូវចំណាយពេលយូរក្នុងការទាញយកទិន្នន័យ ដោយត្រូវអានឯកសាររាប់ពាន់ដោយដៃដើម្បីធ្វើស្ថិតិ។
Commercial Big Data Integration (Cloudera / Hortonworks) ការប្រើប្រាស់ប្រព័ន្ធពាណិជ្ជកម្ម Big Data (Cloudera / Hortonworks)	មានមុខងារស្រាប់ និងមានសមត្ថភាពខ្ពស់ក្នុងការគ្រប់គ្រងទិន្នន័យធំៗ។	ជារឿយៗជាកម្មវិធីពាណិជ្ជកម្មដែលត្រូវចំណាយថវិកាទិញ ហើយមិនមានការគាំទ្រពេញលេញសម្រាប់ការវិភាគវាក្យសព្ទភាសាក្នុងស្រុក (ដូចជាភាសាវៀតណាម ឬខ្មែរ) នោះទេ។	មិនស័ក្តិសមសម្រាប់ស្ថាប័នដែលចង់បានប្រព័ន្ធកូដបើកចំហ (Open Source) ប្រកបដោយភាពបត់បែន។
Proposed Model (HDFS + Solr + Banana + VnAnalyzer) គំរូដែលបានស្នើឡើង (HDFS + Solr + Banana + ការវិភាគភាសាវៀតណាម)	ជាកូដបើកចំហ (Open Source) គាំទ្រការស្វែងរកអត្ថបទពេញលេញ (Full-text search) លឿន និងមានការវិភាគក្រាហ្វិកស្ថិតិដ៏ល្អឥតខ្ចោះ។	ទាមទារចំណេះដឹងផ្នែកបច្ចេកទេស និងជំនាញក្នុងការដំឡើង ព្រមទាំងធ្វើសមាហរណកម្មប្រព័ន្ធទាំងនេះបញ្ចូលគ្នា។	គ្រប់គ្រង ស្វែងរក និងធ្វើទស្សនីយភាពឯកសារស្រាវជ្រាវចំនួន ១.៥៨៤ ប្រកបដោយជោគជ័យ និងមានប្រសិទ្ធភាពខ្ពស់។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតពីតម្លៃធនធានជាទឹកប្រាក់នោះទេ ប៉ុន្តែដោយសារគំរូនេះប្រើប្រាស់បច្ចេកវិទ្យាកូដបើកចំហ (Open Source) ការចំណាយចម្បងគឺទៅលើផ្នែករឹង (Hardware) និងធនធានមនុស្សដែលមានជំនាញពាក់ព័ន្ធ។

Software: ប្រើប្រាស់កម្មវិធីកូដបើកចំហ ១០០% ដូចជា Hadoop, Apache Solr, Lucene, Banana និងឧបករណ៍វិភាគភាសា (VnAnalyzer) ដូចនេះមិនតម្រូវឱ្យទិញអាជ្ញាប័ណ្ណ (License) ឡើយ។
Hardware: ទាមទារប្រព័ន្ធម៉ាស៊ីនមេ (Servers) ឬ Cluster សម្រាប់ដំណើរការ Hadoop Distributed File System (HDFS) និង Solr ដើម្បីធានាបាននូវការផ្ទុកទិន្នន័យធំ និងល្បឿនស្វែងរកដោយរលូន។
Dataset: ទិន្នន័យអត្ថបទជាទម្រង់ .doc, .docx, .pdf, .xls (ក្នុងបរិបទស្រាវជ្រាវនេះគឺ ១.៥៨៤ អត្ថបទ) រួមជាមួយទិន្នន័យមេតា (Metadata) ដែលត្រូវរៀបចំជាមុន។
Expertise: ត្រូវការអ្នកបច្ចេកទេសដែលមានជំនាញខាង Big Data Infrastructure (Hadoop ecosystem), ការគ្រប់គ្រងម៉ាស៊ីនស្វែងរក (Solr/Lucene) និងការរៀបចំផ្ទាំងគ្រប់គ្រង (Dashboard) សម្រាប់ Data Visualization។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យឯកសារស្រាវជ្រាវរបស់សាកលវិទ្យាល័យ Can Tho ចន្លោះឆ្នាំ ២០១១-២០១៥ និងប្រើប្រាស់ឧបករណ៍វិភាគពាក្យភាសាវៀតណាម (VnAnalyzer)។ សម្រាប់បរិបទប្រទេសកម្ពុជា ទិន្នន័យ និងឧបករណ៍នេះមិនអាចយកមកអនុវត្តផ្ទាល់បានទេ គឺតម្រូវឱ្យមានការប្តូរទៅប្រើប្រាស់ទិន្នន័យក្នុងស្រុក និងឧបករណ៍បំបែកពាក្យភាសាខ្មែរ (Khmer Word Segmentation)។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

គំរូនេះមានអត្ថប្រយោជន៍យ៉ាងខ្លាំងសម្រាប់ប្រទេសកម្ពុជា ជាពិសេសក្នុងការកសាងប្រព័ន្ធបណ្ណាល័យឌីជីថលកម្រិតជាតិ និងការគ្រប់គ្រងឯកសារតាមស្ថាប័នរដ្ឋ។

ក្រសួងអប់រំ យុវជន និងកីឡា (MoEYS) និងសាកលវិទ្យាល័យនានា: អាចយកគំរូនេះទៅបង្កើតប្រព័ន្ធស្រាវជ្រាវឯកសារ (Research Portal) ដើម្បីចងក្រងនិក្ខេបបទរបស់និស្សិត និងវិភាគនិន្នាការស្រាវជ្រាវប្រចាំឆ្នាំ។
វិស័យច្បាប់ និងរដ្ឋបាល (Ministry of Justice): ងាយស្រួលក្នុងការធ្វើលិបិក្រម និងស្វែងរកឯកសារច្បាប់ ព្រះរាជក្រឹត្យ ឬសេចក្តីសម្រេចផ្សេងៗដែលមានទំហំធំ និងទាមទារការស្វែងរកពាក្យគន្លឹះ (Full-text search) យ៉ាងច្បាស់លាស់។
បណ្ណាល័យជាតិកម្ពុជា (National Library of Cambodia): សម្រាប់ធ្វើលិបិក្រម (Indexing) និងស្វែងរកឯកសារប្រវត្តិសាស្ត្រ សៀវភៅ និងអត្ថបទកាសែត ដែលត្រូវបានធ្វើឌីជីតូបនីយកម្មរួចរាល់។

ជារួម បច្ចេកវិទ្យានេះផ្តល់នូវដំណោះស្រាយចំណាយតិច (Open Source) ប្រកបដោយប្រសិទ្ធភាព ប៉ុន្តែទាមទារការអភិវឌ្ឍបន្ថែមលើបច្ចេកវិទ្យាដំណើរការភាសាខ្មែរ (Khmer NLP) ដើម្បីដំណើរការជាមួយ Apache Solr ឱ្យបានល្អឥតខ្ចោះ។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃទិន្នន័យធំ (Big Data Storage): រៀនពីរបៀបដំឡើង និងប្រើប្រាស់ Hadoop Distributed File System (HDFS) ដើម្បីយល់ពីការរក្សាទុកទិន្នន័យបែបវិមជ្ឈការ (Distributed Storage) និងការធានាសុវត្ថិភាពទិន្នន័យ។
ស្វែងយល់ពីប្រព័ន្ធធ្វើលិបិក្រម និងស្វែងរក (Search Engine): អនុវត្តការដំឡើង Apache Solr និង Apache Lucene ដើម្បីធ្វើលិបិក្រមឯកសារសាកល្បងតូចៗ (ដូចជា .pdf, .doc) ជាភាសាអង់គ្លេសជាមុនសិន។
ការធ្វើសមាហរណកម្មភាសាខ្មែរ (Khmer NLP Integration): ស្រាវជ្រាវ និងបញ្ចូលឧបករណ៍បំបែកពាក្យភាសាខ្មែរ (Khmer Word Segmentation tool) ទៅក្នុង Solr Analyzer ដើម្បីឱ្យប្រព័ន្ធអាចយល់ និងស្វែងរកពាក្យខ្មែរបានត្រឹមត្រូវ។
ការធ្វើទស្សនីយភាពទិន្នន័យ (Data Visualization): រៀនប្រើប្រាស់ប្រព័ន្ធ Banana ឬ Kibana ដើម្បីភ្ជាប់ទៅកាន់ Solr សម្រាប់បង្កើតផ្ទាំងគ្រប់គ្រង (Dashboards) ដែលបង្ហាញស្ថិតិ និងក្រាហ្វិក។
សាកល្បងជាមួយទិន្នន័យជាក់ស្តែង (Real-world Testing): ប្រមូលទិន្នន័យឯកសារស្រាវជ្រាវ ឬសារណាពីសាកលវិទ្យាល័យកម្ពុជា (មានភ្ជាប់ Metadata ត្រឹមត្រូវ) មកធ្វើតេស្តស្វែងរក និងវាយតម្លៃល្បឿន ព្រមទាំងភាពត្រឹមត្រូវនៃការស្វែងរក។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Big Data	ការប្រមូលផ្តុំទិន្នន័យដែលមានទំហំធំខ្លាំង (Volume) កើនឡើងក្នុងល្បឿនលឿន (Velocity) និងមានទម្រង់ចម្រុះ (Variety) ដែលប្រព័ន្ធមូលដ្ឋានទិន្នន័យធម្មតាមិនអាចផ្ទុក និងដំណើរការបានទាន់ពេល។	ដូចជាបណ្ណាល័យជាតិមួយដែលមានសៀវភៅរាប់លានក្បាល ហើយមានសៀវភៅថ្មីៗចូលមករាល់វិនាទី ដែលទាមទារប្រព័ន្ធចាត់ចែងពិសេសទើបអាចស្វែងរកបានលឿន។
HDFS (Hadoop Distributed File System)	ប្រព័ន្ធផ្ទុកទិន្នន័យបែបវិមជ្ឈការរបស់បណ្តុំបច្ចេកវិទ្យា Hadoop ដែលបំបែកឯកសារធំៗជាចំណែកតូចៗ ហើយរក្សាទុកវានៅលើម៉ាស៊ីនកុំព្យូទ័រ (Servers) ជាច្រើនផ្សេងៗគ្នា ដើម្បីធានាសុវត្ថិភាពនិងបង្កើនល្បឿនដំណើរការ។	ដូចជាការយកសៀវភៅដ៏ក្រាស់មួយក្បាលទៅហែកជាទំព័រតូចៗ ហើយចែកឱ្យមនុស្ស១០នាក់ជួយកាន់ ដើម្បីកុំឱ្យធ្ងន់ម្នាក់ឯង និងងាយស្រួលអានព្រមៗគ្នា។
Inverted Index	រចនាសម្ព័ន្ធទិន្នន័យស្នូលដែលប្រើនៅក្នុងម៉ាស៊ីនស្វែងរក (Search Engine) ដោយវាធ្វើការកត់ត្រាទុកនូវពាក្យនីមួយៗ និងចងក្រងបញ្ជីទីតាំងឯកសារទាំងអស់ដែលពាក្យទាំងនោះស្ថិតនៅ ដើម្បីងាយស្រួលទាញយកទិន្នន័យបានរហ័ស។	ដូចជាទំព័រលិបិក្រម (Index) នៅចុងបញ្ចប់នៃសៀវភៅ ដែលប្រាប់យើងថាពាក្យគន្លឹះនីមួយៗស្ថិតនៅទំព័រទីប៉ុន្មានខ្លះ ជួយឱ្យយើងរកឃើញលឿនដោយមិនបាច់អានសៀវភៅទាំងមូលពីដើមដល់ចប់។
Full-text Search	បច្ចេកទេសស្វែងរកឯកសារដោយប្រព័ន្ធធ្វើការផ្ទៀងផ្ទាត់រាល់ពាក្យទាំងអស់ដែលមាននៅក្នុងអត្ថបទទាំងមូល ជាជាងការស្វែងរកតែចំណងជើង ឬទិន្នន័យសង្ខេប (Metadata)។	ដូចជាការមានម៉ាស៊ីនស្កេនដែលអាចអានរាល់អក្សរទាំងអស់ក្នុងសៀវភៅ១០០០ក្បាលក្នុងពេលតែមួយ ដើម្បីរកមើលថាមានប្រយោគណានិយាយពីពាក្យដែលយើងចង់រក។
Metadata	ទិន្នន័យដែលពិពណ៌នា ឬផ្តល់ព័ត៌មានបន្ថែមអំពីទិន្នន័យមួយទៀត ដូចជា ឈ្មោះអ្នកនិពន្ធ កាលបរិច្ឆេទបោះពុម្ព ប្រភេទឯកសារ ឬទីតាំងផ្ទុក ដើម្បីងាយស្រួលក្នុងការចាត់ថ្នាក់ និងស្វែងរក។	ដូចជាស្លាកសញ្ញាដែលបិទនៅលើប្រអប់អីវ៉ាន់ ដែលប្រាប់ថាខាងក្នុងមានអ្វីខ្លះ ជារបស់នរណា និងផ្ញើមកពីណា ដោយមិនបាច់បើកប្រអប់នោះមើលផ្ទាល់។
Word Segmentation	ដំណើរការបំបែកអត្ថបទដែលសរសេរជាប់ៗគ្នា (ដូចជាភាសាវៀតណាម ខ្មែរ ថៃ) ទៅជាពាក្យ ឬកន្សោមពាក្យដែលមានន័យ ដើម្បីឱ្យកុំព្យូទ័រអាចយល់ និងធ្វើលិបិក្រម (Indexing) បានត្រឹមត្រូវ។	ដូចជាការយកកន្ត្រៃមកកាត់ប្រយោគមួយជាបំណែកពាក្យតូចៗ ងាយស្រួលយកទៅតម្រៀបតាមអក្ខរក្រមក្នុងវចនានុក្រម។
Data Visualization	ការបំប្លែងទិន្នន័យអត្ថបទ ឬតួលេខស្មុគស្មាញ ទៅជាទម្រង់ក្រាហ្វិក រូបភាព ឬផ្ទាំងគ្រប់គ្រង (Dashboard) ដើម្បីជួយឱ្យអ្នកប្រើប្រាស់ងាយស្រួលមើលឃើញនិន្នាការ និងធ្វើការសម្រេចចិត្ត។	ដូចជាការប្តូរតារាងពិន្ទុសិស្សរាប់ពាន់នាក់ ទៅជាគំនូសតាងរាងនំខេក (Pie chart) ដើម្បីឱ្យគ្រូមើលដឹងភ្លាមៗថាសិស្សកម្រិតណាមួយមានចំនួនប៉ុន្មានភាគរយ។
MapReduce	យន្តការសម្រាប់ដំណើរការទិន្នន័យធំៗ ដោយបែងចែកការងារទៅឱ្យកុំព្យូទ័រជាច្រើន (Map) ធ្វើការព្រមៗគ្នា រួចទើបប្រមូលលទ្ធផលតូចៗទាំងនោះមកបូកបញ្ចូលគ្នាវិញ (Reduce)។	ដូចជាការចាត់ចែងសិស្ស១០នាក់ឱ្យរាប់សន្លឹកឆ្នោតម្នាក់មួយដុំធំ (Map) រួចយកចំនួនដែលម្នាក់ៗរាប់បានមកបូកបញ្ចូលគ្នាដើម្បីបានលទ្ធផលសរុប (Reduce) ជំនួសឱ្យការឱ្យមនុស្សម្នាក់រាប់តែឯង។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖