បញ្ហា (The Problem)៖ គោលការណ៍ឯកជនភាពនៃគេហទំព័រមានប្រវែងវែង និងប្រើប្រាស់ភាសាស្មុគស្មាញ (Vagueness) ដែលធ្វើឱ្យអ្នកប្រើប្រាស់ពិបាកយល់ និងកាត់បន្ថយប្រសិទ្ធភាពនៃការការពារព័ត៌មានផ្ទាល់ខ្លួន។ ការសិក្សានេះដោះស្រាយបញ្ហានេះដោយប៉ុនប៉ងបកស្រាយភាពស្រពេចស្រពិលនៃភាសាតាមរយៈបច្ចេកវិទ្យាដំណើរការភាសាធម្មជាតិ (NLP)។
វិធីសាស្ត្រ (The Methodology)៖ ការស្រាវជ្រាវនេះប្រើប្រាស់ទិន្នន័យគោលការណ៍ឯកជនភាពចំនួន ១.០១០ ដើម្បីបង្វឹកបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតក្នុងការរៀន និងស្វែងយល់ពីលក្ខណៈនៃពាក្យនីមួយៗ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Multi-task Recurrent Neural Network (GRU) បណ្ដាញសរសៃប្រសាទប្រភេទ GRU រៀនបែបពហុភារកិច្ច |
មានសមត្ថភាពអាចរៀនអត្ថន័យបរិបទនៃពាក្យ និងអាចទស្សន៍ទាយពាក្យបន្ទាប់ព្រមទាំងវាយតម្លៃភាពស្រពេចស្រពិលរបស់ពាក្យក្នុងពេលតែមួយ។ វាអាចចាប់យកទំនាក់ទំនងអត្ថន័យនៃពាក្យបានស៊ីជម្រៅ។ | ទាមទារទិន្នន័យយ៉ាងច្រើនដើម្បីបង្វឹកឱ្យមានប្រសិទ្ធភាព ហើយលទ្ធផលផ្ដោតលើកម្រិតពាក្យនីមួយៗច្រើនជាងកម្រិតប្រយោគ ឬអត្ថន័យទាំងមូល។ | អាចទាញយកវ៉ិចទ័រតំណាងពាក្យចំនួន ៥១២ វិមាត្រ និងអាចចាប់យកឃ្លាស្រពេចស្រពិលដែលមានន័យស្រដៀងគ្នាបានយ៉ាងល្អតាមរយៈឧបករណ៍វិភាគរូបភាព (LSTMVis)។ |
| Manual Feature Extraction / Prespecified Keyword List ការស្រង់លក្ខណៈពិសេសដោយដៃ ឬការប្រើប្រាស់បញ្ជីពាក្យកំណត់ទុកជាមុន |
ងាយស្រួលក្នុងការអនុវត្ត និងមិនត្រូវការធនធានកុំព្យូទ័រ ឬទិន្នន័យច្រើនដើម្បីដំណើរការឡើយ។ | មិនអាចចាប់យកភាពស្មុគស្មាញ និងទម្រង់ប្រែប្រួលនៃភាសាធម្មជាតិបានគ្រប់ជ្រុងជ្រោយនោះទេ ព្រោះពាក្យមួយអាចផ្លាស់ប្តូរអត្ថន័យទៅតាមបរិបទ។ | ឯកសារបានបញ្ជាក់ថាការបង្កើតបញ្ជីពាក្យស្រពេចស្រពិលឱ្យបានពេញលេញគឺស្ទើរតែមិនអាចទៅរួចទេ ដោយសារភាពសម្បូរបែបនៃភាសាច្បាប់។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រមធ្យមទៅខ្ពស់ សម្រាប់ការបង្វឹកម៉ូដែលបណ្ដាញសរសៃប្រសាទកម្រិតជ្រៅ និងត្រូវការទិន្នន័យអត្ថបទច្បាប់ចំនួនច្រើនដើម្បីដំណើរការ។
ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យគោលការណ៍ឯកជនភាពគេហទំព័រជាភាសាអង់គ្លេសដែលទទួលបានពីគេហទំព័រពេញនិយមនៅលោកខាងលិច (តាមរយៈ Amazon Mechanical Turk) និងវ៉ិចទ័រពាក្យពី Google News។ ដោយសារទិន្នន័យទាំងនេះផ្តោតលើភាសាអង់គ្លេស និងបរិបទច្បាប់លោកខាងលិច វាមិនអាចយកមកអនុវត្តផ្ទាល់ជាមួយគោលការណ៍ឯកជនភាពជាភាសាខ្មែរ ឬច្បាប់កម្ពុជាដោយមិនមានការកែសម្រួល ឬបង្វឹកឡើងវិញនោះទេ។ យ៉ាងណាមិញ វាជាគំរូដ៏ល្អសម្រាប់ការស្រាវជ្រាវNLPនៅកម្ពុជា។
វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់សម្រាប់ស្ថាប័នរដ្ឋ និងឯកជននៅកម្ពុជាក្នុងការត្រួតពិនិត្យ និងកែលម្អភាពច្បាស់លាស់នៃកិច្ចសន្យាឌីជីថល និងគោលការណ៍ឯកជនភាព។
សរុបមក ការអនុវត្តបច្ចេកវិទ្យាបញ្ញាសិប្បនិម្មិតនេះនឹងជួយពង្រឹងតម្លាភាពផ្លូវច្បាប់ និងបង្កើនទំនុកចិត្តរបស់អ្នកប្រើប្រាស់ឌីជីថលទូទាំងប្រទេសកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Word Embeddings | ដំណើរការបំប្លែងពាក្យទៅជាវ៉ិចទ័រលេខ ដែលកុំព្យូទ័រអាចយល់ពីអត្ថន័យ និងទំនាក់ទំនងរវាងពាក្យទាំងនោះបានតាមរយៈគណិតវិទ្យា។ | ដូចជាការដាក់ពិន្ទុលើលក្ខណៈផ្សេងៗរបស់មនុស្ស (កម្ពស់ ទម្ងន់ អាយុ) ដើម្បីរកមើលថាតើនរណាខ្លះមានរូបរាង ឬលក្ខណៈស្រដៀងគ្នា។ |
| Recurrent Neural Network (RNN) | ប្រភេទនៃបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលត្រូវបានរចនាឡើងសម្រាប់ដំណើរការទិន្នន័យជាបន្តបន្ទាប់ (ដូចជាអត្ថបទ ឬសំឡេង) ដោយប្រើប្រាស់ព័ត៌មានពីមុនដើម្បីទស្សន៍ទាយលទ្ធផលបន្ទាប់។ | ដូចជាពេលយើងអានសៀវភៅ យើងអាចយល់ន័យពាក្យខាងចុងបាន ដោយផ្អែកលើការចងចាំនូវពាក្យដែលយើងទើបតែអានពីមុន។ |
| Gated Recurrent Unit (GRU) | កំណែទម្រង់មួយរបស់ RNN ដែលមានសមត្ថភាពខ្ពស់ក្នុងការសម្រេចចិត្តថា តើព័ត៌មានចាស់ណាមួយគួរតែចងចាំ និងព័ត៌មានណាគួរតែបំភ្លេចចោល ដើម្បីជៀសវាងការបាត់បង់ព័ត៌មានសំខាន់ៗពេលដំណើរការអត្ថបទវែងៗ។ | ដូចជាតម្រងទឹកដែលឆ្លាតវៃ វាចេះរើសយកតែរ៉ែមានប្រយោជន៍ទុក និងច្រោះចោលនូវកាកសំណល់មិនចាំបាច់ចេញពីទឹកហូរ។ |
| Multi-task Learning | បច្ចេកទេសបង្វឹកម៉ូដែលបញ្ញាសិប្បនិម្មិតឱ្យធ្វើកិច្ចការពីរឬច្រើនក្នុងពេលតែមួយ ដើម្បីឱ្យវាអាចរៀនពីទំនាក់ទំនងរវាងកិច្ចការទាំងនោះ និងបង្កើនប្រសិទ្ធភាពរួមនៃការគិត។ | ដូចជាការរៀនលេងហ្គីតា និងច្រៀងក្នុងពេលតែមួយ ដែលជួយឱ្យអ្នកយល់ពីចង្វាក់ភ្លេងបានកាន់តែជ្រាលជ្រៅជាងការរៀនតែមួយមុខៗ។ |
| Hidden State Representation | ទម្រង់ទិន្នន័យខាងក្នុងរបស់ម៉ូដែល ដែលរក្សាទុកការចងចាំអំពីបរិបទ និងអត្ថន័យនៃពាក្យដែលវាបានអានកន្លងមក មុននឹងសម្រេចចិត្តទស្សន៍ទាយពាក្យបន្ទាប់ក្នុងប្រយោគ។ | ដូចជាការសង្ខេបរឿងទុកក្នុងខួរក្បាលរបស់យើង បន្ទាប់ពីអានចប់មួយទំព័រ មុននឹងបន្តអានទំព័របន្ទាប់។ |
| Language Vagueness | លក្ខណៈនៃភាសាដែលខ្វះភាពច្បាស់លាស់ ឬមានព្រំដែនអត្ថន័យមិនច្បាស់លាស់ (ឧទាហរណ៍៖ ពាក្យថា "ពេលខ្លះ" ឬ "ជាទូទៅ") ដែលធ្វើឱ្យកុំព្យូទ័រពិបាកក្នុងការកំណត់អត្ថន័យ និងបកស្រាយផ្នែកច្បាប់។ | ដូចជាការប្រាប់មិត្តភក្តិថា "ចាំជួបគ្នាបន្តិចទៀត" ដែលការកំណត់ពេលវេលា "បន្តិចទៀត" នេះមិនច្បាស់ថា ៥នាទី ឬ ១ម៉ោងនោះទេ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖