បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយលើការអភិវឌ្ឍ ការចាត់ថ្នាក់ និងបញ្ហាប្រឈមសំខាន់ៗនៃប្រព័ន្ធសន្ទនាដែនបើកចំហ (Open-domain dialogue systems) ឬកម្មវិធីផ្ញើសារស្វ័យប្រវត្តិ (Chatbots) ដែលជំរុញដោយទិន្នន័យ និងប្រើប្រាស់បច្ចេកវិទ្យារៀនស៊ីជម្រៅ (Deep learning)។
វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះធ្វើការត្រួតពិនិត្យយ៉ាងទូលំទូលាយ និងចាត់ថ្នាក់ម៉ូដែលរៀនស៊ីជម្រៅ (Deep learning models) សម្រាប់ប្រព័ន្ធសន្ទនាជាបីប្រភេទសំខាន់ៗ រួមទាំងការវិភាគលើបញ្ហាប្រឈម និងវិធីសាស្ត្រវាយតម្លៃ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
ការសិក្សានេះផ្អែកលើទិន្នន័យសន្ទនាពីបណ្តាញសង្គមដូចជា Twitter, Weibo, និងវេទិកាផ្សេងៗ ដែលមានភាសាលាយឡំ កំហុសអក្ខរាវិរុទ្ធ និងពាក្យស្លែង។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យសន្ទនាភាសាខ្មែរដែលមានគុណភាពខ្ពស់ និងការប្រើប្រាស់ភាសាខ្មែរ-អង់គ្លេសលាយគ្នា (Code-switching) គឺជាបញ្ហាប្រឈមដ៏ធំក្នុងការបង្វឹកម៉ូដែលឱ្យបានត្រឹមត្រូវនិងឆ្លើយតបបានរលូន។
បច្ចេកវិទ្យាប្រព័ន្ធសន្ទនាដែនបើកចំហនេះមានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធសេវាកម្មអតិថិជនស្វ័យប្រវត្តិនៅកម្ពុជា។
ការអនុវត្តប្រព័ន្ធសន្ទនាឆ្លាតវៃទាំងនេះនឹងជួយកាត់បន្ថយថ្លៃដើមប្រតិបត្តិការ និងបង្កើនប្រសិទ្ធភាពសេវាកម្មអតិថិជនយ៉ាងខ្លាំងនៅក្នុងស្ថាប័នរដ្ឋនិងឯកជននៅកម្ពុជា។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Sequence to Sequence | ជាម៉ូដែលបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលទទួលយកទិន្នន័យជាបន្តបន្ទាប់ (ដូចជាប្រយោគសំណួរ) ហើយបង្កើតទិន្នន័យជាបន្តបន្ទាប់មួយទៀត (ដូចជាប្រយោគចម្លើយ) ដោយឆ្លងកាត់ដំណើរការបំប្លែងលេខកូដ (Encoder-Decoder)។ | ដូចជាអ្នកបកប្រែភាសាដែលស្តាប់ប្រយោគទាំងមូលឱ្យយល់ន័យសិន រួចទើបនិយាយបកប្រែជាភាសាមួយទៀតចេញមកក្រៅ។ |
| Attention Mechanism | ជាយន្តការដែលជួយឱ្យម៉ូដែលដឹងថាត្រូវ 'ផ្តោតការយកចិត្តទុកដាក់' ទៅលើពាក្យ ឬផ្នែកណាមួយនៃប្រយោគសំណួរដែលសំខាន់បំផុត នៅពេលវាកំពុងបង្កើតពាក្យនីមួយៗនៃប្រយោគចម្លើយ ដើម្បីចៀសវាងការបាត់បង់ព័ត៌មាននៅក្នុងប្រយោគវែងៗ។ | ដូចជាសិស្សដែលកំពុងអានសៀវភៅក្រាស់មួយ ហើយប្រើហ្វឺតគូសចំណាំ (Highlight) តែពាក្យគន្លឹះសំខាន់ៗដើម្បីយកមកឆ្លើយសំណួរប្រឡង។ |
| Word Embedding | ជាបច្ចេកទេសបំប្លែងពាក្យពេចន៍ទៅជាវ៉ិចទ័រ ឬតួលេខគណិតវិទ្យា ដែលធ្វើឱ្យកុំព្យូទ័រអាចយល់ពីអត្ថន័យ និងទំនាក់ទំនងរវាងពាក្យដែលស្រដៀងគ្នានៅក្នុងលំហទិន្នន័យ (Vector Space)។ | ដូចជាការរៀបចំសៀវភៅក្នុងបណ្ណាល័យ ដោយដាក់សៀវភៅដែលមានប្រធានបទស្រដៀងគ្នានៅធ្នើរជិតៗគ្នា ដើម្បីងាយស្រួលរក។ |
| Generative Adversarial Networks | ជាប្រព័ន្ធដែលប្រើប្រាស់ម៉ូដែលពីរប្រកួតប្រជែងគ្នា គឺមួយមានតួនាទីបង្កើតចម្លើយក្លែងក្លាយឱ្យដូចមនុស្សពិត ហើយមួយទៀតមានតួនាទីវាយតម្លៃនិងចាប់កំហុសថាតើចម្លើយនោះជារបស់ម៉ាស៊ីន ឬរបស់មនុស្សរហូតដល់ម៉ូដែលបង្កើតចម្លើយអាចបន្លំបានដោយជោគជ័យ។ | ដូចជាចោរលួចចម្លងគំនូរ និងអ្នកជំនាញពិនិត្យគំនូរ កាលណាអ្នកជំនាញកាន់តែពូកែចាប់កំហុស ចោរក៏កាន់តែវិវឌ្ឍខ្លួនឱ្យគូរបានកាន់តែដូចពិតៗ។ |
| Recurrent Neural Network | ជាប្រភេទបណ្ដាញសរសៃប្រសាទដែលត្រូវបានរចនាឡើងពិសេសសម្រាប់ដំណើរការទិន្នន័យជាស៊េរី (ដូចជាប្រយោគ) ដោយវាមានសមត្ថភាពចងចាំព័ត៌មានពីពាក្យមុនៗ ដើម្បីជួយក្នុងការយល់ន័យពាក្យបន្ទាប់នៅក្នុងបរិបទនៃការសន្ទនា។ | ដូចជាការអានសៀវភៅរឿង ដែលអ្នកត្រូវចងចាំសាច់រឿងពីទំព័រមុនៗ ទើបអាចយល់សាច់រឿងនៅទំព័របន្តបន្ទាប់បានដោយរលូន។ |
| Beam Search | ជាក្បួនដោះស្រាយដែលជួយប្រព័ន្ធសន្ទនាស្វែងរកប្រយោគចម្លើយដែលល្អបំផុត ដោយវាមិនមែនទាយយកពាក្យម្តងមួយៗទេ តែវាសាកល្បងសាងសង់ជម្រើសប្រយោគច្រើនក្នុងពេលតែមួយ ហើយជ្រើសយកប្រយោគណាដែលមានប្រូបាប៊ីលីតេត្រឹមត្រូវជាងគេបំផុត។ | ដូចជាការលេងអុក ដែលអ្នកលេងត្រូវគិតទុកជាមុននូវជម្រើសដើរ ៣ ទៅ ៤ ជំហាន ដើម្បីរើសយកផ្លូវណាដែលមានឱកាសឈ្នះខ្ពស់បំផុត។ |
| Autoencoder | ជាម៉ូដែលដែលបង្ហាប់ទិន្នន័យបញ្ចូលឱ្យទៅជាទម្រង់តូចចង្អៀត រួចព្យាយាមពន្លាតទិន្នន័យនោះមកវិញឱ្យដូចដើម ដើម្បីឱ្យប្រព័ន្ធរៀនចាប់យកតែលក្ខណៈពិសេសដែលសំខាន់បំផុតរបស់ទិន្នន័យនោះ សម្រាប់យកទៅប្រើប្រាស់ក្នុងការគ្រប់គ្រងការបង្កើតចម្លើយ។ | ដូចជាការសង្ខេបមេរៀនវែងមួយឱ្យខ្លីដោយរក្សាតែន័យសំខាន់ រួចសាកល្បងសរសេរពន្យល់មេរៀននោះឡើងវិញដោយផ្អែកលើអត្ថបទសង្ខេបនោះ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖