Original Title: 基于深度学习的开放领域对话系统研究综述
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការស្ទង់មតិស្តីពីប្រព័ន្ធសន្ទនាដែនបើកចំហដោយផ្អែកលើការរៀនស៊ីជម្រៅ

ចំណងជើងដើម៖ 基于深度学习的开放领域对话系统研究综述

អ្នកនិពន្ធ៖ 陈晨 (CHEN Chen, Peking University), 朱晴晴 (ZHU Qing-Qing, Peking University), 严睿 (YAN Rui, Peking University), 柳军飞 (LIU Jun-Fei, Peking University)

ឆ្នាំបោះពុម្ព៖ 2019, 计算机学报 (CHINESE JOURNAL OF COMPUTERS)

វិស័យសិក្សា៖ Artificial Intelligence

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយលើការអភិវឌ្ឍ ការចាត់ថ្នាក់ និងបញ្ហាប្រឈមសំខាន់ៗនៃប្រព័ន្ធសន្ទនាដែនបើកចំហ (Open-domain dialogue systems) ឬកម្មវិធីផ្ញើសារស្វ័យប្រវត្តិ (Chatbots) ដែលជំរុញដោយទិន្នន័យ និងប្រើប្រាស់បច្ចេកវិទ្យារៀនស៊ីជម្រៅ (Deep learning)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះធ្វើការត្រួតពិនិត្យយ៉ាងទូលំទូលាយ និងចាត់ថ្នាក់ម៉ូដែលរៀនស៊ីជម្រៅ (Deep learning models) សម្រាប់ប្រព័ន្ធសន្ទនាជាបីប្រភេទសំខាន់ៗ រួមទាំងការវិភាគលើបញ្ហាប្រឈម និងវិធីសាស្ត្រវាយតម្លៃ។

ប្រព័ន្ធផ្អែកលើការទាញយក (Retrieval-based Models) សម្រាប់ការស្វែងរកចម្លើយដែលស័ក្តិសមបំផុតពីមូលដ្ឋានទិន្នន័យ
ប្រព័ន្ធផ្អែកលើការបង្កើត (Generation-based Models) ដូចជា Sequence-to-Sequence សម្រាប់បង្កើតប្រយោគចម្លើយថ្មីៗ
ម៉ូដែលរួមបញ្ចូលគ្នា (Hybrid Models) រវាងការទាញយកនិងការបង្កើតដើម្បីបង្កើនគុណភាពចម្លើយ
ការវាយតម្លៃប្រព័ន្ធសន្ទនា (Dialogue System Evaluation) តាមរយៈការវាយតម្លៃដោយមនុស្ស និងម៉ាទ្រីកស្វ័យប្រវត្តិ

លទ្ធផលសំខាន់ៗ (The Verdict)៖

បច្ចេកវិទ្យារៀនស៊ីជម្រៅ (Deep learning) បានជម្រុញការអភិវឌ្ឍយ៉ាងខ្លាំងដល់ប្រព័ន្ធសន្ទនាដែនបើកចំហ ជាពិសេសតាមរយៈយន្តការ Sequence-to-Sequence (Seq2Seq) និង Attention mechanisms។
ទោះបីជាមានការរីកចម្រើន ក៏បញ្ហាសំខាន់ៗមួយចំនួននៅតែទាមទារការស្រាវជ្រាវបន្ត ដូចជាភាពចម្រុះនៃចម្លើយ (Response diversity) ការគ្រប់គ្រងប្រធានបទ ការប្រើប្រាស់ចំណេះដឹងខាងក្រៅ និងការបញ្ចូលអារម្មណ៍ចូលក្នុងការសន្ទនា។
និន្នាការនាពេលអនាគតរួមមាន ការបង្កើនការឆ្លើយតបប្រកបដោយអារម្មណ៍ដូចមនុស្ស ការគិតបែបតក្កវិជ្ជា ការប្រើប្រាស់ទិន្នន័យចម្រុះ (Multi-modal) និងការបង្កើតយន្តការវាយតម្លៃស្វ័យប្រវត្តិដែលគួរឱ្យទុកចិត្តជាងមុន។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះផ្អែកលើទិន្នន័យសន្ទនាពីបណ្តាញសង្គមដូចជា Twitter, Weibo, និងវេទិកាផ្សេងៗ ដែលមានភាសាលាយឡំ កំហុសអក្ខរាវិរុទ្ធ និងពាក្យស្លែង។ សម្រាប់ប្រទេសកម្ពុជា ការខ្វះខាតទិន្នន័យសន្ទនាភាសាខ្មែរដែលមានគុណភាពខ្ពស់ និងការប្រើប្រាស់ភាសាខ្មែរ-អង់គ្លេសលាយគ្នា (Code-switching) គឺជាបញ្ហាប្រឈមដ៏ធំក្នុងការបង្វឹកម៉ូដែលឱ្យបានត្រឹមត្រូវនិងឆ្លើយតបបានរលូន។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យាប្រព័ន្ធសន្ទនាដែនបើកចំហនេះមានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍប្រព័ន្ធសេវាកម្មអតិថិជនស្វ័យប្រវត្តិនៅកម្ពុជា។

វិស័យធនាគារ និងហិរញ្ញវត្ថុ (ឧទាហរណ៍៖ ABA, ACLEDA): អាចបង្កើតកម្មវិធីជំនួយការនិម្មិត (Virtual Assistants) ដើម្បីឆ្លើយតបសំណួរអតិថិជន ពិនិត្យសមតុល្យគណនី និងផ្តល់សេវាកម្មគាំទ្រ ២៤ ម៉ោងលើ ២៤ ម៉ោងដោយស្វ័យប្រវត្តិ។
វិស័យទូរគមនាគមន៍ (ឧទាហរណ៍៖ Smart, Cellcard): ប្រព័ន្ធ Chatbot អាចត្រូវបានប្រើប្រាស់សម្រាប់ដោះស្រាយបញ្ហាបច្ចេកទេសទូទៅ និងណែនាំកញ្ចប់សេវាកម្មអ៊ីនធឺណិតដល់អតិថិជនបានយ៉ាងឆាប់រហ័ស។
ពាណិជ្ជកម្មអេឡិចត្រូនិក និងការលក់រាយលើបណ្តាញសង្គម: ជួយសម្រួលដល់ម្ចាស់អាជីវកម្មក្នុងការឆ្លើយតបសាររបស់អតិថិជន ទាក់ទងនឹងព័ត៌មានផលិតផល តម្លៃ និងការបញ្ជាទិញនៅលើ Facebook Pages ឬ Telegram Bots។

ការអនុវត្តប្រព័ន្ធសន្ទនាឆ្លាតវៃទាំងនេះនឹងជួយកាត់បន្ថយថ្លៃដើមប្រតិបត្តិការ និងបង្កើនប្រសិទ្ធភាពសេវាកម្មអតិថិជនយ៉ាងខ្លាំងនៅក្នុងស្ថាប័នរដ្ឋនិងឯកជននៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះផ្នែក NLP និង Deep Learning: ចាប់ផ្តើមរៀនពីទ្រឹស្តីដំណើរការភាសាធម្មជាតិ និងការសរសេរកូដដោយប្រើប្រាស់ Python និងបណ្ណាល័យសំខាន់ៗដូចជា PyTorch ឬ TensorFlow សម្រាប់ការអភិវឌ្ឍម៉ូដែល។
ប្រមូល និងរៀបចំទិន្នន័យភាសាខ្មែរ: ប្រមូលទិន្នន័យសន្ទនាពី Facebook comments ឬ Telegram រួចធ្វើការសម្អាតទិន្នន័យដោយប្រើឧបករណ៍កាត់ពាក្យខ្មែរ (Khmer Word Segmentation) ដើម្បីត្រៀមបង្វឹកម៉ូដែល។
អភិវឌ្ឍម៉ូដែលស្វែងរកចម្លើយ (Retrieval-based Model): សាកល្បងបង្កើត Chatbot សាមញ្ញសិនដោយប្រើបច្ចេកទេស BM25 ឬ ElasticSearch ដើម្បីស្វែងរកចម្លើយដែលស័ក្តិសមបំផុតពីក្នុងបញ្ជីសំណួរ-ចម្លើយ (FAQ) ដែលមានស្រាប់។
បង្វឹកម៉ូដែលបង្កើតចម្លើយ (Generative Model): ឈានទៅប្រើប្រាស់ស្ថាបត្យកម្ម Sequence-to-Sequence (Seq2Seq) ជាមួយយន្តការ Attention ដើម្បីបង្វឹកម៉ូដែលឱ្យចេះបង្កើតប្រយោគឆ្លើយតបថ្មីៗ និងប្រកបដោយភាពបត់បែន។
វាយតម្លៃ និងកែលម្អប្រព័ន្ធសន្ទនា: ប្រើប្រាស់រង្វាស់រង្វាល់ស្វ័យប្រវត្តិដូចជា BLEU score ឬ ROUGE ព្រមទាំងការវាយតម្លៃដោយមនុស្សពិតប្រាកដ (Human Evaluation) ដើម្បីវាស់ស្ទង់គុណភាព និងកែលម្អភាពរលូននៃការសន្ទនា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Sequence to Sequence	ជាម៉ូដែលបណ្ដាញសរសៃប្រសាទសិប្បនិម្មិតដែលទទួលយកទិន្នន័យជាបន្តបន្ទាប់ (ដូចជាប្រយោគសំណួរ) ហើយបង្កើតទិន្នន័យជាបន្តបន្ទាប់មួយទៀត (ដូចជាប្រយោគចម្លើយ) ដោយឆ្លងកាត់ដំណើរការបំប្លែងលេខកូដ (Encoder-Decoder)។	ដូចជាអ្នកបកប្រែភាសាដែលស្តាប់ប្រយោគទាំងមូលឱ្យយល់ន័យសិន រួចទើបនិយាយបកប្រែជាភាសាមួយទៀតចេញមកក្រៅ។
Attention Mechanism	ជាយន្តការដែលជួយឱ្យម៉ូដែលដឹងថាត្រូវ 'ផ្តោតការយកចិត្តទុកដាក់' ទៅលើពាក្យ ឬផ្នែកណាមួយនៃប្រយោគសំណួរដែលសំខាន់បំផុត នៅពេលវាកំពុងបង្កើតពាក្យនីមួយៗនៃប្រយោគចម្លើយ ដើម្បីចៀសវាងការបាត់បង់ព័ត៌មាននៅក្នុងប្រយោគវែងៗ។	ដូចជាសិស្សដែលកំពុងអានសៀវភៅក្រាស់មួយ ហើយប្រើហ្វឺតគូសចំណាំ (Highlight) តែពាក្យគន្លឹះសំខាន់ៗដើម្បីយកមកឆ្លើយសំណួរប្រឡង។
Word Embedding	ជាបច្ចេកទេសបំប្លែងពាក្យពេចន៍ទៅជាវ៉ិចទ័រ ឬតួលេខគណិតវិទ្យា ដែលធ្វើឱ្យកុំព្យូទ័រអាចយល់ពីអត្ថន័យ និងទំនាក់ទំនងរវាងពាក្យដែលស្រដៀងគ្នានៅក្នុងលំហទិន្នន័យ (Vector Space)។	ដូចជាការរៀបចំសៀវភៅក្នុងបណ្ណាល័យ ដោយដាក់សៀវភៅដែលមានប្រធានបទស្រដៀងគ្នានៅធ្នើរជិតៗគ្នា ដើម្បីងាយស្រួលរក។
Generative Adversarial Networks	ជាប្រព័ន្ធដែលប្រើប្រាស់ម៉ូដែលពីរប្រកួតប្រជែងគ្នា គឺមួយមានតួនាទីបង្កើតចម្លើយក្លែងក្លាយឱ្យដូចមនុស្សពិត ហើយមួយទៀតមានតួនាទីវាយតម្លៃនិងចាប់កំហុសថាតើចម្លើយនោះជារបស់ម៉ាស៊ីន ឬរបស់មនុស្សរហូតដល់ម៉ូដែលបង្កើតចម្លើយអាចបន្លំបានដោយជោគជ័យ។	ដូចជាចោរលួចចម្លងគំនូរ និងអ្នកជំនាញពិនិត្យគំនូរ កាលណាអ្នកជំនាញកាន់តែពូកែចាប់កំហុស ចោរក៏កាន់តែវិវឌ្ឍខ្លួនឱ្យគូរបានកាន់តែដូចពិតៗ។
Recurrent Neural Network	ជាប្រភេទបណ្ដាញសរសៃប្រសាទដែលត្រូវបានរចនាឡើងពិសេសសម្រាប់ដំណើរការទិន្នន័យជាស៊េរី (ដូចជាប្រយោគ) ដោយវាមានសមត្ថភាពចងចាំព័ត៌មានពីពាក្យមុនៗ ដើម្បីជួយក្នុងការយល់ន័យពាក្យបន្ទាប់នៅក្នុងបរិបទនៃការសន្ទនា។	ដូចជាការអានសៀវភៅរឿង ដែលអ្នកត្រូវចងចាំសាច់រឿងពីទំព័រមុនៗ ទើបអាចយល់សាច់រឿងនៅទំព័របន្តបន្ទាប់បានដោយរលូន។
Beam Search	ជាក្បួនដោះស្រាយដែលជួយប្រព័ន្ធសន្ទនាស្វែងរកប្រយោគចម្លើយដែលល្អបំផុត ដោយវាមិនមែនទាយយកពាក្យម្តងមួយៗទេ តែវាសាកល្បងសាងសង់ជម្រើសប្រយោគច្រើនក្នុងពេលតែមួយ ហើយជ្រើសយកប្រយោគណាដែលមានប្រូបាប៊ីលីតេត្រឹមត្រូវជាងគេបំផុត។	ដូចជាការលេងអុក ដែលអ្នកលេងត្រូវគិតទុកជាមុននូវជម្រើសដើរ ៣ ទៅ ៤ ជំហាន ដើម្បីរើសយកផ្លូវណាដែលមានឱកាសឈ្នះខ្ពស់បំផុត។
Autoencoder	ជាម៉ូដែលដែលបង្ហាប់ទិន្នន័យបញ្ចូលឱ្យទៅជាទម្រង់តូចចង្អៀត រួចព្យាយាមពន្លាតទិន្នន័យនោះមកវិញឱ្យដូចដើម ដើម្បីឱ្យប្រព័ន្ធរៀនចាប់យកតែលក្ខណៈពិសេសដែលសំខាន់បំផុតរបស់ទិន្នន័យនោះ សម្រាប់យកទៅប្រើប្រាស់ក្នុងការគ្រប់គ្រងការបង្កើតចម្លើយ។	ដូចជាការសង្ខេបមេរៀនវែងមួយឱ្យខ្លីដោយរក្សាតែន័យសំខាន់ រួចសាកល្បងសរសេរពន្យល់មេរៀននោះឡើងវិញដោយផ្អែកលើអត្ថបទសង្ខេបនោះ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖