បញ្ហា (The Problem)៖ ឯកសារនេះដោះស្រាយបញ្ហានៃការយល់ដឹងភាសាដោយផ្អែកលើរូបភាព (Grounded language understanding) ដោយផ្តោតលើការបកស្រាយភាពស្រពិចស្រពិលនៃភាសា (Linguistic ambiguities) តាមរយៈការប្រើប្រាស់បរិបទវីដេអូ។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានបង្កើតកញ្ចប់ទិន្នន័យថ្មី និងអភិវឌ្ឍម៉ូដែលកុំព្យូទ័រដែលវិភាគរួមគ្នារវាងអត្ថបទនិងវីដេអូដើម្បីជ្រើសរើសអត្ថន័យដែលត្រឹមត្រូវ។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| Compositional Cross-Modal Model (Extended Sentence Tracker) ម៉ូដែលតាមដានប្រយោគរួមផ្សំពហុទម្រង់ (ពង្រីកពីម៉ូដែលគំរូចាស់ដោយបន្ថែមតក្កវិទ្យាលំដាប់ទីមួយ) |
អាចដោះស្រាយភាពស្រពិចស្រពិលនៃភាសាបានច្រើនប្រភេទ (វាក្យសម្ព័ន្ធ អត្ថន័យ និងវោហារសព្ទ) ដោយផ្អែកលើបរិបទវីដេអូ។ វាមានសមត្ថភាពបែងចែកវត្ថុ ឬតួអង្គផ្សេងគ្នាបានល្អតាមរយៈការបន្ថែមតក្កវិទ្យាថ្មី (not equal)។ | ដំណើរការរបស់វាពឹងផ្អែកខ្លាំងលើភាពត្រឹមត្រូវនៃប្រព័ន្ធចាប់យកវត្ថុ (Object Detectors) ហើយជួបការលំបាកជាមួយវត្ថុតូចៗ (ឧ. តេឡេទស្សន៍) ឬការបិទបាំងដោយដៃ។ | ទទួលបានភាពត្រឹមត្រូវសរុប ៧៥.៣៦% លើការទស្សន៍ទាយ (៨៤.២៦% សម្រាប់វាក្យសម្ព័ន្ធ, ៧២.២៨% សម្រាប់អត្ថន័យ និង ៦៤.៤៤% សម្រាប់វោហារសព្ទ)។ |
| Random Chance Baseline ការទស្សន៍ទាយដោយចៃដន្យ (Random Baseline) |
មិនទាមទារការគណនាស្មុគស្មាញ ការចាប់យកវត្ថុក្នុងរូបភាព ឬការហ្វឹកហាត់ម៉ូដែលនោះទេ។ | គ្មានភាពវៃឆ្លាតទាល់តែសោះ ដោយគ្រាន់តែជ្រើសរើសចម្លើយដោយចៃដន្យ (១ ក្នុងចំណោម ២ ឬ ៣ ជម្រើស) ដែលមិនអាចយកទៅប្រើប្រាស់ក្នុងការអនុវត្តជាក់ស្តែងបាន។ | ទទួលបានភាពត្រឹមត្រូវត្រឹមតែ ៤៩.០៤% ប៉ុណ្ណោះ។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារនេះមិនបានបញ្ជាក់លម្អិតពីទំហំកម្លាំងម៉ាស៊ីន (Hardware) នោះទេ ប៉ុន្តែការប្រើប្រាស់ប្រព័ន្ធបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត (CNNs) និងការវិភាគវីដេអូទាមទារធនធានគណនាខ្ពស់។
ការសិក្សានេះប្រើប្រាស់កញ្ចប់ទិន្នន័យ LAVA ដែលថតនៅក្នុងបរិវេណបិទជិត (indoor environment) ដោយមានតួអង្គនិងវត្ថុកំណត់មួយចំនួន ហើយផ្តោតតែលើភាសាអង់គ្លេស។ ទិន្នន័យនេះមានទំហំតូច និងមិនតំណាងឱ្យភាពចម្រុះនៃបរិស្ថានទូទៅក្នុងពិភពពិតនោះទេ។ សម្រាប់ប្រទេសកម្ពុជា ការអនុវត្តម៉ូដែលនេះតម្រូវឱ្យមានការបង្កើតទិន្នន័យថ្មីដែលឆ្លុះបញ្ចាំងពីបរិបទសង្គម វប្បធម៌ និងរចនាសម្ព័ន្ធដ៏ស្មុគស្មាញនៃភាសាខ្មែរ ដែលមានភាពស្រពិចស្រពិលច្រើនដោយសារការមិនដកឃ្លារវាងពាក្យ។
ទោះបីជាម៉ូដែលនេះត្រូវបានបង្កើតឡើងសម្រាប់ភាសាអង់គ្លេសក្ដី វិធីសាស្ត្រនៃការផ្សារភ្ជាប់ភាសាទៅនឹងបរិបទរូបភាព (Grounded language understanding) មានសក្តានុពលខ្ពស់ក្នុងការអភិវឌ្ឍបច្ចេកវិទ្យា AI ក្នុងស្រុក។
ជារួម បច្ចេកវិទ្យានេះគឺជាមូលដ្ឋានគ្រឹះដ៏សំខាន់សម្រាប់អ្នកស្រាវជ្រាវកម្ពុជាក្នុងការកសាងប្រព័ន្ធ AI ពហុទម្រង់ (Multimodal AI) ដែលអាចយល់ដឹងបរិបទពិភពពិតនិងភាសាខ្មែរបានកាន់តែស៊ីជម្រៅជាងមុន។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| Grounded language understanding | ជាដំណើរការដែលប្រព័ន្ធកុំព្យូទ័រព្យាយាមយល់ន័យរបស់ភាសាដោយផ្សារភ្ជាប់ពាក្យពេចន៍ទាំងនោះទៅនឹងទិន្នន័យពីពិភពពិត ដូចជារូបភាព វីដេអូ ឬសំឡេង ជាជាងការយល់ត្រឹមតែអត្ថបទសុទ្ធសាធ។ | ដូចជាក្មេងតូចម្នាក់រៀនស្គាល់ពាក្យ "ឆ្កែ" ដោយសារម្តាយចង្អុលបង្ហាញសត្វឆ្កែផ្ទាល់ភ្នែក មិនមែនគ្រាន់តែប្រាប់អត្ថន័យនោះទេ។ |
| Linguistic ambiguities | គឺជាលក្ខណៈនៃប្រយោគ ឬឃ្លាដែលមានអត្ថន័យលើសពីមួយ ដែលតម្រូវឱ្យអ្នកស្តាប់ ឬកុំព្យូទ័រត្រូវពឹងផ្អែកលើបរិបទបន្ថែម (ដូចជារូបភាព) ដើម្បីកំណត់ថាតើអត្ថន័យមួយណាជារឿងពិតប្រាកដ។ | ដូចជាពេលគេនិយាយថា "ញ៉ាំបាយជាមួយស្លាបព្រា" វាអាចមានន័យថាប្រើស្លាបព្រាដើម្បីដួសបាយ ឬញ៉ាំបាយបណ្តើរទំពារស្លាបព្រាបណ្តើរ (ទាល់តែឃើញរូបភាពទើបដឹងច្បាស់)។ |
| Hidden Markov Models (HMMs) | ជាម៉ូដែលស្ថិតិដែលត្រូវបានប្រើប្រាស់ដើម្បីទស្សន៍ទាយលំដាប់លំដោយនៃព្រឹត្តិការណ៍ដែលយើងមិនអាចមើលឃើញផ្ទាល់ ដោយពឹងផ្អែកលើទិន្នន័យឬសញ្ញាដែលយើងអាចសង្កេតឃើញ ដូចជាការយកចលនារបស់វត្ថុមកទស្សន៍ទាយសកម្មភាពពិតប្រាកដ។ | ដូចជាការមើលឃើញមនុស្សកាន់ឆ័ត្រសើមដើរចូលក្នុងផ្ទះ (អ្វីដែលសង្កេតឃើញ) ទើបយើងទាយដឹងថាខាងក្រៅកំពុងមានភ្លៀងធ្លាក់ (អ្វីដែលលាក់កំបាំង)។ |
| First-order logic | ជាទម្រង់នៃការសរសេរកូដបែបគណិតវិទ្យានិងតក្កវិទ្យា ដើម្បីបំប្លែងប្រយោគភាសាធម្មជាតិទៅជារចនាសម្ព័ន្ធច្បាស់លាស់មួយដែលកុំព្យូទ័រអាចយល់ និងទាញយកហេតុផលបាន ដោយកំណត់យ៉ាងច្បាស់ពីវត្ថុនិងទំនាក់ទំនងរវាងវត្ថុទាំងនោះ។ | ដូចជាការបំប្លែងប្រយោគ "សុខវាយចៅ" ទៅជារូបមន្តគណិតវិទ្យា វាយ(សុខ, ចៅ) ដើម្បីឱ្យម៉ាស៊ីនងាយស្រួលគណនា។ |
| Viterbi algorithm | គឺជាក្បួនដោះស្រាយ (Algorithm) គណិតវិទ្យាដែលជួយស្វែងរកផ្លូវ ឬលំដាប់លំដោយនៃព្រឹត្តិការណ៍ដែលទំនងជាត្រឹមត្រូវបំផុត ក្នុងចំណោមជម្រើសរាប់ពាន់ម៉ឺនដែលមាននៅក្នុងម៉ូដែល HMM ដូចជាការរកមើលស៊ុមរូបភាពដែលត្រូវគ្នានឹងសកម្មភាពបំផុត។ | ដូចជាការប្រើកម្មវិធី Google Maps ដើម្បីរកមើលផ្លូវដែលលឿន និងល្អបំផុតក្នុងចំណោមផ្លូវវាងរាប់រយខ្សែកំឡុងពេលស្ទះចរាចរណ៍។ |
| Object tracker | គឺជាប្រព័ន្ធកុំព្យូទ័រដែលវិភាគលើវីដេអូដើម្បីធ្វើការតាមដានទីតាំងនិងចលនារបស់វត្ថុឬមនុស្សណាមួយដោយស្វ័យប្រវត្តិ ពីស៊ុមវីដេអូមួយទៅស៊ុមវីដេអូមួយទៀតជាបន្តបន្ទាប់។ | ដូចជាភ្នែករបស់យើងដែលសម្លឹងតាមមើលចលនារបស់បាល់មិនដាក់ភ្នែកពេលកំពុងទស្សនាការប្រកួតបាល់ទាត់។ |
| Pronoun Anaphora | ជាបាតុភូតក្នុងភាសាដែលសព្វនាមមួយ (ដូចជា វា, គាត់, គេ) ត្រូវបានប្រើដើម្បីជំនួសឱ្យនាមដែលបានលើកឡើងពីមុន ប៉ុន្តែវាអាចបង្កើតភាពស្រពិចស្រពិលប្រសិនបើមាននាមច្រើននៅពីមុខ។ | ដូចជាពេលនិយាយថា "ប៉ាបានទិញនំឱ្យកូន តែគាត់បានញ៉ាំវាបាត់ហើយ" ពាក្យ "គាត់" អាចមានន័យថាប៉ា ឬកូន (ទាល់តែដឹងបរិបទសិន)។ |
| Bipartite graph | ជារចនាសម្ព័ន្ធបណ្តាញដែលចែកថ្នាំង (Nodes) ជាពីរក្រុមដាច់ពីគ្នា ដែលថ្នាំងក្នុងក្រុมนីមួយៗមិនអាចភ្ជាប់គ្នាឯងបានទេ តែត្រូវភ្ជាប់ឆ្លងទៅក្រុមមួយទៀត ដូចជាការភ្ជាប់ពាក្យកិរិយាសព្ទ (ក្រុមទី១) ទៅនឹងតួអង្គក្នុងវីដេអូ (ក្រុមទី២) ជាដើម។ | ដូចជាការគូសខ្សែផ្គូផ្គងរវាងក្រុមសិស្ស (ក្រុម១) និងក្រុមមុខវិជ្ជា (ក្រុម២) ដោយសិស្សម្នាក់ៗត្រូវជ្រើសរើសមុខវិជ្ជា តែសិស្សមិនអាចផ្គូផ្គងជាមួយសិស្សដូចគ្នាបានទេ។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖