បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះមានគោលបំណងដោះស្រាយបញ្ហានៃការធ្វើឱ្យប្រសើរឡើងនូវភាពត្រឹមត្រូវនៃប្រព័ន្ធសម្គាល់ផ្ទៃមុខ (Face Recognition) ដោយកាត់បន្ថយបញ្ហានៃកម្រិតលំអៀង និងគម្លាតនៃការធ្វើឱ្យប្រសើរនៅក្នុងម៉ូដែលបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតជ្រៅ (Deep Neural Networks)។
វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើវិធីសាស្ត្រថ្មីមួយដោយរួមបញ្ចូលគ្នានូវមុខងារបាត់បង់ Angular Softmax (A-Softmax loss) ជាមួយនឹងក្បួនធ្វើឱ្យប្រសើរ Laplacian Smooth Stochastic Gradient Descent (LSSGD) ដើម្បីបណ្តុះបណ្តាលម៉ូដែល។
លទ្ធផលសំខាន់ៗ (The Verdict)៖
| វិធីសាស្ត្រ (Method) | គុណសម្បត្តិ (Pros) | គុណវិបត្តិ (Cons) | លទ្ធផលគន្លឹះ (Key Result) |
|---|---|---|---|
| SphereFace + LSSGD (m=3) [Proposed] ការប្រើប្រាស់ SphereFace ជាមួយឧបករណ៍ធ្វើឱ្យប្រសើរ LSSGD ក្នុងរឹមមុំទី៣ |
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុត និងជួយកាត់បន្ថយបម្រែបម្រួល (variance) កំឡុងពេលហ្វឹកហាត់ម៉ូដែល។ | ទាមទារការគណនាស្មុគស្មាញ និងត្រូវការពេលវេលាហ្វឹកហាត់យូរ (ប្រហែល ២០ ម៉ោង) លើ GPU។ | សម្រេចបានភាពត្រឹមត្រូវ ៩៩,៥៣% លើសំណុំទិន្នន័យ LFW និង ៩៥,១% លើ YTF។ |
| SphereFace / L-Softmax Loss (m=4) [Baseline] បច្ចេកទេស SphereFace ដែលប្រើអនុគមន៍ A-Softmax (គ្មាន LSSGD) |
បង្កើតគម្លាតរវាងចំណាត់ថ្នាក់ (inter-class margin) បានល្អប្រសើរជាងមុខងារ Softmax ធម្មតា។ | អាចជួបប្រទះបញ្ហាលំអៀងនៃក្បួន SGD ធម្មតា ដែលធ្វើឱ្យការហ្វឹកហាត់មានភាពរអាក់រអួលឬយឺត។ | ទទួលបានភាពត្រឹមត្រូវ ៩៩,៤២% លើសំណុំទិន្នន័យ LFW និង ៩៥,០% លើ YTF។ |
| Triplet Loss បច្ចេកទេសបាត់បង់ត្រីភាគី (Triplet Loss) |
រៀនដោយផ្ទាល់ពីចម្ងាយរវាងរូបភាព (Euclidean distance) ដើម្បីផ្ទៀងផ្ទាត់ និងផ្គូផ្គងផ្ទៃមុខ។ | ត្រូវការដំណើរការរុករកទិន្នន័យ (Triplet mining) ដែលចំណាយពេលច្រើន និងទាមទារការថ្លឹងថ្លែងស្មុគស្មាញ។ | ភាពត្រឹមត្រូវមានត្រឹមតែ ៩៨,៧០% លើ LFW និង ៩៣,៤% លើ YTF។ |
| Softmax + Center Loss ការរួមបញ្ចូលគ្នារវាង Softmax និង Center Loss |
ជួយទាញលក្ខណៈពិសេសរបស់ផ្ទៃមុខឱ្យមកជិតចំណុចកណ្តាលនៃថ្នាក់នីមួយៗ (intra-class compactness)។ | មិនសូវស៊ីសង្វាក់គ្នាជាមួយលក្ខណៈនៃទម្រង់មុំ (angular margin) របស់មុខងារ Softmax នោះទេ។ | ទទួលបានភាពត្រឹមត្រូវ ៩៩,០៥% លើ LFW និង ៩៤,៤% លើ YTF។ |
ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រដែលមានកម្លាំងខ្លាំង ជាពិសេសក្រាហ្វិកកាត (GPU) ដើម្បីធានាដល់ការហ្វឹកហាត់ម៉ូដែលស៊ីជម្រៅក្នុងរយៈពេលដ៏សមស្រប។
ការសិក្សានេះប្រើយកសំណុំទិន្នន័យ CASIA-WebFace ដែលបានមកពីការប្រមូលរូបភាពតាមប្រព័ន្ធអ៊ីនធឺណិត។ ទិន្នន័យបែបនេះច្រើនតែមានភាពលំអៀងទៅលើជនជាតិលោកខាងលិច ឬអាស៊ីបូព៌ា ដែលអាចធ្វើឱ្យម៉ូដែលមិនសូវមានប្រសិទ្ធភាពខ្ពស់នៅពេលយកមកអនុវត្តជាក់ស្តែងលើទម្រង់មុខជនជាតិខ្មែរ (Southeast Asian)។ ហេតុនេះ ការបន្ថែមទិន្នន័យមុខប្រជាជនក្នុងស្រុក គឺជារឿងចាំបាច់សម្រាប់កម្ពុជា។
បច្ចេកវិទ្យាសម្គាល់ផ្ទៃមុខកម្រិតជ្រៅនេះមានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធសន្តិសុខ និងការផ្ទៀងផ្ទាត់អត្តសញ្ញាណតាមបែបឌីជីថលនៅកម្ពុជា។
ការសម្របវិធីសាស្ត្រនេះទៅក្នុងបរិបទកម្ពុជា នឹងជួយពង្រឹងកម្រិតសុវត្ថិភាពទិន្នន័យ និងជំរុញនវានុវត្តន៍នៃសេវាកម្មសាធារណៈ និងឯកជនឱ្យកាន់តែទំនើប។
ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖
| ពាក្យបច្ចេកទេស | ការពន្យល់ជាខេមរភាសា (Khmer Explanation) | និយមន័យសាមញ្ញ (Simple Definition) |
|---|---|---|
| A-Softmax Loss | អនុគមន៍គណនាកម្រិតនៃការបាត់បង់ (Loss Function) ដែលបំប្លែងទិន្នន័យលក្ខណៈពិសេសរបស់ផ្ទៃមុខទៅជាទម្រង់មុំ (Angular margin) ដើម្បីបង្ខំឱ្យម៉ូដែលបែងចែកមុខមនុស្សម្នាក់ៗឱ្យដាច់ស្រឡះពីគ្នាជាងមុន។ | ដូចជាការបែងចែកមនុស្សដោយវាស់មុំនៃការឈររបស់ពួកគេ ជាជាងការវាស់ចម្ងាយពីគ្នាទៅវិញទៅមកដោយផ្ទាល់ ដើម្បីឱ្យដឹងច្បាស់ថាអ្នកណានៅក្រុមណា។ |
| Laplacian Smoothing Stochastic Gradient Descent (LSSGD) | ក្បួនធ្វើឱ្យប្រសើរ (Optimizer) សម្រាប់ហ្វឹកហាត់ម៉ូដែល ដោយប្រើការរលោងបែប Laplacian ដើម្បីកាត់បន្ថយបម្រែបម្រួលខ្លាំងពេក (variance) នៃក្បួនចុះចំណោត SGD ធម្មតា ដែលជួយឱ្យម៉ូដែលរៀនបានលឿននិងមានស្ថិរភាព។ | ដូចជាការកែចង្កូតរថយន្តឱ្យរលូននិងត្រង់ផ្លូវល្អ ជាជាងការបត់ចង្កូតឆ្វេងស្តាំខ្លាំងៗពេលកំពុងបើកបរក្នុងល្បឿនលឿន។ |
| Multi-Task Cascaded Convolutional Neural Network (MTCNN) | ប្រព័ន្ធបណ្តាញសរសៃប្រសាទកម្រិតជ្រៅដែលបំពេញកិច្ចការច្រើនក្នុងពេលតែមួយ ដូចជាការចាប់យកទីតាំងផ្ទៃមុខ (Face Detection) និងការតម្រឹមចំណុចសំខាន់ៗ (ភ្នែក ច្រមុះ មាត់) ឱ្យនៅចំកណ្តាលល្អមុនពេលផ្ញើទៅវាយតម្លៃ។ | ដូចជាក្រុមជាងថតរូបដែលម្នាក់មានតួនាទីរកមើលមុខមនុស្ស ហើយម្នាក់ទៀតមានតួនាទីចាប់មុំកាមេរ៉ាឱ្យចំភ្នែកនិងមាត់ឱ្យបានត្រឹមត្រូវ។ |
| Hypersphere Manifold | លំហគណិតវិទ្យាដែលមានវិមាត្រច្រើនជាងបី (n-dimensions) ជាកន្លែងដែលលក្ខណៈពិសេសនៃផ្ទៃមុខត្រូវបានតម្រៀបនិងបែងចែកដោយគណនាផ្អែកលើចម្ងាយធ្នូនៅលើផ្ទៃនៃស្វ៊ែរនោះ។ | ដូចជាផ្ទៃផែនដី (រាងស្វ៊ែរ) ដែលប្រទេសនីមួយៗ (តំណាងឱ្យមុខមនុស្សម្នាក់ៗ) ត្រូវបានកំណត់ព្រំដែនដាច់ដោយឡែកពីគ្នាច្បាស់លាស់។ |
| Residual Network (ResNet) | ស្ថាបត្យកម្មនៃបណ្តាញ CNN ដែលប្រើប្រាស់ទំនាក់ទំនងរំលង (Skip connections) ដើម្បីអនុញ្ញាតឱ្យទិន្នន័យរំលងស្រទាប់មួយចំនួន ដែលជួយដោះស្រាយបញ្ហាបាត់បង់ព័ត៌មាននៅពេលបណ្តាញកាន់តែមានជម្រៅជ្រៅ។ | ដូចជាការសាងសង់ស្ពានអាកាសឬផ្លូវកាត់នៅក្នុងទីក្រុង ដើម្បីកុំឱ្យស្ទះចរាចរណ៍នៅពេលដែលផ្លូវធំមានភាពស្មុគស្មាញច្រើន។ |
| Triplet Loss | បច្ចេកទេសបង្រៀនម៉ូដែលឱ្យស្គាល់មុខ ដោយប្រៀបធៀបរូបភាពបីក្នុងពេលតែមួយ៖ រូបគោល រូបត្រឹមត្រូវ និងរូបខុស រួចទាញរូបត្រូវឱ្យមកជិត និងរុញរូបខុសឱ្យទៅឆ្ងាយ។ | ដូចជាការប្រាប់ក្មេងម្នាក់ថា "មើលមុខបងប្រុសឯង និងមុខអ្នកជិតខាងនេះ, ត្រូវចាំថាឯងមានមុខស្រដៀងបងប្រុសឯង តែខុសស្រឡះពីអ្នកជិតខាង។" |
| Softmax Loss | អនុគមន៍ធម្មតាសំរាប់វាយតម្លៃកំហុសក្នុងការចាត់ថ្នាក់ទិន្នន័យ ដែលវាគ្រាន់តែផ្តោតលើការចាត់ចែងទិន្នន័យចូលក្រុមត្រឹមត្រូវ ប៉ុន្តែមិនបានបង្កើតគម្លាតឱ្យធំគ្រប់គ្រាន់រវាងក្រុមនីមួយៗឡើយ។ | ដូចជាការដាក់សិស្សឱ្យអង្គុយតាមតុរៀនរៀងខ្លួន ប៉ុន្តែមិនបានទាញតុឱ្យនៅឆ្ងាយពីគ្នា ដើម្បីកុំឱ្យពួកគេងាយនឹងចម្លងគ្នា។ |
អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖
ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖