Original Title: A Thesis Titled Deep Hypersphere Embedding with Laplacian Smooth Stochastic Gradient for Face Recognition
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

និក្ខេបបទស្តីពីការបង្កប់អ៊ីពែរស្វ៊ែរជ្រៅជាមួយនឹង Laplacian Smooth Stochastic Gradient សម្រាប់ការសម្គាល់ផ្ទៃមុខ

ចំណងជើងដើម៖ A Thesis Titled Deep Hypersphere Embedding with Laplacian Smooth Stochastic Gradient for Face Recognition

អ្នកនិពន្ធ៖ Muhammad Arslan Anwar

ឆ្នាំបោះពុម្ព៖ N/A

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះមានគោលបំណងដោះស្រាយបញ្ហានៃការធ្វើឱ្យប្រសើរឡើងនូវភាពត្រឹមត្រូវនៃប្រព័ន្ធសម្គាល់ផ្ទៃមុខ (Face Recognition) ដោយកាត់បន្ថយបញ្ហានៃកម្រិតលំអៀង និងគម្លាតនៃការធ្វើឱ្យប្រសើរនៅក្នុងម៉ូដែលបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតជ្រៅ (Deep Neural Networks)។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើវិធីសាស្ត្រថ្មីមួយដោយរួមបញ្ចូលគ្នានូវមុខងារបាត់បង់ Angular Softmax (A-Softmax loss) ជាមួយនឹងក្បួនធ្វើឱ្យប្រសើរ Laplacian Smooth Stochastic Gradient Descent (LSSGD) ដើម្បីបណ្តុះបណ្តាលម៉ូដែល។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
SphereFace + LSSGD (m=3) [Proposed]
ការប្រើប្រាស់ SphereFace ជាមួយឧបករណ៍ធ្វើឱ្យប្រសើរ LSSGD ក្នុងរឹមមុំទី៣
ផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុត និងជួយកាត់បន្ថយបម្រែបម្រួល (variance) កំឡុងពេលហ្វឹកហាត់ម៉ូដែល។ ទាមទារការគណនាស្មុគស្មាញ និងត្រូវការពេលវេលាហ្វឹកហាត់យូរ (ប្រហែល ២០ ម៉ោង) លើ GPU។ សម្រេចបានភាពត្រឹមត្រូវ ៩៩,៥៣% លើសំណុំទិន្នន័យ LFW និង ៩៥,១% លើ YTF។
SphereFace / L-Softmax Loss (m=4) [Baseline]
បច្ចេកទេស SphereFace ដែលប្រើអនុគមន៍ A-Softmax (គ្មាន LSSGD)
បង្កើតគម្លាតរវាងចំណាត់ថ្នាក់ (inter-class margin) បានល្អប្រសើរជាងមុខងារ Softmax ធម្មតា។ អាចជួបប្រទះបញ្ហាលំអៀងនៃក្បួន SGD ធម្មតា ដែលធ្វើឱ្យការហ្វឹកហាត់មានភាពរអាក់រអួលឬយឺត។ ទទួលបានភាពត្រឹមត្រូវ ៩៩,៤២% លើសំណុំទិន្នន័យ LFW និង ៩៥,០% លើ YTF។
Triplet Loss
បច្ចេកទេសបាត់បង់ត្រីភាគី (Triplet Loss)
រៀនដោយផ្ទាល់ពីចម្ងាយរវាងរូបភាព (Euclidean distance) ដើម្បីផ្ទៀងផ្ទាត់ និងផ្គូផ្គងផ្ទៃមុខ។ ត្រូវការដំណើរការរុករកទិន្នន័យ (Triplet mining) ដែលចំណាយពេលច្រើន និងទាមទារការថ្លឹងថ្លែងស្មុគស្មាញ។ ភាពត្រឹមត្រូវមានត្រឹមតែ ៩៨,៧០% លើ LFW និង ៩៣,៤% លើ YTF។
Softmax + Center Loss
ការរួមបញ្ចូលគ្នារវាង Softmax និង Center Loss
ជួយទាញលក្ខណៈពិសេសរបស់ផ្ទៃមុខឱ្យមកជិតចំណុចកណ្តាលនៃថ្នាក់នីមួយៗ (intra-class compactness)។ មិនសូវស៊ីសង្វាក់គ្នាជាមួយលក្ខណៈនៃទម្រង់មុំ (angular margin) របស់មុខងារ Softmax នោះទេ។ ទទួលបានភាពត្រឹមត្រូវ ៩៩,០៥% លើ LFW និង ៩៤,៤% លើ YTF។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រដែលមានកម្លាំងខ្លាំង ជាពិសេសក្រាហ្វិកកាត (GPU) ដើម្បីធានាដល់ការហ្វឹកហាត់ម៉ូដែលស៊ីជម្រៅក្នុងរយៈពេលដ៏សមស្រប។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើយកសំណុំទិន្នន័យ CASIA-WebFace ដែលបានមកពីការប្រមូលរូបភាពតាមប្រព័ន្ធអ៊ីនធឺណិត។ ទិន្នន័យបែបនេះច្រើនតែមានភាពលំអៀងទៅលើជនជាតិលោកខាងលិច ឬអាស៊ីបូព៌ា ដែលអាចធ្វើឱ្យម៉ូដែលមិនសូវមានប្រសិទ្ធភាពខ្ពស់នៅពេលយកមកអនុវត្តជាក់ស្តែងលើទម្រង់មុខជនជាតិខ្មែរ (Southeast Asian)។ ហេតុនេះ ការបន្ថែមទិន្នន័យមុខប្រជាជនក្នុងស្រុក គឺជារឿងចាំបាច់សម្រាប់កម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យាសម្គាល់ផ្ទៃមុខកម្រិតជ្រៅនេះមានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធសន្តិសុខ និងការផ្ទៀងផ្ទាត់អត្តសញ្ញាណតាមបែបឌីជីថលនៅកម្ពុជា។

ការសម្របវិធីសាស្ត្រនេះទៅក្នុងបរិបទកម្ពុជា នឹងជួយពង្រឹងកម្រិតសុវត្ថិភាពទិន្នន័យ និងជំរុញនវានុវត្តន៍នៃសេវាកម្មសាធារណៈ និងឯកជនឱ្យកាន់តែទំនើប។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃបណ្តាញសរសៃប្រសាទកម្រិតជ្រៅ (CNNs): ចាប់ផ្តើមរៀនពីរបៀបដំណើរការរបស់ Convolutional Neural Networks និងស្ថាបត្យកម្មល្បីៗ ដូចជាម៉ូដែល ResNet ដែលជាឆ្អឹងខ្នងនៃការទាញយកលក្ខណៈពិសេសនៃរូបភាព។
  2. អនុវត្តការចាប់យក និងតម្រឹមផ្ទៃមុខ (Face Detection & Alignment): សាកល្បងប្រើប្រាស់ម៉ូដែល MTCNN ដើម្បីទាញយកផ្ទៃមុខពីរូបភាពទូទៅ និងតម្រឹមទីតាំងភ្នែក ច្រមុះ មាត់ ឱ្យបានត្រឹមត្រូវមុនពេលបញ្ចូលទៅក្នុងប្រព័ន្ធ។
  3. ស្វែងយល់ពីមុខងារបាត់បង់ និងការធ្វើឱ្យប្រសើរម៉ូដែល (Loss & Optimizers): សិក្សាស៊ីជម្រៅពីមុខងារ Softmax Loss, A-Softmax (SphereFace) និងក្បួន Stochastic Gradient Descent (SGD) ដើម្បីយល់ពីរបៀបបង្រៀនម៉ូដែលឱ្យចេះបែងចែកមុខ។
  4. រៀបចំបរិស្ថានអភិវឌ្ឍន៍ និងទិន្នន័យ (Environment & Dataset Setup): ដំឡើងភាសា Python រួមជាមួយបណ្ណាល័យ PyTorch ព្រមទាំងទាញយកសំណុំទិន្នន័យ CASIA-WebFace និង LFW មកទុកក្នុងម៉ាស៊ីន (ឬប្រើប្រាស់ Cloud GPU) ត្រៀមសម្រាប់ការហ្វឹកហាត់។
  5. សរសេរកូដបញ្ចូល LSSGD រួចហ្វឹកហាត់និងវាយតម្លៃម៉ូដែល: សរសេរកូដដើម្បីបញ្ចូល Laplacian Smoothing ទៅក្នុងក្បួន SGD របស់ PyTorch បន្ទាប់មកចាប់ផ្តើមហ្វឹកហាត់ម៉ូដែល និងប្រៀបធៀបលទ្ធផលភាពត្រឹមត្រូវ (Accuracy) ជាមួយក្បួនធម្មតា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
A-Softmax Loss អនុគមន៍គណនាកម្រិតនៃការបាត់បង់ (Loss Function) ដែលបំប្លែងទិន្នន័យលក្ខណៈពិសេសរបស់ផ្ទៃមុខទៅជាទម្រង់មុំ (Angular margin) ដើម្បីបង្ខំឱ្យម៉ូដែលបែងចែកមុខមនុស្សម្នាក់ៗឱ្យដាច់ស្រឡះពីគ្នាជាងមុន។ ដូចជាការបែងចែកមនុស្សដោយវាស់មុំនៃការឈររបស់ពួកគេ ជាជាងការវាស់ចម្ងាយពីគ្នាទៅវិញទៅមកដោយផ្ទាល់ ដើម្បីឱ្យដឹងច្បាស់ថាអ្នកណានៅក្រុមណា។
Laplacian Smoothing Stochastic Gradient Descent (LSSGD) ក្បួនធ្វើឱ្យប្រសើរ (Optimizer) សម្រាប់ហ្វឹកហាត់ម៉ូដែល ដោយប្រើការរលោងបែប Laplacian ដើម្បីកាត់បន្ថយបម្រែបម្រួលខ្លាំងពេក (variance) នៃក្បួនចុះចំណោត SGD ធម្មតា ដែលជួយឱ្យម៉ូដែលរៀនបានលឿននិងមានស្ថិរភាព។ ដូចជាការកែចង្កូតរថយន្តឱ្យរលូននិងត្រង់ផ្លូវល្អ ជាជាងការបត់ចង្កូតឆ្វេងស្តាំខ្លាំងៗពេលកំពុងបើកបរក្នុងល្បឿនលឿន។
Multi-Task Cascaded Convolutional Neural Network (MTCNN) ប្រព័ន្ធបណ្តាញសរសៃប្រសាទកម្រិតជ្រៅដែលបំពេញកិច្ចការច្រើនក្នុងពេលតែមួយ ដូចជាការចាប់យកទីតាំងផ្ទៃមុខ (Face Detection) និងការតម្រឹមចំណុចសំខាន់ៗ (ភ្នែក ច្រមុះ មាត់) ឱ្យនៅចំកណ្តាលល្អមុនពេលផ្ញើទៅវាយតម្លៃ។ ដូចជាក្រុមជាងថតរូបដែលម្នាក់មានតួនាទីរកមើលមុខមនុស្ស ហើយម្នាក់ទៀតមានតួនាទីចាប់មុំកាមេរ៉ាឱ្យចំភ្នែកនិងមាត់ឱ្យបានត្រឹមត្រូវ។
Hypersphere Manifold លំហគណិតវិទ្យាដែលមានវិមាត្រច្រើនជាងបី (n-dimensions) ជាកន្លែងដែលលក្ខណៈពិសេសនៃផ្ទៃមុខត្រូវបានតម្រៀបនិងបែងចែកដោយគណនាផ្អែកលើចម្ងាយធ្នូនៅលើផ្ទៃនៃស្វ៊ែរនោះ។ ដូចជាផ្ទៃផែនដី (រាងស្វ៊ែរ) ដែលប្រទេសនីមួយៗ (តំណាងឱ្យមុខមនុស្សម្នាក់ៗ) ត្រូវបានកំណត់ព្រំដែនដាច់ដោយឡែកពីគ្នាច្បាស់លាស់។
Residual Network (ResNet) ស្ថាបត្យកម្មនៃបណ្តាញ CNN ដែលប្រើប្រាស់ទំនាក់ទំនងរំលង (Skip connections) ដើម្បីអនុញ្ញាតឱ្យទិន្នន័យរំលងស្រទាប់មួយចំនួន ដែលជួយដោះស្រាយបញ្ហាបាត់បង់ព័ត៌មាននៅពេលបណ្តាញកាន់តែមានជម្រៅជ្រៅ។ ដូចជាការសាងសង់ស្ពានអាកាសឬផ្លូវកាត់នៅក្នុងទីក្រុង ដើម្បីកុំឱ្យស្ទះចរាចរណ៍នៅពេលដែលផ្លូវធំមានភាពស្មុគស្មាញច្រើន។
Triplet Loss បច្ចេកទេសបង្រៀនម៉ូដែលឱ្យស្គាល់មុខ ដោយប្រៀបធៀបរូបភាពបីក្នុងពេលតែមួយ៖ រូបគោល រូបត្រឹមត្រូវ និងរូបខុស រួចទាញរូបត្រូវឱ្យមកជិត និងរុញរូបខុសឱ្យទៅឆ្ងាយ។ ដូចជាការប្រាប់ក្មេងម្នាក់ថា "មើលមុខបងប្រុសឯង និងមុខអ្នកជិតខាងនេះ, ត្រូវចាំថាឯងមានមុខស្រដៀងបងប្រុសឯង តែខុសស្រឡះពីអ្នកជិតខាង។"
Softmax Loss អនុគមន៍ធម្មតាសំរាប់វាយតម្លៃកំហុសក្នុងការចាត់ថ្នាក់ទិន្នន័យ ដែលវាគ្រាន់តែផ្តោតលើការចាត់ចែងទិន្នន័យចូលក្រុមត្រឹមត្រូវ ប៉ុន្តែមិនបានបង្កើតគម្លាតឱ្យធំគ្រប់គ្រាន់រវាងក្រុមនីមួយៗឡើយ។ ដូចជាការដាក់សិស្សឱ្យអង្គុយតាមតុរៀនរៀងខ្លួន ប៉ុន្តែមិនបានទាញតុឱ្យនៅឆ្ងាយពីគ្នា ដើម្បីកុំឱ្យពួកគេងាយនឹងចម្លងគ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖