Original Title: A Thesis Titled Deep Hypersphere Embedding with Laplacian Smooth Stochastic Gradient for Face Recognition
Source: www.researchgate.net
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

និក្ខេបបទស្តីពីការបង្កប់អ៊ីពែរស្វ៊ែរជ្រៅជាមួយនឹង Laplacian Smooth Stochastic Gradient សម្រាប់ការសម្គាល់ផ្ទៃមុខ

ចំណងជើងដើម៖ A Thesis Titled Deep Hypersphere Embedding with Laplacian Smooth Stochastic Gradient for Face Recognition

អ្នកនិពន្ធ៖ Muhammad Arslan Anwar

ឆ្នាំបោះពុម្ព៖ N/A

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការស្រាវជ្រាវនេះមានគោលបំណងដោះស្រាយបញ្ហានៃការធ្វើឱ្យប្រសើរឡើងនូវភាពត្រឹមត្រូវនៃប្រព័ន្ធសម្គាល់ផ្ទៃមុខ (Face Recognition) ដោយកាត់បន្ថយបញ្ហានៃកម្រិតលំអៀង និងគម្លាតនៃការធ្វើឱ្យប្រសើរនៅក្នុងម៉ូដែលបណ្តាញសរសៃប្រសាទសិប្បនិម្មិតកម្រិតជ្រៅ (Deep Neural Networks)។

វិធីសាស្ត្រ (The Methodology)៖ អ្នកស្រាវជ្រាវបានស្នើវិធីសាស្ត្រថ្មីមួយដោយរួមបញ្ចូលគ្នានូវមុខងារបាត់បង់ Angular Softmax (A-Softmax loss) ជាមួយនឹងក្បួនធ្វើឱ្យប្រសើរ Laplacian Smooth Stochastic Gradient Descent (LSSGD) ដើម្បីបណ្តុះបណ្តាលម៉ូដែល។

ការប្រើប្រាស់បណ្តាញសរសៃប្រសាទ Multi-Task Cascaded Convolutional Neural Network (MTCNN) សម្រាប់ការចាប់យក និងតម្រឹមផ្ទៃមុខ។
ការប្រើប្រាស់ស្ថាបត្យកម្ម 36-layer Residual Network (ResNet) ជាបណ្តាញសរសៃប្រសាទ Convolutional Neural Network (CNN) សម្រាប់ការទាញយកលក្ខណៈពិសេស។
ការបណ្តុះបណ្តាលម៉ូដែលនៅលើសំណុំទិន្នន័យ CASIA-WebFace ជាមួយនឹងក្បួនធ្វើឱ្យប្រសើរ LSSGD និងអនុគមន៍បាត់បង់ A-Softmax (A-Softmax Loss)។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ការធ្វើតេស្តលើសំណុំទិន្នន័យ LFW បង្ហាញថាវិធីសាស្ត្រដែលបានស្នើឡើង (នៅពេលកំណត់រឹមមុំ m=3) ទទួលបានភាពត្រឹមត្រូវរហូតដល់ ៩៩,៥៣% ខ្ពស់ជាង SphereFace ធម្មតា។
សម្រាប់ការធ្វើតេស្តលើសំណុំទិន្នន័យ YouTube Faces (YTF) ម៉ូដែលនេះសម្រេចបានភាពត្រឹមត្រូវ ៩៥,១% ដែលបង្ហាញពីប្រសិទ្ធភាពដ៏ល្អឥតខ្ចោះ។
ការកើនឡើងនៃរឹមមុំ (Angular Margin, m) នៅក្នុងអនុគមន៍ A-Softmax ជួយឱ្យលក្ខណៈពិសេសដែលបានរៀនកាន់តែមានភាពច្បាស់លាស់ និងងាយស្រួលក្នុងការបែងចែកសម្រាប់ការសម្គាល់ផ្ទៃមុខប្រកបដោយប្រសិទ្ធភាព។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
SphereFace + LSSGD (m=3) [Proposed] ការប្រើប្រាស់ SphereFace ជាមួយឧបករណ៍ធ្វើឱ្យប្រសើរ LSSGD ក្នុងរឹមមុំទី៣	ផ្តល់ភាពត្រឹមត្រូវខ្ពស់បំផុត និងជួយកាត់បន្ថយបម្រែបម្រួល (variance) កំឡុងពេលហ្វឹកហាត់ម៉ូដែល។	ទាមទារការគណនាស្មុគស្មាញ និងត្រូវការពេលវេលាហ្វឹកហាត់យូរ (ប្រហែល ២០ ម៉ោង) លើ GPU។	សម្រេចបានភាពត្រឹមត្រូវ ៩៩,៥៣% លើសំណុំទិន្នន័យ LFW និង ៩៥,១% លើ YTF។
SphereFace / L-Softmax Loss (m=4) [Baseline] បច្ចេកទេស SphereFace ដែលប្រើអនុគមន៍ A-Softmax (គ្មាន LSSGD)	បង្កើតគម្លាតរវាងចំណាត់ថ្នាក់ (inter-class margin) បានល្អប្រសើរជាងមុខងារ Softmax ធម្មតា។	អាចជួបប្រទះបញ្ហាលំអៀងនៃក្បួន SGD ធម្មតា ដែលធ្វើឱ្យការហ្វឹកហាត់មានភាពរអាក់រអួលឬយឺត។	ទទួលបានភាពត្រឹមត្រូវ ៩៩,៤២% លើសំណុំទិន្នន័យ LFW និង ៩៥,០% លើ YTF។
Triplet Loss បច្ចេកទេសបាត់បង់ត្រីភាគី (Triplet Loss)	រៀនដោយផ្ទាល់ពីចម្ងាយរវាងរូបភាព (Euclidean distance) ដើម្បីផ្ទៀងផ្ទាត់ និងផ្គូផ្គងផ្ទៃមុខ។	ត្រូវការដំណើរការរុករកទិន្នន័យ (Triplet mining) ដែលចំណាយពេលច្រើន និងទាមទារការថ្លឹងថ្លែងស្មុគស្មាញ។	ភាពត្រឹមត្រូវមានត្រឹមតែ ៩៨,៧០% លើ LFW និង ៩៣,៤% លើ YTF។
Softmax + Center Loss ការរួមបញ្ចូលគ្នារវាង Softmax និង Center Loss	ជួយទាញលក្ខណៈពិសេសរបស់ផ្ទៃមុខឱ្យមកជិតចំណុចកណ្តាលនៃថ្នាក់នីមួយៗ (intra-class compactness)។	មិនសូវស៊ីសង្វាក់គ្នាជាមួយលក្ខណៈនៃទម្រង់មុំ (angular margin) របស់មុខងារ Softmax នោះទេ។	ទទួលបានភាពត្រឹមត្រូវ ៩៩,០៥% លើ LFW និង ៩៤,៤% លើ YTF។

ការចំណាយលើធនធាន (Resource Cost)៖ ការស្រាវជ្រាវនេះទាមទារធនធានកុំព្យូទ័រដែលមានកម្លាំងខ្លាំង ជាពិសេសក្រាហ្វិកកាត (GPU) ដើម្បីធានាដល់ការហ្វឹកហាត់ម៉ូដែលស៊ីជម្រៅក្នុងរយៈពេលដ៏សមស្រប។

Hardware: ចាំបាច់ត្រូវមានក្រាហ្វិកកាត (GPU) ដែលមានសមត្ថភាពខ្ពស់ ដូចជា NVIDIA GeForce RTX 3060 (ប្រើពេលប្រហែល ៥ ទៅ ២០ម៉ោង អាស្រ័យលើការកំណត់ប៉ារ៉ាម៉ែត្រ)។
Software: ការរៀបចំកូដទាមទារការប្រើប្រាស់ភាសា Python រួមជាមួយនឹងបណ្ណាល័យអភិវឌ្ឍន៍ PyTorch សម្រាប់ការកសាងម៉ូដែល CNNs និងមុខងារ LSSGD។
Dataset: ទាមទារសំណុំទិន្នន័យខ្នាតធំ ដូចជា CASIA-WebFace (មានជាង ៤៩ម៉ឺនរូបភាព) សម្រាប់ហ្វឹកហាត់ និង LFW, YTF សម្រាប់ធ្វើតេស្តវាយតម្លៃ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើយកសំណុំទិន្នន័យ CASIA-WebFace ដែលបានមកពីការប្រមូលរូបភាពតាមប្រព័ន្ធអ៊ីនធឺណិត។ ទិន្នន័យបែបនេះច្រើនតែមានភាពលំអៀងទៅលើជនជាតិលោកខាងលិច ឬអាស៊ីបូព៌ា ដែលអាចធ្វើឱ្យម៉ូដែលមិនសូវមានប្រសិទ្ធភាពខ្ពស់នៅពេលយកមកអនុវត្តជាក់ស្តែងលើទម្រង់មុខជនជាតិខ្មែរ (Southeast Asian)។ ហេតុនេះ ការបន្ថែមទិន្នន័យមុខប្រជាជនក្នុងស្រុក គឺជារឿងចាំបាច់សម្រាប់កម្ពុជា។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកវិទ្យាសម្គាល់ផ្ទៃមុខកម្រិតជ្រៅនេះមានសក្តានុពលខ្ពស់សម្រាប់ការអភិវឌ្ឍប្រព័ន្ធសន្តិសុខ និងការផ្ទៀងផ្ទាត់អត្តសញ្ញាណតាមបែបឌីជីថលនៅកម្ពុជា។

វិស័យធនាគារ និងហិរញ្ញវត្ថុ (FinTech): អាចយកទៅប្រើប្រាស់ក្នុងប្រព័ន្ធផ្ទៀងផ្ទាត់អត្តសញ្ញាណអតិថិជនឌីជីថល (eKYC) សម្រាប់ធនាគារក្នុងស្រុក (ដូចជា ABA, ACLEDA) ដើម្បីជួយឱ្យការបើកគណនីអនឡាញកាន់តែមានសុវត្ថិភាពខ្ពស់ និងលឿនរហ័ស។
ប្រព័ន្ធសន្តិសុខជាតិ និងច្រកព្រំដែន: មានប្រយោជន៍សម្រាប់អគ្គនាយកដ្ឋានអន្តោប្រវេសន៍ ក្នុងការស្កេន និងសម្គាល់មុខអ្នកដំណើរនៅតាមអាកាសយានដ្ឋានអន្តរជាតិ (ភ្នំពេញ, សៀមរាប, សីហនុ) ដើម្បីស្វែងរកជនសង្ស័យចេញចូលប្រទេស។
ការគ្រប់គ្រងវត្តមាននៅតាមស្ថាប័ន: អាចប្រើប្រាស់ជំនួសការស្កេនក្រយៅដៃនៅតាមក្រសួង ឬក្រុមហ៊ុនឯកជននានា ដើម្បីកាត់បន្ថយការប៉ះពាល់ផ្ទាល់ និងបង្កើនល្បឿនក្នុងការកត់ត្រាវត្តមានប្រចាំថ្ងៃរបស់បុគ្គលិក។

ការសម្របវិធីសាស្ត្រនេះទៅក្នុងបរិបទកម្ពុជា នឹងជួយពង្រឹងកម្រិតសុវត្ថិភាពទិន្នន័យ និងជំរុញនវានុវត្តន៍នៃសេវាកម្មសាធារណៈ និងឯកជនឱ្យកាន់តែទំនើប។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃបណ្តាញសរសៃប្រសាទកម្រិតជ្រៅ (CNNs): ចាប់ផ្តើមរៀនពីរបៀបដំណើរការរបស់ Convolutional Neural Networks និងស្ថាបត្យកម្មល្បីៗ ដូចជាម៉ូដែល ResNet ដែលជាឆ្អឹងខ្នងនៃការទាញយកលក្ខណៈពិសេសនៃរូបភាព។
អនុវត្តការចាប់យក និងតម្រឹមផ្ទៃមុខ (Face Detection & Alignment): សាកល្បងប្រើប្រាស់ម៉ូដែល MTCNN ដើម្បីទាញយកផ្ទៃមុខពីរូបភាពទូទៅ និងតម្រឹមទីតាំងភ្នែក ច្រមុះ មាត់ ឱ្យបានត្រឹមត្រូវមុនពេលបញ្ចូលទៅក្នុងប្រព័ន្ធ។
ស្វែងយល់ពីមុខងារបាត់បង់ និងការធ្វើឱ្យប្រសើរម៉ូដែល (Loss & Optimizers): សិក្សាស៊ីជម្រៅពីមុខងារ Softmax Loss, A-Softmax (SphereFace) និងក្បួន Stochastic Gradient Descent (SGD) ដើម្បីយល់ពីរបៀបបង្រៀនម៉ូដែលឱ្យចេះបែងចែកមុខ។
រៀបចំបរិស្ថានអភិវឌ្ឍន៍ និងទិន្នន័យ (Environment & Dataset Setup): ដំឡើងភាសា Python រួមជាមួយបណ្ណាល័យ PyTorch ព្រមទាំងទាញយកសំណុំទិន្នន័យ CASIA-WebFace និង LFW មកទុកក្នុងម៉ាស៊ីន (ឬប្រើប្រាស់ Cloud GPU) ត្រៀមសម្រាប់ការហ្វឹកហាត់។
សរសេរកូដបញ្ចូល LSSGD រួចហ្វឹកហាត់និងវាយតម្លៃម៉ូដែល: សរសេរកូដដើម្បីបញ្ចូល Laplacian Smoothing ទៅក្នុងក្បួន SGD របស់ PyTorch បន្ទាប់មកចាប់ផ្តើមហ្វឹកហាត់ម៉ូដែល និងប្រៀបធៀបលទ្ធផលភាពត្រឹមត្រូវ (Accuracy) ជាមួយក្បួនធម្មតា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
A-Softmax Loss	អនុគមន៍គណនាកម្រិតនៃការបាត់បង់ (Loss Function) ដែលបំប្លែងទិន្នន័យលក្ខណៈពិសេសរបស់ផ្ទៃមុខទៅជាទម្រង់មុំ (Angular margin) ដើម្បីបង្ខំឱ្យម៉ូដែលបែងចែកមុខមនុស្សម្នាក់ៗឱ្យដាច់ស្រឡះពីគ្នាជាងមុន។	ដូចជាការបែងចែកមនុស្សដោយវាស់មុំនៃការឈររបស់ពួកគេ ជាជាងការវាស់ចម្ងាយពីគ្នាទៅវិញទៅមកដោយផ្ទាល់ ដើម្បីឱ្យដឹងច្បាស់ថាអ្នកណានៅក្រុមណា។
Laplacian Smoothing Stochastic Gradient Descent (LSSGD)	ក្បួនធ្វើឱ្យប្រសើរ (Optimizer) សម្រាប់ហ្វឹកហាត់ម៉ូដែល ដោយប្រើការរលោងបែប Laplacian ដើម្បីកាត់បន្ថយបម្រែបម្រួលខ្លាំងពេក (variance) នៃក្បួនចុះចំណោត SGD ធម្មតា ដែលជួយឱ្យម៉ូដែលរៀនបានលឿននិងមានស្ថិរភាព។	ដូចជាការកែចង្កូតរថយន្តឱ្យរលូននិងត្រង់ផ្លូវល្អ ជាជាងការបត់ចង្កូតឆ្វេងស្តាំខ្លាំងៗពេលកំពុងបើកបរក្នុងល្បឿនលឿន។
Multi-Task Cascaded Convolutional Neural Network (MTCNN)	ប្រព័ន្ធបណ្តាញសរសៃប្រសាទកម្រិតជ្រៅដែលបំពេញកិច្ចការច្រើនក្នុងពេលតែមួយ ដូចជាការចាប់យកទីតាំងផ្ទៃមុខ (Face Detection) និងការតម្រឹមចំណុចសំខាន់ៗ (ភ្នែក ច្រមុះ មាត់) ឱ្យនៅចំកណ្តាលល្អមុនពេលផ្ញើទៅវាយតម្លៃ។	ដូចជាក្រុមជាងថតរូបដែលម្នាក់មានតួនាទីរកមើលមុខមនុស្ស ហើយម្នាក់ទៀតមានតួនាទីចាប់មុំកាមេរ៉ាឱ្យចំភ្នែកនិងមាត់ឱ្យបានត្រឹមត្រូវ។
Hypersphere Manifold	លំហគណិតវិទ្យាដែលមានវិមាត្រច្រើនជាងបី (n-dimensions) ជាកន្លែងដែលលក្ខណៈពិសេសនៃផ្ទៃមុខត្រូវបានតម្រៀបនិងបែងចែកដោយគណនាផ្អែកលើចម្ងាយធ្នូនៅលើផ្ទៃនៃស្វ៊ែរនោះ។	ដូចជាផ្ទៃផែនដី (រាងស្វ៊ែរ) ដែលប្រទេសនីមួយៗ (តំណាងឱ្យមុខមនុស្សម្នាក់ៗ) ត្រូវបានកំណត់ព្រំដែនដាច់ដោយឡែកពីគ្នាច្បាស់លាស់។
Residual Network (ResNet)	ស្ថាបត្យកម្មនៃបណ្តាញ CNN ដែលប្រើប្រាស់ទំនាក់ទំនងរំលង (Skip connections) ដើម្បីអនុញ្ញាតឱ្យទិន្នន័យរំលងស្រទាប់មួយចំនួន ដែលជួយដោះស្រាយបញ្ហាបាត់បង់ព័ត៌មាននៅពេលបណ្តាញកាន់តែមានជម្រៅជ្រៅ។	ដូចជាការសាងសង់ស្ពានអាកាសឬផ្លូវកាត់នៅក្នុងទីក្រុង ដើម្បីកុំឱ្យស្ទះចរាចរណ៍នៅពេលដែលផ្លូវធំមានភាពស្មុគស្មាញច្រើន។
Triplet Loss	បច្ចេកទេសបង្រៀនម៉ូដែលឱ្យស្គាល់មុខ ដោយប្រៀបធៀបរូបភាពបីក្នុងពេលតែមួយ៖ រូបគោល រូបត្រឹមត្រូវ និងរូបខុស រួចទាញរូបត្រូវឱ្យមកជិត និងរុញរូបខុសឱ្យទៅឆ្ងាយ។	ដូចជាការប្រាប់ក្មេងម្នាក់ថា "មើលមុខបងប្រុសឯង និងមុខអ្នកជិតខាងនេះ, ត្រូវចាំថាឯងមានមុខស្រដៀងបងប្រុសឯង តែខុសស្រឡះពីអ្នកជិតខាង។"
Softmax Loss	អនុគមន៍ធម្មតាសំរាប់វាយតម្លៃកំហុសក្នុងការចាត់ថ្នាក់ទិន្នន័យ ដែលវាគ្រាន់តែផ្តោតលើការចាត់ចែងទិន្នន័យចូលក្រុមត្រឹមត្រូវ ប៉ុន្តែមិនបានបង្កើតគម្លាតឱ្យធំគ្រប់គ្រាន់រវាងក្រុមនីមួយៗឡើយ។	ដូចជាការដាក់សិស្សឱ្យអង្គុយតាមតុរៀនរៀងខ្លួន ប៉ុន្តែមិនបានទាញតុឱ្យនៅឆ្ងាយពីគ្នា ដើម្បីកុំឱ្យពួកគេងាយនឹងចម្លងគ្នា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖