Original Title: Mechanistic Interpretability of Induction Heads in Transformer Architectures
Source: doi.org/10.1109/ICDSAAI65575.2025.11011640
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការបកស្រាយតាមបែបយន្តការនៃក្បាល Induction នៅក្នុងស្ថាបត្យកម្ម Transformer

ចំណងជើងដើម៖ Mechanistic Interpretability of Induction Heads in Transformer Architectures

អ្នកនិពន្ធ៖ Dr. Rina A. Kulkarni, Dr. Sandeep M. Narayan

ឆ្នាំបោះពុម្ព៖ June 10, 2025

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ឯកសារនេះផ្តោតលើបញ្ហានៃការខ្វះការយល់ដឹងស៊ីជម្រៅអំពីរចនាសម្ព័ន្ធខាងក្នុងរបស់ម៉ូដែលភាសាខ្នាតធំ ដោយស៊ើបអង្កេតជាពិសេសទៅលើរបៀបដែលក្បាល Induction (Induction Heads) ដំណើរការដើម្បីជួយម៉ូដែលក្នុងការធ្វើទូទៅកម្ម (Generalization)។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះប្រើប្រាស់វិធីសាស្រ្តវិស្វកម្មបញ្ច្រាស (Reverse-engineering) លើម៉ូដែល Transformer ៤ ស្រទាប់ ដោយបង្វឹកវាជាមួយទិន្នន័យសិប្បនិម្មិត ដើម្បីវិភាគយន្តការនៃក្បាល Induction តាមរយៈវិធីសាស្ត្រមួយចំនួន។

ការប៉ះប៉ូវសកម្មភាព និងការតាមដានហេតុផល (Activation Patching and Causal Tracing)
ការមើលឃើញលំនាំនៃការយកចិត្តទុកដាក់ (Attention Pattern Visualization)
ការពិសោធន៍កាត់ផ្តាច់ និងការស៊ើបអង្កេតទិសដៅជាក់លាក់ (Ablation Experiments and Direction-specific Probing)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ក្បាល Induction ជាទូទៅលេចឡើងនៅស្រទាប់កណ្តាលនៃម៉ូដែល ហើយបង្ហាញពិន្ទុនៃការយកចិត្តទុកដាក់ (Attention scores) ខ្ពស់តាមលំនាំអង្កត់ទ្រូង ដែលឆ្លើយតបទៅនឹងការចម្លងព័ត៌មានដែលកើតឡើងម្តងទៀតទៅមុខ។
ការពិសោធន៍កាត់ផ្តាច់យន្តការបញ្ជាក់ថា ការបិទក្បាល Induction ទាំងនេះធ្វើឱ្យសមត្ថភាពបំពេញលំនាំធ្លាក់ចុះយ៉ាងធ្ងន់ធ្ងរ ដែលបង្ហាញពីសារៈសំខាន់របស់វាក្នុងការពង្រឹងរចនាសម្ព័ន្ធបរិបទ។
ការស្វែងយល់ពីក្បាល Induction កម្រិតយន្តការនេះ ផ្តល់ជាមូលដ្ឋានគ្រឹះសម្រាប់ការរចនាស្ថាបត្យកម្ម AI ឲ្យកាន់តែមានតម្លាភាព ងាយស្រួលបកស្រាយ និងអាចទប់ស្កាត់ការធ្វើទូទៅកម្មដែលមិនមានសុវត្ថិភាពក្នុងប្រព័ន្ធបញ្ញាសិប្បនិម្មិត។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Activation Patching & Causal Tracing ការប៉ះប៉ូវសកម្មភាព និងការតាមដានហេតុផល	ជួយកំណត់ទីតាំងច្បាស់លាស់ និងតួនាទីពិតប្រាកដរបស់ក្បាល induction នៅក្នុងដំណើរការកែច្នៃព័ត៌មានរបស់ម៉ូដែល។	ទាមទារការគណនាច្រើន និងអាចមានភាពស្មុគស្មាញខ្លាំងនៅពេលអនុវត្តលើម៉ូដែល LLM ដែលមានរាប់ពាន់លានប៉ារ៉ាម៉ែត្រ។	បានបញ្ជាក់យ៉ាងច្បាស់ថា ការបិទក្បាលទាំងនេះធ្វើឱ្យសមត្ថភាពបំពេញលំនាំ (Pattern completion) ធ្លាក់ចុះយ៉ាងធ្ងន់ធ្ងរ។
Ablation Experiments ការពិសោធន៍កាត់ផ្តាច់យន្តការ (Ablation)	អាចវាស់ស្ទង់បានយ៉ាងត្រឹមត្រូវពីទំហំនៃការចូលរួមរបស់ក្បាលនីមួយៗទៅលើសមត្ថភាពធ្វើទូទៅកម្មសរុប។	បង្ហាញត្រឹមតែផលប៉ះពាល់នៃការបាត់បង់យន្តការ ប៉ុន្តែមិនបានពន្យល់ពីរបៀបដែលព័ត៌មានត្រូវបានផ្លាស់ប្តូរនោះទេ។	បង្ហាញថាក្បាល induction ច្រើនអាចធ្វើការសហការគ្នាដើម្បីគ្រប់គ្រងបរិបទដែលវែងជាងមុន។
Direction-specific Probing ការស៊ើបអង្កេតទិសដៅជាក់លាក់	អនុញ្ញាតឱ្យពិនិត្យមើលលម្អិតលើយន្តការ Query-Key-Value សម្រាប់ការកើតឡើងវិញនៃលំនាំនីមួយៗ។	ទាមទារការយល់ដឹងស៊ីជម្រៅផ្នែកគណិតវិទ្យានៃយន្តការ Attention និងពិបាកក្នុងការបកស្រាយលទ្ធផលសម្រាប់អ្នកមិនមែនជាអ្នកជំនាញ។	បានបង្ហាញពីរបៀបដែលយន្តការ Q-K-V គាំទ្រដល់ការកត់សម្គាល់ និងការចម្លងលំនាំដែលកើតឡើងម្តងទៀត។

ការចំណាយលើធនធាន (Resource Cost)៖ ឯកសារមិនបានបញ្ជាក់លម្អិតអំពីតម្លៃធនធាននោះទេ ប៉ុន្តែជាទូទៅការសិក្សាលើការបកស្រាយយន្តការ Transformer ទាមទារធនធានកុំព្យូទ័រ និងចំណេះដឹងផ្នែកកូដកម្រិតខ្ពស់។

Hardware: ត្រូវការ GPU កម្រិតខ្ពស់សម្រាប់ការហ្វឹកហាត់ម៉ូដែល Transformer ៤ ស្រទាប់ និងដំណើរការវិភាគទិន្នន័យ។
Dataset: ទិន្នន័យសិប្បនិម្មិត (Synthetic Dataset) ដែលត្រូវបានរៀបចំឡើងជាពិសេសសម្រាប់ការទស្សន៍ទាយពាក្យបន្ទាប់ (Next-token prediction)។
Software Frameworks: បរិស្ថានសរសេរកូដដែលអាចដំណើរការបណ្ណាល័យ Deep Learning និងឧបករណ៍សម្រាប់ Mechanistic Interpretability។
Expertise: ចំណេះដឹងស៊ីជម្រៅផ្នែករចនាសម្ព័ន្ធ Transformer, យន្តការ Attention និងវិធីសាស្ត្រវិស្វកម្មបញ្ច្រាស (Reverse-engineering) លើបណ្តាញសរសៃប្រសាទសិប្បនិម្មិត។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះប្រើប្រាស់ទិន្នន័យសិប្បនិម្មិត (Synthetic datasets) ដែលត្រូវបានរចនាឡើងជាពិសេសដើម្បីជំរុញឥរិយាបថ induction ដោយមិនបានប្រើប្រាស់ទិន្នន័យភាសាធម្មជាតិពិតប្រាកដឡើយ។ សម្រាប់ប្រទេសកម្ពុជា នេះមានន័យថាយន្តការនេះត្រូវធ្វើតេស្តឡើងវិញយ៉ាងប្រុងប្រយ័ត្នជាមួយទិន្នន័យភាសាខ្មែរ ដែលមានរចនាសម្ព័ន្ធវេយ្យាករណ៍ស្មុគស្មាញ និងគ្មានការដកឃ្លារវាងពាក្យច្បាស់លាស់ ដើម្បីធានាថាវាអាចចាប់យកលំនាំបានត្រឹមត្រូវ។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាការសិក្សានេះមានលក្ខណៈបច្ចេកទេសស៊ីជម្រៅ និងផ្អែកលើទិន្នន័យសិប្បនិម្មិតក៏ដោយ ការយល់ដឹងអំពីយន្តការនេះមានតម្លៃយ៉ាងខ្លាំងសម្រាប់ការអភិវឌ្ឍ AI ឱ្យមានសុវត្ថិភាពនៅកម្ពុជា។

ការអភិវឌ្ឍម៉ូដែលភាសាខ្មែរនៅវិទ្យាស្ថាន CADT (Khmer LLM Development): អ្នកស្រាវជ្រាវនៅ CADT អាចប្រើប្រាស់វិធីសាស្ត្រនេះដើម្បីត្រួតពិនិត្យ និងកែលម្អម៉ូដែលភាសាខ្មែរឱ្យកាន់តែសុក្រឹត និងកាត់បន្ថយការបង្កើតពាក្យខុស (Hallucinations) ដោយការតាមដានមើលយន្តការចម្លងលំនាំរបស់ក្បាល Induction។
សុវត្ថិភាពបញ្ញាសិប្បនិម្មិតក្នុងវិស័យធនាគារ (ឧ. ABA, ACLEDA): ស្ថាប័នហិរញ្ញវត្ថុអាចអនុវត្តការយល់ដឹងពីក្បាល Induction នេះដើម្បីរៀបចំប្រព័ន្ធ AI ដែលមានតម្លាភាព ដោយធានាថាម៉ូដែលវាយតម្លៃហានិភ័យឥណទានមិនទាញយកការសន្និដ្ឋានខុសពីទិន្នន័យ (Spurious correlations) ដែលនាំឲ្យមានការសម្រេចចិត្តលម្អៀង។

សរុបមក ការយល់ដឹងពីក្បាល Induction ជួយឱ្យកម្ពុជាអាចឈានទៅអភិវឌ្ឍប្រព័ន្ធ AI ដែលមានតម្លាភាព អាចពន្យល់បាន និងងាយស្រួលគ្រប់គ្រង ជាជាងការពឹងផ្អែកលើដំណើរការ 'ប្រអប់ខ្មៅ' (Black Box) ទាំងស្រុង។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Transformer និង Attention Mechanism: និស្សិតគប្បីចាប់ផ្តើមដោយការស្វែងយល់ពីរចនាសម្ព័ន្ធ Transformer ដោយប្រើប្រាស់ធនធានអនឡាញដូចជា Hugging Face Course ឬ Andrej Karpathy's Let's build GPT ដើម្បីយល់ពីរបៀបដែលយន្តការ Attention ដំណើរការ។
សាកល្បងបង្កើត និងបង្វឹកម៉ូដែលខ្នាតតូច: សរសេរកូដដោយប្រើប្រាស់ PyTorch ដើម្បីបង្កើតម៉ូដែល Transformer តូចមួយ (មាន ៤ ស្រទាប់ដូចក្នុងការសិក្សា) ហើយសាកល្បងបង្វឹកវាជាមួយទិន្នន័យសិប្បនិម្មិតសាមញ្ញសម្រាប់ការចម្លងលំនាំ (Pattern copying tasks)។
អនុវត្តឧបករណ៍សម្រាប់ការបកស្រាយយន្តការ: សិក្សា និងប្រើប្រាស់បណ្ណាល័យកូដជំនាញដូចជា TransformerLens ដើម្បីទាញយកទិន្នន័យសកម្មភាព (Extract activations) និងធ្វើការសង្កេតលើ Attention maps នៅក្នុងម៉ូដែលដែលបានបង្វឹក។
វិភាគឥរិយាបថម៉ូដែលជាមួយទិន្នន័យភាសាខ្មែរ: យកវិធីសាស្ត្រ Causal Tracing មកសាកល្បងអនុវត្តលើម៉ូដែលភាសាខ្មែរខ្នាតតូចដែលមានស្រាប់ (ឧទាហរណ៍ Khmer BERT) ដើម្បីស្រាវជ្រាវថាតើក្បាល Induction ដំណើរការយ៉ាងដូចម្តេចនៅពេលជួបប្រទះពាក្យកើតឡើងផ្ទួនៗក្នុងបរិបទភាសាខ្មែរ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Induction heads	ជាប្រភេទក្បាលពិសេសនៅក្នុងយន្តការ Attention របស់ម៉ូដែល Transformer ដែលមានតួនាទីស្វែងរកនិងកត់សម្គាល់លំនាំពាក្យដែលធ្លាប់កើតមានពីមុន ហើយចម្លងព័ត៌មានបន្ទាប់ពីលំនាំនោះមកប្រើប្រាស់នៅពេលបច្ចុប្បន្ន ដើម្បីជួយម៉ូដែលទស្សន៍ទាយពាក្យបន្ទាប់បានត្រឹមត្រូវ។	ដូចជាសិស្សដែលចាំថា "រាល់ពេលគ្រូសរសេរអក្សរ A គាត់តែងតែសរសេរអក្សរ B បន្ត" ដូច្នេះពេលឃើញអក្សរ A ម្តងទៀត សិស្សនោះក៏ត្រៀមចម្លងអក្សរ B ទុកជាមុន។
Mechanistic Interpretability	គឺជាការសិក្សាស្រាវជ្រាវដើម្បីយល់ដឹងស៊ីជម្រៅពីដំណើរការខាងក្នុងរបស់បណ្តាញសរសៃប្រសាទសិប្បនិម្មិត ដោយធ្វើវិស្វកម្មបញ្ច្រាស (Reverse-engineering) ទៅលើយន្តការគណនានិងតួអង្គនីមួយៗ ថាតើពួកវាធ្វើការរួមគ្នាយ៉ាងដូចម្តេចដើម្បីបង្កើតជាលទ្ធផលចុងក្រោយ។	ដូចជាការដោះគ្រឿងម៉ាស៊ីនរថយន្តចេញម្តងមួយៗ ដើម្បីមើលថាតើប្រអប់លេខ និងម៉ាស៊ីនធ្វើការរួមគ្នាយ៉ាងម៉េចទើបធ្វើឲ្យឡានរត់បាន ជំនួសឲ្យការគ្រាន់តែដឹងថាជាន់ហ្គែរហើយឡាននឹងរត់។
Activation patching	ជាបច្ចេកទេសមួយក្នុងការបកស្រាយយន្តការ AI ដោយផ្លាស់ប្តូរតម្លៃសកម្មភាព (Activations) នៅទីតាំងណាមួយនៃម៉ូដែលពីការដំណើរការទិន្នន័យមួយទៅការដំណើរការមួយទៀត ដើម្បីសង្កេតមើលថាតើការផ្លាស់ប្តូរនោះប៉ះពាល់ដល់លទ្ធផលចុងក្រោយយ៉ាងដូចម្តេច ដែលជួយកំណត់ទីតាំងរក្សាទុកព័ត៌មានសំខាន់ៗ។	ដូចជាការសាកល្បងប្តូរខ្សែភ្លើងពីកុងតាក់មួយទៅកុងតាក់មួយទៀត ដើម្បីរកមើលថាតើកុងតាក់ណាមួយពិតប្រាកដដែលជាអ្នកបញ្ជាឱ្យអំពូលភ្លើងភ្លឺ។
Causal tracing	ជាវិធីសាស្ត្រតាមដានទំនាក់ទំនងហេតុនិងផលនៅក្នុងម៉ូដែល ដើម្បីកំណត់ថាតើសមាសធាតុណាមួយ (ដូចជាស្រទាប់ ឬក្បាលណាមួយ) មានឥទ្ធិពលផ្ទាល់ទៅលើការសម្រេចចិត្តរបស់ម៉ូដែលក្នុងការបញ្ចេញលទ្ធផល ឬពាក្យណាមួយ។	ដូចជាការតាមដានសំណុំរឿងដោយសាកសួរសាក្សីម្តងម្នាក់ៗ ដើម្បីរកឱ្យឃើញច្បាស់ថាតើនរណាជាអ្នកផ្តល់ព័ត៌មានដែលនាំឱ្យមានការសម្រេចចិត្តរបស់តុលាការ។
Ablation experiments	គឺជាការពិសោធន៍ដោយកាត់ផ្តាច់ ឬបិទដំណើរការផ្នែកណាមួយនៃម៉ូដែល (ឧ. បិទក្បាល Induction ណាមួយ) រួចវាស់ស្ទង់មើលថាតើសមត្ថភាពរបស់ម៉ូដែលធ្លាក់ចុះកម្រិតណា ដើម្បីបញ្ជាក់ពីសារៈសំខាន់នៃផ្នែកដែលត្រូវបានបិទនោះ។	ដូចជាការសាកល្បងដោះហ្វ្រាំងកង់ចេញ រួចជិះសាកល្បង ដើម្បីចង់ដឹងឱ្យច្បាស់ថាហ្វ្រាំងពិតជាមានសារៈសំខាន់ប៉ុណ្ណាក្នុងការបញ្ឈប់កង់។
Query-key-value mechanics	ជាយន្តការស្នូលរបស់មុខងារ Attention ក្នុង Transformer ដែលប្រើប្រាស់វ៉ិចទ័រ ៣ ប្រភេទគឺ៖ Query (អ្វីដែលកំពុងស្វែងរក), Key (ស្លាកសញ្ញាសម្គាល់ព័ត៌មាននីមួយៗ), និង Value (ខ្លឹមសារព័ត៌មានពិតប្រាកដ) ដើម្បីគណនាថាតើពាក្យណាមួយគួរយកចិត្តទុកដាក់លើពាក្យណាមួយផ្សេងទៀតកម្រិតណា។	ដូចជាការស្វែងរកសៀវភៅក្នុងបណ្ណាល័យ៖ Query គឺចំណងជើងដែលអ្នកចង់រក, Key គឺលេខកូដនៅលើទូសៀវភៅ, ហើយ Value គឺសៀវភៅដែលអ្នកទាញយកមកអាន។
Spurious correlations	គឺជាការទាញយកការសន្និដ្ឋានខុសរបស់ម៉ូដែល AI ដោយវាចាប់យកទំនាក់ទំនងចៃដន្យនៅក្នុងទិន្នន័យ ជំនួសឱ្យការពឹងផ្អែកលើហេតុផលពិតប្រាកដ ដែលជាហេតុនាំឱ្យម៉ូដែលធ្វើការសម្រេចចិត្តខុសនៅពេលជួបស្ថានភាពថ្មី។	ដូចជាការសន្និដ្ឋានថា "មាន់រងាវធ្វើឱ្យព្រះអាទិត្យរះ" ដោយសារតែឃើញវាជារឿយៗកើតឡើងស្របគ្នា ប៉ុន្តែតាមពិតវាមិនមែនជាអ្នកបង្កនោះទេ។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖