Original Title: Discovering Consumer Trends: Market Basket Analysis Using the Apriori Algorithm
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការស្វែងយល់ពីនិន្នាការអ្នកប្រើប្រាស់៖ ការវិភាគកន្ត្រកទីផ្សារដោយប្រើប្រាស់ក្បួនដោះស្រាយ Apriori

ចំណងជើងដើម៖ Discovering Consumer Trends: Market Basket Analysis Using the Apriori Algorithm

អ្នកនិពន្ធ៖ Mohsin Mubeen Abbasi (Iqra University), Syed Muhammad Daniyal (Iqra University), Usama Amjad (Iqra University), Dilbar Hussain (Iqra University), Maaz Ahmed (Iqra University), Muhammad Hassam Shakil Siddiqui (Iqra University)

ឆ្នាំបោះពុម្ព៖ 2025 International Conference on Data-Driven Social Change (ICDDSC), IEEE

វិស័យសិក្សា៖ Data Mining and Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ អ្នកលក់រាយ ជាពិសេសហាងផ្ទាល់ដែលគ្មានប្រព័ន្ធទំនើបដូច Amazon ជួបការលំបាកក្នុងការវិភាគទិន្នន័យប្រតិបត្តិការដ៏ធំ ដើម្បីស្វែងរកទំនាក់ទំនងផលិតផលដែលលាក់កំបាំងសម្រាប់កែលម្អការលក់ និងសេវាកម្មអតិថិជន។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវផ្ទាំងគ្រប់គ្រងលើបណ្តាញអ៊ិនធឺណិត (Web-based Dashboard) ដោយប្រើប្រាស់បច្ចេកទេសទាញយកទិន្នន័យ (Data Mining) ជាពិសេសក្បួនដោះស្រាយ Apriori ដើម្បីអនុវត្តការវិភាគកន្ត្រកទីផ្សារលើទិន្នន័យប្រតិបត្តិការរបស់អតិថិជន។

ការទាញយកទិន្នន័យ និងក្បួនដោះស្រាយ (Data Mining and Apriori Algorithm)
វិធានទំនាក់ទំនងសម្រាប់ការវិភាគកន្ត្រកទីផ្សារ (Association Rules for Market Basket Analysis)
ការគណនាតម្លៃគាំទ្រ និងទំនុកចិត្ត (Support and Confidence Calculation)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ក្បួនដោះស្រាយ Apriori បានកំណត់ដោយជោគជ័យនូវទំនាក់ទំនងខ្លាំងរវាងផលិតផល ដូចជាប្រូបាប៊ីលីតេ 95% នៃការទិញចានតែពណ៌បៃតង នៅពេលទិញចានតែពណ៌ផ្កាឈូក។
ម៉ូដែលនេះទទួលបានតម្លៃគាំទ្រមធ្យម (Support Value) ចន្លោះពី 33% ទៅ 40% និងតម្លៃទំនុកចិត្ត (Confidence Value) ចន្លោះពី 43% ទៅ 80%។
វិធានទំនាក់ទំនងដែលបានបង្កើតអាចជួយម្ចាស់ហាងលក់រាយក្នុងការរៀបចំប្លង់ផលិតផល និងកាតាឡុកប្រកបដោយយុទ្ធសាស្ត្រ ដើម្បីបង្កើនទីផ្សារផលិតផល និងជំរុញការលក់។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Apriori Algorithm (Proposed) ក្បួនដោះស្រាយ Apriori (ស្នើឡើងក្នុងការសិក្សា)	មានភាពសាមញ្ញក្នុងការស្វែងរកទំនាក់ទំនងរវាងផលិតផល (Association Rules) ដែលស័ក្តិសមសម្រាប់ហាងលក់រាយផ្ទាល់ក្នុងការស្វែងយល់ពីទម្លាប់ទិញរបស់អតិថិជន។	ទាមទារដំណើរការគណនាច្រើនលើទិន្នន័យធំ (Scans) ដែលអាចធ្វើឱ្យយឺត ប្រសិនបើមិនមានការកំណត់តម្លៃគាំទ្រអប្បបរមា (Minimum Support) ឱ្យបានត្រឹមត្រូវ។	ទទួលបានតម្លៃគាំទ្រ (Support) ជាមធ្យមពី ៣៣% ទៅ ៤០% និងតម្លៃទំនុកចិត្ត (Confidence) ពី ៤៣% ទៅ ៨០% ក្នុងការកំណត់ទំនាក់ទំនងផលិតផល។
User-based Collaborative Filtering (CF) ប្រព័ន្ធណែនាំផ្អែកលើអ្នកប្រើប្រាស់ (ត្រូវបានលើកឡើងក្នុងឯកសារយោង)	មានប្រសិទ្ធភាពខ្ពស់ក្នុងការផ្តល់ការណែនាំផលិតផលផ្ទាល់ខ្លួនសម្រាប់អតិថិជនម្នាក់ៗ ដែលពេញនិយមបំផុតសម្រាប់ហាងអនឡាញខ្នាតធំដូចជា Amazon។	ត្រូវការទិន្នន័យប្រវត្តិអ្នកប្រើប្រាស់លម្អិត (ការស្វែងរក ប្រវត្តិទិញ) ដែលពិបាកនិងស្ទើរតែមិនអាចប្រមូលបានសម្រាប់ហាងទំនិញផ្ទាល់ (Physical Stores) ធម្មតា។	ប្រព័ន្ធនេះបានជួយ Amazon បង្កើនការលក់រហូតដល់ ២៩% (ឈានដល់ ១២.៨៣ ពាន់លានដុល្លារ) ក្នុងត្រីមាសទី២ នៃឆ្នាំសារពើពន្ធរបស់ខ្លួន។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធវិភាគនេះមិនទាមទារធនធានកុំព្យូទ័រធំដុំពេកទេ ប៉ុន្តែតម្រូវឱ្យមានទិន្នន័យប្រតិបត្តិការច្បាស់លាស់ និងការរៀបចំផ្ទាំងគ្រប់គ្រង (Dashboard) ដែលងាយស្រួលប្រើសម្រាប់ម្ចាស់ហាង។

Dataset: ត្រូវការទិន្នន័យប្រតិបត្តិការលក់ (Sales Transaction Data) ជាប្រចាំពីហាង ដែលរួមមានបញ្ជីមុខទំនិញដែលបានទិញក្នុងវិក័យប័ត្រនីមួយៗ។
Software: កម្មវិធី ឬបណ្ណាល័យផ្នែក Data Mining (ដូចជា Python រួមជាមួយផ្ទាំងគ្រប់គ្រង Web-based Dashboard) សម្រាប់ការសម្អាតទិន្នន័យ និងដំណើរការក្បួនដោះស្រាយ។
Expertise: ត្រូវការអ្នកជំនាញបច្ចេកទេសក្នុងដំណាក់កាលរៀបចំដំបូង (Data Pre-processing & Algorithm setup) មុនពេលប្រគល់ផ្ទាំងគ្រប់គ្រងឱ្យម្ចាស់ហាងទូទៅប្រើប្រាស់។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះបានទាញយកទិន្នន័យពីហាងលក់រាយកណ្តាលមួយឈ្មោះថា 'Central Retail X' ដែលមិនបានបញ្ជាក់ទីតាំងភូមិសាស្ត្រច្បាស់លាស់ (ទោះជាអ្នកនិពន្ធមកពីប្រទេសប៉ាគីស្ថានក្តី)។ អាកប្បកិរិយា និងវប្បធម៌នៃការទិញទំនិញមានភាពខុសគ្នាពីតំបន់មួយទៅតំបន់មួយ ដូច្នេះការយកមកអនុវត្តនៅកម្ពុជា ទាមទារឱ្យមានការប្រើប្រាស់ទិន្នន័យក្នុងស្រុកដើម្បីទទួលបានលទ្ធផលជាក់ស្តែង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសកន្ត្រកទីផ្សារនេះមានសក្តានុពលខ្ពស់ និងងាយស្រួលអនុវត្តសម្រាប់អាជីវកម្មលក់រាយនៅប្រទេសកម្ពុជា ដែលកំពុងរីកចម្រើនយ៉ាងឆាប់រហ័ស។

ផ្សារទំនើបក្នុងស្រុក (Local Supermarkets like Makro, Aeon): អាចប្រើប្រាស់វិធានទំនាក់ទំនង (Association Rules) ដើម្បីរៀបចំប្លង់តាំងផលិតផល (Product Layout) ដូចជាការដាក់ទំនិញដែលអតិថិជនឧស្សាហ៍ទិញជាមួយគ្នានៅជិតគ្នា ដើម្បីបង្កើនការលក់។
ហាងកាហ្វេ និងភោជនីយដ្ឋាន (Cafes & Restaurants): អាចវិភាគទិន្នន័យទិញរបស់អតិថិជនពីប្រព័ន្ធ POS ដើម្បីបង្កើតកញ្ចប់ប្រូម៉ូសិន (Combo Sets) ប្រកបដោយប្រសិទ្ធភាព (ឧទាហរណ៍៖ ទិញកាហ្វេ ភាគច្រើនទិញនំខេកប្រភេទណា)។
សហគ្រាសធុនតូច និងមធ្យម (SMEs & Mini Marts): ម្ចាស់ហាងអាចប្រើប្រាស់ Web Dashboard ដើម្បីមើលពីនិន្នាការនៃការលក់ដោយមិនចាំបាច់មានជំនាញផ្នែក Data Science ជ្រៅជ្រះ ដែលជួយកាត់បន្ថយចំណាយលើការជួលបុគ្គលិកជំនាញ។

ការរួមបញ្ចូលគ្នារវាងក្បួនដោះស្រាយ Apriori និងចំណុចប្រទាក់ងាយស្រួលប្រើ (Dashboard) នឹងជួយពង្រឹងសមត្ថភាពប្រកួតប្រជែងរបស់អាជីវកម្មកម្ពុជា តាមរយៈការធ្វើសេចក្តីសម្រេចចិត្តផ្អែកលើទិន្នន័យ (Data-driven) ជាជាងការស្មាន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ Data Mining: ស្វែងយល់ពីទ្រឹស្តីនៃ Market Basket Analysis ជាពិសេសផ្តោតលើដំណើរការរបស់ Apriori Algorithm និងការគណនារង្វាស់ចម្បងៗដូចជា Support, Confidence, និង Lift តាមរយៈវគ្គសិក្សាអនឡាញ។
ប្រមូល និងសម្អាតទិន្នន័យ (Data Pre-processing): ទាញយកទិន្នន័យប្រតិបត្តិការលក់គំរូពីប្រភពបើកទូលាយដូចជា Kaggle (ឧទាហរណ៍៖ Instacart Market Basket Analysis) រួចប្រើប្រាស់បណ្ណាល័យ Pandas ក្នុងភាសា Python ដើម្បីសម្អាត និងរៀបចំទម្រង់ទិន្នន័យ។
សរសេរកូដអនុវត្តក្បួនដោះស្រាយ: ប្រើប្រាស់បណ្ណាល័យ Mlxtend ឬ Scikit-learn នៅក្នុង Python ដើម្បីទាញយកវិធានទំនាក់ទំនង (Association Rules) ពីទិន្នន័យដែលបានសម្អាតរួច និងរៀនពីរបៀបកែតម្រូវតម្លៃ min_sup ឱ្យស័ក្តិសម។
សាងសង់ផ្ទាំងគ្រប់គ្រងទិន្នន័យ (Dashboard Build): បង្កើត Web-based Dashboard សាមញ្ញមួយដោយប្រើប្រាស់ Streamlit ឬ Dash ក្នុង Python ដើម្បីបង្ហាញលទ្ធផលជាក្រាហ្វិក ជួយឱ្យអ្នកប្រើប្រាស់ដែលមិនមែនជាអ្នកបច្ចេកទេសអាចមើលយល់ពីនិន្នាការផលិតផល។
សាកល្បងជាមួយទិន្នន័យជាក់ស្តែង (Real-world Application): ទាក់ទងសហការជាមួយហាងលក់រាយ ឬ Mini Mart ខ្នាតតូចនៅក្នុងតំបន់របស់អ្នក ដើម្បីសុំទិន្នន័យ POS របស់ពួកគេមកវិភាគ និងផ្តល់ជាអនុសាសន៍ជាក់ស្តែងក្នុងការរៀបចំទំនិញ ឬការធ្វើប្រូម៉ូសិន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Market Basket Analysis	ការវិភាគកន្ត្រកទីផ្សារ គឺជាបច្ចេកទេសទាញយកទិន្នន័យដែលអ្នកលក់រាយប្រើប្រាស់ដើម្បីស្វែងយល់ពីអាកប្បកិរិយាទិញទំនិញរបស់អតិថិជន ដោយស្វែងរកទំនាក់ទំនងរវាងផលិតផលដែលគេច្រើនទិញជាមួយគ្នាក្នុងវិក័យប័ត្រតែមួយ។	ដូចជាការតាមដានមើលកន្ត្រកផ្សារបស់អតិថិជន ដើម្បីដឹងថាបើគាត់ទិញនំប៉័ង តើគាត់នឹងទិញទឹកដោះគោដែរឬទេ។
Apriori Algorithm	ក្បួនដោះស្រាយ Apriori គឺជាវិធីសាស្ត្រគណនាក្នុង Data Mining ដែលប្រើសម្រាប់ស្វែងរកសំណុំទំនិញដែលកើតឡើងញឹកញាប់ (Frequent Itemsets) នៅក្នុងមូលដ្ឋានទិន្នន័យប្រតិបត្តិការ ដើម្បីបង្កើតវិធានទំនាក់ទំនង និងទស្សន៍ទាយការទិញបន្ទាប់។	ដូចជាម៉ាស៊ីនរែងម្សៅដែលត្រងយកតែបន្សំទំនិញណាដែលអតិថិជនទិញញឹកញាប់បំផុតចេញពីវិក័យប័ត្ររាប់ពាន់សន្លឹក។
Association Rule	វិធានទំនាក់ទំនង គឺជាច្បាប់មានទម្រង់ 'ប្រសិនបើ... នោះ...' (If-Then) ដែលបង្ហាញពីប្រូបាប៊ីលីតេនៃទំនាក់ទំនងរវាងផលិតផលពីរ ឬច្រើននៅក្នុងប្រតិបត្តិការតែមួយ ដោយប្រើរង្វាស់ Support និង Confidence។	ដូចជាច្បាប់ទស្សន៍ទាយមួយដែលប្រាប់ថា 'ប្រសិនបើអតិថិជនទិញកាហ្វេ នោះគាត់មានភាគរយខ្ពស់ក្នុងការទិញស្ករ'។
Support	នៅក្នុងវិធានទំនាក់ទំនង Support គឺជារង្វាស់ដែលបង្ហាញពីភាគរយនៃប្រតិបត្តិការសរុបដែលផ្ទុកនូវសំណុំទំនិញជាក់លាក់ណាមួយ (ឧទាហរណ៍៖ ទំនិញ A និង B ទិញជាមួយគ្នា)។ វាជួយក្បួនដោះស្រាយក្នុងការជម្រុះចោលបន្សំទំនិញដែលកម្រមានអ្នកទិញ។	ដូចជាការវាស់ស្ទង់ភាពពេញនិយមនៃមុខម្ហូបមួយនៅក្នុងភោជនីយដ្ឋាន ដោយមើលថាមានតុប៉ុន្មានភាគរយដែលកុម្ម៉ង់ម្ហូបនោះ។
Confidence	Confidence គឺជារង្វាស់នៃភាពជឿជាក់លើវិធានទំនាក់ទំនង ដែលវាស់ស្ទង់ថា តើអតិថិជនមានប្រូបាប៊ីលីតេប៉ុន្មានភាគរយក្នុងការទិញផលិតផល B (Consequent) ប្រសិនបើពួកគេបានទិញផលិតផល A (Antecedent) រួចហើយ។	ដូចជាការសន្និដ្ឋានថា ក្នុងចំណោមមនុស្ស ១០ នាក់ដែលទិញសាប៊ូកក់សក់ តើមានប៉ុន្មាននាក់ដែលទិញក្រែមបន្ទន់សក់តាមក្រោយក្នុងវិក័យប័ត្រតែមួយ។
Data mining	ការទាញយកទិន្នន័យ ឬការស្វែងរកចំណេះដឹងក្នុងមូលដ្ឋានទិន្នន័យ (KDD) គឺជាដំណើរការប្រើប្រាស់កុំព្យូទ័រដើម្បីវិភាគ និងស្វែងរកគំរូ និន្នាការ ឬព័ត៌មានដែលមានតម្លៃ ដែលលាក់កំបាំងក្នុងសំណុំទិន្នន័យប្រតិបត្តិការដ៏ធំ។	ដូចជាការរែងរកមាស (ព័ត៌មានមានតម្លៃ) ចេញពីគំនរដីនិងខ្សាច់ដ៏ធំ (ទិន្នន័យរាយប៉ាយរាប់លានជួរ)។
Clustering Analysis	ការវិភាគចង្កោម គឺជាវិធីសាស្ត្របែងចែកទិន្នន័យប្រភេទ Unsupervised Learning ដែលប្រមូលផ្តុំវត្ថុ ឬអតិថិជនដែលមានលក្ខណៈស្រដៀងគ្នាខ្ពស់ទៅក្នុងក្រុមតែមួយ ដោយមិនមានការកំណត់ស្លាក (Label) ឬចំណាត់ថ្នាក់ជាមុន។	ដូចជាការចាត់ថ្នាក់សិស្សក្នុងទីធ្លាសាលាជាក្រុមៗដោយស្វ័យប្រវត្តិ ផ្អែកលើចំណូលចិត្តលេងកីឡារបស់ពួកគេ ដោយមិនបាច់មានគ្រូប្រាប់មុន។
Frequent itemset	សំណុំទំនិញញឹកញាប់ គឺជាបណ្តុំនៃផលិតផលដែលលេចឡើងជាមួយគ្នានៅក្នុងទិន្នន័យប្រតិបត្តិការច្រើនជាង ឬស្មើនឹងកម្រិតកំណត់អប្បបរមា (Minimum Support Threshold) ដែលត្រូវបានកំណត់ដោយអ្នកវិភាគ។	ដូចជាការកត់សម្គាល់ឃើញថា 'ប៊ិច និងសៀវភៅ' គឺជាគូទំនិញដែលសិស្សានុសិស្សតែងតែទិញជាមួយគ្នាជារៀងរាល់ថ្ងៃនៅដើមឆ្នាំសិក្សា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖