Original Title: Discovering Consumer Trends: Market Basket Analysis Using the Apriori Algorithm
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការស្វែងយល់ពីនិន្នាការអ្នកប្រើប្រាស់៖ ការវិភាគកន្ត្រកទីផ្សារដោយប្រើប្រាស់ក្បួនដោះស្រាយ Apriori

ចំណងជើងដើម៖ Discovering Consumer Trends: Market Basket Analysis Using the Apriori Algorithm

អ្នកនិពន្ធ៖ Mohsin Mubeen Abbasi (Iqra University), Syed Muhammad Daniyal (Iqra University), Usama Amjad (Iqra University), Dilbar Hussain (Iqra University), Maaz Ahmed (Iqra University), Muhammad Hassam Shakil Siddiqui (Iqra University)

ឆ្នាំបោះពុម្ព៖ 2025 International Conference on Data-Driven Social Change (ICDDSC), IEEE

វិស័យសិក្សា៖ Data Mining and Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ អ្នកលក់រាយ ជាពិសេសហាងផ្ទាល់ដែលគ្មានប្រព័ន្ធទំនើបដូច Amazon ជួបការលំបាកក្នុងការវិភាគទិន្នន័យប្រតិបត្តិការដ៏ធំ ដើម្បីស្វែងរកទំនាក់ទំនងផលិតផលដែលលាក់កំបាំងសម្រាប់កែលម្អការលក់ និងសេវាកម្មអតិថិជន។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវផ្ទាំងគ្រប់គ្រងលើបណ្តាញអ៊ិនធឺណិត (Web-based Dashboard) ដោយប្រើប្រាស់បច្ចេកទេសទាញយកទិន្នន័យ (Data Mining) ជាពិសេសក្បួនដោះស្រាយ Apriori ដើម្បីអនុវត្តការវិភាគកន្ត្រកទីផ្សារលើទិន្នន័យប្រតិបត្តិការរបស់អតិថិជន។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method) គុណសម្បត្តិ (Pros) គុណវិបត្តិ (Cons) លទ្ធផលគន្លឹះ (Key Result)
Apriori Algorithm (Proposed)
ក្បួនដោះស្រាយ Apriori (ស្នើឡើងក្នុងការសិក្សា)
មានភាពសាមញ្ញក្នុងការស្វែងរកទំនាក់ទំនងរវាងផលិតផល (Association Rules) ដែលស័ក្តិសមសម្រាប់ហាងលក់រាយផ្ទាល់ក្នុងការស្វែងយល់ពីទម្លាប់ទិញរបស់អតិថិជន។ ទាមទារដំណើរការគណនាច្រើនលើទិន្នន័យធំ (Scans) ដែលអាចធ្វើឱ្យយឺត ប្រសិនបើមិនមានការកំណត់តម្លៃគាំទ្រអប្បបរមា (Minimum Support) ឱ្យបានត្រឹមត្រូវ។ ទទួលបានតម្លៃគាំទ្រ (Support) ជាមធ្យមពី ៣៣% ទៅ ៤០% និងតម្លៃទំនុកចិត្ត (Confidence) ពី ៤៣% ទៅ ៨០% ក្នុងការកំណត់ទំនាក់ទំនងផលិតផល។
User-based Collaborative Filtering (CF)
ប្រព័ន្ធណែនាំផ្អែកលើអ្នកប្រើប្រាស់ (ត្រូវបានលើកឡើងក្នុងឯកសារយោង)
មានប្រសិទ្ធភាពខ្ពស់ក្នុងការផ្តល់ការណែនាំផលិតផលផ្ទាល់ខ្លួនសម្រាប់អតិថិជនម្នាក់ៗ ដែលពេញនិយមបំផុតសម្រាប់ហាងអនឡាញខ្នាតធំដូចជា Amazon។ ត្រូវការទិន្នន័យប្រវត្តិអ្នកប្រើប្រាស់លម្អិត (ការស្វែងរក ប្រវត្តិទិញ) ដែលពិបាកនិងស្ទើរតែមិនអាចប្រមូលបានសម្រាប់ហាងទំនិញផ្ទាល់ (Physical Stores) ធម្មតា។ ប្រព័ន្ធនេះបានជួយ Amazon បង្កើនការលក់រហូតដល់ ២៩% (ឈានដល់ ១២.៨៣ ពាន់លានដុល្លារ) ក្នុងត្រីមាសទី២ នៃឆ្នាំសារពើពន្ធរបស់ខ្លួន។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តប្រព័ន្ធវិភាគនេះមិនទាមទារធនធានកុំព្យូទ័រធំដុំពេកទេ ប៉ុន្តែតម្រូវឱ្យមានទិន្នន័យប្រតិបត្តិការច្បាស់លាស់ និងការរៀបចំផ្ទាំងគ្រប់គ្រង (Dashboard) ដែលងាយស្រួលប្រើសម្រាប់ម្ចាស់ហាង។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះបានទាញយកទិន្នន័យពីហាងលក់រាយកណ្តាលមួយឈ្មោះថា 'Central Retail X' ដែលមិនបានបញ្ជាក់ទីតាំងភូមិសាស្ត្រច្បាស់លាស់ (ទោះជាអ្នកនិពន្ធមកពីប្រទេសប៉ាគីស្ថានក្តី)។ អាកប្បកិរិយា និងវប្បធម៌នៃការទិញទំនិញមានភាពខុសគ្នាពីតំបន់មួយទៅតំបន់មួយ ដូច្នេះការយកមកអនុវត្តនៅកម្ពុជា ទាមទារឱ្យមានការប្រើប្រាស់ទិន្នន័យក្នុងស្រុកដើម្បីទទួលបានលទ្ធផលជាក់ស្តែង។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

បច្ចេកទេសកន្ត្រកទីផ្សារនេះមានសក្តានុពលខ្ពស់ និងងាយស្រួលអនុវត្តសម្រាប់អាជីវកម្មលក់រាយនៅប្រទេសកម្ពុជា ដែលកំពុងរីកចម្រើនយ៉ាងឆាប់រហ័ស។

ការរួមបញ្ចូលគ្នារវាងក្បួនដោះស្រាយ Apriori និងចំណុចប្រទាក់ងាយស្រួលប្រើ (Dashboard) នឹងជួយពង្រឹងសមត្ថភាពប្រកួតប្រជែងរបស់អាជីវកម្មកម្ពុជា តាមរយៈការធ្វើសេចក្តីសម្រេចចិត្តផ្អែកលើទិន្នន័យ (Data-driven) ជាជាងការស្មាន។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

  1. សិក្សាមូលដ្ឋានគ្រឹះនៃ Data Mining: ស្វែងយល់ពីទ្រឹស្តីនៃ Market Basket Analysis ជាពិសេសផ្តោតលើដំណើរការរបស់ Apriori Algorithm និងការគណនារង្វាស់ចម្បងៗដូចជា Support, Confidence, និង Lift តាមរយៈវគ្គសិក្សាអនឡាញ។
  2. ប្រមូល និងសម្អាតទិន្នន័យ (Data Pre-processing): ទាញយកទិន្នន័យប្រតិបត្តិការលក់គំរូពីប្រភពបើកទូលាយដូចជា Kaggle (ឧទាហរណ៍៖ Instacart Market Basket Analysis) រួចប្រើប្រាស់បណ្ណាល័យ Pandas ក្នុងភាសា Python ដើម្បីសម្អាត និងរៀបចំទម្រង់ទិន្នន័យ។
  3. សរសេរកូដអនុវត្តក្បួនដោះស្រាយ: ប្រើប្រាស់បណ្ណាល័យ MlxtendScikit-learn នៅក្នុង Python ដើម្បីទាញយកវិធានទំនាក់ទំនង (Association Rules) ពីទិន្នន័យដែលបានសម្អាតរួច និងរៀនពីរបៀបកែតម្រូវតម្លៃ min_sup ឱ្យស័ក្តិសម។
  4. សាងសង់ផ្ទាំងគ្រប់គ្រងទិន្នន័យ (Dashboard Build): បង្កើត Web-based Dashboard សាមញ្ញមួយដោយប្រើប្រាស់ StreamlitDash ក្នុង Python ដើម្បីបង្ហាញលទ្ធផលជាក្រាហ្វិក ជួយឱ្យអ្នកប្រើប្រាស់ដែលមិនមែនជាអ្នកបច្ចេកទេសអាចមើលយល់ពីនិន្នាការផលិតផល។
  5. សាកល្បងជាមួយទិន្នន័យជាក់ស្តែង (Real-world Application): ទាក់ទងសហការជាមួយហាងលក់រាយ ឬ Mini Mart ខ្នាតតូចនៅក្នុងតំបន់របស់អ្នក ដើម្បីសុំទិន្នន័យ POS របស់ពួកគេមកវិភាគ និងផ្តល់ជាអនុសាសន៍ជាក់ស្តែងក្នុងការរៀបចំទំនិញ ឬការធ្វើប្រូម៉ូសិន។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស ការពន្យល់ជាខេមរភាសា (Khmer Explanation) និយមន័យសាមញ្ញ (Simple Definition)
Market Basket Analysis ការវិភាគកន្ត្រកទីផ្សារ គឺជាបច្ចេកទេសទាញយកទិន្នន័យដែលអ្នកលក់រាយប្រើប្រាស់ដើម្បីស្វែងយល់ពីអាកប្បកិរិយាទិញទំនិញរបស់អតិថិជន ដោយស្វែងរកទំនាក់ទំនងរវាងផលិតផលដែលគេច្រើនទិញជាមួយគ្នាក្នុងវិក័យប័ត្រតែមួយ។ ដូចជាការតាមដានមើលកន្ត្រកផ្សារបស់អតិថិជន ដើម្បីដឹងថាបើគាត់ទិញនំប៉័ង តើគាត់នឹងទិញទឹកដោះគោដែរឬទេ។
Apriori Algorithm ក្បួនដោះស្រាយ Apriori គឺជាវិធីសាស្ត្រគណនាក្នុង Data Mining ដែលប្រើសម្រាប់ស្វែងរកសំណុំទំនិញដែលកើតឡើងញឹកញាប់ (Frequent Itemsets) នៅក្នុងមូលដ្ឋានទិន្នន័យប្រតិបត្តិការ ដើម្បីបង្កើតវិធានទំនាក់ទំនង និងទស្សន៍ទាយការទិញបន្ទាប់។ ដូចជាម៉ាស៊ីនរែងម្សៅដែលត្រងយកតែបន្សំទំនិញណាដែលអតិថិជនទិញញឹកញាប់បំផុតចេញពីវិក័យប័ត្ររាប់ពាន់សន្លឹក។
Association Rule វិធានទំនាក់ទំនង គឺជាច្បាប់មានទម្រង់ 'ប្រសិនបើ... នោះ...' (If-Then) ដែលបង្ហាញពីប្រូបាប៊ីលីតេនៃទំនាក់ទំនងរវាងផលិតផលពីរ ឬច្រើននៅក្នុងប្រតិបត្តិការតែមួយ ដោយប្រើរង្វាស់ Support និង Confidence។ ដូចជាច្បាប់ទស្សន៍ទាយមួយដែលប្រាប់ថា 'ប្រសិនបើអតិថិជនទិញកាហ្វេ នោះគាត់មានភាគរយខ្ពស់ក្នុងការទិញស្ករ'។
Support នៅក្នុងវិធានទំនាក់ទំនង Support គឺជារង្វាស់ដែលបង្ហាញពីភាគរយនៃប្រតិបត្តិការសរុបដែលផ្ទុកនូវសំណុំទំនិញជាក់លាក់ណាមួយ (ឧទាហរណ៍៖ ទំនិញ A និង B ទិញជាមួយគ្នា)។ វាជួយក្បួនដោះស្រាយក្នុងការជម្រុះចោលបន្សំទំនិញដែលកម្រមានអ្នកទិញ។ ដូចជាការវាស់ស្ទង់ភាពពេញនិយមនៃមុខម្ហូបមួយនៅក្នុងភោជនីយដ្ឋាន ដោយមើលថាមានតុប៉ុន្មានភាគរយដែលកុម្ម៉ង់ម្ហូបនោះ។
Confidence Confidence គឺជារង្វាស់នៃភាពជឿជាក់លើវិធានទំនាក់ទំនង ដែលវាស់ស្ទង់ថា តើអតិថិជនមានប្រូបាប៊ីលីតេប៉ុន្មានភាគរយក្នុងការទិញផលិតផល B (Consequent) ប្រសិនបើពួកគេបានទិញផលិតផល A (Antecedent) រួចហើយ។ ដូចជាការសន្និដ្ឋានថា ក្នុងចំណោមមនុស្ស ១០ នាក់ដែលទិញសាប៊ូកក់សក់ តើមានប៉ុន្មាននាក់ដែលទិញក្រែមបន្ទន់សក់តាមក្រោយក្នុងវិក័យប័ត្រតែមួយ។
Data mining ការទាញយកទិន្នន័យ ឬការស្វែងរកចំណេះដឹងក្នុងមូលដ្ឋានទិន្នន័យ (KDD) គឺជាដំណើរការប្រើប្រាស់កុំព្យូទ័រដើម្បីវិភាគ និងស្វែងរកគំរូ និន្នាការ ឬព័ត៌មានដែលមានតម្លៃ ដែលលាក់កំបាំងក្នុងសំណុំទិន្នន័យប្រតិបត្តិការដ៏ធំ។ ដូចជាការរែងរកមាស (ព័ត៌មានមានតម្លៃ) ចេញពីគំនរដីនិងខ្សាច់ដ៏ធំ (ទិន្នន័យរាយប៉ាយរាប់លានជួរ)។
Clustering Analysis ការវិភាគចង្កោម គឺជាវិធីសាស្ត្របែងចែកទិន្នន័យប្រភេទ Unsupervised Learning ដែលប្រមូលផ្តុំវត្ថុ ឬអតិថិជនដែលមានលក្ខណៈស្រដៀងគ្នាខ្ពស់ទៅក្នុងក្រុមតែមួយ ដោយមិនមានការកំណត់ស្លាក (Label) ឬចំណាត់ថ្នាក់ជាមុន។ ដូចជាការចាត់ថ្នាក់សិស្សក្នុងទីធ្លាសាលាជាក្រុមៗដោយស្វ័យប្រវត្តិ ផ្អែកលើចំណូលចិត្តលេងកីឡារបស់ពួកគេ ដោយមិនបាច់មានគ្រូប្រាប់មុន។
Frequent itemset សំណុំទំនិញញឹកញាប់ គឺជាបណ្តុំនៃផលិតផលដែលលេចឡើងជាមួយគ្នានៅក្នុងទិន្នន័យប្រតិបត្តិការច្រើនជាង ឬស្មើនឹងកម្រិតកំណត់អប្បបរមា (Minimum Support Threshold) ដែលត្រូវបានកំណត់ដោយអ្នកវិភាគ។ ដូចជាការកត់សម្គាល់ឃើញថា 'ប៊ិច និងសៀវភៅ' គឺជាគូទំនិញដែលសិស្សានុសិស្សតែងតែទិញជាមួយគ្នាជារៀងរាល់ថ្ងៃនៅដើមឆ្នាំសិក្សា។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖