Original Title: Feature Extraction from Unstructured text data
Source: research.tue.nl
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

ការទាញយកលក្ខណៈពិសេសពីទិន្នន័យអត្ថបទដែលគ្មានរចនាសម្ព័ន្ធ

ចំណងជើងដើម៖ Feature Extraction from Unstructured text data

អ្នកនិពន្ធ៖ Junquan Xi (Eindhoven University of Technology)

ឆ្នាំបោះពុម្ព៖ 2017, Eindhoven University of Technology

វិស័យសិក្សា៖ Computer Science / Natural Language Processing

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ និក្ខេបបទនេះដោះស្រាយបញ្ហានៃការទាញយកលក្ខណៈពិសេសពីទិន្នន័យអត្ថបទដែលគ្មានរចនាសម្ព័ន្ធ (Unstructured text data) ដើម្បីជួយធនាគារធ្វើចំណាត់ថ្នាក់អតិថិជនដោយស្វ័យប្រវត្តិ។ ដោយសារកង្វះទិន្នន័យដើម ការសិក្សានេះប្រើប្រាស់សំណុំទិន្នន័យស្តង់ដារ IMDB (មនោសញ្ចេតនា) និង Reuters (ប្រធានបទ) សម្រាប់ធ្វើការវាយតម្លៃជំនួសវិញ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានអនុវត្ត និងប្រៀបធៀបវិធីសាស្ត្រទាញយកលក្ខណៈពិសេសនៃអត្ថបទជាច្រើនប្រភេទ រួចសាកល្បងពួកវាជាមួយក្បួនដោះស្រាយចំណាត់ថ្នាក់ (Classifiers) ផ្សេងៗគ្នាដើម្បីស្វែងរកប្រសិទ្ធភាព។

ភ្នាក់ងារតំណាងពាក្យផ្អែកលើប្រេកង់ (Term-frequency features): Bag-of-words និង TF-IDF
ភ្នាក់ងារតំណាងពាក្យបង្កប់ (Word embeddings): ការប្រៀបធៀបម៉ូដែល CBOW និង Skip-gram រួមជាមួយនឹងការគណនាមធ្យម (Average) និងមធ្យមមានទម្ងន់ផ្អែកលើ TF-IDF (Weighted average)
ភ្នាក់ងារតំណាងកថាខណ្ឌ (Paragraph vectors): អនុវត្តម៉ូដែល PV-DM និង DBOW
ក្បួនដោះស្រាយចំណាត់ថ្នាក់ (Classification Algorithms): ប្រើប្រាស់ SVM, Random Forest, Logistic Regression និង Long Short-Term Memory (LSTM) សម្រាប់ការទស្សន៍ទាយ

លទ្ធផលសំខាន់ៗ (The Verdict)៖

សម្រាប់ការវិភាគមនោសញ្ចេតនា (សំណុំទិន្នន័យ IMDB) វិធីសាស្ត្រ Paragraph Vector និង Skip-gram បូកនឹងអញ្ញត្តិមធ្យម ផ្តល់លទ្ធផលល្អបំផុត ដោយសារវាអាចចាប់យកអត្ថន័យន័យធៀបនៃបរិបទបានល្អជាងម៉ូដែលផ្សេងៗ។
សម្រាប់ការចាត់ថ្នាក់ប្រធានបទ (សំណុំទិន្នន័យ Reuters) ម៉ូដែល Bag-of-words បែរជាទទួលបានលទ្ធផលល្អបំផុត ពីព្រោះការចាត់ថ្នាក់ប្រធានបទពឹងផ្អែកខ្លាំងលើអត្ថិភាពនៃពាក្យគន្លឹះ (Entity words) ជាជាងអត្ថន័យរួមនៃកថាខណ្ឌ។
ម៉ូដែល Skip-gram ដំណើរការល្អជាង CBOW ក្នុងការចាប់យកពាក្យកម្រ ខណៈដែលការដាក់ទម្ងន់ TF-IDF លើ word embeddings អាចកាត់បន្ថយភាពត្រឹមត្រូវនៃអត្ថន័យ បើប្រៀបធៀបទៅនឹងការប្រើមធ្យមភាគធម្មតាសម្រាប់ទិន្នន័យដែលបានសម្អាតរួច។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
Bag-of-words វិធីសាស្ត្រ Bag-of-words (ផ្អែកលើប្រេកង់ពាក្យ)	ល្អបំផុតសម្រាប់ការចាត់ថ្នាក់ប្រធានបទ (Topic Categorization) ព្រោះវាចាប់យកវត្តមាននៃពាក្យគន្លឹះបានល្អ និងមានភាពងាយស្រួលក្នុងការយល់ និងអនុវត្ត។	មិនអាចចាប់យកអត្ថន័យន័យធៀបបរិបទ ឬលំដាប់នៃពាក្យបានឡើយ ដែលធ្វើឱ្យវាមិនសូវមានប្រសិទ្ធភាពសម្រាប់ការវិភាគមនោសញ្ចេតនាអត្ថបទ។	ទទួលបានលទ្ធផលល្អបំផុតលើសំណុំទិន្នន័យ Reuters (ចាត់ថ្នាក់ប្រធានបទ) ជាមួយនឹងពិន្ទុ AUC 0.9104 (ប្រើប្រាស់ SVM) ប៉ុន្តែទទួលបានលទ្ធផលខ្សោយលើទិន្នន័យ IMDB។
Paragraph Vector (PV-DM / PV-DBOW) វ៉ិចទ័រកថាខណ្ឌ (Paragraph Vector)	អាចរក្សាអត្ថន័យន័យធៀបនៃបរិបទ និងលំដាប់នៃពាក្យនៅក្នុងកថាខណ្ឌបានយ៉ាងល្អ ដែលស័ក្តិសមបំផុតសម្រាប់ការវិភាគមនោសញ្ចេតនាអត្ថបទ (Sentiment Analysis)។	ទាមទារថាមពលកុំព្យូទ័រខ្ពស់ និងពេលវេលាយូរក្នុងការបង្វឹកម៉ូដែល បើប្រៀបធៀបនឹងវិធីសាស្ត្រមូលដ្ឋាន ហើយមិនសូវផ្តល់លទ្ធផលល្អសម្រាប់ការចាត់ថ្នាក់ប្រធានបទនោះទេ។	ទទួលបានលទ្ធផលល្អបំផុតលើសំណុំទិន្នន័យ IMDB (វិភាគមនោសញ្ចេតនា) ជាមួយនឹងពិន្ទុ AUC រហូតដល់ 0.8627 សម្រាប់ម៉ូដែល DMPV។
Skip-gram + Average vector ម៉ូដែលបង្កប់ពាក្យ Skip-gram បូកជាមួយនឹងវ៉ិចទ័រមធ្យម	ដំណើរការល្អក្នុងការចាប់យកអត្ថន័យនៃពាក្យកម្រ (Infrequent words) ជាងម៉ូដែល CBOW និងផ្តល់លទ្ធផលល្អសម្រាប់ការវិភាគមនោសញ្ចេតនា។	ការព្យាយាមបន្ថែមទម្ងន់ TF-IDF ទៅលើមធ្យមភាគនេះ បែរជាធ្វើឱ្យបាត់បង់ភាពត្រឹមត្រូវនៃអត្ថន័យវ៉ិចទ័រទៅវិញសម្រាប់ទិន្នន័យដែលបានសម្អាតរួច។	ទទួលបានលទ្ធផលល្អប្រសើរលើទិន្នន័យ IMDB (AUC: 0.8927 ជាមួយ Random Forest) ជាងការប្រើប្រាស់ម៉ូដែល CBOW។
LSTM (Long Short-Term Memory) បណ្តាញសរសៃប្រសាទ LSTM	អាចទាញយកលក្ខណៈពិសេស និងចាត់ថ្នាក់ដោយស្វ័យប្រវត្តិពីអត្ថបទឆៅ (Raw text) ដោយមិនបាច់ធ្វើ Feature Engineering ជាមុន រក្សាទុកពត៌មានបានយូរដោយសាររចនាសម្ព័ន្ធ Cell State។	ពិបាកក្នុងការពន្យល់ពីដំណើរការនៃការសម្រេចចិត្តខាងក្នុង (Black-box problem) និងត្រូវការសំណុំទិន្នន័យធំ ព្រមទាំងកម្លាំងកុំព្យូទ័រខ្ពស់។	ទទួលបានលទ្ធផលល្អលំដាប់ទី២ ទាំងលើការវិភាគមនោសញ្ចេតនា (IMDB) ជាមួយរង្វាស់ Accuracy 0.8522 និងការចាត់ថ្នាក់ប្រធានបទ (Reuters) ជាមួយ Accuracy 0.7486។

ការចំណាយលើធនធាន (Resource Cost)៖ ការអនុវត្តវិធីសាស្ត្រទាញយកលក្ខណៈពិសេសទាំងនេះ ទាមទារធនធានកុំព្យូទ័រ និងចំណេះដឹងផ្នែកសរសេរកូដខុសៗគ្នា ដោយម៉ូដែល Deep Learning និង Paragraph Vector ទាមទារធនធានខ្ពស់ជាងគេ។

Hardware Requirements: ទាមទារកុំព្យូទ័រដែលមាន CPU ល្បឿនលឿន ឬមាន GPU សម្រាប់បង្វឹកម៉ូដែល Word Embeddings (Word2Vec), Paragraph Vectors (Doc2Vec) និងជាពិសេសបណ្តាញសរសៃប្រសាទ LSTM ដើម្បីសន្សំសំចៃពេលវេលា។
Software Libraries: ត្រូវការភាសា Python រួមជាមួយនឹងបណ្ណាល័យដូចជា Scikit-learn (សម្រាប់ប្រព័ន្ធ Bag-of-words និង TF-IDF), Gensim (សម្រាប់បង្វឹក Word2Vec និង Doc2Vec) និង Keras (សម្រាប់ស្ថាបនា LSTM)។
Datasets: ទាមទារសំណុំទិន្នន័យអត្ថបទដែលមានទំហំធំ និងត្រូវបានធ្វើចំណាត់ថ្នាក់ជាមុន (Labeled Text Data) ដូចជា IMDB (ទិន្នន័យ ៥ម៉ឺនអត្ថបទ) និង Reuters (ទិន្នន័យជាង ១ម៉ឺនអត្ថបទ) ដើម្បីឱ្យម៉ូដែលរៀនបានត្រឹមត្រូវ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសំណុំទិន្នន័យភាសាអង់គ្លេសដែលមានវេយ្យាករណ៍ និងរចនាសម្ព័ន្ធច្បាស់លាស់ (IMDB សម្រាប់វាយតម្លៃកុន និង Reuters សម្រាប់ព័ត៌មាន)។ សម្រាប់បរិបទប្រទេសកម្ពុជា ការយកម៉ូដែលទាំងនេះមកអនុវត្តផ្ទាល់លើភាសាខ្មែរនឹងជួបប្រទះបញ្ហាប្រឈមធំៗ ដោយសារកង្វះសំណុំទិន្នន័យស្តង់ដារធំៗ បញ្ហានៃការកាត់ពាក្យ (Word Segmentation) ដោយសារភាសាខ្មែរមិនសរសេរដកឃ្លារវាងពាក្យ និងភាពស្មុគស្មាញនៃទម្រង់ភាសានៅលើបណ្តាញសង្គម។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមផ្នែកភាសា និងទិន្នន័យក៏ដោយ វិធីសាស្ត្រទាញយកលក្ខណៈពិសេសនៃអត្ថបទទាំងនេះមានសក្តានុពលខ្ពស់ខ្លាំងក្នុងការអភិវឌ្ឍប្រព័ន្ធស្វ័យប្រវត្តិកម្មសម្រាប់ស្ថាប័ននានានៅកម្ពុជា។

វិស័យធនាគារ និងហិរញ្ញវត្ថុ (ឧ. ធនាគារធំៗដូចជា ABA, ACLEDA): អាចប្រើប្រាស់ម៉ូដែល Bag-of-words ឬ Word Embeddings ដើម្បីទាញយកលក្ខណៈពិសេសពីកំណត់ត្រាប្រតិបត្តិការហិរញ្ញវត្ថុរបស់អតិថិជន ដើម្បីចាត់ថ្នាក់ចំណូលចិត្ត ឬតាមដានសកម្មភាពលាងលុយកខ្វក់ (Abnormal transactions) ដែលបានលើកឡើងជា Future Work ក្នុងឯកសារនេះ។
ក្រុមហ៊ុនទូរគមនាគមន៍ ឬពាណិជ្ជកម្មអេឡិចត្រូនិក (E-commerce): អាចប្រើប្រាស់ Paragraph Vector ឬម៉ូដែល Deep Learning (LSTM) សម្រាប់ធ្វើការវិភាគមនោសញ្ចេតនា (Sentiment Analysis) លើមតិយោបល់របស់អតិថិជននៅលើ Facebook ឬ App Stores ដើម្បីវាស់ស្ទង់ការពេញចិត្ត និងកែលម្អសេវាកម្មទាន់ពេលវេលា។
ក្រសួងស្ថាប័នរដ្ឋ និងសារព័ត៌មាន: អាចប្រើប្រាស់វិធីសាស្ត្រ Bag-of-words ឬ TF-IDF ដើម្បីបង្កើតប្រព័ន្ធចាត់ថ្នាក់អត្ថបទព័ត៌មាន អត្ថបទច្បាប់ ឬឯកសាររដ្ឋបាលផ្លូវការដោយស្វ័យប្រវត្តិទៅតាមប្រធានបទផ្សេងៗ ជាជាងការពឹងផ្អែកលើការអានដោយមនុស្សផ្ទាល់។

ការជ្រើសរើសម៉ូដែលឱ្យស្របទៅនឹងគោលដៅជាក់លាក់ (ឧទាហរណ៍៖ ជ្រើសរើស BoW សម្រាប់ការចាត់ថ្នាក់ប្រធានបទ និងជ្រើសរើស Paragraph Vector សម្រាប់ការវិភាគមនោសញ្ចេតនា) នឹងជួយឱ្យស្ថាប័ននានានៅកម្ពុជាសន្សំសំចៃធនធាន និងទទួលបានប្រសិទ្ធភាពការងារអតិបរមា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃការសម្អាតទិន្នន័យអត្ថបទ (Text Pre-processing): និស្សិតគប្បីចាប់ផ្តើមរៀនពីទ្រឹស្តីជាមូលដ្ឋាន និងសាកល្បងប្រើប្រាស់បណ្ណាល័យ NLTK នៅក្នុង Python ដើម្បីធ្វើការសម្អាតទិន្នន័យ (Data Cleaning) ការលុបពាក្យតភ្ជាប់ដែលមិនចាំបាច់ (Remove stop words) និងការបំប្លែងទម្រង់ពាក្យ (Stemming)។
អនុវត្តម៉ូដែលទាញយកលក្ខណៈពិសេសកម្រិតមូលដ្ឋាន: អនុវត្តសរសេរកូដ Python បង្កើតម៉ូដែល Bag-of-Words និង TF-IDF ដោយប្រើប្រាស់បណ្ណាល័យ Scikit-learn រួចប្រើក្បួនដោះស្រាយចំណាត់ថ្នាក់ដូចជា SVM ឬ Random Forest ដើម្បីធ្វើតេស្តលើទិន្នន័យតូចៗសិន។
ស្វែងយល់ពីម៉ូដែលបង្កប់ពាក្យកម្រិតខ្ពស់ (Word/Document Embeddings): សិក្សាឱ្យស៊ីជម្រៅ និងអនុវត្តការប្រើប្រាស់កូដ Word2Vec (CBOW និង Skip-gram) ព្រមទាំង Doc2Vec (Paragraph Vector) តាមរយៈបណ្ណាល័យ Gensim ដើម្បីស្វែងយល់ពីរបៀបដែលម៉ាស៊ីនអាចចាប់យកអត្ថន័យន័យធៀបនៃពាក្យ និងប្រយោគ។
សាកល្បងជាមួយបណ្តាញសរសៃប្រសាទ (Deep Learning): ប្រើប្រាស់ Framework បច្ចេកវិទ្យាទំនើបដូចជា Keras ឬ PyTorch ដើម្បីសាងសង់បណ្តាញ LSTM ដោយយកទិន្នន័យដើមមកបង្វឹកផ្ទាល់ ដើម្បីប្រៀបធៀបប្រសិទ្ធភាព និងពិន្ទុ AUC ជាមួយម៉ូដែលប្រពៃណីផ្សេងៗទៀត។
អភិវឌ្ឍន៍គម្រោងស្រាវជ្រាវលើភាសាខ្មែរ (Khmer NLP Project): ប្រមូលទិន្នន័យអត្ថបទភាសាខ្មែរ រួចប្រើប្រាស់ឧបករណ៍កាត់ពាក្យខ្មែរដូចជា Khmer Word Segmentation (KhmerNLP) មុននឹងបញ្ចូលទៅក្នុងម៉ូដែលខាងលើ ដើម្បីសាកល្បងដោះស្រាយបញ្ហាជាក់ស្តែងនៅក្នុងបរិបទស្ថាប័នកម្ពុជា។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Bag-of-words	វិធីសាស្ត្រតំណាងអត្ថបទដោយរាប់ចំនួនដងនៃពាក្យនីមួយៗដែលលេចឡើងក្នុងអត្ថបទនោះ ដោយមិនខ្វល់ពីរចនាសម្ព័ន្ធ វេយ្យាករណ៍ ឬលំដាប់លំដោយនៃពាក្យឡើយ។	ដូចជាការយកពាក្យទាំងអស់ក្នុងសៀវភៅមួយក្បាលទៅបោះចូលក្នុងថង់តែមួយ រួចរាប់ថាតើពាក្យនីមួយៗមានចំនួនប៉ុន្មាន ដោយមិនខ្វល់ថាវានៅទំព័រណា ឬតម្រៀបគ្នាយ៉ាងម៉េចនោះទេ។
TF-IDF	រូបមន្តគណនាទម្ងន់នៃពាក្យ ដោយផ្តល់តម្លៃខ្ពស់ដល់ពាក្យដែលលេចឡើងញឹកញាប់ក្នុងឯកសារមួយ ប៉ុន្តែកម្រមានក្នុងឯកសារផ្សេងៗទៀតនៅក្នុងសំណុំទិន្នន័យរួម ដើម្បីស្វែងរកពាក្យគន្លឹះប្រចាំឯកសារនោះ។	ដូចជាការវាយតម្លៃភាពលេចធ្លោរបស់មនុស្សម្នាក់ដោយគាត់ពាក់អាវពណ៌ក្រហមឆ្អៅ ក្នុងចំណោមមនុស្សរាប់ពាន់នាក់ផ្សេងទៀតដែលពាក់អាវពណ៌ខ្មៅ។
Word Embedding	បច្ចេកទេសបំប្លែងពាក្យនីមួយៗទៅជាវ៉ិចទ័រលេខ (Vector) ដើម្បីឱ្យកុំព្យូទ័រអាចស្វែងយល់ពីអត្ថន័យ និងទំនាក់ទំនងរវាងពាក្យទាំងនោះតាមរយៈការគណនាចម្ងាយ (ឧទាហរណ៍៖ ពាក្យ 'ស្តេច' និង 'មហាក្សត្រ' មានទីតាំងលេខក្បែរគ្នា)។	ដូចជាការដាក់ទីតាំងផ្ទះនៅលើផែនទី ដោយផ្ទះដែលមានរចនាបថ ឬមុខងារស្រដៀងគ្នា ត្រូវបានសាងសង់នៅក្បែរៗគ្នា។
Skip-gram	ម៉ូដែលរៀនពាក្យ (Word Embedding) ប្រភេទមួយ ដែលយកពាក្យគោលដៅតែមួយមកទស្សន៍ទាយរកពាក្យដែលនៅជុំវិញវា (បរិបទ) ដែលម៉ូដែលនេះមានភាពចំណានក្នុងការចាប់យកអត្ថន័យនៃពាក្យដែលកម្រលេចឡើង។	ដូចជាការឃើញមនុស្សម្នាក់ដើរម្នាក់ឯង រួចយើងទាយថាគាត់ប្រហែលជាមានមិត្តភក្តិប្រភេទណាខ្លះដែលតែងតែដើរជាមួយគាត់។
Paragraph vector	បច្ចេកទេសបំប្លែងកថាខណ្ឌ ឬអត្ថបទទាំងមូលទៅជាវ៉ិចទ័រលេខ ដោយរួមបញ្ចូលនូវលំដាប់លំដោយនៃពាក្យ និងអត្ថន័យជារួមនៃអត្ថបទនោះ ដើម្បីយកទៅវិភាគមនោសញ្ចេតនា ឬប្រធានបទ។	ដូចជាការសង្ខេបអត្ថន័យនៃសៀវភៅមួយជំពូកទៅជាលេខកូដសម្គាល់តែមួយ ដែលអាចយកទៅប្រៀបធៀបជាមួយជំពូកផ្សេងៗទៀតបានយ៉ាងងាយស្រួល។
LSTM	ប្រភេទបណ្តាញសរសៃប្រសាទសប្បនិម្មិត (RNN) កម្រិតខ្ពស់ ដែលមានសមត្ថភាពចងចាំព័ត៌មានពីអតីតកាលបានយូរតាមរយៈរចនាសម្ព័ន្ធ Cell state ដែលជួយឱ្យវាអាចយល់ពីបរិបទនៃប្រយោគវែងៗបានល្អដោយមិនភ្លេចទិន្នន័យចាស់។	ដូចជាមនុស្សម្នាក់អានសៀវភៅរឿងវែងមួយ ហើយនៅតែអាចចងចាំតួអង្គដែលបង្ហាញខ្លួនតាំងពីជំពូកទីមួយ ដើម្បីយល់ពីសាច់រឿងនៅជំពូកចុងក្រោយបង្អស់។
SVM	ក្បួនដោះស្រាយសម្រាប់ធ្វើចំណាត់ថ្នាក់ទិន្នន័យ (Classification Algorithm) ដែលព្យាយាមស្វែងរកបន្ទាត់ ឬប្លង់អរូបីដើម្បីបំបែកទិន្នន័យពីរប្រភេទដាច់ពីគ្នា ឱ្យបានឆ្ងាយបំផុតតាមដែលអាចធ្វើទៅបាន (Maximum margin)។	ដូចជាការគូសបន្ទាត់ព្រំដែនដ៏ធំទូលាយមួយចំកណ្តាលទីធ្លា ដើម្បីបំបែកក្រុមក្មេងលេងបាល់ទាត់ និងក្រុមក្មេងលេងបាល់ទះកុំឱ្យរត់បុកគ្នា។
AUC	រង្វាស់សម្រាប់វាយតម្លៃសមត្ថភាពជារួមរបស់ម៉ូដែលចំណាត់ថ្នាក់ (Classifier) ក្នុងការបែងចែករវាងថ្នាក់វិជ្ជមាន និងអវិជ្ជមាន ដោយពិន្ទុដែលខិតជិត ១ គឺមានន័យថាម៉ូដែលនោះដំណើរការបានល្អឥតខ្ចោះ។	ដូចជាពិន្ទុប្រឡងមធ្យមភាគប្រចាំឆ្នាំរបស់សិស្សម្នាក់ ដែលវាឆ្លុះបញ្ចាំងពីសមត្ថភាពទូទៅរបស់គេគ្រប់មុខវិជ្ជា មិនមែនស្ទង់មើលតែលើមុខវិជ្ជាមួយនោះទេ។
Cross-validation	វិធីសាស្ត្រសាកល្បងភាពត្រឹមត្រូវរបស់ម៉ូដែល ដោយបែងចែកសំណុំទិន្នន័យជាច្រើនចំណែកស្មើៗគ្នា រួចឆ្លាស់គ្នាយកមួយចំណែកធ្វើជាទិន្នន័យសាកល្បង (Test) និងយកចំណែកដែលនៅសល់ធ្វើជាទិន្នន័យបង្វឹក (Train)។	ដូចជាការយកលំហាត់ក្នុងសៀវភៅមកចែកជា ១០ជំពូក រួចរៀន ៩ជំពូក ហើយយក ១ជំពូកទៀតមកធ្វើតេស្តខ្លួនឯង រួចបន្តឆ្លាស់គ្នាបែបនេះរហូតដល់អស់គ្រប់ជំពូកទើបបូកសរុបលទ្ធផល។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖