Original Title: PLM4Traj: Cognizing Movement Patterns and Travel Purposes from Trajectories with Pre-trained Language Models
Source: github.com
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

PLM4Traj: ការយល់ដឹងពីគំរូនៃចលនានិងគោលបំណងនៃការធ្វើដំណើរពីគន្លងចលនាដោយប្រើប្រាស់ម៉ូដែលភាសាដែលបានបង្វឹកជាមុន

ចំណងជើងដើម៖ PLM4Traj: Cognizing Movement Patterns and Travel Purposes from Trajectories with Pre-trained Language Models

អ្នកនិពន្ធ៖ Zeyu Zhou, Yan Lin, Haomin Wen, Shengnan Guo, Jilin Hu, Youfang Lin, Huaiyu Wan

ឆ្នាំបោះពុម្ព៖ 2024 arXiv

វិស័យសិក្សា៖ Machine Learning

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ការរៀនពីគន្លងចលនាមានការលំបាកដោយសារទំហំនិងគុណភាពទិន្នន័យមានកម្រិត ចំណែកឯម៉ូដែលភាសាធម្មតា (Vanilla PLMs) មិនត្រូវបានរចនាឡើងដើម្បីចាប់យកលក្ខណៈពិសេសនៃពេលវេលានិងទីកន្លែង (Spatio-temporal features) ក៏ដូចជាគោលបំណងនៃការធ្វើដំណើរនោះទេ។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះបានស្នើឡើងនូវម៉ូដែល PLM4Traj ដែលជាវិធីសាស្ត្រមានភាពបត់បែន ដោយប្រើប្រាស់ម៉ូដែលភាសាដែលបានបង្វឹកជាមុន (PLMs) បញ្ចូលគ្នាជាមួយបច្ចេកទេសទាញយកអត្ថន័យទិន្នន័យចលនា។

ឧបករណ៍បញ្ចូលអត្ថន័យគន្លងចលនា (Trajectory Semantic Embedder) សម្រាប់បំប្លែងទិន្នន័យពេលវេលានិងទីតាំងទៅជាទម្រង់វ៉ិចទ័រដែល PLMs អាចយល់បាន។
ការបង្កើតពាក្យបញ្ជាគន្លងចលនា (Trajectory Prompt) ដើម្បីរួមបញ្ចូលគំរូចលនា គោលបំណង និងលក្ខណៈនៃទីកន្លែងចាប់អារម្មណ៍ (POI) ចូលទៅក្នុង PLMs។
យន្តការកែសម្រួលកិច្ចការជាក់លាក់ (Task-p-tuning mechanism) ដើម្បីសម្របម៉ូដែលទៅនឹងកិច្ចការផ្សេងៗដូចជា ការប៉ាន់ស្មានពេលវេលា និងការទស្សន៍ទាយគោលដៅ។
ការបង្វឹកសាកល្បងដោយការសាងសង់ឡើងវិញ (Cross-reconstruction Pretext Task) ដើម្បីបង្កើនសមត្ថភាពរៀនពីទិន្នន័យចលនា។

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ម៉ូដែល PLM4Traj ទទួលបានលទ្ធផលល្អជាងគេបំផុត (State-of-the-art) លើសំណុំទិន្នន័យពិតនៃទីក្រុង Chengdu និង Xi'an បើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រមុនៗ។
សម្រាប់ការទស្សន៍ទាយគោលដៅ (Destination Prediction) នៅក្រុង Chengdu ម៉ូដែលនេះទទួលបានភាពត្រឹមត្រូវ ACC@1 កម្រិត ៥៩,៥៩%។
សម្រាប់ការប៉ាន់ស្មានពេលវេលាធ្វើដំណើរ (Travel Time Estimation) នៅក្រុង Chengdu ម៉ូដែលនេះបានកាត់បន្ថយកំហុស (RMSE) មកត្រឹម ១១៥,០៧៩ វិនាទី ដែលបង្ហាញពីប្រសិទ្ធភាពខ្ពស់ក្នុងការយកទៅអនុវត្តលើកិច្ចការចម្រុះ។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
PLM4Traj (Proposed) ម៉ូដែលស្នើឡើង PLM4Traj (ប្រើប្រាស់ម៉ូដែលភាសា Pre-trained)	មានសមត្ថភាពខ្ពស់ក្នុងការទាញយកអត្ថន័យនៃគោលបំណងធ្វើដំណើរ និងលក្ខណៈនៃពេលវេលានិងទីតាំង (Spatio-temporal) ដោយប្រើប្រាស់ទិន្នន័យ POI និង Prompts។ អាចបត់បែនបានច្រើនកិច្ចការ។	ត្រូវការទិន្នន័យ POI សម្បូរបែប (ឈ្មោះ និងអាសយដ្ឋាន) ហើយអាចទាមទារថាមពលកុំព្យូទ័រខ្ពស់បន្តិច ទោះបីជាប្រើបច្ចេកទេស LoRA ក៏ដោយ។	ទទួលបានភាពត្រឹមត្រូវខ្ពស់ជាងគេ: ACC@1 ៥៩,៥៩% សម្រាប់ការទស្សន៍ទាយគោលដៅ (DP) និងកំហុសទាបបំផុត RMSE ១១៥,០៧ វិនាទី សម្រាប់ការប៉ាន់ស្មានពេលវេលា (TTE) នៅទីក្រុង Chengdu។
CTLE / Toast វិធីសាស្ត្រផ្អែកលើ Transformer និង Masked Language Model (MLM)	ប្រើប្រាស់ស្ថាបត្យកម្ម Transformer ទិសដៅពីរ (Bi-directional) ដែលអាចចាប់យកបរិបទនៃចលនាគន្លងបានល្អជាងម៉ូដែលជំនាន់មុនៗ។	មិនមានលទ្ធភាពក្នុងការប្រើប្រាស់ទិន្នន័យមុខងាររបស់ POI និងខកខានក្នុងការទាញយកលក្ខណៈពិសេសបន្តបន្ទាប់ (Continuous features) ធ្វើឱ្យសមត្ថភាពនៅមានកម្រិត។	ACC@1 ៥១,០០% (CTLE) និង ៥០,៨៩% (Toast) សម្រាប់ការទស្សន៍ទាយគោលដៅ នៅទីក្រុង Chengdu។
START / LightPath វិធីសាស្ត្រផ្អែកលើ Contrastive Learning	មានប្រសិទ្ធភាពក្នុងការរៀនពីបណ្តាញផ្លូវ និងទិន្នន័យក្រាហ្វ (Spatial graphs) តាមរយៈការប្រៀបធៀបគំរូទិន្នន័យខុសៗគ្នា។	នៅតែជួបការលំបាកក្នុងការវិភាគគោលបំណងពិតប្រាកដនៃការធ្វើដំណើរ ដោយសារមិនបានបញ្ចូលទិន្នន័យបរិយាយនៃទីកន្លែងចាប់អារម្មណ៍ (POIs) ជុំវិញគោលដៅ។	កំហុស RMSE ១២២,២០ វិនាទី (START) និង ១១៩,២៣ វិនាទី (LightPath) សម្រាប់ការប៉ាន់ស្មានពេលវេលាធ្វើដំណើរ នៅទីក្រុង Chengdu។
Traj2vec / T2vec / TremBR វិធីសាស្ត្រផ្អែកលើ RNN (Auto-encoding / Auto-regressive)	មានរចនាសម្ព័ន្ធសាមញ្ញ និងងាយស្រួលក្នុងការទាញយកលក្ខណៈមូលដ្ឋាននៃគន្លងចលនា តាមរយៈការបង្រួមនិងពង្រីកទិន្នន័យ (Auto-encoder)។	ខកខានក្នុងការចាប់យកព័ត៌មានលម្អិតនៃទីកន្លែងនិងពេលវេលា ហើយមិនអាចយល់ពីអត្ថន័យនៃគោលបំណងនៃការធ្វើដំណើរបានឡើយ។	ទទួលបានលទ្ធផលទាបជាងគេ: ACC@1 ត្រឹម ៤៣,០៧% (Traj2vec) សម្រាប់ការទស្សន៍ទាយគោលដៅ។

ការចំណាយលើធនធាន (Resource Cost)៖ ការសិក្សានេះតម្រូវឱ្យមានធនធានកុំព្យូទ័រនិងទិន្នន័យកម្រិតខ្ពស់ ជាពិសេសសម្រាប់បង្វឹកម៉ូដែលភាសាខ្នាតធំ (PLM) ក៏ដូចជាទិន្នន័យទីតាំងនិង POI ជាក់លាក់។

Hardware: ម៉ាស៊ីនមេ (Servers) ដំណើរការដោយ Ubuntu 22.04 ដែលមានស៊ីភីយូ Intel(R) Xeon(R) W-2155 និងកាតក្រាហ្វិកកម្រិតខ្ពស់ nVidia(R) TITAN RTX GPUs សម្រាប់ដំណើរការបង្វឹកម៉ូដែល។
Software & APIs: បណ្ណាល័យ PyTorch សម្រាប់ការសរសេរកូដម៉ូដែល, OpenStreetMap សម្រាប់ភ្ជាប់ទិន្នន័យទីតាំងទៅនឹងផែនទីផ្លូវពិតប្រាកដ, និង Amap APIs សម្រាប់ទាញយកឈ្មោះនិងអាសយដ្ឋានរបស់ POI។
Dataset: សំណុំទិន្នន័យតាក់ស៊ីពិតប្រាកដ (Didi trajectories) រាប់សែនគន្លង ដែលប្រមូលបានពីទីក្រុង Chengdu និង Xi'an រួមជាមួយនឹងទិន្នន័យ POI ក្បែរទីតាំងចេញដំណើរនិងគោលដៅ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើសំណុំទិន្នន័យតាក់ស៊ីពីទីក្រុងធំៗក្នុងប្រទេសចិន (Chengdu និង Xi'an) ដែលមានបណ្តាញផ្លូវខ្វាត់ខ្វែងច្បាស់លាស់ និងប្រព័ន្ធ POI សម្បូរបែប។ សម្រាប់ប្រទេសកម្ពុជា ទម្រង់នៃការធ្វើដំណើរមានភាពខុសគ្នា (មានម៉ូតូ រ៉ឺម៉កកង់បីច្រើនជាង) ហើយទិន្នន័យ POI នៅលើប្រព័ន្ធដូចជា Google Maps ឬ OSM អាចនៅមានភាពខ្វះចន្លោះ ដែលអាចធ្វើឱ្យម៉ូដែលនេះមានការធ្លាក់ចុះភាពត្រឹមត្រូវ ប្រសិនបើគ្មានការកែសម្រួលទិន្នន័យក្នុងស្រុក។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

ទោះបីជាមានបញ្ហាប្រឈមទាក់ទងនឹងទិន្នន័យក៏ដោយ វិធីសាស្ត្រនេះមានសក្តានុពលខ្ពស់ក្នុងការយកមកអនុវត្តដើម្បីកែលម្អប្រព័ន្ធដឹកជញ្ជូននិងឡូជីស្ទីកនៅកម្ពុជា។

ការគ្រប់គ្រងចរាចរណ៍ក្នុងរាជធានីភ្នំពេញ (Ride-hailing Apps): ក្រុមហ៊ុនដូចជា PassApp ឬ Grab អាចប្រើម៉ូដែលនេះដើម្បីទស្សន៍ទាយគោលដៅរបស់អ្នកដំណើរ និងពេលវេលាធ្វើដំណើរបានកាន់តែច្បាស់លាស់ ដោយផ្អែកលើប្រវត្តិនិងទីតាំង (POI) ដែលអាចជួយក្នុងការបែងចែកអ្នកបើកបរឲ្យមានប្រសិទ្ធភាព និងកាត់បន្ថយការកកស្ទះ។
ការរៀបចំផែនការទេសចរណ៍នៅខេត្តសៀមរាប: អាចប្រើដើម្បីវិភាគគំរូចលនារបស់ភ្ញៀវទេសចររវាងប្រាសាទនានា និងកន្លែងកម្សាន្ត (POIs) ដើម្បីជួយអាជ្ញាធរគ្រប់គ្រងលំហូរភ្ញៀវ និងស្នើរសុំផ្លូវធ្វើដំណើរដែលប្រសើរជាងមុន។
វិស័យដឹកជញ្ជូនទំនិញ និងចំណីអាហារ (Logistics & Delivery): ភ្នាក់ងារដឹកជញ្ជូន (ឧ. Nham24, Foodpanda, Virak Buntham) អាចយកមកប៉ាន់ស្មានម៉ោងដឹកជញ្ជូន (ETA) បានកាន់តែសុក្រឹត ស្របតាមទម្លាប់ចលនាចរាចរណ៍នៅតំបន់នីមួយៗក្នុងម៉ោងផ្សេងៗគ្នា។

សរុបមក ការអនុវត្តម៉ូដែលនេះទាមទារការប្រមូលទិន្នន័យទីកន្លែងចាប់អារម្មណ៍ (POI) និងទិន្នន័យចលនាឲ្យបានច្បាស់លាស់ជាមុនសិន ដើម្បីទទួលបានអត្ថប្រយោជន៍ពេញលេញសម្រាប់ការអភិវឌ្ឍហេដ្ឋារចនាសម្ព័ន្ធទីក្រុងឆ្លាតវៃនៅកម្ពុជា។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះនៃ PLMs និង LoRA: ចាប់ផ្តើមស្វែងយល់ពីរបៀបដំណើរការរបស់ម៉ូដែលភាសាដូចជា GPT-2 និងបច្ចេកទេស Low-Rank Adaptation (LoRA) ដោយប្រើប្រាស់ Hugging Face Transformers និងបណ្ណាល័យ PyTorch សម្រាប់ការកំណត់រចនាសម្ព័ន្ធម៉ូដែលខ្នាតធំដោយចំណាយធនធានតិច។
ប្រមូលនិងរៀបចំទិន្នន័យចលនាក្នុងស្រុក: ទាញយកទិន្នន័យគន្លង GPS បើកចំហ ឬសហការជាមួយក្រុមហ៊ុនសេវាកម្មកង់បីក្នុងស្រុក រួចធ្វើការផ្គូផ្គងទិន្នន័យទាំងនោះទៅលើផែនទីផ្លូវពិតដោយប្រើ OpenStreetMap (OSM) និងក្បួនដោះស្រាយ Leuven Map Matching។
បង្កើតមូលដ្ឋានទិន្នន័យ POI សម្រាប់កម្ពុជា: ប្រមូលព័ត៌មានទីកន្លែង (អាសយដ្ឋាន និងឈ្មោះតំបន់) ដោយប្រើប្រាស់ Google Places API ឬ Overpass API សម្រាប់ទីក្រុងធំៗ (ឧ. ភ្នំពេញ) ដើម្បីយកមកបញ្ចូលជាផ្នែក ⟨POI Part⟩ នៅក្នុង Trajectory Prompt នៃម៉ូដែល។
កែសម្រួលនិងបង្វឹកម៉ូដែល PLM4Traj: ក្លូនកូដពី GitHub (Zeru19/PLM4Traj) មកដំណើរការសាកល្បង។ កែសម្រួលអត្ថបទ Prompt ឱ្យស៊ីសង្វាក់នឹងបរិបទភាសាអង់គ្លេស/ខ្មែរ ហើយចាប់ផ្តើមបង្វឹកជាមុន (Pre-train) តាមរយៈកិច្ចការ Cross-reconstruction ជាមួយនឹងទិន្នន័យដែលបានរៀបចំរួច។
វាយតម្លៃនិងអនុវត្តលើកិច្ចការជាក់ស្តែង: ធ្វើការ Fine-tune ម៉ូដែលសម្រាប់កិច្ចការជាក់លាក់ដូចជា ការទស្សន៍ទាយគោលដៅ (Destination Prediction) ឫការព្យាករណ៍ម៉ោងទៅដល់ (ETA) និងវាយតម្លៃលទ្ធផលដោយប្រៀបធៀបជាមួយវិធីសាស្ត្រធម្មតា ដើម្បីកំណត់ភាពត្រឹមត្រូវមុននឹងដាក់ឲ្យប្រើប្រាស់ក្នុងកម្មវិធីជាក់ស្តែង។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Pre-trained Language Models (PLMs)	ម៉ូដែលបញ្ញាសិប្បនិម្មិតដែលត្រូវបានបង្វឹកជាមុនលើទិន្នន័យអត្ថបទយ៉ាងច្រើនសន្ធឹកសន្ធាប់ ដើម្បីយល់ពីទម្រង់និងអត្ថន័យនៃភាសា ដែលក្នុងការសិក្សានេះត្រូវបានយកមកប្រែសម្រួលនិងកែច្នៃដើម្បីឱ្យយល់ពីគន្លងនៃចលនា។	ដូចជាសិស្សដែលចេះអាននិងយល់សៀវភៅរាប់ពាន់ក្បាលរួចមកហើយ ពេលគេយកមកបង្រៀនពីការវិភាគផែនទីចលនាបន្ថែម គេអាចចាប់បានលឿនជាងសិស្សថ្មី។
Spatio-temporal Trajectories	សំណុំទិន្នន័យដែលកត់ត្រាពីទីតាំងរបស់វត្ថុឬមនុស្សណាមួយដែលផ្លាស់ទីក្នុងលំហភូមិសាស្ត្រ (Spatio) ជាមួយនឹងការបញ្ជាក់ពេលវេលាជាក់លាក់ (Temporal) ជាបន្តបន្ទាប់។	ដូចជាខ្សែគំនូសដែលបន្សល់ទុកនៅលើផែនទីពេលអ្នកបើក GPS ដែលប្រាប់ថាអ្នកនៅទីណា និងនៅម៉ោងប៉ុន្មាន។
Point of Interest (POI)	ទីតាំងជាក់លាក់ណាមួយនៅលើផែនទីដែលមានមុខងារឬសារៈសំខាន់ ដូចជា ភោជនីយដ្ឋាន មន្ទីរពេទ្យ ឬសាលារៀន ដែលជួយបញ្ជាក់ពីបរិបទនិងគោលបំណងនៃការធ្វើដំណើរនៅតំបន់នោះ។	ដូចជាស្លាកសញ្ញាសម្គាល់កន្លែងសំខាន់ៗនៅលើកម្មវិធី Google Maps ដែលប្រាប់ថាកន្លែងនោះជាអ្វីនិងមានឈ្មោះអ្វី។
Low-Rank Adaptation (LoRA)	បច្ចេកទេសមួយក្នុងការកែសម្រួលម៉ូដែលភាសាខ្នាតធំ (Fine-tuning) ដោយបន្ថែមកូដនិងប៉ារ៉ាម៉ែត្រថ្មីតែបន្តិចបន្តួចប៉ុណ្ណោះ ជំនួសឲ្យការផ្លាស់ប្តូរតម្លៃដើមទាំងស្រុង ដែលវាជួយសន្សំសំចៃថាមពលកុំព្យូទ័រនិងពេលវេលាបានយ៉ាងច្រើន។	ដូចជាការបំពាក់គ្រឿងបន្លាស់បន្ថែមបន្តិចបន្តួចទៅលើរថយន្តចាស់ ដើម្បីឱ្យវាអាចរត់ផ្លូវថ្មីបានដោយមិនបាច់រុះរើម៉ាស៊ីនចោលទាំងមូល។
Map Matching	ដំណើរការនៃការទាញយកទិន្នន័យចំណុច GPS ដែលអាចមានភាពល្អៀងឬលោតខុសទីតាំង យកទៅផ្គូផ្គងឱ្យចំខ្សែផ្លូវពិតប្រាកដនៅលើផែនទី។	ដូចជាការទាញខ្សែដែលកោងវៀចចេញពីផ្លូវ ឱ្យត្រលប់មកដេកចំពីលើគំនូសផ្លូវថ្នល់ពិតប្រាកដវិញ។
Cross-reconstruction Pretext Task	វិធីសាស្ត្របង្វឹកម៉ូដែលជាមុន (Pre-training) ដែលតម្រូវឱ្យម៉ូដែលទស្សន៍ទាយឬសាងសង់ព័ត៌មានដែលបាត់បង់ឡើងវិញ (ឧទាហរណ៍៖ ទស្សន៍ទាយ POI តាមរយៈចលនា ឬទស្សន៍ទាយចលនាតាមរយៈ POI) ដើម្បីឱ្យវាយល់ស៊ីជម្រៅពីទំនាក់ទំនងនៃទិន្នន័យមុននឹងអនុវត្តកិច្ចការជាក់ស្តែង។	ដូចជាការលេងល្បែងទាយពាក្យដែលគេលុបអក្សរខ្លះចោល ដើម្បីសាកល្បងថាតើអ្នកយល់ពីអត្ថន័យប្រយោគនោះច្បាស់កម្រិតណា។
Trajectory Prompt	ការបំប្លែងទិន្នន័យតួលេខនៃគន្លងចលនា និងព័ត៌មាន POI ទៅជាទម្រង់នៃប្រយោគអត្ថបទភាសាធម្មជាតិ ដើម្បីបញ្ចូលទៅឱ្យម៉ូដែលភាសា (PLM) អាចអាននិងយល់ពីលំនាំនៃការធ្វើដំណើរបាន។	ដូចជាការបកប្រែភាសាកូដកុំព្យូទ័រទៅជាភាសាមនុស្សនិយាយធម្មតា ដើម្បីឱ្យមនុស្សឬម៉ូដែលផ្សេងទៀតងាយស្រួលយល់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖