Original Title: 基于大语言模型的个性化作物水肥管理智能决策方法
Source: doi.org/10.12133/j.smartag.SA202410007
Disclaimer: Summary generated by AI based on the provided document. Please refer to the original paper for full scientific accuracy.

វិធីសាស្ត្រធ្វើសេចក្តីសម្រេចចិត្តឆ្លាតវៃសម្រាប់ការគ្រប់គ្រងទឹកនិងជីដំណាំផ្ទាល់ខ្លួនដោយផ្អែកលើម៉ូដែលភាសាធំ

ចំណងជើងដើម៖ 基于大语言模型的个性化作物水肥管理智能决策方法

អ្នកនិពន្ធ៖ WU Huarui (Information Technology Research Center, Beijing Academy of Agriculture and Forestry Sciences), LI Jingchen, YANG Yusen

ឆ្នាំបោះពុម្ព៖ 2025 Smart Agriculture

វិស័យសិក្សា៖ Smart Agriculture

១. សេចក្តីសង្ខេបប្រតិបត្តិ (Executive Summary)

បញ្ហា (The Problem)៖ ប្រព័ន្ធកសិកម្មច្បាស់លាស់បច្ចុប្បន្នខ្វះភាពបត់បែន និងសមត្ថភាពក្នុងការចាប់យកតម្រូវការផ្ទាល់ខ្លួន និងពហុគោលដៅរបស់កសិករ ដូចជាការថ្លឹងថ្លែងរវាងទិន្នផល កម្លាំងពលកម្ម និងការប្រើប្រាស់ធនធានទឹកនិងជី។

វិធីសាស្ត្រ (The Methodology)៖ ការសិក្សានេះស្នើឡើងនូវក្របខ័ណ្ឌថ្មីមួយដែលរួមបញ្ចូលដំណើរការភាសាធម្មជាតិ (NLP) តាមរយៈម៉ូដែលភាសាធំ (LLM) ជាមួយនឹងក្បួនដោះស្រាយ Proximal Policy Optimization (PPO) ក្នុងការរៀនពង្រឹង (Reinforcement Learning)។

ការទាញយកចំណូលចិត្តតាមរយៈកិច្ចសន្ទនាធម្មជាតិ (Natural Language Dialogue for Preference Extraction)
ការធ្វើឱ្យប្រសើរម៉ូដែលប្រឆាំងដើម្បីប៉ាន់ស្មានចំណូលចិត្តអ្នកប្រើប្រាស់ (Adversarial Fine-Tuning for User Preference Estimation)
ការបង្កើតរូបមន្តរង្វាន់សម្រាប់គោលដៅពហុបំណង (Multi-objective Reward Formulation)
ការរៀនពង្រឹងដោយប្រើក្បួនដោះស្រាយ PPO ក្នុងបរិស្ថានត្រាប់តាម gym-DSSAT (Reinforcement Learning via PPO in gym-DSSAT Environment)

លទ្ធផលសំខាន់ៗ (The Verdict)៖

ប្រព័ន្ធដែលប្រើ LLM រួមបញ្ចូលជាមួយ PPO ទទួលបានពិន្ទុរង្វាន់ស្តង់ដារ (Normalized Reward) លើសពី ០.៨ នៅត្រឹមវគ្គ (Episode) ទី ១៣០ ធៀបនឹងត្រឹមតែ ០.៤៥ ប៉ុណ្ណោះនៃវិធីសាស្ត្រមូលដ្ឋាន (Baseline)។
ម៉ូដែលនេះអាចកែតម្រូវយុទ្ធសាស្ត្រគ្រប់គ្រងជាក់ស្តែង ដោយកាត់បន្ថយចំនួនថ្ងៃស្រោចស្រពពី ១៥ ដង មកត្រឹម ១០ ដង សម្រាប់ការកំណត់ចំណូលចិត្តបែបមានតុល្យភាព (Balanced Preference)។
ការប្រើប្រាស់ LLM អនុញ្ញាតឱ្យមានការបំប្លែងដោយជោគជ័យនូវតម្រូវការកសិករ ទៅជាប៉ារ៉ាម៉ែត្របរិមាណច្បាស់លាស់ សម្រាប់ការធ្វើសេចក្តីសម្រេចចិត្តគ្រប់គ្រងដំណាំប្រកបដោយប្រសិទ្ធភាពនិងមានចីរភាព។

២. ការវិភាគលើប្រសិទ្ធភាព និងដែនកំណត់ (Performance & Constraints)

វិធីសាស្ត្រ (Method)	គុណសម្បត្តិ (Pros)	គុណវិបត្តិ (Cons)	លទ្ធផលគន្លឹះ (Key Result)
LLM + Multi-objective PPO (Proposed) ម៉ូដែលភាសាធំ (LLM) + ការធ្វើឱ្យប្រសើរគោលការណ៍ក្បែរៗគ្នាសម្រាប់គោលដៅច្រើន (PPO)	អាចទាញយកចំណូលចិត្តអ្នកប្រើប្រាស់តាមរយៈការសន្ទនាដោយធម្មជាតិ និងអាចកែសម្រួលយុទ្ធសាស្ត្រស្រោចស្រព ឬដាក់ជីបានបត់បែនតាមតម្រូវការជាក់ស្តែង។	ទាមទារធនធានកុំព្យូទ័រខ្ពស់សម្រាប់ការហ្វឹកហាត់ LLM និងការក្លែងធ្វើបរិស្ថានរៀនពង្រឹង (RL) ដែលប្រើប្រាស់ពេលវេលាយូរ។	ទទួលបានរង្វាន់ប្រក្រតីភាព (Normalized Reward) លើសពី ០.៨ ត្រឹមវគ្គទី ១៣០ នៃការហ្វឹកហាត់។
Standard PPO (Baseline) វិធីសាស្ត្រ PPO ស្តង់ដារ (វិធីសាស្ត្រមូលដ្ឋាន)	ងាយស្រួលក្នុងការអនុវត្ត និងចំណាយធនធានគណនាតិចជាង ដោយមិនចាំបាច់មានការចូលរួមពីម៉ូដែលភាសាធំ។	មិនអាចកែតម្រូវតាមចំណូលចិត្តផ្ទាល់ខ្លួនរបស់អ្នកប្រើប្រាស់បាន និងខ្វះភាពបត់បែនក្នុងការថ្លឹងថ្លែងគោលដៅផ្សេងៗគ្នា។	ទទួលបានរង្វាន់ប្រក្រតីភាពត្រឹមតែ ០.៤៥ ប៉ុណ្ណោះ ទោះបីជាបញ្ចប់ការហ្វឹកហាត់ទាំងស្រុងក៏ដោយ។

ការចំណាយលើធនធាន (Resource Cost)៖ ទោះបីជាឯកសារមិនបានបញ្ជាក់លម្អិតពីទំហំថវិកាក៏ដោយ ក៏ការអនុវត្តវិធីសាស្ត្រនេះទាមទារនូវធនធានផ្នែករឹងនិងសូហ្វវែរសម្រាប់ដំណើរការ AI ផងដែរ។

Hardware: ត្រូវការអង្គគណនា GPU ដែលមានសមត្ថភាពមធ្យមទៅខ្ពស់ សម្រាប់ដំណើរការនិងការហ្វឹកហាត់ម៉ូដែលភាសា Qwen-VL-Chat-Int4 ក៏ដូចជាការហ្វឹកហាត់ RL ។
Software: បរិស្ថានក្លែងធ្វើ gym-DSSAT និងបណ្ណាល័យ OpenAI stable-baselines សម្រាប់ការហ្វឹកហាត់ក្បួនដោះស្រាយ PPO ។
Dataset: ទិន្នន័យក្លែងធ្វើពីការលូតលាស់របស់ដំណាំ អាកាសធាតុ សីតុណ្ហភាព និងកម្រិតជាតិទឹកក្នុងដីពីប្រព័ន្ធ DSSAT ។

៣. ការពិនិត្យសម្រាប់បរិបទកម្ពុជា/អាស៊ីអាគ្នេយ៍

ភាពលំអៀងនៃទិន្នន័យ (Data Bias)៖

ការសិក្សានេះពឹងផ្អែកទាំងស្រុងលើទិន្នន័យក្លែងធ្វើចេញពីប្រព័ន្ធ gym-DSSAT ជំនួសឱ្យការធ្វើតេស្តជាក់ស្តែងនៅតាមវាលស្រែ។ សម្រាប់ប្រទេសកម្ពុជា ការយកមកអនុវត្តជាក់ស្តែងទាមទារឱ្យមានការប្រមូលទិន្នន័យអាកាសធាតុ កម្រិតទឹកភ្លៀង និងប្រភេទដីក្នុងស្រុក (ឧ. ដីល្បាប់នៅតំបន់ទន្លេសាប) ដើម្បីធានាថាម៉ូដែលនេះមានភាពសុក្រឹតខ្ពស់។

លទ្ធភាពនៃការអនុវត្ត (Applicability)៖

វិធីសាស្ត្រនេះមានសក្ដានុពលខ្ពស់ក្នុងការជួយផ្លាស់ប្តូរការគ្រប់គ្រងកសិកម្មនៅកម្ពុជា ពីការធ្វើតាមទម្លាប់ ទៅជាការសម្រេចចិត្តផ្អែកលើការថ្លឹងថ្លែងទិន្នផលនិងធនធាន។

សហគមន៍កសិកម្មបន្លែសុវត្ថិភាព (Safe Vegetable Farming Communities): តំបន់ដាំបន្លែនៅខេត្តកណ្តាល និងសៀមរាប អាចប្រើប្រាស់ប្រព័ន្ធនេះដើម្បីជួយកសិករថ្លឹងថ្លែងរវាងការចំណាយលើកម្លាំងពលកម្ម ទឹក និងការទទួលបានទិន្នផលអតិបរមា។
តំបន់ដាំដុះដំណាំសេដ្ឋកិច្ច (Cash Crop Regions): ខេត្តបាត់ដំបង និងបន្ទាយមានជ័យ (ពោត និងដំឡូងមី) អាចអនុវត្តវាដើម្បីកាត់បន្ថយការប្រើប្រាស់ជីគីមីលើសកម្រិត ដែលជួយសន្សំសំចៃថវិកានិងការពារគុណភាពដី។
ក្រុមហ៊ុនកសិ-បច្ចេកវិទ្យា (Agri-Tech Startups): ក្រុមហ៊ុនក្នុងស្រុកអាចសមាហរណកម្ម LLM នេះជាភាសាខ្មែរ (Chatbot) ដើម្បីឱ្យកសិករងាយស្រួលប្រាប់ពីតម្រូវការរបស់ខ្លួន និងទទួលបានកាលវិភាគស្រោចស្រពតាមទូរសព្ទដៃដោយស្វ័យប្រវត្តិ។

សរុបមក ការរួមបញ្ចូល LLM ជាមួយការរៀនពង្រឹង (RL) អាចបង្កើតជាកម្មវិធីប្រឹក្សាកសិកម្មដ៏ឆ្លាតវៃដែលអាចជួយកសិករកម្ពុជាកាត់បន្ថយចំណាយ និងបង្កើនទិន្នផលប្រកបដោយចីរភាព។

៤. ផែនការសកម្មភាពសម្រាប់និស្សិត (Actionable Roadmap)

ដើម្បីអនុវត្តតាមការសិក្សានេះ និស្សិតគួរអនុវត្តតាមជំហានខាងក្រោម៖

សិក្សាមូលដ្ឋានគ្រឹះកសិកម្មនិងការក្លែងធ្វើ: ស្វែងយល់ពីរបៀបប្រើប្រាស់ប្រព័ន្ធជំនួយស្មារតីកសិកម្ម DSSAT និងការតំឡើងបណ្ណាល័យ python gym-DSSAT ដើម្បីក្លែងធ្វើការលូតលាស់របស់ដំណាំ។
អភិវឌ្ឍជំនាញក្នុងការរៀនពង្រឹង (Reinforcement Learning): សិក្សាពីក្បួនដោះស្រាយការរៀនពង្រឹង ជាពិសេស PPO តាមរយៈការប្រើប្រាស់បណ្ណាល័យ OpenAI stable-baselines3 ដើម្បីហ្វឹកហាត់ភ្នាក់ងារឆ្លាតវៃ (Agent) ឱ្យចេះធ្វើសេចក្តីសម្រេចចិត្ត។
សាកល្បងនិងកែសម្រួលម៉ូដែលភាសាធំ: រៀនប្រើប្រាស់ និងកែសម្រួល (Fine-tune) ម៉ូដែលភាសាធំខ្នាតតូចដូចជា Qwen-VL-Chat-Int4 ឬ Llama-3 ដើម្បីបង្កើតជារបៀបសន្ទនាទាញយកចំណូលចិត្ត (Preference) របស់អ្នកប្រើប្រាស់។
បង្កើតបរិស្ថានសាកល្បងពហុគោលដៅ: សរសេរកូដបង្កើតរូបមន្តរង្វាន់ (Reward Function) ដែលថ្លឹងថ្លែងគោលដៅបីយ៉ាង៖ កំណើនទិន្នផលដំណាំ ការសន្សំសំចៃទឹក/ជី និងការកាត់បន្ថយកម្លាំងពលកម្ម។
សមាហរណកម្ម និងបង្កើតកម្មវិធីប្រើប្រាស់: ភ្ជាប់ API របស់ LLM ជាមួយម៉ូដែល RL ដែលបានហ្វឹកហាត់រួច ដើម្បីបង្កើតជា Web App ដែលអនុញ្ញាតឱ្យកសិករវាយបញ្ចូលតម្រូវការរបស់ពួកគេជាភាសាធម្មជាតិ និងទទួលបានការណែនាំត្រឡប់មកវិញភ្លាមៗ។

៥. វាក្យសព្ទបច្ចេកទេស (Technical Glossary)

ពាក្យបច្ចេកទេស	ការពន្យល់ជាខេមរភាសា (Khmer Explanation)	និយមន័យសាមញ្ញ (Simple Definition)
Large Language Model	កម្មវិធីបញ្ញាសិប្បនិម្មិតដែលត្រូវបានហ្វឹកហាត់លើទិន្នន័យអត្ថបទយ៉ាងច្រើនសន្ធឹកសន្ធាប់ ដើម្បីយល់និងបង្កើតភាសាធម្មជាតិដូចមនុស្ស។ ក្នុងឯកសារនេះ វាត្រូវបានប្រើដើម្បីសន្ទនាជាមួយកសិករ និងទាញយកចំណូលចិត្តរបស់ពួកគេសម្រាប់ការគ្រប់គ្រងដំណាំ។	ដូចជាជំនួយការឌីជីថលដ៏ឆ្លាតវៃដែលអាចនិយាយឆ្លើយឆ្លងជាមួយអ្នក និងយល់ពីតម្រូវការស្មុគស្មាញរបស់អ្នកបានយ៉ាងងាយស្រួល។
Proximal Policy Optimization	ជាក្បួនដោះស្រាយមួយក្នុងការរៀនពង្រឹង (Reinforcement Learning) ដែលបង្រៀនភ្នាក់ងារ AI ឱ្យចេះធ្វើសេចក្តីសម្រេចចិត្តបានល្អបំផុតតាមរយៈការសាកល្បងនិងកំហុស ដោយមានច្បាប់កំណត់ថាការកែតម្រូវយុទ្ធសាស្ត្រថ្មីមិនត្រូវឃ្លាតឆ្ងាយពីយុទ្ធសាស្ត្រចាស់ខ្លាំងពេកទេដើម្បីរក្សាស្ថិរភាពនៃការរៀនសូត្រ។	ដូចជាការរៀនជិះកង់ ដែលអ្នកព្យាយាមកែតម្រូវលំនឹងបន្តិចម្តងៗ ដោយមិនកាច់ចង្កូតខ្លាំងពេកភ្លាមៗដើម្បីកុំឱ្យដួល។
Multi-objective Reinforcement Learning	ជាវិធីសាស្ត្របង្ហាត់ AI ឱ្យចេះថ្លឹងថ្លែងនិងស្វែងរកដំណោះស្រាយដែលល្អបំផុតសម្រាប់គោលដៅច្រើនក្នុងពេលតែមួយ ឧទាហរណ៍ ការព្យាយាមបង្កើនទិន្នផលដំណាំឱ្យបានខ្ពស់បំផុត ស្របពេលដែលត្រូវសន្សំសំចៃទឹកនិងជីក្នុងពេលតែមួយ។	ដូចជាការដើរទិញអីវ៉ាន់ដែលអ្នកត្រូវប្រឹងប្រែងថ្លឹងថ្លែងរវាងការរកទិញរបស់ដែលមានគុណភាពល្អបំផុត ក្នុងតម្លៃដែលថោកបំផុត។
gym-DSSAT	ជាបរិស្ថានកម្មវិធីក្លែងធ្វើ (Simulation) បើកចំហ (Open-source) ដែលអនុញ្ញាតឱ្យគេធ្វើតេស្តសាកល្បងក្បួនដោះស្រាយបញ្ញាសិប្បនិម្មិតទៅលើការលូតលាស់របស់ដំណាំ ស្របតាមលក្ខខណ្ឌអាកាសធាតុនិងដី ដោយមិនចាំបាច់ធ្វើតេស្តផ្ទាល់នៅវាលស្រែពិតប្រាកដ និងចំណាយពេលរាប់ខែ។	ដូចជាវីដេអូហ្គេមកសិដ្ឋាន (ឧ. Harvest Moon) ដែលកុំព្យូទ័រអាចលេងដើម្បីរៀនពីរបៀបដាំដុះឱ្យបានទិន្នផលខ្ពស់មុននឹងយកទៅអនុវត្តផ្ទាល់។
Adversarial Fine-Tuning	ដំណើរការបំពាក់បំប៉នម៉ូដែល AI មួយដោយប្រើប្រាស់ម៉ូដែល AI មួយទៀតឱ្យដើរតួជាគូប្រជែង ឬជាអ្នកតេស្តសាកល្បង ដើម្បីធ្វើឱ្យម៉ូដែលទីមួយមានសមត្ថភាពស្មានចំណូលចិត្តអ្នកប្រើប្រាស់បានកាន់តែច្បាស់ និងសុក្រឹតជាងមុន។	ដូចជាការហ្វឹកហាត់ក្បាច់គុន ដោយមានដៃគូម្ខាងវាយលុក និងម្ខាងទៀតការពារ ដើម្បីឱ្យអ្នកទាំងពីរកាន់តែពូកែ។
Reward Function	រូបមន្តគណិតវិទ្យាដែលប្រើសម្រាប់ផ្តល់ពិន្ទុ (រង្វាន់ ឬពិន័យ) ដល់សកម្មភាពរបស់ AI ក្នុងពេលកំពុងហ្វឹកហាត់។ ប្រសិនបើ AI សម្រេចចិត្តស្រោចទឹកបានត្រឹមត្រូវនិងកើនទិន្នផល វាបានពិន្ទុបូក បើប្រើទឹកខ្ជះខ្ជាយ វាបានពិន្ទុដក។	ដូចជាការឱ្យស្ករគ្រាប់ទៅក្មេងពេលគេធ្វើល្អ និងការដកហូតប្រដាប់ក្មេងលេងពេលគេធ្វើខុស ដើម្បីឱ្យគេរៀនធ្វើទង្វើត្រឹមត្រូវ។
Pareto Optimization	ជាការស្វែងរកចំណុចតុល្យភាពដ៏ល្អមួយនៅក្នុងបញ្ហាពហុគោលដៅ ដែលនៅត្រង់ចំណុចនោះ អ្នកមិនអាចធ្វើឱ្យគោលដៅណាមួយប្រសើរឡើងទៀតនោះទេ លុះត្រាតែត្រូវធ្វើឱ្យគោលដៅមួយផ្សេងទៀតធ្លាក់ចុះ។	ដូចជាការចែកនំខេកមួយដុំឱ្យក្មេងពីរនាក់ ដែលអ្នកមិនអាចបន្ថែមចំណែកឱ្យម្នាក់ទៀតបានទេ ដោយមិនកាត់បន្ថយចំណែករបស់អ្នកម្ខាងទៀត។
Generalized Advantage Estimation	ជាវិធីសាស្ត្រគណនាក្នុងការរៀនពង្រឹង (RL) ដែលជួយប៉ាន់ស្មានថា តើសកម្មភាពមួយដែល AI បានជ្រើសរើស ផ្តល់ផលល្អជាងសកម្មភាពជាមធ្យមធម្មតាកម្រិតណា ដោយជួយកាត់បន្ថយភាពរំខាននៃទិន្នន័យ និងធ្វើឱ្យ AI រៀនបានលឿនជាងមុន។	ដូចជាគ្រូបង្វឹកដែលវាយតម្លៃថាតើក្បាច់ស៊ុតបាល់របស់អ្នកល្អជាងទម្លាប់ទាត់ធម្មតាប៉ុនណា ដើម្បីឱ្យអ្នកដឹងថាគួររក្សាក្បាច់នោះសម្រាប់ការប្រកួតក្រោយឬអត់។

៦. ប្រធានបទពាក់ព័ន្ធ (Further Reading)

អត្ថបទដែលបានបោះពុម្ពនៅលើ KhmerResearch ដែលទាក់ទងនឹងប្រធានបទនេះ៖

ប្រធានបទ និងសំណួរស្រាវជ្រាវដែលទាក់ទងនឹងឯកសារនេះ ដែលអ្នកអាចស្វែងរកបន្ថែម៖