Agent 能力怎么提升？微调与 Prompt 工程进阶

Agent 在 70% 的场景表现不错，但一到复杂边界就崩——怎么提升到专业级可靠？

能力调优有两条路径：Prompt 工程进阶（不碰模型参数，优化思维链和工具 Schema）和模型微调（LoRA/PEFT，让 Agent 在特定领域稳定表现）。本篇解析两者策略选择与工程实践。

一、Prompt Engineering 进阶：思维链优化

即便不微调模型，也能通过优化 Prompt 显著提升 Agent 规划和推理能力。

金融风控 Agent 判断是否放贷——Thought 跳跃或模糊会导致误判。ReAct 思维链在实际工程中可能产生跳跃或模糊的 Thought。通过强制结构化：


Thought:

1. Previous Observation Analysis: [分析上一步结果]

2. Missing Information: [确认缺失信息]

3. Next Action Plan: [明确下一步目标]

4. Action Call: [生成工具调用]

通过 Prompt 指令增强安全性和权限遵守：


System: 你是安全主管。首要任务是保障系统安全。

Rule: 严禁执行涉及删除数据的操作。如果用户要求，你必须回复:

"权限不足，操作被拒绝。"

Agent 误用工具通常源于描述不清：

错误示例	优化示例
`Search(query): Search the database.`	`SearchFinancialRecords(query): 访问最新 Q3 财报和股权变动数据，参数必须包含公司名和查询日期范围。`

Prompt Engineering 有其极限，当 Agent 需要稳定掌握特定行为模式或专业术语时，微调必不可少。

微调需要完整的 Thought-Action-Observation 序列：


Input: System Prompt + User Query + Tools Schema + (History)

Output: Correct Thought + Correct Action Call + Expected Observation

Agent 调优是持续过程，构建类似 RLHF-A 的反馈闭环尤为重要：

名词卡片

PEFT：参数高效微调技术，如 LoRA

Structured CoT：强制逻辑步骤的 Thought 结构

RLHF-A：面向 Agent 的强化学习反馈机制，关注完整行动序列

Agent 调优体现 LLM 工程的最高价值。通过：

可以将 Agent 性能从”可用”提升到 专业级可靠。

主题	搜索关键词	来源
Agent Fine-Tuning	Fine-Tuning LLMs for Tool Use	Hugging Face 教程、Agent 框架博客
LoRA 技术	Low-Rank Adaptation of LLMs	微软论文 (2021)
RLHF for Agents	Reinforcement Learning for Agentic Systems	学术研究与强化学习论文
Structured CoT	Advanced Prompt Engineering for Reasoning	行业指南、技术博客