- 单元测试:使用内存模拟对象,隔离测试代理中小的、确定性的部分,以便快速、确定地断言确切行为。
- 集成测试:通过真实的网络调用测试代理,确认组件协同工作、凭据和模式匹配、以及延迟可接受。
- 评估:使用评估器来评估代理的执行轨迹,可以通过确定性匹配或 LLM 作为评判者。
单元测试
模拟聊天模型并使用内存持久化来测试代理逻辑,无需 API 调用。
集成测试
使用真实的 LLM API 测试您的代理。组织测试、管理密钥、处理波动性并控制成本。
评估
通过确定性匹配或 LLM 作为评判者的评估器来评估代理轨迹。
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

