真实任务验证 | OrbisAgent 文档

把能力做成 Skill 之前，先用一个真实、低风险、可复现的小任务跑一遍。这样团队能看清输入是否足够、输出能不能检查、失败状态是否可复测，以及哪些动作必须保留人工确认。

先跑真实任务

不要先写一份很长的万能说明。更稳的做法，是选择一个资料容易准备、结果容易判断、不会直接触发外部承诺的小任务，让 Agent 先完成一轮可检查输出。任务越小，越容易看出哪些步骤值得沉淀成 Skill。

任务

只选一个场景

例如询盘分级、商品卖点整理、买家跟进摘要、周复盘草稿或资料归档。

输入

只用一组资料

先准备一批可授权使用的资料，并写清来源、用途和不能自动执行的动作。

输出

必须能人工检查

输出要能被负责人判断是否采用，而不是只生成一段无法复核的泛泛建议。

四步验证链路

定义任务。把本次要解决的问题写成一句话，并限制在一个岗位、一个流程和一个输出物里。
提供真实输入。使用授权资料、样例表或真实界面摘要，让 Agent 面对接近实际工作的材料。
检查输出。用字段完整性、事实来源、风险提示、人工确认项和下一步动作判断结果是否可用。
复测失败状态。记录哪里卡住、哪里误判、缺了什么资料，并用单个问题重新跑一次，确认修正有效。

MVP 证据包

一次真实任务验证结束后，不需要保存所有过程材料。更有价值的是留下一个轻量证据包，证明这个任务为什么值得继续沉淀。

字段记录什么为什么重要

任务

本次最小可跑任务、目标岗位和预期输出。

避免把多个流程混在一起，导致无法判断效果。

输入

资料类型、授权状态、样本数量和缺口。

帮助下一次知道要准备什么资料。

输出

采用结果、需要修改的字段和人工确认项。

判断结果是否真的能进入工作流。

失败

卡点、误判、缺资料和单问题回归结果。

让修正可以被复测，而不是只停留在主观感受。

成本

模型、工具、时间和负责人确认成本是否可接受。

避免把一次能跑通但太重的流程误当成默认能力。

复查

D+7 是否继续复用，是否出现重复修正。

决定继续试跑、沉淀 Skill，还是先暂停。

什么时候沉淀成 Skill

不是每个能跑通的任务都应该立刻变成 Skill。只有当任务可重复、边界清楚、失败能复测、成本可接受，并且负责人知道哪些动作需要人工确认时，才适合继续沉淀。

候选

跑通一次

已经完成一个真实小任务，但还需要补字段、补样例或补边界。

试跑

能重复使用

同类任务可以再次运行，输入输出稳定，失败原因能被记录。

稳定

能复测改进

修正可以变成正例、负例或回归例，团队知道什么时候继续用、什么时候停下。

下一步

完成真实任务验证后，再决定是否补 Skill 字段、增加样例、整理模板或进入反馈闭环。这样沉淀出来的能力会更接近团队实际工作，而不是只停留在一段好看的说明。

Skill

高质量 Skill 设计

把真实任务中的输入、输出、步骤和验证规则整理成可复用能力。

复盘

反馈闭环

把人工修正、失败状态和七天复查沉淀成下一轮改进。

人审

人工确认规则

报价、外发、后台设置、预算、合同、付款和 CRM / OKKI 写入保持人工确认。

下一步

继续查看 Agent 编队和 Skill 能力地图，把概念对应到实际岗位角色与经营流程。

查看 Agent 编队查看 Skill 地图