跳到主要内容

怎么判断自己不是只学会了名词

我不用“看过了”当完成标准

HelloAgents 这种教程最容易制造一种假进步:你会说工具、记忆、上下文、评估这些词了,也能复述几段原话,但真到自己搭系统时还是不知道该怎么取舍。

所以我更愿意用一组硬问题做自检。

如果这些问题答不出来,我就默认自己只是“看过了”,还没有学会。

第一组:工具调用

我至少要能回答下面三个问题:

  1. 为什么工具结果不能只在当前函数里消费,而要回到下一轮决策上下文里
  2. 一个工具设计得太大、太万能,会怎么伤害模型选择
  3. 如果一个任务老是工具连调失败,我先查工具描述、输入结构,还是模型本身

如果我只能说“Agent 可以调用外部工具”,那还不算学会。

第二组:上下文工程

这部分我要求自己能讲清:

  1. 当前轮模型真正看到的上下文由哪几类信息组成
  2. 为什么不是历史越全越好
  3. 工具结果、用户历史、系统规则冲突时,应该先怀疑哪一层的组织方式

只会说“上下文很重要”,没有任何判断价值。

第三组:记忆

我会用一个很直接的问题检查自己:

如果我现在要给 Agent 增加记忆,我能不能先说清“什么该记、什么时候取、取回来给谁用”。

如果说不清这一点,所谓“加记忆”通常只是把更多历史一股脑塞回模型,而不是在做真正的记忆设计。

第四组:评估

这部分我最看重的不是你会不会说 benchmark 或指标名,而是你能不能把评估和改进动作连起来。

我会逼自己回答:

  1. 这个 Agent 现在最容易在哪一步失败
  2. 我准备如何构造一个能稳定复现这个失败的样例
  3. 如果评估分数变差,我下一步会改哪一层

如果这三步连不起来,评估就只是装饰。

一份最小通过标准

如果学完一轮后,我能做到下面这几件事,我才会认为自己不是只学了名词:

  • 能画出一个最小 Agent 闭环,说明用户输入、模型决策、工具调用、结果回写是怎么流动的
  • 能说清上下文和记忆不是一回事
  • 能指出一个失败案例更像工具问题、上下文问题,还是评估没跟上的问题
  • 能把至少一个模块转成自己的项目检查项

最后一个更狠的检查

如果让我现在不用教程原话,只用自己的语言给别人讲 5 分钟:

  • 为什么 Agent 不等于 prompt 包装器
  • 为什么上下文组织比“多给点信息”更重要
  • 为什么记忆不是越长越好

我讲不出来,就说明我还没真正消化。