怎么判断自己不是只学会了名词
- 来源:https://datawhalechina.github.io/hello-agents/
- 参考仓库:https://github.com/datawhalechina/hello-agents
我不用“看过了”当完成标准
HelloAgents 这种教程最容易制造一种假进步:你会说工具、记忆、上下文、评估这些词了,也能复述几段原话,但真到自己搭系统时还是不知道该怎么取舍。
所以我更愿意用一组硬问题做自检。
如果这些问题答不出来,我就默认自己只是“看过了”,还没有学会。
第一组:工具调用
我至少要能回答下面三个问题:
- 为什么工具结果不能只在当前函数里消费,而要回到下一轮决策上下文里
- 一个工具设计得太大、太万能,会怎么伤害模型选择
- 如果一个任务老是工具连调失败,我先查工具描述、输入结构,还是模型本身
如果我只能说“Agent 可以调用外部工具”,那还不算学会。
第二组:上下文工程
这部分我要求自己能讲清:
- 当前轮模型真正看到的上下文由哪几类信息组成
- 为什么不是历史越全越好
- 工具结果、用户历史、系统规则冲突时,应该先怀疑哪一层的组织方式
只会说“上下文很重要”,没有任何判断价值。
第三组:记忆
我会用一个很直接的问题检查自己:
如果我现在要给 Agent 增加记忆,我能不能先说清“什么该记、什么时候取、取回来给谁用”。
如果说不清这一点,所谓“加记忆”通常只是把更多历史一股脑塞回模型,而不是在做真正的记忆设计。
第四组:评估
这部分我最看重的不是你会不会说 benchmark 或指标名,而是你能不能把评估和改进动作连起来。
我会逼自己回答:
- 这个 Agent 现在最容易在哪一步失败
- 我准备如何构造一个能稳定复现这个失败的样例
- 如果评估分数变差,我下一步会改哪一层
如果这三步连不起来,评估就只是装饰。
一份最小通过标准
如果学完一轮后,我能做到下面这几件事,我才会认为自己不是只学了名词:
- 能画出一个最小 Agent 闭环,说明用户输入、模型决策、工具调用、结果回写是怎么流动的
- 能说清上下文和记忆不是一回事
- 能指出一个失败案例更像工具问题、上下文问题,还是评估没跟上的问题
- 能把至少一个模块转成自己的项目检查项
最后一个更狠的检查
如果让我现在不用教程原话,只用自己的语言给别人讲 5 分钟:
- 为什么 Agent 不等于 prompt 包装器
- 为什么上下文组织比“多给点信息”更重要
- 为什么记忆不是越长越好
我讲不出来,就说明我还没真正消化。