最近在学 Datawhale 出的开源教程《Hello Agents》,感觉特别适合像我这样刚入门 agent应用开发的开发者。这篇笔记是我对第一章《初识智能体》的整理与理解,希望能帮自己理清思路,以后更好的进行回顾。
一、智能体到底是什么?
“智能体(Agent)”这个词很多人一开始听得有点懵,但这里可以举个形象的例子:
智能体就像一个能自己思考、感知、行动的“数字”。
它不是一个单纯的聊天机器人,而是一个能感知环境、制定计划、执行任务的系统。
比如一个AI助手可以:
读取用户输入(感知),
判断任务目标(思考),
然后去调用搜索、数据库或别的工具完成任务(行动)。
如果需要对上述的知识进行一个总结,我觉得就是这个公式:Agent = 感知 + 思考 + 行动。
二、为什么现在智能体这么火?
关键点是——大语言模型(LLM)让智能体“有了大脑”。
以前的智能体只能基于工程师的先验知识执行预设指令,现在的智能体能“理解语义”,甚至“规划多步任务”。
这就是为什么大家现在热衷研究 LLM Agent,因为它让 AI 从“被动工具”变成了“主动助手”。
三、智能体的基本组成
环境(Environment):Agent 生活的世界,比如网页、文件系统、数据库。
感知(Perception):Agent 从环境中获取信息。
决策(Decision Making):Agent 用语言模型或算法来“想办法”。
行动(Action):Agent 执行计划,比如调用 API、写文件、发消息。
有点像我们人类的思考过程——眼睛看(感知)、大脑想(决策)、手去做(行动)。
四、LLM 智能体的典型架构
LLM(大语言模型):作为 Agent 的“核心大脑”,负责理解和推理。
工具(Tools):让 Agent 具备操作能力,比如搜索、计算、联网等。
记忆(Memory):保存对话和任务的历史信息,让 Agent 能“记住”上下文。
计划器(Planner):帮助 Agent 制定多步执行计划。
五、智能体 vs 普通应用
普通应用是规则驱动的(程序员写死逻辑)。
智能体是目标驱动的(AI 自己决定怎么做)。
这让我想到未来软件的形态可能会完全不同:我们不是教机器“怎么做”,而是告诉它“要做什么”,然后它自己去想办法。
🧩 小结与思考
LLM 让这种智能体变得更自然、更强大,这也许正是下一波 AI 应用创新的起点。我本身在做Agent+硬件,
我期望着,Agent与物理世界的联系会越来越紧密。
评论