《Hello Agents》学习笔记 Chapter-3

2025-11-13
7
2
0
2分钟

1 语言模型

语言模型的任务很简单：预测下一个词。
比如给它一句话“我今天吃了”，模型要猜下一个最可能是什么。它学的就是“在这种语境下，哪种词出现概率最高”。
最早的语言模型是基于统计的，比如 n-gram，只看前几个词就猜下一个，结果容易丢掉上下文信息。后来深度学习模型登场，能“记忆”更长的上下文，理解更复杂的语义。

2 Transformer

Transformer 架构是整个 LLM 的核心。
它的关键在“自注意力机制”（self-attention），让模型在处理一个词时能同时“看”到其他所有词。简单理解，就是句子里的每个词都能互相参考，比如在句子“猫坐在垫子上，它很舒服”里，模型能判断“它”更可能指“猫”而不是“垫子”。
有了这种结构，模型不再是线性处理文本，而是能从全局去理解关系。这也是为什么 GPT、BERT 等模型都用它。

3 预训练与微调

预训练阶段，模型在大量文本上学习语言规律，相当于打通用基础。
微调阶段，再让它针对特定任务（比如写作、代码、问答）去适应。
这跟人类的学习方式挺像的：先读书识字，再去做专业练习。

4 思考

部分主流模型在“卷规模”，也有模型厂商研发更高效的架构、更好的训练方式，而不是一味堆参数。我觉得大语言模型的“聪明”其实来自统计规律的极致发挥。它并不真的理解世界，而是非常擅长“预测语言中可能出现的模式”。
但这种能力已经够惊人了。能写诗、能写代码、能解释论文，这在几年前完全是想不到的。

如果觉得文章对你有用，请随意赞赏

《Hello Agents》学习笔记 Chapter-3

http://1.12.60.8:8090/archives/UwC3vk1J

作者

dongming

发布于

2025-11-13

更新于

2025-11-13

许可协议

CC BY 4.0

《Hello Agents》学习笔记 Chapter-3

1 语言模型

2 Transformer

3 预训练与微调

4 思考

作者

发布于

更新于

许可协议

评论