1 语言模型

语言模型的任务很简单:预测下一个词。
比如给它一句话“我今天吃了”,模型要猜下一个最可能是什么。它学的就是“在这种语境下,哪种词出现概率最高”。
最早的语言模型是基于统计的,比如 n-gram,只看前几个词就猜下一个,结果容易丢掉上下文信息。后来深度学习模型登场,能“记忆”更长的上下文,理解更复杂的语义。

2 Transformer

Transformer 架构是整个 LLM 的核心。
它的关键在“自注意力机制”(self-attention),让模型在处理一个词时能同时“看”到其他所有词。简单理解,就是句子里的每个词都能互相参考,比如在句子“猫坐在垫子上,它很舒服”里,模型能判断“它”更可能指“猫”而不是“垫子”。
有了这种结构,模型不再是线性处理文本,而是能从全局去理解关系。这也是为什么 GPT、BERT 等模型都用它。

3 预训练与微调

预训练阶段,模型在大量文本上学习语言规律,相当于打通用基础。
微调阶段,再让它针对特定任务(比如写作、代码、问答)去适应。
这跟人类的学习方式挺像的:先读书识字,再去做专业练习。

4 思考

部分主流模型在“卷规模”,也有模型厂商研发更高效的架构、更好的训练方式,而不是一味堆参数。我觉得大语言模型的“聪明”其实来自统计规律的极致发挥。它并不真的理解世界,而是非常擅长“预测语言中可能出现的模式”。
但这种能力已经够惊人了。能写诗、能写代码、能解释论文,这在几年前完全是想不到的。