什么是 LLM？

一、定义

LLM 是 Large Language Model 的缩写，中文全称为 大语言模型。

它是一类基于深度学习技术构建的、规模极其庞大的人工智能模型。其核心能力是理解自然语言、生成自然语言文本，并在此基础之上展现出逻辑推理、知识问答、代码编写等复杂能力。

可以用一句话概括：

LLM 是一个通过海量文本数据训练出来的、能够以人类语言进行交互和推理的大型神经网络。

与传统的自然语言处理模型相比，LLM 具有三大核心特征：

参数规模大：模型中的参数（可以理解为神经元之间连接的"强度"或"记忆"）通常达到数十亿、数千亿乃至万亿级别。例如，GPT-3 有 1750 亿参数。
训练数据大：训练数据通常包含数万亿个字符（Token），涵盖书籍、网页、论文、代码、对话等几乎人类所有的公开文本。
算力消耗大：训练一个 LLM 需要数千甚至数万张高性能 GPU/TPU，电力和时间成本高达千万至数亿美元级别。

传统模型往往是"专用模型"：一个模型只能做一件事（比如垃圾邮件分类、情感分析、机器翻译）。
LLM 是"通用模型"：同一个模型，无需修改结构，即可完成对话、写作、翻译、总结、编程、数学推理等数十上百种不同任务。这种能力被称为涌现能力——当模型规模跨过某个阈值后，突然学会了未被专门训练过的技能。

LLM 的工作机制可以简化为三个层次：

训练阶段——填词大师的养成
- 在训练过程中，模型被不断地给出一段文本的上文，要求它预测下一个最可能出现的词。
- 通过在海量数据上反复进行这个"猜词"游戏，模型逐渐学会了语法、事实、逻辑、甚至某种程度的"常识"。
推理阶段——逐词生成
- 当你向 LLM 提问时，模型会根据你的输入，一步一步地逐个生成回答中的词语。
- 生成每个新词时，模型都会"回顾"已经生成的所有内容（包括你的问题和它自己已写出的回答），然后计算下一个词的概率分布，选择最合适的词输出。
- 如此循环，直到生成完整的回答。
背后的引擎——Transformer
- 所有现代 LLM 都基于一种叫做 Transformer 的神经网络架构。
- Transformer 的核心是自注意力机制。它允许模型在处理某个词时，动态地"关注"输入文本中所有其他词，并判断哪些词与当前词关系最紧密（比如主语和动词的关系、代词和名词的关系）。这使得模型能够真正"理解"上下文。

Transformer 架构衍生出三种主流范式，其中 Decoder-Only 是当前生成式 LLM 的绝对主流。

类别	Decoder-Only	Encoder-Only	Encoder-Decoder
注意力类型	掩码自注意力	双向自注意力	双向 + 掩码
核心能力	文本生成	语义理解	理解 + 生成
优势	生成流畅、训练高效	理解深度最强	对齐精度高
短板	理解精度略弱	无法生成	结构复杂、成本高
代表模型	GPT、DeepSeek、Llama	BERT	T5、BART
主流地位	当前生成式LLM绝对主流	主要用于NLP理解任务	适用于翻译/摘要等

维度	一句话概括
什么是 LLM	一个通过海量文本训练出来的、能够用人类语言对话的超大规模 AI 模型。
核心特征	大规模（参数量、数据量、算力）+ 通用性（一个模型做百种任务）
工作原理	训练时不断"猜下一个词"，推理时逐词生成，依赖 Transformer 的自注意力机制。
三大架构	Decoder-Only（生成主流）、Encoder-Only（理解）、Encoder-Decoder（对齐）
典型代表	GPT-4、DeepSeek、Gemini、Claude、Llama
主要局限	幻觉、知识过时、偏见、推理局限、高成本