什么是大语言模型（LLM）？用大白话讲清楚

你有没有想过，为什么 ChatGPT 能回答你关于量子力学的问题，还能帮你写一首藏头诗，甚至调出一段 Python 代码？这背后的核心技术，就是大语言模型（LLM，Large Language Model）。

今天我们用最通俗的语言，把这件事讲清楚。

一个超级书虫的比喻

想象一个人，从出生开始就疯狂阅读。他读了互联网上几乎所有的文字——维基百科、新闻、小说、论文、代码注释、电商评论……数量之大，就算你一秒读一个字，也要读几千年才能读完。

读完这些之后，他虽然没有”真正理解”每一件事，但他对语言的规律有了极其深刻的感觉。他知道”今天天气真”后面大概率跟着”好”或”差”，知道”一旦……就……”是个典型的条件句，知道写技术文档要用什么语气，写情书要用什么措辞。

这个超级书虫，就是大语言模型的一个直觉比喻。

LLM 的核心能力，说起来其实很简单：预测下一个 token（词或字）。

给它”今天天气真”，它预测下一个字最可能是”好”。

给它”def calculate_sum(a, b):“，它预测下一行是” return a + b”。

给它”请把下面这段话翻译成英语：“，它知道接下来应该输出翻译结果。

这个”预测下一个词”的任务，看起来很简单，但当你用海量数据反复训练之后，模型就不得不学会大量关于世界的知识——因为只有真正”理解”了上下文，才能准确预测下一个词。

GPT-4 据称有约 1.8 万亿个参数。参数是什么？

你可以把每个参数想象成一个小旋钮，控制着模型对某种模式的敏感程度。训练过程，就是通过看无数例子，把这 1.8 万亿个旋钮慢慢调到”最优”位置——让模型预测得越来越准。

调参数的过程叫梯度下降，本质上是：预测错了就微调旋钮，预测对了就保持。反复亿万次之后，这些旋钮就形成了一个能处理几乎任何语言任务的复杂系统。

这个训练过程需要大量的算力——GPT-4 的训练估计花费了数亿美元的计算资源，这也是为什么只有少数科技巨头才能训练最前沿的大模型。

很多人会问：LLM 是”语言”模型，为什么能写代码、做数学题、翻译外语？

答案是：这些都是模式补全。

这并不是说模型”真的懂”这些领域——它更像是一个极度精确的模式匹配机器，只不过这台机器足够强大，强大到看起来像是”理解”了。

很多人会把 LLM 的输出理解为”AI 在思考”。这是一个常见的误解。

LLM 不思考，它生成。它没有意识，没有感情，也没有目标。它做的事情，本质上是：根据输入的文字，用概率生成最合理的续写。

这就是为什么 LLM 有时候会”一本正经地胡说八道”——它只是在生成看起来合理的文字，而不是在核查事实。它不知道自己说错了，因为它根本没有”知道”的能力。

这也是为什么使用 LLM 时，批判性思维很重要。把它当工具，而不是权威。

了解 LLM 的原理，能帮你更聪明地使用它：

大语言模型是近十年来最重要的技术突破之一，正在重塑几乎每一个行业。搞懂它的原理，你就比大多数人多了一双看清这场变革的眼睛。