构建大型语言模型（从头开始）第一章了解大型语言模型

本章涵盖

大型语言模型（LLM）背后的基本概念的高级解释
深入了解 LLM 的 transformer 架构，例如 ChatGPT 平台上使用的 LLM
从头开始构建 LLM 的计划

大型语言模型（LLM），例如 OpenAI 的 ChatGPT 中提供的模型，是过去几年开发的深度神经网络模型。他们开创了自然语言处理（NLP）的新时代。在大型语言模型出现之前，传统方法擅长分类任务，例如垃圾邮件分类和简单的模式识别，这些任务可以通过手工制作的规则或更简单的模型来捕获。然而，他们通常在需要复杂理解和生成能力的语言任务中表现不佳，例如解析详细说明、进行上下文分析或创建连贯且适合上下文的原始文本。例如，前几代语言模型无法从关键字列表中编写电子邮件，这对于当代 LLM 来说是一项微不足道的任务。

LLM 具有理解、生成和解释人类语言的非凡能力。然而，重要的是要澄清，当我们说语言模型“理解”时，我们的意思是它们可以以看起来连贯和上下文相关的方式处理和生成文本，而不是它们拥有类似人类的意识或理解。

深度学习是专注于神经网络的机器学习和人工智能（AI）的一个子集，在深度学习的进步的支持下，LLM 在大量文本数据上进行训练。与以前的方法相比，这使得 LLM 能够捕获更深层次的上下文信息和人类语言的微妙之处。因此，LLM 在广泛的 NLP 任务中显着提高了性能，包括文本翻译、情感分析、问答等等。

当代 LLM 和早期 NLP 模型之间的另一个重要区别是，这些早期的 NLP 模型通常是为特定任务而设计的，例如文本分类、语言翻译等。虽然那些早期的 NLP 模型在狭窄的应用中表现出色，但 LLM 在广泛的 NLP 任务中表现出更广泛的熟练程度。

LLM 背后的成功可以归因于支撑许多 LLM 的 transformer 架构，以及 LLM 训练的大量数据，使它们能够捕获各种语言细微差别、上下文和模式，而手动编码具有挑战性。

这种向基于 transformer 架构实现模型并使用大型训练数据集来训练 LLM 的转变从根本上改变了 NLP，为理解人类语言和与人类语言交互提供了更强大的工具。

从本章开始，我们为实现本书的主要目标奠定了基础：通过在代码中逐步实现基于 transformer 架构的类似 ChatGPT 的 LLM 来理解 LLM。

1.1 什么是LLM？

LLM 是一种大型语言模型，是一种神经网络，旨在理解、生成和响应类似人类的文本。这些模型是在大量文本数据上训练的深度神经网络，有时包含互联网上整个公开文本的大部分。

大型语言模型中的“大”既指模型的参数大小，也指训练模型所依据的庞大数据集。像这样的模型通常有数百亿甚至数千亿个参数，这些参数是网络中可调整的权重，在训练期间进行优化，以预测序列中的下一个单词。下一个单词预测是明智的，因为它利用语言固有的顺序性质来训练模型来理解文本中的上下文、结构和关系。然而，这是一项非常简单的任务，因此许多研究人员对它能够产生如此强大的模型感到惊讶。我们将在后面的章节中逐步讨论和实施下一个单词的训练程序。

LLM 使用一种称为 transformer 的架构（在第 1.4 节中有更详细的介绍），这允许他们在进行预测时有选择地关注输入的不同部分，使他们特别擅长处理人类语言的细微差别和复杂性。

由于 LLM 能够生成文本，因此 LLM 通常也被称为生成式人工智能（AI）的一种形式，通常缩写为生成式 AI 或 GenAI。如图 1.1 所示，人工智能涵盖了创建机器的更广泛领域，这些机器可以执行需要类似人类智能的任务，包括理解语言、识别模式和做出决策，并包括机器学习和深度学习等子领域。

图 1.1 正如对不同领域之间关系的分层描述所表明的那样，LLM 代表了深度学习技术的特定应用，利用它们处理和生成类似人类文本的能力。深度学习是机器学习的一个专门分支，专注于使用多层神经网络。机器学习和深度学习是旨在实现算法的领域，这些算法使计算机能够从数据中学习并执行通常需要人类智能的任务。

用于实现人工智能的算法是机器学习领域的重点。具体来说，机器学习涉及算法的开发，这些算法可以从数据中学习并根据数据做出预测或决策，而无需明确编程。为了说明这一点，将垃圾邮件过滤器想象成机器学习的实际应用。机器学习算法不是手动编写规则来识别垃圾邮件，而是提供标记为垃圾邮件和合法电子邮件的电子邮件示例。通过最小化其对训练数据集的预测误差，该模型可以学习识别指示垃圾邮件的模式和特征，使其能够将新电子邮件分类为垃圾邮件或合法电子邮件。

如图 1.1 所示，深度学习是机器学习的一个子集，专注于利用具有三层或更多层的神经网络（也称为深度神经网络）来对数据中的复杂模式和抽象进行建模。与深度学习相比，传统的机器学习需要手动提取特征。这意味着人类专家需要识别和选择与模型最相关的特征。

虽然人工智能领域现在以机器学习和深度学习为主，但它也包括其他方法，例如，使用基于规则的系统、遗传算法、专家系统、模糊逻辑或符号推理。

回到垃圾邮件分类示例，在传统的机器学习中，人类专家可能会手动从电子邮件文本中提取特征，例如某些触发词（“奖品”、“获胜”、“免费”）的频率、感叹号的数量、所有大写单词的使用或是否存在可疑链接。然后，基于这些专家定义的特征创建的数据集将用于训练模型。与传统的机器学习相比，深度学习不需要手动提取特征。这意味着人类专家不需要识别和选择与深度学习模型最相关的特征。（但是，在传统的机器学习和垃圾邮件分类的深度学习中，您仍然需要收集标签，例如垃圾邮件或非垃圾邮件，这些标签需要由专家或用户收集。

接下来的章节将涵盖 LLM 今天可以解决的一些问题、LLM 解决的挑战，以及我们将在本书中实现的一般 LLM 架构。

1.2 LLM的应用

由于其解析和理解非结构化文本数据的高级功能，LLM 在各个领域都有广泛的应用。今天，LLM 被用于机器翻译、新文本生成（见图 1.2）、情感分析、文本摘要和许多其他任务。LLM 最近被用于内容创作，例如撰写小说、文章，甚至计算机代码。

图 1.2 LLM 接口支持用户和 AI 系统之间的自然语言通信。这张截图显示了 ChatGPT 根据用户的规格写一首诗。

LLM 还可以为复杂的聊天机器人和虚拟助手提供支持，例如 OpenAI 的 ChatGPT 或 Google 的 Gemini（以前称为 Bard），它们可以回答用户查询并增强传统搜索引擎，例如 Google 搜索或 Microsoft Bing。

此外，LLM可用于从医学或法律等专业领域的大量文本中有效地检索知识。这包括筛选文档、总结冗长的段落和回答技术问题。

简而言之，LLM 对于自动化几乎所有涉及解析和生成文本的任务都是无价的。它们的应用几乎是无穷无尽的，随着我们不断创新和探索使用这些模型的新方法，很明显，LLM 有可能重新定义我们与技术的关系，使其更具对话性、直观性和可访问性。

在本书中，我们将重点了解 LLM 是如何从头开始工作的，编写一个可以生成文本的 LLM。我们还将学习允许 LLM 执行查询的技术，从回答问题到总结文本、将文本翻译成不同语言等等。换句话说，在本书中，我们将通过逐步构建来了解 ChatGPT 等复杂的 LLM 助手是如何工作的。

1.3 构建和使用 LLM 的阶段

我们为什么要建立自己的LLM？从头开始编写 LLM 代码是了解其机制和局限性的绝佳练习。此外，它还为我们提供了预训练或微调现有开源 LLM 架构所需的知识，以适应我们自己的特定领域数据集或任务。

研究表明，在建模性能方面，定制的 LLM（为特定任务或领域量身定制的 LLM）可以胜过通用 LLM，例如 ChatGPT 提供的 LLM，后者专为各种应用程序而设计。这方面的例子包括专门用于金融的 BloombergGPT，以及为医学问题解答量身定制的 LLM（有关详细信息，请参阅附录 B 中的“进一步阅读和参考”部分）。

使用定制的 LLM 有几个优势，特别是在数据隐私方面。例如，出于保密考虑，公司可能不愿与OpenAI等第三方LLM提供商共享敏感数据。此外，开发自定义 LLM 可以直接部署在客户设备上，例如笔记本电脑和智能手机，这是 Apple 等公司目前正在探索的事情。这种本地实现可以显著降低延迟并降低与服务器相关的成本。此外，自定义 LLM 赋予开发人员完全的自主权，允许他们根据需要控制对模型的更新和修改。

创建 LLM 的一般过程包括预训练和微调。“预训练”中的术语“预”是指在大型、多样化的数据集上训练像 LLM 这样的模型以发展对语言的广泛理解的初始阶段。然后，这个预训练的模型作为一个基础资源，可以通过微调进一步完善，在这个过程中，模型在更窄的数据集上进行专门训练，该数据集更特定于特定任务或领域。这种由预训练和微调组成的两阶段训练方法如图 1.3 所示。

图 1.3 LLM 的预训练涉及对大型文本数据集的下一个单词预测。然后，可以使用较小的标记数据集对预训练的 LLM 进行微调。

如图 1.3 所示，创建 LLM 的第一步是在大量文本数据（有时称为原始文本）上对其进行训练。在这里，“原始”是指这些数据只是没有任何标签信息的常规文本 [1].（可以应用筛选，例如删除未知语言的格式字符或文档。

LLM 的第一个训练阶段也称为预训练，创建初始预训练 LLM，通常称为基础模型或基础模型。这种模型的一个典型例子是 GPT-3 模型（ChatGPT 中提供的原始模型的前身）。该模型能够完成文本，即完成用户提供的半写句子。它还具有有限的小样本功能，这意味着它可以仅根据几个示例学习执行新任务，而不需要大量的训练数据。这将在下一节“变压器架构简介”中进一步说明。

在通过对大型文本数据集的训练获得预训练的 LLM 后，其中 LLM 被训练为预测文本中的下一个单词，我们可以在标记数据上进一步训练 LLM，也称为微调。

微调 LLM 的两个最流行的类别包括指令微调和分类任务的微调。在指令微调中，标记的数据集由指令和答案对组成，例如用于翻译文本的查询以及正确翻译的文本。在分类微调中，标记的数据集由文本和关联的类标签组成，例如，与垃圾邮件和非垃圾邮件标签关联的电子邮件。

在本书中，我们将介绍预训练和微调 LLM 的代码实现，并且在预训练基础 LLM 之后，我们将在本书后面更深入地探讨指令微调和微调分类的细节。

1.4 transformer 架构介绍

大多数现代 LLM 都依赖于 transformer 架构，这是 2017 年论文 Attention Is All You Need 中介绍的深度神经网络架构。为了理解 LLM，我们必须简要回顾一下最初的 transformer，它最初是为机器翻译而开发的，将英语文本翻译成德语和法语。变压器架构的简化版本如图 1.4 所示。

图 1.4 原始 transformer 架构的简化描述，这是一种用于语言翻译的深度学习模型。转换器由两部分组成，一个编码器处理输入文本并生成文本的嵌入表示（一种在不同维度上捕获许多不同因素的数字表示），解码器可以使用该表示来一次生成一个单词的翻译文本。请注意，此图显示了翻译过程的最后阶段，解码器只需生成最后一个单词（“Beispiel”），给定原始输入文本（“This is an example”）和部分翻译的句子（“Das ist ein”），即可完成翻译。

图 1.4 中描述的变压器架构由两个子模块组成，一个编码器和一个解码器。编码器模块处理输入文本，并将其编码为一系列数字表示或向量，以捕获输入的上下文信息。然后，解码器模块获取这些编码的向量并从中生成输出文本。例如，在翻译任务中，编码器将源语言中的文本编码为向量，解码器将对这些向量进行解码以生成目标语言的文本。编码器和解码器都由许多层组成，这些层通过所谓的自注意力机制连接起来。对于如何预处理和编码输入，您可能有很多疑问。这些将在后续章节中逐步实现。

Transformer 和 LLM 的一个关键组件是自注意力机制（未显示），它允许模型权衡序列中不同单词或标记相对于彼此的重要性。这种机制使模型能够捕获输入数据中的长期依赖关系和上下文关系，从而增强其生成连贯且上下文相关的输出的能力。但是，由于其复杂性，我们将把解释推迟到第 3 章，在那里我们将逐步讨论和实施它。此外，我们还将在第 2 章“使用文本数据”中讨论和实现数据预处理步骤以创建模型输入。

转换器架构的后期变体，例如所谓的 BERT（来自转换器的双向编码器表示的缩写）和各种 GPT 模型（生成式预训练转换器的缩写），都基于这个概念构建，以使该架构适应不同的任务。（参考文献见附录B。

BERT 建立在原始 transformer 的编码器子模块之上，其训练方法与 GPT 不同。虽然 GPT 是为生成任务而设计的，但 BERT 及其变体专门用于掩码词预测，其中模型预测给定句子中的掩码或隐藏词，如图 1.5 所示。这种独特的训练策略使 BERT 在文本分类任务（包括情感预测和文档分类）方面具有优势。作为其功能的应用，在撰写本文时，Twitter 使用 BERT 来检测有毒内容。

图 1.5 变压器编码器和解码器子模块的可视化表示。在左侧，编码器段举例说明了类似 BERT 的 LLM，它专注于掩码词预测，主要用于文本分类等任务。在右侧，解码器部分展示了类似 GPT 的 LLM，专为生成任务和生成连贯的文本序列而设计。

另一方面，GPT 专注于原始 transformer 架构的解码器部分，专为需要生成文本的任务而设计。这包括机器翻译、文本摘要、小说写作、编写计算机代码等。我们将在本章的其余部分更详细地讨论 GPT 架构，并在本书中从头开始实现它。

GPT 模型主要设计和训练用于执行文本完成任务，其功能也显示出显着的多功能性。这些模型擅长执行零样本和少样本学习任务。零样本学习是指在没有任何事先具体示例的情况下推广到完全看不见的任务的能力。另一方面，小样本学习涉及从用户提供的最小数量的示例中学习作为输入，如图 1.6 所示。

图 1.6 除了文本补全之外，类 GPT 的 LLM 还可以根据其输入解决各种任务，而无需重新训练、微调或特定于任务的模型架构更改。有时，在输入中提供目标示例会很有帮助，这称为几发设置。然而，类似 GPT 的 LLM 也能够在没有特定示例的情况下执行任务，这称为零样本设置。

TRANSFORMER 与 LLM

今天的 LLM 基于上一节中介绍的 transformer 架构。因此，transformers 和 LLM 是文献中经常使用的同义词。但是，请注意，并非所有 transformer 都是 LLM，因为 transformer 也可用于计算机视觉。此外，并非所有 LLM 都是转换器，因为存在基于递归和卷积架构的大型语言模型。这些替代方法背后的主要动机是提高 LLM 的计算效率。然而，这些替代的 LLM 架构是否能够与基于 transformer 的 LLM 的功能竞争，以及它们是否会在实践中被采用还有待观察。为简单起见，本书使用术语“LLM”来指代类似于 GPT 的基于 transformer 的 LLM。（有兴趣的读者可以在本章末尾的“进一步阅读”部分找到描述这些架构的文献参考。

1.5 利用大型数据集

流行的 GPT 和 BERT 类模型的大型训练数据集代表了包含数十亿个单词的多样化和全面的文本语料库，其中包括大量主题以及自然语言和计算机语言。为了提供一个具体的例子，表 1.1 总结了用于预训练 GPT-3 的数据集，该数据集是 ChatGPT 第一版的基础模型。

表 1.1 流行的 GPT-3 LLM 的预训练数据集

数据集名称	数据集说明	代币数量	训练数据中的比例
CommonCrawl（已筛选）	网页爬网数据	4100亿	60%
WebText2	网页爬网数据	190亿	22%
Books1	基于互联网的图书语料库	120亿	8%
Books2	基于互联网的图书语料库	550亿	8%
Wikipedia	高质量的文本	30亿	3%

表 1.1 报告了标记的数量，其中标记是模型读取的文本单位，数据集中的标记数量大致等于文本中的单词数和标点符号数。我们将在下一章中更详细地介绍标记化，即将文本转换为标记的过程。

主要结论是，这个训练数据集的规模和多样性使这些模型能够在各种任务上表现良好，包括语言语法、语义和上下文，甚至一些需要一般知识的任务。

GPT-3 数据集详细信息

表 1.1 显示了用于 GPT-3 的数据集。表中的比例列对抽样数据的总和高达 100%，并针对舍入误差进行了调整。尽管“代币数量”列中的子集总数为 5090 亿个，但该模型仅在 3000 亿个代币上进行了训练。GPT-3 论文的作者没有具体说明为什么该模型没有在所有 5090 亿个代币上进行训练。

对于上下文，请考虑 CommonCrawl 数据集的大小，仅该数据集就包含 4100 亿个令牌，需要大约 570 GB 的存储空间。相比之下，GPT-3 等模型的后期迭代，例如 Meta 的 LLaMA，已经扩大了它们的训练范围，包括额外的数据源，如 Arxiv 研究论文（92 GB）和 StackExchange 的代码相关问答（78 GB）。

GPT-3 论文的作者没有分享训练数据集，但公开可用的可比数据集是 Dolma：Soldaini 等人 2024 年（https://arxiv.org/abs/2402.00159） 的用于 LLM 预训练研究的三万亿个代币的开放语料库。但是，该集合可能包含受版权保护的作品，确切的使用条款可能取决于预期的用例和国家/地区。

这些模型的预训练特性使它们具有令人难以置信的通用性，可用于进一步微调下游任务，这就是为什么它们也被称为基础模型或基础模型的原因。预训练 LLM 需要访问大量资源，并且非常昂贵。例如，就云计算积分而言，GPT-3 预训练成本估计为 460 万美元 [2].

好消息是，许多预训练的 LLM（作为开源模型提供）可以用作通用工具，用于编写、提取和编辑不属于训练数据的文本。此外，LLM 可以在数据集相对较小的特定任务上进行微调，从而减少所需的计算资源并提高特定任务的性能。

在本书中，我们将实现用于预训练的代码，并使用它来预训练用于教育目的的 LLM。所有计算都可以在消费类硬件上执行。在实现预训练代码之后，我们将学习如何重用公开可用的模型权重，并将它们加载到我们将要实现的架构中，这样我们就可以在本书后面微调 LLM 时跳过昂贵的预训练阶段。

1.6 深入了解 GPT 架构

在本章的前面，我们提到了类 GPT 模型、GPT-3 和 ChatGPT 这两个术语。现在让我们仔细看看通用的 GPT 架构。首先，GPT 代表 Generative Pretrained Transformer，最初在以下论文中介绍：

通过生成式预训练提高语言理解 （2018）作者：Radford 等人，来自 OpenAI，http://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

GPT-3 是该模型的放大版本，具有更多参数并在更大的数据集上进行训练。ChatGPT 提供的原始模型是通过使用 OpenAI 的 InstructGPT 论文中的方法在大型指令数据集上微调 GPT-3 而创建的，我们将在第 7 章“使用人类反馈进行微调以遵循指令”中更详细地介绍。正如我们在前面的图 1.6 中看到的，这些模型是胜任的文本完成模型，可以执行其他任务，例如拼写更正、分类或语言翻译。考虑到 GPT 模型是在相对简单的下一个单词预测任务上预训练的，这实际上是非常了不起的，如图 1.7 所示。

图 1.7 在 GPT 模型的下一个单词预训练任务中，系统通过查看前面的单词来学习预测句子中即将到来的单词。这种方法有助于模型理解单词和短语在语言中通常如何组合在一起，从而形成可应用于各种其他任务的基础。

下一个单词预测任务是自我监督学习的一种形式，是一种自我标记的形式。这意味着我们不需要显式收集训练数据的标签，而是可以利用数据本身的结构：我们可以使用句子或文档中的下一个单词作为模型应该预测的标签。由于这个下一个单词预测任务允许我们“动态”创建标签，因此可以利用大量未标记的文本数据集来训练 LLM，如之前在第 1.5 节 “利用大型数据集”中所述。

与我们在第 1.4 节中介绍的原始 transformer 架构相比，通用的 GPT 架构相对简单。从本质上讲，它只是没有编码器的解码器部分，如图 1.8 所示。由于像 GPT 这样的解码器风格模型通过一次预测一个单词的文本来生成文本，因此它们被认为是一种自回归模型。自回归模型将其先前的输出合并为未来预测的输入。因此，在 GPT 中，每个新单词都是根据其前面的顺序选择的，这提高了生成文本的连贯性。

GPT-3 等架构也比原来的 Transformer 模型大得多。例如，原始变压器将编码器和解码器块重复六次。GPT-3 有 96 个变压器层，总共有 1750 亿个参数。

图 1.8 GPT 架构仅使用原始转换器的解码器部分。它专为单向、从左到右的处理而设计，非常适合文本生成和下一个单词预测任务，以迭代方式一次生成一个单词的文本。

GPT-3 于 2020 年推出，按照深度学习和大型语言模型（LLM）开发的标准，它被认为是很久以前的事了。然而，最近的架构，如 Meta 的 Llama 模型，仍然基于相同的基本概念，只引入了微小的修改。因此，理解 GPT 仍然一如既往地重要，本书的重点是实现 GPT 背后的突出架构，同时为替代 LLM 采用的特定调整提供指针。

最后，有趣的是，尽管由编码器和解码器块组成的原始 transformer 模型是专门为语言翻译而设计的，但 GPT 模型——尽管它们更大但更简单的仅解码器架构旨在预测下一个单词——也能够执行翻译任务。这种能力最初是研究人员出乎意料的，因为它来自一个主要针对下一个单词预测任务进行训练的模型，这是一项不专门针对翻译的任务。

执行模型未明确训练执行的任务的能力称为“紧急行为”。这种能力在训练期间没有明确教授，而是模型在不同上下文中暴露于大量多语言数据的自然结果。GPT 模型可以“学习”语言之间的翻译模式并执行翻译任务，即使它们没有经过专门训练，这一事实证明了这些大规模生成式语言模型的优势和功能。我们可以执行不同的任务，而无需对每个任务使用不同的模型。

1.7 构建大型语言模型

在本章中，我们为理解 LLM 奠定了基础。在本书的其余部分，我们将从头开始编写一个代码。我们将以 GPT 背后的基本思想为蓝图，分三个阶段解决这个问题，如图 1.9 所示。

图 1.9 本书中介绍的构建 LLM 的阶段包括实现 LLM 架构和数据准备过程、预训练 LLM 以创建基础模型，以及微调基础模型以成为个人助理或文本分类器。

首先，我们将了解基本的数据预处理步骤，并编写每个 LLM 核心的注意力机制。

接下来，在第 2 阶段，我们将学习如何编码和预训练能够生成新文本的类似 GPT 的 LLM。我们还将介绍评估 LLM 的基础知识，这对于开发有能力的 NLP 系统至关重要。

请注意，从头开始预训练 LLM 是一项艰巨的任务，需要数千到数百万美元的计算成本来制作类似 GPT 的模型。因此，第 2 阶段的重点是使用小型数据集实施用于教育目的的培训。此外，本书还将提供用于加载公开可用的模型权重的代码示例。

最后，在第 3 阶段，我们将采用预训练的 LLM 并对其进行微调，以遵循诸如回答查询或对文本进行分类之类的指令——这是许多现实世界应用和研究中最常见的任务。

希望您期待踏上这段激动人心的旅程！

1.8 小结

LLM 改变了自然语言处理领域，该领域以前主要依赖于基于规则的显式系统和更简单的统计方法。LLM 的出现引入了新的深度学习驱动方法，从而推动了人类语言的理解、生成和翻译的进步。
现代 LLM 的培训分为两个主要步骤。
- 首先，通过使用句子中下一个单词的预测作为“标签”，对大量未标记的文本进行预训练。
- 然后，在较小的标记目标数据集上对它们进行微调，以遵循说明或执行分类任务。
LLM 基于 Transformer 架构。Transformer 架构的关键思想是一种注意力机制，它允许 LLM 在一次生成一个字的输出时选择性地访问整个输入序列。
最初的转换器架构由一个用于解析文本的编码器和一个用于生成文本的解码器组成。
用于生成文本和遵循指令的 LLM，例如 GPT-3 和 ChatGPT，仅实现解码器模块，简化了架构。
由数十亿个单词组成的大型数据集对于预训练 LLM 至关重要。在本书中，我们将出于教育目的在小型数据集上实现和训练 LLM，但也将了解如何加载公开可用的模型权重。
虽然类 GPT 模型的一般预训练任务是预测句子中的下一个单词，但这些 LLM 表现出“紧急”属性，例如对文本进行分类、翻译或总结的能力。
一旦 LLM 被预训练，生成的基础模型就可以更有效地针对各种下游任务进行微调。
在自定义数据集上微调的 LLM 在特定任务上的表现优于一般 LLM。

[1]具有机器学习背景的读者可能会注意到，传统的机器学习模型和通过传统监督学习范式训练的深度神经网络通常需要标记信息。但是，LLM 的预训练阶段并非如此。在这个阶段，LLM 利用自监督学习，其中模型从输入数据生成自己的标签。本章稍后将介绍此概念

[2] GPT-3，价值 4,600,000 美元的语言模型，https://www.reddit.com/r/MachineLearning/comments/h0jwoz/d_gpt3_the_4600000_language_model/

原文链接：构建大型语言模型（从头开始） (manning.com)