大型语言模型（LLM）：定义、普及原因、训练方式

by Canonical on 12 December 2023

大型语言模型（LLM）是专门用于理解自然语言的机器学习模型。生成式 AI 在世界范围内被广泛采用之后，大型语言模型便广为人知，但它们的应用范围不止于聊天机器人。LLM 适合生成翻译或内容摘要。本篇博客将介绍大型语言模型（LLM），包括其优点、挑战、出名的项目和未来发展趋势。

大型语言模型（LLM）是机器学习模型。它们通常包含深度学习的最新进展。这些模型可以执行与语言相关的任务，不只是文本生成。它们采用非常大的非结构化数据集进行训练，以学习模式并识别文本中的关系。文本可以有条件地加以提示，从而简化自然语言或代码中的有用任务。

语言模型的复杂程度各不相同。通常，LLM 指的是使用深度学习技术捕获复杂模式以生成文本的模型。它们具有大量的参数，通常使用自监督学习进行训练。大型语言模型超出了大型转换器模型的范畴，因为它太大而无法在单台机器上运行。LLM 通常以 API 或网页界面的形式提供。

LLM 用例

LLM 的用例有很多。其中不仅包括纯文本生成，还包括翻译、人际互动或摘要。它们被企业组织用于解决各种问题，包括：

通过减少重复性任务来提高生产力
解决人才短缺问题
内容创作
情感分析

内容生成

根据应用程序的不同，有多个 LLM 可以用于基于触发器或不基于触发器的内容生成。虽然内容本身需要优化，但 LLM 可以生成很棒的初稿，非常适合进行头脑风暴、解决问题或捕获灵感。它们不应该被视作拥有真相之源的事实手册。

聊天机器人

LLM 可能被用于聊天机器人，有助于提供客户支持，故障排除，甚至进行开放式对话。它们还可以加速信息收集过程，解决反复出现的问题或疑问。

语言翻译

翻译是 20 世纪 50 年代促使 LLM 项目启动的主要动力。但如今，LLM 可以自动翻译各种语言的内容，实现内容本地化。虽然它们运行良好，但值得一提的是，其输出质量取决于不同语言的可用数据量。

情感分析

LLM 通常会提取文本并分析情绪和观点，以判断情绪。企业组织经常使用它来收集数据，总结反馈并快速识别改进机会。它既可以帮助企业提高客户满意度，又可以帮助企业识别开发和功能需求。

这些只是受益于 LLM 的部分用例。其他一些应用包括文本聚类、内容摘要或代码生成。

构建 LLM 时的挑战

LLM 看起来是一个复杂而创新的解决方案，可以为企业助力并让人工智能爱好者兴奋不已。但构建 LLM 却存在着一系列的挑战：

大型数据集不可或缺。尽管企业在努力改进数据收集流程和数据质量，但仍有一些行业的数据由于不同的原因——要么是数字化程度不够，要么就是可用性不足——仍然不可用。
训练 LLM 需要提高计算能力。GPU 或 DGX 等强大计算资源的可用性成就了 LLM，这种可用性也代表了一种限制，因为其成本高昂且交付时间长。
人才短缺是任何人工智能项目都会面临的挑战，因为寻找能够构建或微调 LLM 的熟练人员比较耗时。技能差距是任何举措中都存在的挑战——人们对人工智能的兴趣增长速度快于对人才增长速度。
训练缓慢会延迟项目交付。根据训练所用硬件以及数据集大小的不同，训练可能需要耗费数月。
可解释性仍然是个难题，这也是专业人士经常难以理解 LLM 输出的一些预测信息的一个重要原因。在数十亿参数之间进行挖掘非常耗时，而且预测通常几乎不会受到偏倚数据所影响，而偏倚数据更加难以检测。

LLM 的好处

随着人工智能的普及以及更多 LLM 的构建，重申大型语言模型带来的好处至关重要。广大受众、各行各业的企业、热衷于深度学习的工程师以及跨越不同工作领域的专业人士对 LLM 都很感兴趣，因为它们具有复制人类语言的功能。

它们可以捕捉语言的细微差别，通常会捕捉文档的上下文。这样可以让翻译或情感分析更加准确。
它们可以减少耗费在重复性任务上的时间，甚至减轻花费时间收集信息的负担。例如，聊天机器人可以提出问题，帮助客户支持团队更快地处理工单。
它们具有加速模型训练和减少所需数据的潜力。这与 LLM 可用的参数数量有关——数量越大，所需的数据量就越小。

开源 LLM

2023 年，社区的蓬勃发展让开源 LLM 应运而生。Huggingface 只是在 ChatGPT 发布后活跃量激增的例子之一，其目标是在不同的应用程序中获得遵循指令的大型语言模型。这就导致开源 LLM 的数量呈爆炸式增长，如 Guanco、h2oGPT 或 OpenAssistant。关于开源 LLM，以下几点值得注意：

拥有数十亿参数的 LLM 在性能方面可以轻松与极大型数据集上训练的模型一较高下。
微调小型 LLM 所需预算较低。
社区的贡献让开源 LLM 进步速度快得多。
诸如低秩自适应（LoRa）之类的技术可以降低训练成本。

即开即用的解决方案仍然对企业具有吸引力，但从长期来看，开源社区可能会加大力度在新的环境（包括笔记本电脑）中提供 LLM。这还有可能让拥有专有 LLM 的企业组织和开源社区之间开展前所未有的合作，前者专注于构建模型（因为他们拥有计算能力），后者则致力于对模型进行微调。

LLM 工具

大型语言模型需要使用大量的数据和高性能硬件。此外还需要用于实验跟踪、数据清洗和管道自动化的工具。开源机器学习平台，如 Canonical 推出的 Charmed Kubeflow，都是很好的选择，因为它们可以让开发人员在一个工具中运行端到端的机器学习生命周期。使用 Charmed Kubeflow，让专业人员能够通过使用应用或遵循 EKS 指南，在公共云上开始训练。Charmed Kubeflow 已在 NVIDIA DGX 等高性能硬件上经过测试和认证。Canonical 的产品组合包括 Charmed MLFlow 和一个可观察性堆栈。

对机器学习操作 (MLOps) 生态系统感到好奇？

阅读我们的指南

大型语言模型（LLM）：定义、普及原因、训练方式

LLM 用例

内容生成

聊天机器人

语言翻译

情感分析

构建 LLM 时的挑战

LLM 的好处

开源 LLM

LLM 工具

对机器学习操作 (MLOps) 生态系统感到好奇？

阅读更多

订阅博客文章

订阅您感兴趣的主题

查看更多内容

边缘 AI：结合开源的目的、理由和方式

Canonical 将出席 2024 KubeCon China 主题会议

Canonical 为任何 open source Docker 镜像提供 12 年长期支持