谢谢您的订阅!
当新的内容发布后您将开始接收邮件。您也可以点击邮件内的链接随时取消订阅。关闭Close

大型语言模型(LLM):定义、普及原因、训练方式

by Canonical on 12 December 2023

大型语言模型(LLM)是专门用于理解自然语言的机器学习模型。生成式 AI 在世界范围内被广泛采用之后,大型语言模型便广为人知,但它们的应用范围不止于聊天机器人。LLM 适合生成翻译或内容摘要。本篇博客将介绍大型语言模型 (LLM),包括其优点、挑战、出名的项目和未来发展趋势。

大型语言模型(LLM)是机器学习模型。它们通常包含深度学习的最新进展。这些模型可以执行与语言相关的任务,不只是文本生成。它们采用非常大的非结构化数据集进行训练,以学习模式并识别文本中的关系。文本可以有条件地加以提示,从而简化自然语言或代码中的有用任务。

语言模型的复杂程度各不相同。通常,LLM 指的是使用深度学习技术捕获复杂模式以生成文本的模型。它们具有大量的参数,通常使用自监督学习进行训练。大型语言模型超出了大型转换器模型的范畴,因为它太大而无法在单台机器上运行。LLM 通常以 API 或网页界面的形式提供。

LLM 用例

LLM 的用例有很多。其中不仅包括纯文本生成,还包括翻译、人际互动或摘要。它们被企业组织用于解决各种问题,包括:

  • 通过减少重复性任务来提高生产力
  • 解决人才短缺问题
  • 内容创作
  • 情感分析

内容生成

根据应用程序的不同,有多个 LLM 可以用于基于触发器或不基于触发器的内容生成。虽然内容本身需要优化,但 LLM 可以生成很棒的初稿,非常适合进行头脑风暴、解决问题或捕获灵感。它们不应该被视作拥有真相之源的事实手册。 

聊天机器人

LLM 可能被用于聊天机器人,有助于提供客户支持,故障排除,甚至进行开放式对话。它们还可以加速信息收集过程,解决反复出现的问题或疑问。 

语言翻译

翻译是 20 世纪 50 年代促使 LLM 项目启动的主要动力。但如今,LLM 可以自动翻译各种语言的内容,实现内容本地化。虽然它们运行良好,但值得一提的是,其输出质量取决于不同语言的可用数据量。

情感分析

LLM 通常会提取文本并分析情绪和观点,以判断情绪。企业组织经常使用它来收集数据,总结反馈并快速识别改进机会。它既可以帮助企业提高客户满意度,又可以帮助企业识别开发和功能需求。

这些只是受益于 LLM 的部分用例。其他一些应用包括文本聚类、内容摘要或代码生成。

构建 LLM 时的挑战

LLM 看起来是一个复杂而创新的解决方案,可以为企业助力并让人工智能爱好者兴奋不已。但构建 LLM 却存在着一系列的挑战:

  • 大型数据集不可或缺。尽管企业在努力改进数据收集流程和数据质量,但仍有一些行业的数据由于不同的原因——要么是数字化程度不够,要么就是可用性不足——仍然不可用。 
  • 训练 LLM 需要提高计算能力。GPU 或 DGX 等强大计算资源的可用性成就了 LLM,这种可用性也代表了一种限制,因为其成本高昂且交付时间长。
  • 人才短缺是任何人工智能项目都会面临的挑战,因为寻找能够构建或微调 LLM 的熟练人员比较耗时。技能差距是任何举措中都存在的挑战——人们对人工智能的兴趣增长速度快于对人才增长速度。 
  • 训练缓慢会延迟项目交付。根据训练所用硬件以及数据集大小的不同,训练可能需要耗费数月。
  • 可解释性仍然是个难题,这也是专业人士经常难以理解 LLM 输出的一些预测信息的一个重要原因。在数十亿参数之间进行挖掘非常耗时,而且预测通常几乎不会受到偏倚数据所影响,而偏倚数据更加难以检测。

LLM 的好处

随着人工智能的普及以及更多 LLM 的构建,重申大型语言模型带来的好处至关重要。广大受众、各行各业的企业、热衷于深度学习的工程师以及跨越不同工作领域的专业人士对 LLM 都很感兴趣,因为它们具有复制人类语言的功能。

  • 它们可以捕捉语言的细微差别,通常会捕捉文档的上下文。这样可以让翻译或情感分析更加准确。
  • 它们可以减少耗费在重复性任务上的时间,甚至减轻花费时间收集信息的负担。例如,聊天机器人可以提出问题,帮助客户支持团队更快地处理工单。
  • 它们具有加速模型训练和减少所需数据的潜力。这与 LLM 可用的参数数量有关——数量越大,所需的数据量就越小。

开源 LLM

2023 年,社区的蓬勃发展让开源 LLM 应运而生。Huggingface 只是在 ChatGPT 发布后活跃量激增的例子之一,其目标是在不同的应用程序中获得遵循指令的大型语言模型。这就导致开源 LLM 的数量呈爆炸式增长,如 Guancoh2oGPTOpenAssistant。关于开源 LLM,以下几点值得注意:

  • 拥有数十亿参数的 LLM 在性能方面可以轻松与极大型数据集上训练的模型一较高下。
  • 微调小型 LLM 所需预算较低。
  • 社区的贡献让开源 LLM 进步速度快得多。
  • 诸如低秩自适应(LoRa)之类的技术可以降低训练成本。

即开即用的解决方案仍然对企业具有吸引力,但从长期来看,开源社区可能会加大力度在新的环境(包括笔记本电脑)中提供 LLM。这还有可能让拥有专有 LLM 的企业组织和开源社区之间开展前所未有的合作,前者专注于构建模型(因为他们拥有计算能力),后者则致力于对模型进行微调。

LLM 工具

大型语言模型需要使用大量的数据和高性能硬件。此外还需要用于实验跟踪、数据清洗和管道自动化的工具。开源机器学习平台,如 Canonical 推出的 Charmed Kubeflow,都是很好的选择,因为它们可以让开发人员在一个工具中运行端到端的机器学习生命周期。使用 Charmed Kubeflow,让专业人员能够通过使用应用或遵循 EKS 指南,在公共云上开始训练。Charmed Kubeflow 已在 NVIDIA DGX 等高性能硬件上经过测试和认证。Canonical 的产品组合包括 Charmed MLFlow 和一个可观察性堆栈

对机器学习操作 (MLOps) 生态系统感到好奇?

阅读我们的指南

阅读更多

订阅博客文章

订阅您感兴趣的主题

在提交此表格的同时,我确认已阅读和同意的隐私声明隐私政策。

查看更多内容

边缘 AI:结合开源的目的、理由和方式

边缘 AI 正在改变设备与数据中心交互的方式,使组织在跟上最新创新的速度方面面临挑战。从 AI 驱动的医疗器械到自动驾驶汽车,大量的用例都受益于边缘设备上的人工智能。本篇博客将深入探讨该话题,了解开始边缘 AI 项目时的关键考虑因素、边缘 AI 的主要益处、存在的挑战以及如何与开源技术融合。 什么是边缘 AI? 位于边缘的 AI 即边缘 AI,是指人工智能与边缘计算相结合。其目标是在连接的边缘设备上执行机器学习模型。它能够使设备做出更明智的决策,无需总是连接到云来处理数据。其之所以被称为边缘,是因为机器学习模型在用户附近运行,而非数据中心。 随着行业发现新的用例和机会来优化工作流程、实现业务流程自动化或解锁新的创新机遇,边缘 AI 越来越受欢迎。自动驾驶汽车、可穿戴设备、 […]

Canonical 将出席 2024 KubeCon China 主题会议

2024 年 8 月 21 日,我们的 AI 产品经理 Andreea Munteanu 和托管服务产品经理 Adrian Matei 将代表 Canonical 出席在嘉里酒店举办的 Kubecon China 会议。Canonical 多年来一直是 KubeCon 盛会的常客,我们非常高兴参加本次 KubeCon China 首秀。 本会议将以“应对人工智能/机器学习项目中的运营时间市场减速因素”为主题(Tackling Operational Time-to-Market Decelerators in AI/ML Projects),深入探讨实现 AI 企业卓越运营方面的要求和因素,涵盖基础架构配置到监控以及应急恢复等。 在竞争激烈的人工智能市场中,上市时间对于成 […]

Canonical 为任何 open source Docker 镜像提供 12 年长期支持

“Everything LTS 计划”— Canonical 将根据客户的规格要求构建 distroless Docker 镜像,其中包括 Ubuntu 中未打包的上游组件,并在 24 小时内修复关键的 CVE 漏洞,在 RHEL、Ubuntu、VMware 或公共云 K8s 上畅享长达 12 年以上的支持。 Canonical 将其 LTS 产品扩展到 Ubuntu 的 “deb” 包以外,并推出了一项新的 distroless Docker 镜像设计与构建服务,该项服务为任何开源应用程序或依赖项均提供 12 年的安全维护,无论该软件是否是 Ubuntu 中已打包的软件。 「Everything LTS 计划意味着 CVE 维护将覆盖您的整个开源依赖项树,包括 Ubun […]