根基模型有什么独特之处?
根基模型的一个独有特征是其适应性。这些模型可以根据输入提示高度准确地执行各种不同的任务。一些任务包括自然语言处理(NLP)、问题回答和图像分类。根基模型(FM)的规模和通用性质使其不同于传统的机器学习模型,后者通常执行特定的任务,例如分析文本中的情绪、对图像进行分类和预测趋势。
可以使用根基模型作为基础模型来开发更加专用的下游应用程序。这些模型是十多年开发工作的结晶,因此它们的规模和复杂性不断增加。
例如,最早的双向根基模型之一 BERT 于 2018 年发布。该模型使用 3.4 亿个参数和 16GB 的训练数据集进行训练。仅仅五年后,OpenAI 就在 2023 年使用 170 万亿个参数和 45GB 的训练数据集训练 GPT-4。根据 OpenAI 提供的数据,自 2012 年以来,根基建模所需的计算能力每 3.4 个月翻一番。当今的 FM,例如大型语言模型(LLM)Claude 2 和 Llama 2,以及 Stability AI 提供的文本到图像模型 Stable Diffusion,可以即时可用地执行跨越多个领域的各种任务,如撰写博客文章、生成图像、解决数学问题、参与对话和根据文档回答问题。
为什么根基建模如此重要?
根基模型有望显著改变机器学习的生命周期。尽管目前从头开发根基模型要花费数百万美元,但从长远来看,它们可发挥重要作用。对于数据科学家来说,可以更快速、更经济地使用预先训练的 FM 开发新的机器学习应用程序,而不是从头开始训练独特的机器学习模型。
根基模型的一种潜在用途是自动执行任务和流程,尤其是需要推理能力的任务和流程。以下是根基模型的一些应用:
- 客户支持
- 语言翻译
- 内容生成
- 文案写作
- 图像分类
- 高分辨率图像创建和编辑
- 文档提取
- 机器人技术
- 医疗保健
- 自动驾驶汽车
根基模型如何运作?
根基模型是生成式人工智能的一种形式。这些模型以人类语言指令的形式从一个或多个输入(提示)中生成输出。模型基于复杂的神经网络,包括生成对抗网络(GAN)、转换器和变分编码器。
尽管每种类型的网络功能不同,但它们的工作原理是相似的。通常,FM 使用学习的模式和关系来预测序列中的下一个项目。例如,在生成图像时,模型会分析图像并创建更清晰、更明确定义的图像版本。同样,对于文本,模型会根据之前的单词及其上下文预测文本字符串中的下一个单词。然后,模型使用概率分布技术选择下一个单词。
根基模型使用自监督学习从输入数据创建标签。这意味着没有人使用带标签的训练数据集来指导或训练模型。此功能将 LLM 与以前的机器学习架构区分,后者使用有监督或无监督学习。
根基模型可以实现哪些功能?
尽管根基模型已经过预训练,但其可以在推理过程期间持续从数据输入或提示中学习。这意味着可以通过精心策划的提示来形成全面的输出。FM 可以执行的任务包括语言处理、视觉理解、代码生成和以人为本的参与。
语言处理
这些模型具有回答自然语言问题的非凡能力,甚至能够根据提示撰写简短的脚本或文章。它们还可以使用 NLP 技术翻译语言。
视觉理解
FM 在计算机视觉方面表现出色,尤其是在识别图像和物理对象方面。这些功能可能会用于自动驾驶和机器人等应用。另一项功能是通过输入文本生成图像,以及编辑照片和视频。
代码生成
根基模型可以根据自然语言输入生成各种编程语言的计算机代码。也可使用 FM 评估和调试代码。
以人为本的参与
生成式人工智能模型使用人工输入来学习和改进预测结果。一种重要但有时被忽视的应用是这些模型能够支持人为决策。潜在用途包括临床诊断、决策支持系统和分析。
另一项功能是通过微调现有根基模型来开发新的人工智能应用程序。
语音转文本
由于 FM 理解语言,因此可以将其用于语音转文本任务,例如各种语言的转录和视频字幕。
根基模型有哪些示例?
市场上根基模型的数量和规模都在快速增长。目前有几十种模型可供选择。以下是自 2018 年以来发布的著名根基模型列表。
BERT
基于转换器的双向编码器表示形式(BERT)于 2018 年发布,是最早的根基模型之一。BERT 是一种双向模型,它分析完整序列的上下文,然后进行预测。该模型在纯文本语料库和 Wikipedia 上进行训练,使用了 33 亿个令牌(单词)和 3.4 亿个参数。BERT 可以回答问题、预测语句和翻译文本。
GPT
生成式预训练转换器(GPT)模型由 OpenAI 于 2018 年开发。该模型使用带自注意力机制的 12 层转换器解码器。该模型在 BookCorpus 数据集上训练,此数据集包含超过 11,000 本免费小说。GPT-1 的一个显著特征是能够进行零样本学习。
GPT-2 于 2019 年发布。OpenAI 使用 15 亿个参数对此模型进行训练(而 GPT-1 上使用的参数仅为 1.17 亿个)。GPT-3 拥有 96 层神经网络和 1750 亿个参数,使用 5000 亿单词的 Common Crawl 数据集进行训练。广受欢迎的 ChatGPT 聊天机器人基于 GPT-3.5。最新版本 GPT-4 于 2022 年底推出,其成功通过了统一律师资格考试,得分为 297(76%)。
Amazon Titan
Amazon Titan FMs 在大型数据集上经过预先训练,使其成为功能强大的通用模型。这些模型可以按原样使用,也可以使用公司特定数据针对特定任务进行私有自定义,而无需注释大量数据。Titan 最初将提供两种模型。第一个模型是生成式 LLM,用于诸如摘要、文本生成、分类、开放式问答和信息提取等任务。第二个模型是嵌入 LLM,它将文本输入(包括单词、短语或大型文本单元)转换为包含文本语义含义的数字表示形式(称为嵌入)。虽然此 LLM 不会生成文本,但它对个性化和搜索等应用程序很有用,因为通过比较嵌入,该模型将产生比单词匹配更相关、更有语境的响应。为了持续支持负责任使用人工智能中的最佳实践,Titan FM 旨在检测和删除数据中的伤害性内容,拒绝用户输入中的不当内容,并筛选包含不当内容(例如仇恨言论、亵渎和暴力)的模型输出。
AI21 Jurassic
Jurassic-1 于 2021 年发布,是一款 76 层自回归语言模型,其具有 1780 亿个参数。Jurassic-1 生成人性化的文本并解决复杂的任务。它的性能可与 GPT-3 媲美。
2023 年 3 月,AI21 Labs 发布 Jurrassic-2,该模型提高了指令跟踪和语言能力。
Claude
Claude 3.5 Sonnet
Anthropic 最智能、最先进的模型 Claude 3.5 Sonnet 在各种任务和评估中都表现出卓越的能力,并且优于 Claude 3 Opus。
Claude 3 Opus
Opus 是一种高度智能的模型,在复杂任务上具有可靠的性能。该模型可以以非凡的流畅度和类似人类的理解能力浏览开放式提示和看不见的场景。使用 Opus 自动执行任务,加速各种用例和行业的研发。
Claude 3 Haiku
Haiku 是 Anthropic 最快、最紧凑的模型,可实现近乎即时的响应。Haiku 是构建模仿人类互动的无缝人工智能体验的最佳选择。企业可以使用 Haiku 执行审核内容、优化库存管理、快速准确地进行翻译、汇总非结构化数据等操作。
Cohere
Cohere 有两个 LLM:一个是功能与 GPT-3 相似的生成模型,另一个是用于理解语言的表示模型。尽管 Cohere 只有 520 亿个参数,但该模型在许多方面的表现都优于 GPT-3。
Stable Diffusion
Stable Diffusion 是一种文本到图像模型,可以生成外观逼真、高清晰度的图像。该模型于 2022 年发布,其扩散模型使用噪声和降噪技术来学习如何创建图像。
该模型的规模小于竞争对手的扩散技术(例如 DALL-E 2),这意味着它不需要广泛的计算基础设施。Stable Diffusion 可以在普通显卡上运行,甚至可以在搭载 Snapdragon Gen2 平台的智能手机上运行。
BLOOM
BLOOM 是一种多语言模型,其架构与 GPT-3 类似。该模型于 2022 年开发,是一项由一千多名科学家和 Hugging Space 团队共同协作的项目。该模型有 1760 亿个参数,使用 384 个 Nvidia A100 GPU 进行为期 3.5 个月的训练。尽管 BLOOM 检查点需要 330GB 的存储空间,但它将在具有 16GB RAM 的独立 PC 上运行。BLOOM 可以用 46 种语言创建文本,以及用 13 种编程语言编写代码。
Hugging Face
Hugging Face 是提供开源工具的平台,供您构建和部署机器学习模型。该平台充当社区中心,开发人员可以在其中共享和探索模型与数据集。个人会员资格是免费的,但付费订阅可提供更高级别的访问权限。您可以公开访问近 20 万个模型和 30,000 个数据集。
根基模型面临哪些挑战?
对于其尚未接受过明确训练的主题,根基模型可以一致地响应提示。但是,这些模型存在某些弱点。以下是根基模型面临的一些挑战:
- 基础设施要求。从头开始构建基础模型非常昂贵,需要大量资源,而且可能需要几个月的时间完成训练。
- 前端开发。对于实际应用,开发人员需要将根基模型集成到软件堆栈中,包括用于快速工程、微调和管道工程的工具。
- 缺乏理解。尽管根基模型可以提供语法上和事实上正确的答案,但它们很难理解提示的上下文。此外,这些模型不具备社交或心理意识。
- 不可靠的答案。某些主题相关问题的答案可能不可靠,有时甚至不合适、令人极不愉快或不正确。
- 偏见。根基模型很可能提供带偏见的答案,因为模型可以从训练数据集中提取仇恨言论和不恰当的暗示。为避免这种情况,开发人员应仔细筛选训练数据,并将特定规范编码到模型中。
AWS 如何提供帮助?
Amazon Bedrock 是使用根基模型构建和扩展生成式人工智能应用程序的最简单方法。Amazon Bedrock 是一项完全托管的服务,可通过 API 提供来自 Amazon 和领先 AI 初创企业的根基模型,因此您可以从各种 FM 中进行选择,找到最适合您的应用场景的模型。 借助 Bedrock,您可以加快开发和部署可扩展、可靠和安全的生成式人工智能应用程序,而无需管理基础设施。
Amazon SageMaker JumpStart 是推出各种模型、算法和解决方案的机器学习中心,它提供数百种根基模型的访问权限,包括性能最佳的公开根基模型。该中心持续添加新的根基模型,包括 Llama 2、Falcon 和 Stable Diffusion XL 1.0。