选择合适的 AI 和 ML 服务、框架和基础模型来支持您的工作
简介
从最基本的角度来说,机器学习(ML)旨在提供数字工具和服务,用于从数据中学习、识别模式、做出预测,然后根据这些预测采取行动。如今几乎所有人工智能(AI)系统都是使用机器学习创建的。机器学习使用大量数据来创建和验证决策逻辑。这种决策逻辑构成了人工智能“模型”的基础。
机器学习的一个快速增长的子集是生成式人工智能,它由大型模型提供支持,这些模型在大量数据上进行预训练,通常称为基础模型(FM)。基于生成式人工智能的 AWS 服务包括:
- Amazon Bedrock(它为您提供了一种使用基础模型构建和扩展基于生成式人工智能的应用程序的方法)
- Amazon CodeWhisperer(一款 AI 编码配套程序,可根据您以自然语言撰写的评论以及集成式开发环境中的任何先前代码实时生成代码建议)
本决策指南将帮助您提出正确的问题,评估您的标准和业务问题,并确定哪些服务最能满足您的需求。
在不到两分钟的时间内,Amazon 首席技术官 Werner Vogels 博士解释了生成式人工智能的工作原理以及您可以如何使用它。这段视频摘自Vogels 博士和 AWS 数据库、分析和机器学习副总裁 Swami Sivasubramanian 之间较长时间的讨论,内容涉及生成式人工智能的广阔前景、为什么它并非炒作,以及 AWS 如何普及大型语言和基础模型的使用。
阅读时间
25 分钟
用途
帮助确定哪些 AWS ML 服务最能满足您的需求。
级别
新手
上次更新日期
2023 年 7 月 26 日
涵盖的服务
了解
此外,AWS 还提供以下专用的加速硬件,用于高性能 ML 训练和推理。
- Amazon EC2 P4d 实例配备了 NVIDIA A100 Tensor Core GPU,非常适合机器学习中的训练和推理任务。AWS Trainium 是 AWS 专门为超过 1000 亿个参数模型的深度学习训练打造的第二代机器学习加速器。
- 基于 AWS Inferentia2 的 Amazon EC2 Inf2 实例旨在以最低的成本在 Amazon EC2 中为您的 DL 推理和生成式人工智能应用程序提供高性能。
考虑
使用 AWS ML 服务解决业务问题时,考虑几个关键标准有助于确保成功。以下部分概述了选择机器学习服务时需要考虑的一些关键标准。
-
问题定义
-
ML 算法
-
安全性
-
延迟
-
准确性
-
AWS 和负责任的 AI
-
机器学习生命周期的第一步是确定业务问题的范围。了解您要解决的问题对于选择正确的 AWS ML 服务至关重要,因为不同的服务旨在解决不同的问题。确定机器学习是否最适合您的业务问题也很重要。
确定机器学习最适合后,您就可以从一系列专门构建的 AWS AI 服务(语音、视觉和文档等领域)中进行选择。
如果您需要构建和训练自己的模型,Amazon SageMaker 可以提供完全托管的基础设施。对于需要高度自定义和专业机器学习模型的情况,AWS 提供了一系列高级机器学习框架和基础设施选择。AWS 还提供一系列热门的基础模型,用于使用生成式人工智能构建新应用程序。
-
为您要解决的业务问题选择机器学习算法,取决于您正在处理的数据类型以及预期的结果。以下信息概述了每个主要的 AWS AI/ML 服务类别如何帮助您使用其算法:
- 专业 AI 服务:这些服务自定义机器学习算法的能力有限,因为它们是针对特定任务优化的预训练模型。通常,您可以自定义输入数据和某些参数,但无法访问底层机器学习模型,也无法构建自己的模型。
- Amazon SageMaker:该服务为机器学习算法提供了最大的灵活性和控制力。您可以通过 SageMaker 使用自己的算法和框架构建自定义模型,也可以使用 AWS 提供的预建模型和算法。这有助于对机器学习过程进行高度定制和控制。
- 低级别机器学习框架和基础设施:这些服务为机器学习算法提供了最大的灵活性和控制力。您可以通过这些服务,使用它们自己的算法和框架来构建高度宗旨的机器学习模型。但是,使用这些服务需要大量的机器学习专业知识,可能并不适用于所有使用案例。
-
如果您需要在 VPC 中使用私有端点,则您的选项会根据所使用的 AWS ML 服务层而有所不同。其中包括:
- 专业 AI 服务:大多数专业 AI 服务目前不支持 VPC 中的私有端点。但是,可以使用 VPC 端点访问 Amazon Rekognition Custom Labels 和 Amazon Comprehend Custom。
- 核心 AI 服务:Amazon Translate、Amazon Transcribe 和 Amazon Comprehend 都支持 VPC 端点。
- Amazon SageMaker:SageMaker 为 VPC 端点提供内置支持,帮助您将经过训练的模型部署为只能从其 VPC 内部访问的端点。
- 较低级别的机器学习框架和基础设施:您可以在 Amazon EC2 实例或 VPC 内的容器中部署模型,从而完全控制联网配置。
-
更高级别的 AI 服务(例如 Amazon Rekognition 和 Amazon Transcribe)设计为可处理各种使用案例,并在同等速度下提供高性能。但是,它们可能无法满足特定延迟要求。
如果您使用的是较低级别的机器学习框架和基础设施,我们建议您使用 Amazon SageMaker。由于其完全托管的服务和优化的部署选项,此选项通常比构建自定义模型更快。尽管高度优化的自定义模型在性能上可能优于 SageMaker,但它需要大量的专业知识和资源才能构建。
-
AWS ML 服务的准确性因具体使用案例和所需的自定义级别而异。更高级别的 AI 服务(例如 Amazon Rekognition)基于预训练模型构建,这些模型已针对特定任务进行优化,并且能在许多使用案例中提高很高的准确性。
在某些情况下,您可以选择使用 Amazon SageMaker,它为构建和训练自定义机器学习模型提供了更加灵活和可自定义的平台。通过构建自己的模型,您可能能够实现比预训练模型更高的准确度。
您还可以选择使用机器学习框架和基础设施(例如 TensorFlow 和 Apache MXNet)来构建高度自定义的模型,从而为您的特定使用案例提供尽可能高的准确性。
-
AWS 构建基础模型(FM)时,在其开发过程的每个阶段都秉持负责任 AI 的理念。在设计、开发、部署和运营过程中,我们会考虑一系列因素,包括:
- 准确性(摘要与基础文档的匹配程度;传记是否真实正确)
- 公平性(输出是否以同样的方式对待人口群体)
- 知识产权和版权注意事项
- 适当用法(筛选掉用户对法律咨询的请求、医疗诊断或非法活动)
- 毒性(仇恨言论、亵渎和侮辱)
- 隐私性(保护个人信息和客户提示)
AWS 将这些问题的解决方案融入了获取训练数据的流程、基础模型本身以及用于预处理用户提示和后处理输出的技术中。
选择
现在您已经了解评估 ML 服务选项所依据的标准,并且已准备好选择适用于贵组织需求的 AWS ML 服务。
下表突出显示了不同 ML 服务针对哪些情况进行了优化。可以使用它来帮助确定最适用于贵组织应用场景的 AWS ML 服务。
借助 Amazon Comprehend,您可以对文本数据执行自然语言处理任务,例如情感分析、实体识别、主题建模和语言检测。
Amazon Lex 可帮助您构建可在自然语言界面中与用户互动的聊天机器人和语音助手。它提供预先构建的对话管理、语言理解和语音识别功能。
使用 Amazon Polly 将文本转换为逼真的语音,从而更轻松地创建支持语音的应用程序和服务。
Amazon Rekognition 旨在帮助您在应用程序中添加图像和视频分析。向 Amazon Rekognition API 提供图像或视频,该服务即会识别物体、人员、文本、场景和活动。它还可以检测任何不合适的内容。
Amazon Textract 有助于从扫描的文档、表单和表格中提取文本和数据,让您可以更轻松地存储、分析和管理此类数据。
Amazon Transcribe 使客户能够自动将录音和视频转录为文本。与手动转录相比,这可以节省时间和精力。
可使用此服务将文本从一种语言实时翻译成另一种语言。如果您的企业在多个国家/地区开展业务或需要与非母语人士沟通,这项功能尤其有用。
Amazon Bedrock 是一项完全托管服务,可通过 API 提供来自领先的 AI 初创企业和 Amazon 的基础模型,因此您可以从各种基础模型中进行选择,找到最适合您的模型。
Amazon CodeWhisperer 是一款实时 AI 编码配套程序,有助于为例行或耗时、无差异的任务创建代码、使用不熟悉的 API 或 SDK、正确有效地使用 AWS API 以及其他常见的编码场景,例如读写文件、图像处理和编写单元测试。
Amazon SageMaker Autopilot 旨在减轻构建机器学习模型的繁重工作。您只需提供表格数据集并选择要预测的目标列,SageMaker Autopilot 将自动探索不同的解决方案以找到最佳模型。然后,只需单击操作,即可将模型直接部署到生产环境中,或通过迭代推荐的解决方案,进一步提高模型质量。
Amazon SageMaker Canvas 使您能够使用机器学习生成预测,而无需编写任何代码。
Amazon SageMaker Data Wrangler 可缩短汇总和准备机器学习表和图像数据所需的时间。借助 SageMaker Data Wrangler,您可以简化数据准备和特征工程的过程,并从单个可视化界面完成数据准备工作流的每个步骤(包括数据选择、清理、探索、可视化和大规模处理)。
SageMaker Ground Truth 是一项托管服务,用于标记数据以训练和改进机器学习模型。它将注释人员和机器学习算法相结合,提供了一种高度准确和高效的方式来标记大型数据集。SageMaker Ground Truth 支持多种数据类型,包括文本、图像、视频和音频,并且可与其他 SageMaker 服务无缝集成,以实现端到端机器学习工作流程。
SageMaker JumpStart 为各种问题类型提供经过预先训练的开源模型,以帮助您开始使用机器学习。在部署之前,您可以逐步训练和调整这些模型。JumpStart 还提供可为常见使用案例设置基础设施的解决方案模板,以及用于 SageMaker 机器学习的可执行示例笔记本。
使用 Amazon SageMaker Pipelines,您可以使用 Python 开发工具包来创建机器学习工作流,然后使用 Amazon SageMaker Studio 来可视化和管理您的工作流。Amazon SageMaker Pipelines 允许您存储和重复使用在 SageMaker Pipelines 中创建的工作流程步骤。
完全集成式开发环境(IDE),使开发人员能够大规模构建、训练和部署机器学习模型。它提供了一个基于 Web 的单一界面来管理整个机器学习生命周期,贯穿从数据准备和模型训练到部署和监控的整个过程。SageMaker Studio 还支持 Jupyter notebook、Git 和 TensorFlow 等热门工具,并为常见使用案例提供了一套预先构建的算法。
Amazon SageMaker Studio Lab 是一款基于云的 IDE,用于使用预先构建的 Jupyter notebook 学习和试验机器学习。它包括一系列预先构建的笔记本,涵盖图像识别、自然语言处理和异常检测等主题。
Apache MXNet 是一个开源深度学习框架,支持多种编程语言,包括 Python、Scala 和 R。该框架以其可扩展性和速度而闻名,并提供一系列用于构建和训练神经网络的高级别 API,以及面向高级用户的低级别 API。
Amazon SageMaker 上的 Hugging Face
Amazon SageMaker 上的 Hugging Face 是一个用于自然语言处理(NLP)的开源库,它提供了各种用于处理文本数据的预训练模型和工具。这款产品以其易用性和高性能而闻名,广泛用于文本分类、情感分析和语言翻译等任务。
AWS 上的 PyTorch 是一个开源机器学习框架,为构建和训练神经网络提供动态计算图和自动微分。PyTorch 以其易用性和灵活性而闻名,拥有庞大而活跃的开发者社区,为其开发做出贡献。
TensorFlow 是 Google 开发的一款开源机器学习框架,广泛用于构建和训练神经网络。它以其可扩展性、速度和灵活性而闻名,并支持包括 Python、C++ 和 Java 在内的一系列编程语言。TensorFlow 为图像和文本处理提供各种预构建模型和工具,并为需要加强模型控制的高级用户提供低级别 API。
AWS Inferentia 和 AWS Inferentia2
第一代 AWS Inferentia 加速器为 Amazon Elastic Compute Cloud(Amazon EC2)Inf1 实例提供支持,与同类 Amazon EC2 实例相比,该实例的吞吐量可提高多达 2.3 倍,每次推理的成本可降低多达 70%。AWS Inferentia2 加速器在第一代 AWS Inferentia 基础上进行了改进。与 Inferentia 相比,Inferentia2 的吞吐量提高了 4 倍,延迟低至前者的 1/10。
AWS Trainium 是 AWS 专门为超过 1000 亿个参数模型的深度学习训练打造的第二代机器学习 (ML) 加速器。每个 Amazon Elastic Compute Cloud(EC2)Trn1 实例最多可以部署 16 个 AWS Trainium 加速器,用于云端的深度学习(DL)训练。
使用
现在,您应该已经清楚了解选择 AWS ML 服务时需要应用的标准,现在可以选择哪些 AWS AI/ML 服务针对您的业务需求进行了优化。
为了探索如何使用您选择的服务,以及了解有关这些服务的更多信息,我们提供了三组途径,用于探索各种服务的工作原理。第一组路径提供深入的文档、动手教程和资源,可帮助您开始使用 Amazon Comprehend、Amazon Textract、Amazon Translate、Amazon Lex、Amazon Polly、Amazon Rekognition 和 Amazon Transcribe。
-
Amazon Comprehend
-
Amazon Textract
-
Amazon Translate
-
Amazon Lex
-
Amazon Polly
-
Amazon Rekognition
-
Amazon Transcribe
-
Amazon Comprehend
-
Amazon Textract
-
Amazon Translate
-
-
Amazon Lex
-
Amazon Polly
-
Amazon Rekognition
-
Amazon Transcribe
-
第二组 AI/ML AWS 服务路径提供了深入的文档、动手教程和资源,可帮助您开始使用 Amazon SageMaker 系列中的服务。
-
SageMaker
-
SageMaker Autopilot
-
SageMaker Canvas
-
SageMaker Data Wrangler
-
SageMaker Ground Truth/Ground Truth Plus
-
SageMaker JumpStart
-
SageMaker Pipelines
-
SageMaker Studio
-
SageMaker
-
Amazon SageMaker 的工作原理
浏览机器学习概述以及 SageMaker 的工作原理。Amazon SageMaker 入门
了解如何加入 Amazon SageMaker 域,从而访问 Amazon SageMaker Studio 和 RStudio on SageMaker。
探索指南 »将 Apache Spark 与 Amazon SageMaker 结合使用
了解如何使用 Apache Spark 进行数据预处理,以及如何使用 SageMaker 进行模型训练和托管。
探索指南 »使用 Docker 容器来构建模型
探索 Amazon SageMaker 如何广泛使用 Docker 容器执行构建和运行时系统任务。了解如何为 Docker 容器的内置算法以及支持的用于训练和推理的深度学习框架部署预构建的 Docker 映像。
探索指南 »
机器学习框架和语言
了解如何通过 Amazon SageMaker Python SDK 开始使用 SageMaker。 -
SageMaker Autopilot
-
为表格数据创建 Amazon SageMaker Autopilot 试验
了解如何创建 Amazon SageMaker Autopilot 试验,以便在表格数据集中探索、预处理和训练各种候选模型。自动创建机器学习模型
学习如何使用 Amazon SageMaker Autopilot 自动创建、训练、优化机器学习模型,并部署该模型以生成预测。
探索如何使用这些示例笔记本为 Amazon SageMaker Autopilot 建模
探索用于直接营销、客户流失预测的示例笔记本,以及如何将自己的数据处理代码引入 Amazon SageMaker Autopilot。 -
SageMaker Canvas
-
在不编写代码的情况下生成机器学习预测
本教程介绍了如何使用 Amazon SageMaker Canvas 在不编写任何代码的情况下构建机器学习模型并生成准确的预测。
开始使用教程 »深入了解 SageMaker Canvas
深入了解 SageMaker Canvas 及其可视化、无代码机器学习功能。使用 Amazon SageMaker Canvas 创建您的第一个机器学习模型
了解如何使用 Amazon SageMaker Canvas 创建机器学习模型,根据针对新产品和服务的电子邮件营销活动来评测客户留存率。 -
SageMaker Data Wrangler
-
Amazon SageMaker Data Wrangler 入门
探索如何设置 SageMaker Data Wrangler,然后使用现有的示例数据集进行演练。
探索指南 »用最少的代码为机器学习准备训练数据
了解如何使用 Amazon SageMaker Data Wrangler 为机器学习准备数据。
开始使用教程 »SageMaker Data Wrangler 深入探究研讨会
了解如何对数据集应用适当的分析类型来检测异常和问题,如何使用派生的结果/见解在数据集转换过程中制定补救措施,以及如何使用 SageMaker Data Wrangler 提供的快速建模选项测试正确的转换选择和顺序。 -
SageMaker Ground Truth/Ground Truth Plus
-
标记用于机器学习的训练数据
了解如何在 Amazon SageMaker Ground Truth 中设置标注作业,以便为您的机器学习模型注释训练数据。
Amazon Ground Truth Plus 入门
探索如何完成必要的步骤来启动 Amazon SageMaker Ground Truth Plus 项目、查看标签并满足 SageMaker Ground Truth Plus 先决条件。Amazon Ground Truth 入门
观看如何通过 SageMaker Ground Truth 控制台在几分钟内开始标注数据。
Amazon SageMaker Ground Truth Plus — 无需代码或内部资源即可创建训练数据集
了解一站式服务 Ground Truth Plus,它使专业人员能够快速提供高质量的训练数据集,并将成本降低多达 40%。
-
SageMaker JumpStart
-
使用 SageMaker JumpStart 开始机器学习
探索可为常见使用案例设置基础设施的解决方案模板,以及用于 SageMaker 机器学习的可执行示例笔记本。
探索指南 »利用 Amazon SageMaker JumpStart 快速启动您的机器学习项目
了解如何利用 Amazon SageMaker JumpStart 提供的预训练模型和预构建解决方案快速启动您的机器学习项目。然后,您可以通过 Amazon SageMaker Studio 笔记本部署所选模型。
在本次沉浸式日研讨会中亲身体验 Amazon SageMaker JumpStart
了解 Amazon SageMaker Data Wrangler、Autopilot 和 Jumpstart 中的低代码机器学习功能如何使您更轻松、更快速地进行试验并将高度精确的模型投入生产。
-
SageMaker Pipelines
-
Amazon SageMaker Pipelines 入门
了解如何创建管理和部署 SageMaker 作业的端到端工作流程。SageMaker Pipelines 集成了 SageMaker Python SDK,因此您可以使用基于 Python 的界面构建管道的每个步骤。
探索指南 »实现机器学习工作流的自动化
了解如何使用 Amazon SageMaker Pipelines、Amazon SageMaker 模型注册表和 Amazon SageMaker Clarify 创建和自动化端到端机器学习(ML)工作流。
开始使用教程 »如何借助 Amazon SageMaker Pipelines 创建完全自动化的机器学习工作流程
了解 Amazon SageMaker Pipelines,这是世界上首个机器学习 CI/CD 服务,其设计便于每位开发人员和数据科学家使用。SageMaker Pipelines 将 CI/CD 管道引入机器学习,从而缩短了所需的编码时间。
观看视频 » -
SageMaker Studio
第三组 AI/ML AWS 服务途径提供了深入的文档、动手教程和资源,可帮助您开始使用 Amazon Bedrock、Amazon CodeWhisperer、AWS Trainium、AWS Inferentia 和 Amazon Titan。
-
Amazon Bedrock
-
Amazon CodeWhisperer
-
AWS Trainium
-
AWS Inferentia
-
Amazon Titan
-
Amazon Bedrock
-
Amazon Bedrock 概述
了解 Amazon Bedrock 如何通过 API 提供来自领先的 AI 初创企业和 Amazon 的基础模型,使您可以从各种基础模型中进行选择,找到最适合您的使用案例的模型。
宣布在 AWS 上使用生成式人工智能进行构建的新工具
了解 Amazon Bedrock 的开发背景、它如何与更广泛的 AWS 人工智能和机器学习方法相适应,并概述 AWS 生成式人工智能服务的潜在用途。
揭开生成式人工智能的神秘面纱
在此视频中,Amazon 首席技术官 Werner Vogels 博士和 AWS 数据库、分析和机器学习副总裁 Swami Sivasubramanian 共聚一堂,讨论生成式人工智能的广阔前景,为什么它并非炒作,以及 AWS 如何普及大型语言和基础模型的使用。
-
Amazon CodeWhisperer
-
什么是 Amazon CodeWhisperer?
了解 CodeWhisperer 如何设计,以帮助为例行或耗时、无差异的任务创建代码、使用不熟悉的 API 或 SDK、正确有效地使用 AWS API 以及其他常见的编码场景,例如读写文件、图像处理和编写单元测试。
Amazon CodeWhisperer 入门
了解如何设置 CodeWhisperer 以便与四种可能的 IDE 一起使用:AWS Toolkit for JetBrains、AWS Toolkit for Visual Studio Code、AWS Toolkit for VS Code 和 AWS Cloud9。
Amazon CodeWhisperer 研讨会
了解如何为图像识别构建成熟的、由事件驱动的无服务器应用程序。借助 Amazon CodeWhisperer,您可以自己编写在 AWS Lambda 上运行的代码,以与 Amazon Rekognition、Amazon DynamoDB、Amazon SNS、Amazon SQS、Amazon S3、第三方 HTTP API 进行交互以执行图像识别。
-
AWS Trainium
-
使用 AWS Trainium 和 Amazon EKS 扩展分布式训练
了解如何从由 AWS Trainium 提供支持的 Amazon EC2 Trn1 实例的普遍可用性中受益。AWS Trainium 是一款专门构建的机器学习加速器,经过优化,可提供高性能、经济高效且可大规模扩展的平台,用于在云中训练深度学习模型。
AWS Trainium 概述
了解 AWS Trainium,即 AWS 专门为超过 1000 亿个参数模型的深度学习训练打造的第二代机器学习加速器。每个 Amazon Elastic Compute Cloud(EC2)Trn1 实例可部署多达 16 个 AWS Trainium 加速器,为云中的深度学习(DL)培训提供高性能、低成本的解决方案。
-
AWS Inferentia
-
AWS Inferentia2 在 AWS Inferentia1 的基础上构建,吞吐量提高了 4 倍,延迟降低至 1/10
了解 AWS Inferentia2 针对哪些应用进行了优化,并探索它是如何从头开始设计,以提供更高的性能,同时降低 LLM 和生成式人工智能推理的成本的。
使用 AWS Inferentia 进行机器学习推理
了解如何使用运行 Amazon EC2 Inf1 实例的节点创建 Amazon EKS 集群,以及(可选)部署示例应用程序。Amazon EC2 Inf1 实例由 AWS Inferentia 芯片提供支持,这些芯片由 AWS 定制构建,用于在云中提供高性能和最低成本的推理。
-
Amazon Titan
-
Amazon Titan 概述
探索 Amazon Titan FM 如何在大型数据集上进行预先训练,使其成为功能强大的通用模型。了解如何按原样使用或私下使用这些模型,以使用自己的数据为特定任务自定义这些模型,而无需注释大量数据。