存储、共享和管理用于训练和推理的 ML 模型特征,以促进跨 ML 应用的特征复用
从任意数据来源提取特征,包括来自应用程序日志、服务日志、点击流、传感器等来源的流和批处理数据和来自 AWS 或第三方数据来源的表格数据
将数据转换为 ML 功能,构建支持 MLOP 实践并加快模型部署速度的特征管道
Amazon SageMaker Feature Store 是一个完全托管式的专用存储库,用于存储、共享和管理机器学习(ML)模型特征。特征是在训练和推理期间使用的 ML 模型的输入。例如,在推荐音乐播放列表的应用程序中,特征可能包括歌曲评级、收听时长和听众人口统计数据。特征被多个团队重复使用,特征质量对于确保模型高度准确至关重要。此外,当用于批量离线训练模型的特征可用于实时推理时,很难保持两个特征存储同步。SageMaker Feature Store 提供安全、统一的存储,用于在整个 ML 生命周期中大规模处理、标准化和使用特征。
工作原理
主要特征
特征处理和提取
您可以将各种来源的数据提取到 SageMaker Feature Store 中,例如来自应用程序和服务日志、点击流、传感器的数据以及来自 Amazon Simple Storage Service(Amazon S3)、Amazon Redshift、AWS Lake Formation、Snowflake 和 Databricks Delta Lake 的表格数据。使用特征处理,您可以指定批量数据来源和特征转换函数(例如,产品视图数或时间窗聚合),SageMaker Feature Store 会在摄取数据时将其转换为 ML 特征。使用 Amazon SageMaker Data Wrangler,您可以将特征直接发布到 SageMaker Feature Store。使用 Apache Spark 连接器,您可以使用一行代码批量摄取大量数据。
特征存储、目录、搜索和复用
SageMaker Feature Store 为特征组添加标签和索引,以便用户通过 Amazon SageMaker Studio 的可视化界面轻松发现这些标签和索引。通过浏览特征目录,团队可以发现他们可以放心复用的现有特征,并避免管道重复。SageMaker Feature Store 默认使用 AWS Glue 数据目录,但如果需要,您可以使用其他目录。您还可以使用熟悉的 SQL 配合 Amazon Athena 或您选择的其他查询工具来查询特征。
特征一致性
SageMaker Feature Store 支持用于训练的离线存储和用于实时推理的在线存储。训练和推理是截然不同的使用案例,各自的存储要求也不同。在训练期间,模型通常使用完整的数据集,可能需要数小时才能完成,而推理需要在几毫秒内完成,并且通常使用数据的子集。当一起使用时,SageMaker Feature Store 可确保离线和在线数据集保持同步,这一点至关重要,因为如果它们出现分歧,则会对模型准确性产生负面影响。
沿袭追踪
为了满怀信心地启用特征复用,数据科学家需要了解特征是如何构建的,以及哪些模型和端点正在使用它们。SageMaker Feature Store 允许数据科学家使用 SageMaker Lineage 在 Amazon SageMaker Studio 中追踪其特征。SageMaker Lineage 允许您跟踪预定的管道执行、可视化上游谱系以将特征追溯回其数据来源,以及查看特征处理代码,这些都可以在一个环境中完成。
时间旅行
数据科学家可能需要使用过去特定时间的精确特征值集来训练模型,还要避免包含超过该时间的数据(也称为特征泄露)的风险,例如诊断前的患者医疗数据。SageMaker Feature Store 离线 API 支持时间点查询,可以检索每个特征在感兴趣的历史时间的状态。
ML 运维
特征存储是 MLOps 生命周期中的关键组成部分。他们管理数据集和特征管道,加快数据科学任务并消除要多次创建相同特征的重复工作。SageMaker Feature Store 可以在整个 MLOps 生命周期中作为独立服务或以集成方式与其他 SageMaker 服务一起使用。
客户
“在 Climate,我们坚信自己能够为全世界的农民提供准确的信息,帮助他们做出数据驱动型决策,并最大限度地提高他们的每英亩土地回报率。为此,我们投资了机器学习工具等技术,使用称为特征的可测量实体来构建模型,如种植者的田间产量。借助 Amazon SageMaker Feature Store,我们可以通过一个集中的特征存储加快机器学习模型的开发,从而帮助多个团队轻松访问和重复使用特征。通过 SageMaker Feature Store,我们可以针对不同的使用案例,或使用在线存储库轻松地实时访问特征,或使用离线存储库按计划运行特征。有了 SageMaker Feature Store,我们可以更快地开发机器学习模型。”
Daniel McCaffrey,Climate 数据和分析副总裁
“2017 年,我们选择在 AWS 上构建 Intuit 的新机器学习平台,将 Amazon SageMaker 在模型开发、训练和托管方面的强大功能与 Intuit 自己在编排和特征工程方面的功能相结合。如此一来,我们大大缩短了模型开发生命周期。过去需要整整六个月的时间,现在只需不到一周的时间,让我们能够以更快的速度将人工智能功能引入我们的 TurboTax、QuickBooks 和 Mint 产品中。在 Amazon SageMaker Feature Store 发布之前,我们就与 AWS 密切合作,而且我们对这个完全托管特征存储库的前景感到非常兴奋,因为有了它,我们不再需要在组织内维护多个特征存储库。我们的数据科学家将能够使用一个集中存储库中的现有功能,并推动跨团队和模型实现特征标准化和重复使用。”
Mammad Zadeh,Intuit 工程与数据平台部副总裁
“在 Experian,我们认为我们有责任让消费者了解和使用理财信贷,并协助贷款人管理信贷风险。随着我们继续实施最佳实践来构建财务模型,我们正在寻找利用机器学习加速产品生产的解决方案。Amazon SageMaker Feature Store 为我们提供了一种安全的方式,用来存储和重复使用我们的机器学习应用程序的特征。能够跨多个账户维持实时应用和批量应用的一致性是我们业务的一项关键要求。利用 Amazon SageMaker Feature Store 的新功能,我们可以帮助客户在新经济中控制信贷并降低成本。”
Geoff Dzhafarov,Experian Consumer Services 的首席企业架构师
“在 DeNA,我们的使命是利用互联网和 AI/ML 带来影响力和令客户满意。提供基于价值的服务是我们的首要目标,我们希望确保我们的业务和服务已准备好实现这一目标。我们希望在整个组织中发现和复用特征,Amazon SageMaker Feature Store 帮助我们以一种简单有效的方式为不同应用复用特征。Amazon SageMaker Feature Store 还帮助我们维护标准特征定义,并帮助我们在训练模型并将其部署到生产环境时采用一致的方法。借助 Amazon SageMaker 的这些新功能,我们可以更快地训练和部署机器学习模型,为客户提供最佳服务来让客户满意。”
Kenshin Yamada,DeNA 人工智能系统部总经理
“供需平衡的强大护理行业对于从单个家庭到国家 GDP 的经济增长都至关重要。我们对 Amazon SageMaker Feature Store 的推出感到非常兴奋,因为我们相信,它将帮助我们使用一致的精选数据集在数据科学和开发团队中更好地实现扩展。借助最新公布的 Amazon SageMaker 功能,我们可以加快针对不同应用的机器学习模型的开发和部署,通过更快的实时推荐帮助客户作出更明智的决策。”
Clemens Tummeltshammer,Care.com 数据科学部经理
“通过使用机器学习,3M 正在改进久经考验的产品(如砂纸),并推动其他领域的创新,包括医疗保健。随着我们计划将机器学习扩展到 3M 的更多领域,我们看到数据和模型的数量正在快速增长 – 每年翻一番。我们热衷于新的 SageMaker 功能,因为它们将帮助我们实现扩展。Amazon SageMaker Data Wrangler 使准备模型训练数据变得更加容易,并且 Amazon SageMaker Feature Store 消除了重复创建相同模型功能的需要。最后,Amazon SageMaker Pipelines 将帮助我们自动准备数据、构建模型并将模型部署到端到端工作流程中,以便缩短模型的上市时间。我们的研究人员期待着利用 3M 的新科学速度。”
David Frazee,3M 公司系统研究实验室技术主管