推理成本
节省近 50%
计算性能效率
通过
合理调整 Amazon EC2 实例的大小,节省 20% 的计算成本
概览
机会 | 构建机器学习模型,代替人工扫描
Amazon Robotics 借助其软件和机器自动执行亚马逊运营中心的库存处理流程。该公司的系统包含三个主要的物理组件:移动货架单元、机器人和员工工作台。机器人将移动货架单元运送到工作台,员工将库存放入(装载)或取出(拣选)。Amazon Robotics 高级软件经理 Eli Gallaudet 表示:“我们现在的装载和拣选工作流有时会给下游流程造成瓶颈。2017 年,我们启动了一项计划,旨在弄清如何简化其中的一些工作流。”
为减少耗时的箱体扫描工作,Amazon Robotics 构建了 Intent Detection System,这是一个基于深度学习的计算机视觉系统,并通过数百万个装载操作的示例视频对其进行了训练。该公司希望训练此系统自动识别员工放置库存物品的位置。Amazon Robotics 意识到,这需要使用云计算将深度学习模型部署到亚马逊运营中心,因此求助于 AWS。该团队将其模型部署到 Docker 容器,使用完全托管式容器编排服务 Amazon Elastic Container Service(Amazon ECS)进行托管。
在该团队收集到足够的装载操作示例视频之后,就尝试将模型架构应用于大型带注释的视频数据集。经过几次迭代之后,该团队可以开始让已部署的模型自动执行流程。
我们的系统将在 2022 年内使用超过 1000 个 SageMaker 主机,AWS Inferentia 让我们有机会快速增加流量,同时将成本降低 35%,吞吐量提高 20%,而不必重新训练我们的机器学习模型。
Pei Wang
Amazon Robotics 软件工程师
解决方案 | 将托管和管理流程迁移到 Amazon SageMaker
虽然 Amazon Robotics 可以利用 AWS 上的丰富计算资源,但该公司仍然需要自行处理托管。AWS 在 AWS re:Invent 2017 上宣布推出 Amazon SageMaker 后,Amazon Robotics 很快就采用了这项服务,无需自行构建昂贵的托管解决方案。Amazon Robotics 是最早大规模部署到 Amazon SageMaker 的公司,而且截至 2021 年 1 月,仍然是最大规模的部署之一。
最初,该团队主要使用 Amazon SageMaker 托管模型。Amazon Robotics 根据需要调整其服务使用方式,最初是使用混合架构,并在本地和云上分别运行一些算法。Amazon Robotics 高级软件经理 Tim Stallman 说:“我们构建了一组核心功能,让我们能够打造出 Intent Detection System。然后,随着 Amazon SageMaker 功能上线,我们慢慢开始采用这些功能。” 例如,团队采用了 Amazon SageMaker Experiments 功能,该功能支持团队组织、追踪、比较和评估机器学习实验和模型版本。
Amazon Robotics 还采用了 Amazon SageMaker 弹性伸缩。Gallaudet 说:“Amazon SageMaker 不仅管理我们用于推理的主机,还会根据为工作负载提供支持的需要自动添加或删除主机。” 由于该公司无需自行采购或管理由 500 多个 GPU 组成的机群,因此节省了大约 50% 的推理成本。
获得托管式解决方案和 AWS Inferentia 的益处
Amazon Robotics 已经取得非常大的成功。该公司已经通过 Amazon SageMaker 减少了在管理方面花费的时间,并且平衡了科学家与软件开发工程师之间的比例。Amazon SageMaker 还使系统在整个 Amazon 运营网络中不断推出更新期间能够进行横向扩展,并且该团队相信,Amazon SageMaker 能够处理其高峰推理需求。
此解决方案由 Amazon Elastic Compute Cloud(Amazon EC2)提供支持,后者在云中提供安全、可调整大小的计算容量,使用户能在有可用的新主机类型时快速迁移主机类型。通过从 Amazon EC2 P2 实例迁移到 Amazon EC2 G4 实例,Amazon Robotics 团队能够将推理成本降低 20%。现在,借助 AWS Inferentia,Amazon Robotics 团队能够通过 G4 实例进一步将推理成本降低 35%(从 P2 实例降低了 50%),并且 Inferentia 将吞吐量提高了 20%,使他们能够在一天内无需更多资源的情况下扫描更多资源包。“我们的系统将在 2022 年内使用超过 1000 个 SageMaker 主机,AWS Inferentia 帮助我们在快速增加流量的同时提高吞吐量,无需重新训练我们的机器学习模型,”Amazon Robotics 软件工程师 Pei Wang 说道。
由 Amazon SageMaker 提供支持的解决方案在初始部署之后得以快速发展。Amazon Robotics 团队最初在威斯康星州的一个运营中心小规模实施该解决方案,随后将其快速扩展到了几十个运营中心。随着解决方案不断发展,Amazon SageMaker 也快速而无缝地与其同步扩展。Gallaudet 说:“我们预计 2022 年的部署数量几乎翻倍。”
结果 | 持续稳步推进创新
该团队发现还可以在 AWS 上尝试其他许多机会,包括使用 Amazon SageMaker Edge Manager(用于跨智能设备机群高效管理和监控机器学习模型)在边缘运行其模型。Amazon Robotics 还希望构建能进一步自动追踪包裹并帮助自动评估包裹损害程度的模型。
通过尝试先进的技术,Amazon Robotics 继续提高运营中心的效率,改善 Amazon 客户体验。Stallman 说:“我们学到了许多技术,并且在 Intent Detection System 中积累了经验,这些直接助力我们快速推动这些项目。”
关于 Amazon Robotics
Amazon Robotics 开发软件并制造机器,旨在自动执行亚马逊运营中心的库存流程。
使用的 AWS 服务
Amazon EC2
Amazon EC2 是一种 Web 服务,可以在云中提供安全并且可调整大小的计算容量。该服务旨在让开发人员能够更轻松地进行 Web 规模的云计算。
Amazon EC2 G4 实例
Amazon EC2 G4 实例是行业内成本效益较高的通用 GPU 实例,适用于部署机器学习模型(例如图像分类、物体检测和语音识别)和图形密集型应用程序(例如远程图形工作站、游戏串流和图像渲染)。
Amazon ECS
Amazon ECS 是一项完全托管式容器编排服务。出于其安全性、可靠性和可扩展性,Duolingo、Samsung、GE 和 Cookpad 等客户都使用 ECS 运行他们较敏感的任务关键型应用程序。
Amazon SageMaker
Amazon SageMaker 通过整合专门为机器学习 (ML) 构建的广泛功能集,帮助数据科学家和开发人员快速准备、构建、训练和部署高质量的机器学习模型。
探索 Amazon 利用 AWS 开启的创新之旅
更多 Amazon 案例
行动起来
无论行业无论规模,每天都有各种机构在使用 AWS 实现自身业务转型、实现企业愿景。欢迎您联系我们的专家,立即踏上您的 AWS 之旅。