Janssen Pharmaceuticals 通过使用 Amazon SageMaker,将机器学习准确率提高了 21%

2022 年

Janssen Pharmaceuticals(Janssen)是一家制药公司集团,在 1961 年并入强生公司。目前,该集团尝试利用机器学习(ML)技术来更好地了解患者在接受 Janssen 疗法期间的体验。Janssen 的数据科学家采用了 Amazon Web Services(AWS)来自动执行部署工作流程,并在开发和生产环境之间创建更好的接口。借助 AWS 服务(包括 Amazon SageMaker,一项可为几乎任何使用案例构建、训练和部署 ML 模型的 ML 服务),Janssen 实现了自动化 ML 运维(MLOps)流程,将模型预测的准确率提高了 21%、特征工程的速度增加了约 700%,并在此基础上实现了降本增效。

Challenging research. Determined experienced scientist working with her microscope and wearing a uniform
kr_quotemark

通过结合使用 AWS Glue 和 AWS Step Functions,我们现在可以同时处理数据准备和特征工程工作并对这些工作进行编排,不再需要按顺序排列流程的每个步骤。”  

Jenna Eun
Janssen Pharmaceuticals 首席数据科学家

借助 MLOps 提高自动化程度,为研究工作提速

anssen 产品组合涵盖广泛的治疗领域,包括免疫学、传染病、神经科学和肿瘤学等。Janssen 首席数据科学家 Jenna Eun 表示:“患者接受治疗的过程十分复杂。我们需要在这个过程中始终为他们提供更好的护理。因此,我们尝试利用人工智能和机器学习技术来更好地了解患者在治疗期间的体验,从而更好地满足他们在疾病进程的各个阶段的需求。”

为了让基于机器学习的解决方案更快地被用于改善患者体验,Janssen 商业技术商业数据科学团队决定采用 MLOps。MLOps 是一套旨在可靠高效地在生产环境中部署和维护 ML 模型的实践方法,可提供这个过程的自动化程度并满足业务和技术要求。Eun 表示:“我们希望借助 MLOps 更轻松进行实验,并长期跟踪模型性能。只有能够轻松实验并全面探索超参数空间,我们才能对完成的机器学习模型满怀信心。”

由于必须将技术需求与内部安全要求保持一致,Janssen 决定组建一个跨职能团队来创建自动化的 MLOps 流程。Eun 表示:“由于我们建立的流程使用医疗保健数据,我们在开发和实施技术解决方案时必须严格遵守安全和隐私措施。”自 2020 年底起,Janssen 商业技术商业数据科学团队、强生公司科技 CloudX 团队与 Amazon SageMaker 解决方案架构团队、AWS Professional Services 紧密合作。AWS Professional Services 是一支全球专家团队,可以帮助公司在 AWS 上实现预期的业务成果。

提高 AWS 上 ML 的速度和准确性

Janssen 商业技术商业数据科学团队、强生公司科技 CloudX 团队与 Amazon SageMaker 解决方案架构团队、AWS Professional Services 紧密合作,在不到 3 个月的时间内实现了数据准备和特征工程模块的自动化。特征工程是根据患者数据创建输入变量以训练监督 ML 模型的过程。通过自动执行这些步骤,团队能够将数据准备的速度加快约 600%,将特征工程的速度加快约 700%。Janssen 使用 AWS Step Functions 实现了这一目标,这是一种低代码可视化工作流程服务,可以更轻松地对收集、处理和规范化源数据所需的步骤进行排序。AWS Step Functions 在 AWS Glue 上协调工作,这是一项无服务器数据集成服务,具有轻松同步开发和生产环境的功能,可以更快地部署经过实验和优化的 ML 解决方案。Eun 表示:“通过结合使用 AWS Glue 和 AWS Step Functions,我们现在可以同时处理数据准备和特征工程工作并对这些工作进行编排,不再需要按顺序排列流程的每个步骤。我们因此可以轻松实现开发和生产环境之间的无缝衔接,进行的任何实验都可以快速转换为由 AWS Step Functions 启动的 AWS Glue 任务。”

在 AWS 上实施 MLOps 解决方案后,Janssen 将其预测建模的准确率提高了 21%。Eun 表示:“由于数据管道的自动化程度更高,花费的时间更少,因此我们可以将更多的时间投入到模型的性能上。”提高 ML 模型准确性的关键是超参数优化。Janssen 团队定义模型和数据后,会使用 Amazon SageMaker 调整数千个算法参数组合来自动优化模型,确保模型生成尽可能准确的预测。这种自动化与其贝叶斯优化算法相结合,极大地缩短了参数搜索的时间。Eun 表示:“我们对生成的 ML 模型更有信心,因为我们进行了全面的超参数搜索。”

Janssen 团队和强生公司科技 CloudX 团队能够记录该项目,并与参与类似 ML 项目的其他强生公司团队共享。分享这些经验有助于加速那些还需要遵守强生公司安全政策的项目,并在整个组织中培养 MLOps 文化。Eun 表示:“通过创建供其他人遵循的模式,我们演示了如何连接不同的 AWS 服务,以便在强生公司环境中构建完整的 ML 管道。我们提高了之前 ML 开发和部署流程的效率,这让我们看到了可以拥有的灵活性和可扩展性。”

改善全球患者的治疗

Janssen 的 MLOps 解决方案让大规模提供数据科学解决方案成为可能。Eun 表示:“我们将解决方案应用于实际,看到了它所能带来的优势。我们希望将它扩大应用到更大的地理区域,以及强生公司的更多商业使用案例。”


关于 Janssen Pharmaceuticals

Janssen Pharmaceuticals 在 1961 年并入强生公司,是一家专注于在心血管健康、免疫学、神经科学和肿瘤学等六个治疗领域改善严重疾病治疗效果的研发企业。

AWS 带来的效益

  • 数据准备速度提高了大约 600%
  • 特征工程速度提高了大约 700%
  • ML 模型的准确率提高了 21%
  • 为其他强生公司团队建立了标准的 MLOps 参考架构

使用的 AWS 服务

Amazon SageMaker

Amazon SageMaker 通过整合专门为机器学习 (ML) 构建的广泛功能集,帮助数据科学家和开发人员快速准备、构建、训练和部署高质量的机器学习模型。

了解详情 »

AWS Step Functions

AWS Step Functions 是一项低代码、可视化的工作流服务,让开发人员可通过 AWS 服务轻松构建分布式应用程序、自动化 IT 和业务流程并构建数据和机器学习管道。

了解详情 »

AWS Glue

AWS Glue 是一项完全托管的提取、转换和加载 (ETL) 服务,让客户能够轻松准备和加载数据进行分析。

了解详情 »

AWS Professional Services

AWS Professional Services 组织是由专家组成的一个遍布全球的团队,可以协助您高效运用 AWS 云技术达到预期业务成效。

了解详情 »


开始使用

无论行业无论规模,每天都有各种机构在使用 AWS 实现自身业务转型、实现企业愿景。欢迎您联系我们的专家,立即踏上您的 AWS 之旅。