Discover 使用 AWS 加快分析和生成洞察的时间
2020
Discover Financial Services 提供银行和信贷产品,以帮助客户实现他们的财务目标,如建立良好的信用,支付大学学费,以及整合债务。该公司在很大程度上依赖于内部和外部的数据和分析来实现这一承诺,并在这个竞争异常激烈的行业中脱颖而出。“我们有很多客户数据”,Discover Financial Services 数据科学技术主管 Brandon Harris 说。“我们需要利用这些数据作为差异化因素,不断为客户提供更好的体验。”
多年以来,Discover 的团队和业务单位内部涌现出各种分析实践。12 个团队共产生了约 8–10 个工具集。每个实践都需要不同的技能集和不同的工具。Discover 的领导团队相信,将这些实践和团队结合在一起可以改进分析,并在整个组织中创建一致的工具。
Discover 的技术团队通常在内部构建新的解决方案,他们更喜欢控制端到端技术,并管理自己的数据中心。Harris 和他的团队的任务是创建一个集中式平台,让公司的数据科学家能够在一个共同的环境中进行协作,该平台是一个名为 Air9 的内部数据科学工作台。
Amazon EFS 在可扩展性和成本方面都符合要求,而且由于 Kubernetes 社群的一些出色工作,该服务已经具备了存储类功能。”
Brandon Harris
Discover Financial Services 数据科学技术主管
构建云原生数据科学平台
Harris 团队对 Air9 的最初设计原则之一是多样性的优势。“不仅团队及其经验具有多样性,方法和工具也有所不同”,Harris 说。“我们不打算为这个成熟的分析社群提供一种放之四海而皆准的数据科学方法。”
Harris 的团队认为,Kubernetes 非常适合托管 Air9,因为该公司已经使用的很多数据科学工具很自然地适合容器化。拥有专用容器允许独立的工作负载,使用户能够安装自定义软件包并对其在多租户环境中难以管理的环境进行更改。由于 Discover 是 Amazon Web Services (AWS) 的长期客户和 Amazon Simple Storage Service (Amazon S3) 的用户,该团队还决定部署 Amazon Elastic Compute Cloud (Amazon EC2) 实例。使用此方法,来自多个国家/地区的 883 位数据科学家现在可以选择其 Amazon EC2 实例大小、类型和数量,并且可以让应用程序为其数据集自动挂载该实例。
利用 AWS 改善可扩展性、存储和成本
具有完全托管式云原生文件存储的共享存储功能是 Air9 的另一个关键组成部分。“如果您运行所有这些不同的环境,将需要一种通用的方式来保存数据和进行协作”,Harris 说。
然而,当 Discover 团队开始设计存储层时,项目遇到了障碍。“我们的分析团队在云数据仓库中拥有一些非常大的数据集,但我们必须为他们的工作计划本地存储,以及在团队之间和跨团队共享数据的机制”,Harris 说。“这个存储层还必须具有很强的弹性,并支持随时间的显著增长。”
Harris 和他的团队开始利用开源分布式存储解决方案作为其数据科学平台的存储层,但运行和管理该解决方案很快变得昂贵又耗时。“当我们发现运行自己的存储平台的相关月度成本超过计算成本时,我们就知道出了问题”,Harris 说。“最终,额外的成本归因于分布式存储的复制因素,但是为了降低成本——减少复制因素——而做出的权衡并不是我们想要的。”
由于该团队在平台的计算端使用 Amazon EC2 获得了成功,因此它评估了 AWS 托管存储服务,并选择部署 Amazon Elastic File System (Amazon EFS)。Harris 说,“Amazon EFS 在可扩展性和成本方面都符合要求,而且由于 Kubernetes 社群的一些出色工作,该服务已经具备了存储类功能。AWS 还使我们能够针对不同类型的数据使用不同的环境,因此我们可以更好地保护更敏感的数据类型。”
以前,每个团队都有一个主目录和一个团队目录。通过利用 Amazon EFS,该公司可以轻松提供跨数据科学工具、项目和数据集的共享访问,以实现更无缝的协作。长期的数据存档功能以及 Amazon S3 的低开销成本也意味着 Discover 可以定制备份过程,这样它就可以有第二个数据副本用于安全保存。
“我们将 Amazon EFS 用作该协作层,但我们还有一个存档和历史层,用于不同的数据集或生命周期管理目的”,Harris 说。“我们需要将特定的数据集保存指定年限。Amazon S3 和 Amazon S3 Glacier 存储类有助于确保我们能够以经济高效的方式存储数据科学家创建和使用的所有数据。”
改善协作和生成洞察的时间
今天,Air9 通过使 Discover 的数据科学家在 AWS 上的一个集中位置运行分析应用程序;在一个共享存储环境中协作、利用结构化和非结构化数据源;以及从多个源处理和存储数据来提高他们的生产力和效率。这使得 Discover 的数据科学家能够更快、更轻松地分析数据,以获得洞察。
以前的数据平台需要几周的时间来升级,主要是由于存储限制,以及在需要额外存储时需要调整旧存储集群的大小和增长该集群。由于 Amazon EFS 在后台完成所有这些操作,该团队现在可以在几小时内更新数据平台。该平台还支持自助服务,帮助数据科学家在不影响同事经验的情况下保持工作效率。“在我们之前的本地环境中,没有促进数据科学家之间的对话和互动的机制”,Harris 说。
使用 AWS 解决方案,Harris 估计他的团队已将管理存储所花费的时间减少 90%。通过依赖 AWS 来管理服务并提供冗余功能,而不是在内部架构和构建它,Discover 已经将成本降低了 50% 至 60%。
这些变化也有助于推进 Discover 的整体数字化转型工作。“过去,为用户提供工作所需的工具需要数周时间”,Harris 说。“而现在,我们可以在数小时内完成,这样他们就可以立即开始收集洞察,为我们的客户提供价值。”
如需了解详情,请访问 aws.amazon.com/efs。
参考架构
参考架构
关于 Discover Financial Services
Discover Financial Services 是一家数字银行和支付服务公司。该公司成立于 1985 年,总部位于芝加哥北部,以帮助人们更明智地消费、更好地管理债务和增加储蓄为使命。
AWS 的优势
- 将存储管理时间减少 90% 并将成本削减 50–60%
- 按需扩展计算和存储
- 共享存储使数据科学家可以进行更多的协作
- 由于无限的存储,可以定制备份过程
- 在几小时而非几周内更新数据平台
- 数据科学家可以专注于洞察,而不是技术
使用的 AWS 服务
Amazon Elastic File System
Amazon Elastic File System (Amazon EFS) 可提供简单、可扩展、完全托管的弹性 NFS 文件系统,以与 AWS 云服务和本地资源配合使用。它可在不中断应用程序的情况下按需扩展到 PB 级,在您添加或删除文件时自动扩展或缩减,无需预置和管理容量,可自适应增长。
Amazon S3
Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能。
Amazon S3 Glacier 和 S3 Glacier Deep Archive
Amazon S3 Glacier 和 S3 Glacier Deep Archive 是安全、持久且成本极低的 Amazon S3 云存储类,适用于数据存档和长期备份。
Amazon EC2
Amazon Elastic Compute Cloud (Amazon EC2) 是一种 Web 服务,可以在云中提供安全并且可应需调整的计算容量。该服务旨在让开发人员能够更轻松地进行 Web 规模的云计算。Amazon EC2 的 Web 云服务接口非常简单,您可以最小的阻力轻松获取容量,随之配置容量。
开始使用
不同行业和规模的组织都在使用 AWS 进行转型,以实现其愿景。联系我们的专家,立即踏上您的 AWS 云之旅。