什么是大数据?
我们可以从数据管理难题的角度来描述大数据:由于数据量、数据速度和数据多样性方面的需求日益增加,人们无法使用再传统数据库来解决这种难题。大数据的定义很多,但其中大部分定义都包含所谓大数据的“三个 V”的概念:
量大(Volume):数据量从 TB 级到 PB 级不等
多样(Variety):包括多种来源和格式(例如 Web 日志、社交媒体互动、电子商务与在线交易、金融交易,等等)的数据
高速(Velocity):从生成数据的时间到向用户提供可付诸行动的见解的时间,企业对速度的要求越来越高。因此,需要以相对较短的时间(从每天一次到实时)完成数据的收集、存储、处理和分析
您为什么会需要大数据?
尽管关于大数据的宣传无处不在,许多组织仍然没有意识到他们正面临大数据问题,或者根本没有从大数据的角度思考自己面临的问题。一般而言,如果组织现有的数据库和应用程序已无法再扩展以应对数据量、数据多样性和数据速度方面需求的激增,那么该组织很可能会通过采用大数据技术而获益。
若未能正确解决大数据难题,则会导致成本不断上升,工作效率和竞争力不断下降。而合理的大数据策略则能够迁移现有的繁重工作负载,交由大数据技术处理,并部署新应用程序以利用新的商机,从而帮助组织降低成本并提高运营效率。
大数据的工作原理是什么?
大数据技术提供了可满足整个数据管理周期需求的新工具,因此具有技术上和经济上的可行性,不仅能够收集并存储更大的数据集,还能对其进行分析,以发掘有价值的新见解。在大多数情况下,大数据处理包含一种常见的数据流 – 从收集原始数据到使用可付诸行动的信息。
收集。收集原始数据(事务、日志、移动设备等)是众多组织在应对大数据时所面临的第一个难题。优秀的大数据平台可使这一步事半功倍,让开发人员能够以任意速度(从实时处理到批处理)摄取多种数据(从结构化数据到非结构化数据)。
存储。任何大数据平台都需要一个安全、可控制且持久耐用的存储库,用于在处理任务之前(甚至之后)存储数据。根据具体需求,您可能还需要临时存储来存储传输过程中的数据。
处理和分析。在这一步中,数据将从其原始状态转换为可使用的格式,实现的方法通常是排序、聚合、合并,甚至是执行更高级的函数和算法。随后,将存储转换后产生的数据集以供进一步处理,或者通过商业智能和数据可视化工具向用户提供这些数据集。
使用和可视化。大数据解决方案的意义就在于从您的数据集中获取高价值、可付诸行动的见解。理想情况下,您可通过自助式商业智能工具和灵活的数据可视化工具向相关人员提供数据,他们可利用这些工具轻松快速地浏览这些数据集。根据分析的类型,最终用户还可能以统计“预测”(预测分析)或建议行动(规范分析)的形式使用分析结果数据。
大数据处理的发展历程
大数据生态系统一直在以惊人的速度向前发展。如今,有多种分析类型可满足组织中众多职能的需求。
描述分析可帮助用户回答以下问题:“发生了什么,为何会发生?”示例包括带有记分卡和控制面板的传统查询和报告环境。
预测分析可帮助用户预估某个给定事件在未来发生的几率。示例包括早期的警报系统、欺诈检测、预防性维护应用程序和预测。
规范性分析可为用户提供具体(规范)建议。它们可回答用户的以下问题:“如果发生‘x’,我该怎么做?”
最初,Hadoop 之类的大数据框架只支持批处理工作负载,它们在指定的时间段(通常为数小时乃至数天)内批量处理大型数据集。然而,随着“获得见解的时间”变得越来越重要,大数据的“高速”特点已经促使许多新的框架(例如 Apache Spark、Apache Kafka、Amazon Kinesis 等)做出改进以支持实时和流式数据处理。
AWS 如何支持您的大数据需求?
Amazon Web Services 提供了一套全面且完全集成的云计算服务产品组合,可帮助您构建、保护和部署大数据应用程序。借助 AWS,您无需购买硬件,也无需维护和扩展基础设施,因此可以将您的资源集中用于发掘新的见解。随着我们不断添加新的功能,您将始终能够利用最新技术,且不必做出任何长期投资承诺。
立即可用
大部分大数据技术都需要大型的服务器集群,因而会拖长调配和设置周期。利用 AWS,您几乎可以立即部署需要的基础设施。这意味着,您团队的工作效率将提高,更容易尝试新事物,项目的推出速度也会加快。
广泛深入的功能
与所需分析的数据资源一样,大数据工作负载也具有多样性。拥有广泛深入的平台意味着您几乎可以构建任何大数据应用程序,并可支持任何工作负载,无论数据的数量、速度和类型如何都是如此。凭借每年新增的 50 多项服务和数百种功能,AWS 可提供您所需的一切,帮助您在云中对大数据进行收集、存储、处理、分析和可视化。 详细了解 AWS 大数据平台。
安全、值得信赖
大数据是敏感数据。因此,在不影响敏捷性的前提下确保数据资源安全并保护您的基础设施,这一点至关重要。AWS 提供的功能横跨设施、网络、软件和业务流程等领域,可满足最严格的要求。我们的环境针对各种认证(如 ISO 27001、FedRAMP、DoD SRG 和 PCI DSS)持续接受审计。我们的合规性项目可帮助您证明 20 多项标准的合规性,包括 HIPAA、NCSC 等。有关更多信息,请访问云安全中心。
数以百计的合作伙伴和解决方案
我们的大型合作伙伴生态系统可帮助您填补技能差距,更快速地开始使用大数据。您可访问 AWS 合作伙伴网络以获取咨询合作伙伴的帮助,或从整个数据管理体系中的数千款工具和应用程序中进行选择。
AWS 的大数据解决方案
让我们帮助您解决大数据难题。把重担交给我们,让您可以将更多时间和资源用于实现企业或组织的目标。
详细了解 AWS 大数据解决方案 »
立即创建账户,开始在 AWS 上进行大数据分析。