什么是数据科学?
数据科学研究数据以提取对业务有意义的洞察。这是一种多学科的方法,可将数学、统计数据、人工智能以及计算机工程等领域的原则和实践结合起来,进而分析大量数据。此分析可帮助数据科学家提出和回答如下问题:发生了什么、为什么发生、将发生什么以及结果可以做什么。
数据科学为何如此重要?
数据科学十分重要,因为它可以结合相关工具、方法和技术来从数据中提取含义。现代企业充斥着大量数据,能够自动收集和存储信息的设备因此激增。线上系统和支付门户在电子商务、医疗、金融等领域以及人类生活的其他各个方面捕获的数据越来越多。我们拥有海量可用的文本、音频、视频以及图像数据。
数据科学的历史
虽然数据科学这一术语并不新鲜,但是其含义和内涵已随着时间的推移而发生了变化。这个词首次出现在 60 年代,用作统计数据的替代名称。直到 90 年后期,计算机科学专家才正式确定了这一术语。数据科学的一种拟议定义是将其视为独立的领域,并具有以下三个方面:数据设计、数据收集和数据分析。又过了十年之后,数据科学这一词才得以在学术界之外使用。
数据科学的用途是什么?
数据科学用于通过以下四种主要方式研究数据:
1.描述性分析
描述性分析会检查数据,来获取数据环境中发生的情况和正在发生的情况的洞察。它的特征是数据的可视化,例如饼图、条形图、折线图、表或生成的叙述。 例如,航班预订服务可能会记录每日预订的机票数量等数据。描述性分析将揭示此服务的预订高峰月、预订低迷月以及高绩效月。
2.诊断分析
诊断分析是一种深入或详细的数据检查,用于了解某些情况发生的原因。它的特征是技术,例如向下钻取、数据发现、数据挖掘以及关联。要了解每一种技术的独特模式,可能需要对指定的数据集执行多次数据操作和转换。例如,航班服务需要深入了解绩效特别突出的月份,来更好地了解预定高峰。借此可能会发现,许多客户会去往特定城市参加每月的体育赛事。
3.预测分析
预测分析使用历史数据来准确预测未来可能出现的数据模式。它的特征是技术,例如机器学习、预测、模式匹配和预测建模。在每一种技术中,计算机均经过训练,能对数据中的因果关系进行逆向工程。例如,航班服务团队可使用数据科学在每年年初预测来年的航班预订模式。电脑程序或算法可能会查看过去的数据并预测 5 月某些目的地的预订高峰。通过预估客户未来的旅行需求,公司可以自 2 月起开始为这些城市投放有针对性的广告。
4.规范性分析
规范性分析将预测数据提升到新水平。它不仅会预测可能会发生的情况,还能为对结果的最佳响应提供建议。同时可以分析不同选择的潜在影响,并推荐最佳行动方案。它使用机器学习的图形分析、模拟、复杂事件处理、神经网络和建议引擎。
回到航班预订示例,规范性分析可能查看历史营销活动,更大限度地发挥即将到来的预订高峰的优势。数据科学家可以预计不同营销渠道上不同支出水平的预订结果。这些数据预测会让航班预订公司在营销决策方面更有信心。
数据科学可以为企业带来哪些优势?
数据科学正在彻底改变公司运营的方式。许多企业,不管其规模如何,都需要可靠的数据科学策略来推动增长并保持竞争优势。主要优势包括:
发现未知变革模式
数据科学使企业能够发现有可能帮助企业实现转型的新模式和关系。它可以揭示资源管理的低成本变化,来更大限度地提高利润率。例如,一家电子商务公司使用数据科学发现太多的客户查询发生在工作时间之后。调查显示,如果客户能迅速得到回复而不是在下一个工作日得到回复,那么他们更有可能购买产品。通过实施全天候客户服务,企业的收入增长了 30%。
创新新产品和解决方案
数据科学可以揭示容易忽略的差距和问题。购买决策、客户反馈和业务流程方面更深入的洞察可以推进内部运营和外部解决方案的创新。例如,在线支付解决方案使用数据科学来整理和分析客户在社交媒体上对公司的评论。分析显示,客户在高峰购买期忘记密码,且对当前的密码重设系统不满意。公司可以通过创新构建更好的解决方案,然后可以看到客户满意度显著提高。
实时优化
对于企业而言,尤其是大规模企业,实时响应不断变化的条件极具挑战性。这可能会导致业务活动中的重大损失或中断。数据科学可以帮助公司预测变化并对不同的情况做出最佳反应。例如,以卡车为基础的运输公司使用数据科学来减少卡车故障时的停工时间。他们确认导致较快出故障的路线和轮班模式,并调整卡车的时间表。他们还建立了需要频繁更换的常用备件库存,以便更快地维修卡车。
什么是数据科学流程?
业务问题通常会启动数据科学流程。数据科学家将与业务的利益攸关方合作,了解企业需要的内容。确定问题后,数据科学家可以使用 OSEMN 数据科学流程解决问题:
O – 获取数据
数据可以是现有的、新获得的或可从互联网上下载的数据存储库。数据科学家可以从内部或外部数据库、公司 CRM 软件、Web 服务器日志、社交媒体中提取数据,也可以从信任的第三方源购买数据。
S – 清理数据
数据清理(也叫数据清洁)是按照预定义的格式对数据进行标准化的流程。这个过程包括处理缺失数据、修复数据错误以及删除任何数据异常值。下面是一些数据清理示例:
- 将所有日期值更改为通用标准格式。
- 修复拼写错误或多余空格。
- 修复数学的不准确性或删除庞大数字中的逗号。
E – 探索数据
数据探索是初步数据分析,用于规划进一步的数据建模策略。数据科学家可以使用描述统计数据和数据可视化工具,来获得数据的初步理解。然后,他们可以探索数据,确定可以研究或操作的有趣模式。
M – 模型数据
软件和机器学习算法用于获取深入洞察、预测成果以及指定最佳行动方案。可以应用机器学习技术(诸如关联、分类和集群等)来训练数据集。可以利用预定义的测试数据对模型进行测试,来评估结果的准确性。数据模型还可以多次进行微调,从而改善成果。
N – 解释结果
数据科学家与分析人员和企业协同配合,将数据见解转换为行动。他们通过制作图表来呈现趋势和预测。数据摘要可帮助利益攸关方有效地理解和实施结果。
数据科学技术有哪些?
数据科学专家使用计算系统来遵循数据科学流程。 以下是数据科学家使用的热门技术:
分类
分类是指将数据分为特定组或特定类别。计算机经过训练,可以识别数据并对其进行分类。已知数据集用于在计算机中构建决策算法,从而实现数据的快速处理和分类。例如:
- 将产品按热门或不热门进行分类
- 将投保单按高风险或低风险进行分类
- 将社交媒体评论分为积极、消极或中立。
数据科学专家使用计算系统来遵循数据科学流程。
回归
回归是找到两个看似不相关数据点之间的关系的方法。我们通常围绕一个数学公式对它们的关系进行建模,然后以图表或曲线的形式呈现出来。如果已知一个数据点的值,则可使用回归来预测另一个数据点。例如:
- 空气传播疾病的传播速度。
- 客户满意度和员工数量之间的关系。
- 特定位置的消防站数量和火灾造成的受伤的人数之间的关系。
群集
集群是将密切相关的数据分组来查找模式和异常的方法。集群不同于分类,是因为集群无法将数据准确地分到固定类别中。因此,数据将归入最为可能的关系中。使用集群可以发现新模式和关系。例如:
- 将具有类似购买行为的客户分组,提升客户服务。
- 将网络流量分组,识别日常使用模式,更快地识别网络攻击。
- 将文章集中到多个不同新闻类别中,并使用该信息来查找虚假新闻内容。
数据科学技术背后的基本原则
尽管详细信息可能会有所不同,但这些技术背后的基本原则为:
- 根据已知数据集该训练机器,使其知道如何对数据进行分类。例如,将关键字样本及其分类值提供给计算机。“开心”为积极情绪,而“讨厌”为消极情绪。
- 为机器提供未知数据,让设备独立对数据集进行分类。
- 允许结果存在不准确性,并处理结果的概率因数。
有哪些不同的数据科学技术?
数据科学从业者与以下复杂技术打交道:
- 人工智能:机器学习模型和相关软件用于预测分析和描述性分析。
- 云计算:云技术为数据科学家提供高级数据分析所需的灵活度和处理能力。
- 物联网:物联网指的是可以自动连接互联网的各种设备。这些设备可收集用于数据科学计划的数据。它们可以生成可以用于数据挖掘和数据提取的大量数据。
- 量子计算:量子计算机可以高速执行复杂的计算。熟练的数据科学家使用它们来构建复杂的定量算法。
与其他相关数据领域相比,数据科学的情况如何?
对于其他与数据相关的角色和领域而言,数据科学是是一个包罗万象的术语。我们来看一些数据科学的示例:
数据科学和数据分析之间有什么区别?
虽然这两种术语可以互换使用,但数据分析是数据科学的子集。数据科学是数据处理所有方面(从收集到建模再到洞察)的统称。另一方面,数据分析主要涉及统计数据、数学和统计分析。它仅关注数据分析,而数据科学与组织数据的大局相关。在大多数工作场所中,数据科学家和数据分析师需要协同配合,来实现共同的企业目标。数据分析师需要花更多时间进行常规分析,并提供定期报告。数据科学家则需要设计数据存储、数据操作和数据分析的方式。简而言之,数据分析师让现有数据变得有意义,而数据科学家创建处理数据的方法和工具,以供分析师使用。
数据科学和业务分析之间有什么区别?
虽然数据科学和业务分析之间存在重叠,但两者之间的关键区别在于每个领域所使用的技术。相比于业务分析师,数据科学家会更密切地使用数据技术。业务分析师则会弥合企业和 IT 之间的差距。他们还会定义业务案例、收集来自利益攸关方的信息或验证解决方案。另一方面,数据科学家使用技术来处理业务数据。他们可能会编写程序,应用机器学习技术来创建模型,并开发新算法。数据科学家不仅需要理解问题,还需要构建工具,提供解决问题的解决方案。业务分析师和数据科学家在同一个团队工作不足为奇。业务分析师从数据科学家那里获得输出,并利用它们讲述更广泛的企业能够理解的故事。
数据科学和数据工程之间有什么区别?
数据工程师构建并维护系统,让数据科学家能够访问和解释数据。相比于数据科学家,他们更密切地使用基本技术。此角色通常涉及创建数据模型、构建数据管道,以及监管提取、转换、加载(ETL)。根据企业设置和规模,数据工程师可能还需要管理大数据存储、流式传输等相关基础设施和 Amazon S3 等处理平台。数据科学家使用经过数据工程师处理的数据来构建和训练预测模型。然后,数据科学家可以将结果交移给分析师,以供做出进一步的决策。
数据科学和机器学习之间有什么区别?
机器学习是训练机器按照人类的方式分析和学习数据的科学,是数据科学项目中使用的方法之一,可自动从数据中获取洞察。机器学习工程师擅长特定于机器学方法的计算、算法和编码技能。数据科学家可能会将机器学习方法用作工具,或与其他机器学习工程师密切合作来处理数据。
数据科学和统计数据之间有什么区别?
统计数据指的是数学领域,旨在收集和解释定量数据。相比之下,数据科学是使用科学的方法、流程和系统从不同形式的数据中提取知识的多学科领域。数据科学家使用多学科的方法,其中也包括统计数据。但是,这两个领域在其流程和研究的问题上有所不同。
有哪些不同的数据科学工具?
AWS 拥有各种工具来支持全球的数据科学家:
数据存储
对于数据仓库,Amazon Redshift 可以对结构化或非结构化数据执行复杂的查询。分析师和数据科学家可以使用 AWS Glue 来管理和搜索数据。AWS Glue 会自动为数据湖中的所有数据创建一个统一目录,并附带元数据,使其易于查找。
机器学习
Amazon SageMaker 是在 Amazon Elastic Compute Cloud(EC2)上运行的完全托管式机器学习服务。它允许用户组织数据、构建、训练和部署机器学习模型以及扩展运营。
分析
- Amazon Athena 是一种交互式查询服务,让您能够轻松分析 Amazon S3 或 Glacier 中的数据。它速度快、无服务器,且使用标准 SQL 查询运作。
- Amazon Elastic MapReduce(EMR)使用 Spark 和 Hadoop 等服务器处理大数据。
- Amazon Kinesis 允许实时聚合和处理流式传输数据。它使用来自物联网设备的网站点击流、应用程序日志和遥测数据。
- Amazon OpenSearch 允许搜索、分析和可视化 PB 级的数据。
数据科学家可以做什么?
数据科学家可以将各种不同的技巧、工具和技术用作数据科学流程的一部分。他们根据问题选择最佳组合,从而更快速地获取更准确的结果。
数据科学家的角色以及日常工作因企业的规模和要求而有所不同。虽然他们通常都遵循数据科学流程,但具体的细节可能有所不同。在大型的数据科学团队中,数据科学家可能与其他分析师、工程师、机器学习专家以及统计学家协作配合,来确保端到端地遵循数据科学流程,从而实现业务目标。
但在小型的团队中,数据科学家可能需身兼数职。根据经验、技能和教育背景的不同,他们可能需要担任多重职务或重复职务。在这种情况下,他们的日常责任可能会包括工程、分析、机器学习,以及核心数据科学方法。
数据科学家面临哪些挑战?
多个数据源
不同类型的应用程序和工具会生成各种格式的数据。数据科学家必须清理和准备数据,使其保持一致。这一过程既乏味又耗时。
理解企业问题
数据科学家必须与多位利益攸关方和企业经理协同配合,来定义需要解决的问题。这个过程可能极具挑战性,尤其是在拥有不同要求的多个团队的大型公司。
消除偏差
机器学习工具并不完全准确,可能存在一些不确定性或偏差。偏差是指对不同群体(如年龄或收入阶层)进行数据训练或模型预测行为时表现出的失衡。例如,如果工具主要使用中年个体的数据进行训练,那么在涉及年轻人和老年人的预测时,其准确性可能会降低。机器学习领域提供了一个机会,可以通过在您的数据和模型中检测和衡量偏差来达到解决偏差的目的。
如何成为一名数据科学家?
成为一名数据科学家通常需要三个步骤:
- 获得 IT、计算机科学、数学、物理学或其他相关领域的学士学位。
- 获得数据科学或相关领域的硕士学位。
- 在感兴趣的领域积累经验