什么是机器学习?
机器学习是一门开发算法和统计模型的科学,计算机系统使用这些算法和模型,在没有明确指令的情况下,依靠既有模式和推理来执行任务。计算机系统使用机器学习算法来处理大量历史数据,并识别数据模式。这可让计算机系统根据给出的输入数据集更准确地预测结果。例如,数据科学家可以通过存储数百万的扫描图片和相应诊断来训练医学应用程序,使该程序能够根据 X 光图片诊断癌症。
为何机器学习至关重要?
机器学习可促进企业发展、为企业拓展新的收入源、解决企业难题,在多方面提供帮助。数据是商业决策背后的关键驱动力,但传统上,公司大多使用不同来源的数据,例如客户反馈、员工和财务数据。机器学习研究对这一流程进行了自动化和优化。通过使用能够高速分析大量数据的软件,企业可以更快取得成果。
机器学习的工作原理是什么?
机器学习的核心思想是任意输入和输出数据组合之间的现有数学关系。机器学习模型事先不知道这种关系,但如果给出足够的数据集,它可以猜测出来。这意味着每个机器学习算法都是围绕一个可修改的数学函数构建的。基本原理可以这样理解:
- 我们为算法提供了以下输入/输出 (i,o) 组合来“训练”算法 – (2,10)、(5,19) 和 (9,31)
- 算法计算出输入和输出之间的关系为:o=3*i+4
- 我们为算法提供输入 7,并要求算法预测输出。算法会自动确定输出为 25。
虽然这只是机器学习的基本理解,但机器学习关注的是一个原则,即所有复杂的数据点都可以通过计算机系统建立数学关联,只要它们有足够的数据和计算能力来处理这些数据。因此,输出的准确度与给定的输入大小直接相关。
机器学习使用案例和真实示例
我们来了解一下机器学习应用程序应用的一些主要行业:
制造业
机器学习可以为制造业的预测性维护、质量控制和创新研究提供支持。机器学习技术还可以帮助公司改进物流解决方案,包括资产、供应链以及库存管理。例如,制造业巨头 3M 使用机器学习研究创新砂纸。机器学习算法使 3M 研究人员能够分析形状、大小和方向上的细微变化将如何改进研磨性和耐用性。这些建议也会提供制造过程改进信息。
医护及生命科学
可穿戴传感器和设备的激增产生了重要的健康数据。机器学习程序分析此信息,并为医生的实时诊断和治疗提供支持。机器学习研究人员正在开发发现癌症肿瘤并诊断眼睛疾病的解决方案,这会对人类健康结果产生巨大影响。例如,Cambia Health Solutions 使用机器学习为孕妇提供自动化的定制治疗方案。
金融服务
金融机器学习方案改进了风险分析和监管程序。机器学习技术使投资者能够分析股市走势、评估对冲基金或校准金融服务产品组合,从而发现新的机会。此外,它还有助于识别高风险贷款客户,减少欺诈问题。例如,个人理财公司 NerdWallet 使用机器学习来比较信用卡、银行业务和贷款等金融产品。
零售
零售业可以使用机器学习来改进客户服务、库存管理、追加销售和跨渠道营销。例如,Amazon Fulfillment (AFT) 使用机器学习模型来识别放错位置的库存,将基础设施成本降低了 40%。这有助于他们履行亚马逊的承诺,尽管他们每年处理数百万次全球货运,但商品仍将很快提供给客户并准时到达。
媒体和娱乐
娱乐公司转向使用机器学习,希望更好地了解他们的目标受众,并根据受众需求提供沉浸式的个性化内容。部署机器学习算法有助于设计预告片和其他广告,为消费者提供个性化的内容建议,甚至还可以简化生产。
例如,Disney 使用机器学习来归档其媒体库。机器学习工具可自动为媒体内容贴标签、提供描述并进行分类,这使得 Disney 编剧和动画师能够快速搜索并熟悉 Disney 角色。
计算机视觉
计算机视觉是自动识别图像并准确、高效地描述这些图像的一项技术。如今,计算机系统可以访问来自智能手机、交通摄像头、安全系统和其他设备的许多图像和视频。计算机视觉应用程序利用机器学习准确地处理这些数据,以进行对象识别和面部识别以及分类、推荐、监控和检测。
例如,CampSite 是一个领先的夏令营软件平台。他们的营地每天上传数千张照片,让父母能够了解孩子的夏令营生活。找到营员的照片对父母来说成为一项耗时又棘手的任务。CampSite 使用机器学习自动识别图像,并在上传孩子的新照片时通知家长。
机器学习算法有哪些类型?
根据预期输出和输入类型,算法可以分为 4 种不同的学习风格。
- 有监督机器学习
- 无监督机器学习
- 半监督学习
- 强化机器学习
1.有监督机器学习
数据科学家为算法提供标注和定义的训练数据,以评估相关性。样本数据指定了算法的输入和输出。例如,为手写数字的图像添加注释,指示它对应于哪个数字。有监督学习系统在样本充分的情况下,可以识别与每个数字相关的像素和形状的集群。最终有监督学习系统可以识别手写的数字,可以稳定地区分数字 9 和 4 或 6 和 8。
有监督学习的优点是设计简单易行。它在预测可能的有限结果集、将数据划分为类别,或组合其他两种机器学习算法的结果时非常有用。但是,为数百万个未标注的数据集添加标注是一项难题。我们来深入了解下:
什么是数据标注?
数据标注是根据相应的定义输出值对输入数据进行归类的过程。有监督学习必需使用标注后的训练数据。例如,数百万张苹果和香蕉图片需要贴上“苹果”或“香蕉”的标签。 然后机器学习应用程序就会在给出水果图片后,使用此训练数据猜测水果的名称。但是,标注数百万个新数据可能是一项耗时费力的工作。Amazon Mechanical Turk 等众包服务在一定程度上可以克服有监督学习算法的这种局限。通过这类服务,可以接触到遍布全球的经济劳动力储备,大大降低数据获取难度。
2.无监督机器学习
无监督学习算法会使用未标注的数据进行训练。该算法会扫描新数据,试图在输入和预先确定的输出之间建立有意义的连接。它们可以发现模式并对数据进行分类。例如,无监督算法可以将来自不同新闻网站的新闻文章分为体育、犯罪等常见类别。该算法可以利用自然语言处理来理解文章的意义和感情。在零售业中,无监督学习可以在顾客购买活动中发现一些模式,并提供数据分析结果,比如,如果顾客购买了黄油,那再购买面包的可能性最大。
无监督学习在模式识别、异常检测、数据自动归类方面十分有用。训练数据不需要添加标注,因此设置十分简单。这些算法还可用于清理和处理数据,以供进一步自动建模。这种方法的局限性在于它不能给出精确的预测。此外,它也不能单独挑出特定类型的数据结果。
3.半监督学习
顾名思义,该方法结合了有监督学习和无监督学习。该技术使用少量已标注数据和大量未标注数据来训练系统。首先,标注的数据用于部分训练机器学习算法。然后,部分训练后的算法本身会为未标注数据添加标注。此流程被称为伪标注。然后,该模型在没有明确编程的情况下,根据生成的数据组合进行重新训练。
该方法的优势在于,您不需要大量的标注数据。当处理像长文档这样的数据时,它非常方便,因为人工处理这些数据太费时了,难以阅读和标注。
4.强化学习
强化学习是在算法必经的多个阶段附加奖励值的方法。因此,该模型的目标是积累尽可能多的奖励积分,并实现最终目标。在过去的 10 年间,强化学习的大多实际应用都在电子游戏领域。先进的强化学习算法在经典和现代游戏中都取得了令人印象深刻的结果,往往大大超越人类的能力。
这种方法在不确定且复杂的数据环境中表现非常好,但在商业环境中却很少得到应用。该方法对于预先定义好的任务而言效率较低,并且开发人员的偏好也会影响结果。这是因为数据科学家设计了奖励,它们可以影响结果。
机器学习模型具有确定性吗?
如果系统的输出可预测,那么它就可以说具有确定性。大多数软件应用程序对用户操作的反应都是可预测的,因此您可以说“如果用户这样做,他就能得到确定的结果”。 但是,机器学习算法通过观察和经验来学习。因此,它们本质上具有概率性。上述语句现在更改为:“如果用户这样做,他有 X% 的几率得到确定的结果。”
在机器学习中,决定论是应用上述学习方法时使用的一种策略。有监督、无监督及其他训练方法均可以根据企业想要的结果决定。研究问题、数据检索、结构和存储决策决定了采用的是确定性策略还是非确定性策略。
确定性方法与概率性方法
确定性方法注重准确性和收集的数据量,因此效率优先于不确定性。另一方面,非决定性(或概率性)流程旨在管理机会因素。机器学习算法中集成了内置工具,有助于量化、识别和衡量学习和观察过程中的不确定性。
什么是深度学习?
深度学习是一种以人脑为模型的机器学习技术。深度学习算法使用与人类类似的逻辑结构来分析数据。深度学习使用被称为人工神经网络的智能系统分层处理信息。数据从输入层经过多个“深度”隐藏的神经网络层,然后进入输出层。额外的隐藏层支持比标准机器学习模型更强大的学习能力。
什么是人工神经网络?
深度学习层是像人脑神经元一样运行的人工神经网络(ANN)节点。节点可以是硬件和软件的组合。深度学习算法中的每一层都由多个 ANN 节点组成。每个节点(或人工神经元)都连接到另一个,并具有相关的值编号和阈值编号。节点激活后,其值编号作为输入发送到下一层节点。只有在输出超过指定阈值时才能激活。否则无法传递数据。
什么是计算机视觉?
计算机视觉是深度学习的实际应用。就像人工智能可使计算机能够思考一样,计算机视觉使计算机能够看到、观察和响应。自动驾驶汽车使用计算机视觉来“阅读”路标。汽车的摄像机会捕捉路标的照片。该照片会发送给汽车中的深度学习算法。第一隐藏层探测边缘,第二层区分颜色,第三层识别路标上的字母细节。该算法预测路标显示的是“STOP”,然后汽车会通过触发制动机制做出响应。
机器学习和深度学习是否相同?
深度学习是机器学习的子集。深度学习算法可以看作是机器学习算法的精巧、复杂的数学进化。
机器学习和人工智能是否相同?
简单来说不同。机器学习和人工智能(AI)一词可以互换使用,但两者并不相同。人工智能是一个总称,指的是使机器更像人类的各种策略和技术。人工智能涵盖范围非常广,例如 Alexa 这样的智能助手,以及机器人吸尘器和自动驾驶汽车。机器学习是人工智能的许多其他分支之一。虽然机器学习是一种人工智能,但不是所有人工智能都能叫做机器学习。
机器学习和数据科学是否相同?
否,机器学习和数据科学并不相同。数据科学是一个利用科学方法从数据中提取意义和洞察的研究领域。数据科学家使用多种数据分析工具,而机器学习就是其中一种。数据科学家了解商业模型、域和数据收集等数据的整体情况,而机器学习是一个只处理原始数据的计算过程。
机器学习的优点和缺点都有哪些?
我们来看一下机器学习可以处理和不能处理的一些事项:
机器学习模型的优点:
- 可以识别人类可能遗漏的数据趋势和模式。
- 设置后无需人工干预即可运作。例如,网络安全软件中的机器学习即使没有管理员输入,也能持续监控和识别网络流量的异常情况。
- 结果会随着时间推移越来越准确。
- 可以在动态、大容量和复杂的数据环境中处理各种数据格式。
机器学习模型的缺点:
- 初始训练成本较高且非常耗时。如果没有充足的数据,可能难以运作。
- 如果在内部设置硬件,则机器学习是一种需要大量初始投资的计算密集型流程。
- 在没有专家帮助的情况下,可能很难正确解释结果并消除不确定性。
Amazon Machine Learning 如何提供帮助?
AWS 让机器学习掌握在每位开发人员、数据科学家和企业用户的手中。 Amazon Machine Learning 服务提供高性能、经济高效且可扩展的基础设施,满足业务需求。
刚接触这一方面?
使用我们的 AWS DeepRacer、AWS DeepComposer 和 AWS DeepLens 等教育设备,亲自上手学习机器学习。
已有数据归档?
使用 Amazon SageMaker Data Labeling,获享支持视频、图片和文本的内置数据标注工作流。
已有机器学习系统?
使用 Amazon SageMaker Clarify 检测数据偏差,并使用 Amazon SageMaker Debugger 监控和优化性能。
想实施深度学习?
使用 Amazon SageMaker 分布式训练自动训练大型深度学习模型。 注册免费账户,立即开始您的机器学习之旅!