有监督学习和无监督学习有什么区别?


有监督机器学习和无监督机器学习之间有什么区别?

有监督和无监督机器学习(ML)是机器学习算法的两种类别。机器学习算法处理大量历史数据,从而通过推理来识别数据模式。 

有监督学习算法根据指定算法输入和输出的样本数据进行训练。例如,数据可以是手写数字的图像,这些图像添加了注释以指示它们代表哪些数字。如果有足够的标记数据,有监督学习系统最终将识别与每个手写数字相关的像素和形状集群。 

相比之下,无监督学习算法会使用未标记的数据进行训练。该算法会扫描新数据,并在未知输入和预先确定的输出之间建立有意义的连接。例如,无监督学习算法可以将来自不同新闻网站的新闻文章分为体育和犯罪等常见类别。

技术:有监督学习与无监督学习

在机器学习中,您教计算机进行预测或推理。首先,使用算法和示例数据来训练模型。然后,将模型集成到应用程序中,以实时和大规模地生成推理。有监督学习和无监督学习是两类截然不同的算法。

有监督学习

在有监督学习中,可以使用一组输入数据和一组相应的已标记配对输出数据来训练模型。通常是手动完成标记。接下来是一些类型的有监督机器学习技术。

逻辑回归

逻辑回归根据一个或多个输入预测分类输出。二进制分类是指输出属于两个类别之一,例如“是”或“否”和“通过”或“失败”。多类分类是指输出适合两个以上的类别,例如猫、狗或兔子。  逻辑回归的一个示例是根据学生登录课件的次数预测其在此学习单元中是通过还是失败。

阅读有关逻辑回归的信息 »

线性回归

线性回归是指有监督学习模型,该模型基于一个或多个输入,根据连续量表预测值。线性回归的一个示例是预测房价。在使用带房屋位置、楼龄和房间数量变量的一组历史销售训练数据训练模型之后,您可以根据这些变量来预测房屋价格。

阅读有关线性回归的信息 »

决策树

决策树有监督机器学习技术采用一些给定的输入,并应用 if-else 结构来预测结果。决策树问题的一个示例是预测客户流失率。例如,如果客户在注册后没有访问应用程序,则该模型可能会预测其流失。或者,如果客户在多台设备上访问应用程序,并且平均会话时间超过给定阈值,则该模型可能会预测其保留。

神经网络

神经网络解决方案是一种更复杂的有监督学习技术。为了产生给定的结果,该技术获取一些给定的输入,并根据调整的数据权重执行一层或多层数学转换。神经网络技术的一个示例是根据手写图像预测数字。

阅读有关神经网络的信息 »

无监督学习

无监督机器学习是指您提供算法输入数据,而没有任何已标记的输出数据。然后,该算法自行识别数据内部和数据之间的模式与关系。接下来是一些类型的无监督学习技术。

集群

集群无监督学习技术将某些数据输入组合在一起,因此可以将它们归类为一个整体。集群算法有多种类型,具体取决于输入数据。集群的一个示例是识别不同类型的网络流量,以预测潜在的安全事件。

关联规则学习

关联规则学习技术揭示数据集中输入之间基于规则的关系。例如,Apriori 算法进行市场篮子分析,以识别诸如消费者经常同时购买咖啡和牛奶的规则。

概率密度

无监督学习中的概率密度技术可以预测输出值在正常值范围(对于输入而言)内的可能性或概率。例如,服务器机房中的温度计通常在一定度数范围内记录温度。但是,如果温度计突然测量出一个较低的数字(根据概率分布),则可能表示设备出现故障。 

降维

降维是一种无监督学习技术,可减少数据集中的特征数量。该技术通常用于为其他机器学习功能预处理数据,降低复杂性和开销。例如,它可能会在图像识别应用程序中模糊或裁剪背景特征。

使用时机:有监督学习与无监督学习

可以使用有监督学习技术来解决结果已知且提供已标记数据的问题。示例包括垃圾电子邮件分类、图像识别和基于已知历史数据的股票价格预测。

对于数据未标记且目标是发现模式、对相似实例进行分组或检测异常的场景,您可以使用无监督学习。也可以将无监督学习用于不存在已标记数据的探索性任务。示例包括组织大型数据存档、建立推荐系统以及根据客户的购买行为对客户进行分组。

可以同时使用有监督学习和无监督学习吗?

半监督学习是指将有监督学习和无监督学习技术同时应用于常见问题。它本身就是另一类机器学习。

当难以为数据集获取标签时,就可以应用半监督学习。您的已标记数据量可能较小,但有大量未标记的数据。与单独使用已标记的数据集相比,如果将有监督学习与无监督学习技术相结合,则准确性和效率会更高。

以下是半监督学习应用程序的几个示例。

欺诈识别

在大型的交易数据集中,专家已经确认其中部分已标记数据存在欺诈性交易。为了获得更准确的结果,机器学习解决方案将首先使用未标记的数据进行训练,然后使用已标记的数据进行训练。

情绪分析

考虑到组织中广泛采用基于文本的客户交互,对所有渠道的情绪进行分类或标记可能不具成本效益。组织可以先使用数据中较大规模的未标记部分训练模型,然后训练已标记的样本。这将使组织更加深入地了解整个企业的客户情绪。

文档分类

将类别应用于大型文档库时,可能有太多需要实际标记的文档。例如,这些文档可能是无数的报告、转录或规格。首先使用未标记的数据进行训练有助于识别应标记的相似文档。 

差异摘要:有监督学习与无监督学习

 

有监督学习

无监督学习

它是什么?

可以使用一组输入数据和一组相应的已标记配对输出数据来训练模型。

可以训练模型以发现未标记数据中的隐藏模式。

技术

逻辑回归、线性回归、决策树和神经网络。

集群、关联规则学习、概率密度和降维。

目标

根据已知输入预测输出。

识别输入数据点之间有价值的关系信息。然后,可以将此信息应用于新的输入,以得出类似的见解。

方法

最大限度地减少预测输出和真实标签之间的误差。

查找数据中的模式、相似性或异常。

AWS 如何在有监督和无监督学习方面提供帮助?

Amazon Web Services(AWS)提供各种产品,帮助您进行有监督、无监督和半监督的机器学习(ML)。您可以构建、运行和集成任何规模、复杂程度或使用案例的解决方案。

Amazon SageMaker 是用于从头开始构建机器学习解决方案的全面平台。SageMaker 拥有一整套预构建的有监督和无监督机器学习模型、存储和计算功能以及全面托管的环境。

例如,以下是可以在工作中使用的 SageMaker 功能:

立即创建账户,开始在 AWS 上使用有监督和无监督的机器学习。

使用 AWS 的后续步骤

使用有监督机器学习开始构建

了解如何在 AWS 上开始使用有监督机器学习

了解更多 
使用无监督机器学习开始构建

了解如何在 AWS 上开始使用无监督机器学习

了解详情