线性回归和逻辑回归之间有什么区别?


线性回归和逻辑回归之间有什么区别?

线性回归和逻辑回归是通过分析历史数据进行预测的机器学习技术。例如,通过查看过去的客户购买趋势,回归分析可以估算未来的销售额,以便您进行更明智的库存购买。线性回归技术在多个已知因子上对未知因子进行数学建模,以估算确切的未知值。同样,逻辑回归利用数学来找出两个数据因子之间的关系。然后,使用此关系根据其中一个因子预测另一个因子的值。预测结果的数量通常是有限的,比如是或否。

阅读有关线性回归的信息 »

阅读有关逻辑回归的信息 »

做出预测:线性回归 vs. 逻辑回归

线性回归和逻辑回归都使用数学建模来通过一个或多个输入变量预测输出变量的值。输出变量是因变量,而输入变量是自变量

线性回归

每个自变量都与因变量直接相关,与其他自变量没有关系。这种关系称为线性关系。因变量通常是连续值范围中的一个值。

这是创建线性回归模型的公式或线性函数:

y= β0 + β1X1 + β2X2+… βnXn+ ε

以下是每个变量的含义:

  • y 表示预测的因变量
  • 当所有输入自变量都等于 0 时,β0 为 y 截距
  • β1X1 是第一个自变量(X1)的回归系数(B1),即第一个自变量对因变量的影响值
  • 当有多个输入值时,βnXn 是最后一个自变量(XN)的回归系数(BN)
  • ε 为模型误差

线性回归的一个示例是根据房间数量、邻里环境和年龄(自变量)来预测房价(因变量)。

逻辑回归

因变量的值通过使用二进制分类的有限类别列表得出。这些变量称为类别变量。例如,掷六面骰子的结果。这种关系称为逻辑关系。

逻辑回归公式对特定类别变量的成功或失败概率进行对数转换,即概率的自然对数。

y = e^(β0 + β1X1 + β2X2+… βnXn+ ε) / (1 + e^(β0 + β1 x 1 + β2 x 2 +… βn x n + ε))

以下是每个变量的含义:

  • y 表示 y 类别变量的成功概率
  • e (x) 是欧拉数,是自然对数函数或 sigmoid 函数的倒数 ln (x)
  • Β0、β1X1…βnXn 的含义与上一节中的线性回归相同

逻辑回归的一个示例是根据房间数量、邻里环境和年龄(自变量)预测房价超过 50 万美元(因变量)的概率。

线性回归和逻辑回归有什么相似之处?

线性回归和逻辑回归有一些共同点,并且具有相似的广泛应用空间。

统计分析

逻辑回归和线性回归都是统计分析或数据分析的形式,属于数据科学领域。两者都使用数学建模将一组自变量或已知变量与因变量相关联。可将逻辑回归和线性回归表示为数学方程。也可以图形表示模型。

机器学习技巧

线性回归和逻辑回归模型都可应用于有监督机器学习。

有监督机器学习包括通过输入带标记的数据集来训练模型。因变量和自变量都是人类研究人员已知,且由人类研究人员收集的。通过输入已知的历史数据,可对数学方程进行逆向工程。最终,通过已知自变量计算未知因变量的预测将变得精准。

有监督学习不同于无监督学习,后者不对数据进行标记。

阅读有关机器学习的信息 »

训练难度

逻辑回归和线性回归都需要大量标记数据才能使模型预测精准。对于人们来说,这是一项艰巨的任务。例如,如果要标记某张图像是否包含汽车,则所有图像都必须带有汽车尺寸、拍摄角度和障碍物等变量标签。 

预测精度有限

能够拟合输入数据与输出数据的统计模型不一定意味着因变量和自变量之间存在因果关系。无论是逻辑回归还是线性回归,相关都不意味着因果。

以上一节中的房屋定价为例,假设房主的姓名是自变量。那么,John Doe 这个名字与较低的房屋销售价格存在相关。虽然如果房主姓名为 John Doe,线性回归和逻辑回归将始终预测出较低的房价,但从逻辑上讲,其与输入数据的这种关系是不正确的。

主要区别:线性回归 vs. 逻辑回归

逻辑回归和线性回归在各自采用的数学方法方面差异最大。

输出值

线性回归输出的是一个连续值量表。例如,其中包括数字、公里数、价格和重量。

相比之下,逻辑回归模型输出值是某一固定类别事件发生的可能性。例如,0.76 可能意味着穿蓝衬衫的几率为 76%,而 0.22 则可能意味着投赞成票的几率为 22%。

变量关系

在回归分析中,回归线是表示每个自变量与因变量之间关系的图形线形状。

在线性回归中,回归线是直线。对自变量的任何更改都会直接影响因变量。

在逻辑回归中,回归线是一条 S 形曲线,也称为 Sigmoid 曲线。

数学分布类型

线性回归遵循因变量的正态分布或高斯分布。正态分布在图表上以连续线表示。

逻辑回归遵循二项分布。二项分布通常用条形图表示。

何时使用线性回归与逻辑回归

当您想要根据一系列值来预测连续因变量时,可以使用线性回归。当您期望获得二进制结果(例如,是或否)时,则应使用逻辑回归。

以下是线性回归的示例: 

  • 根据其父母身高预测某个成年人的身高
  • 根据价格、一年中的时间和商店位置预测南瓜销量
  • 根据出发地、目的地、一年中的时间和航空公司预测机票价格
  • 根据发帖者、他们的自然关注者数量、帖子的内容和一天中的发布时间,预测社交媒体的点赞次数

以下是逻辑回归的示例:

  • 根据体重指数(BMI)、吸烟状况和遗传易感性预测一个人是否会患上心脏病
  • 根据颜色、尺寸、类型和价格预测哪些零售服装制品将最受欢迎
  • 根据工资率、在办公室的天数、会议次数、发送的电子邮件数量、团队和任期,预测员工是否会在当年辞职
  • 根据上一年的销售额、任期和佣金率,预测哪些销售团队成员在一年内将拥有超过 100 万美元的合同

差异摘要:线性回归与逻辑回归

 

线性回归

逻辑回归

它是什么?

一种统计方法,用于通过一组输入值预测输出值。

一种统计方法,用于通过一组类别变量预测输出值来自某一类别的可能性。

关系

线性关系,以直线表示。

逻辑关系或 S 形关系,以 S 形曲线表示。

方程式

线性。

对数。

有监督学习的类型

回归。

分类。

分发类型

正态/高斯。

二项式。

最适合

需要通过量表预测连续因变量的任务。

需要预测一组固定类别中出现某一类别因变量的可能性的任务。

如何在 AWS 上运行线性回归和逻辑回归分析?

您可以使用 Amazon SageMaker 在 Amazon Web Services(AWS)上运行线性和逻辑回归分析。

SageMaker 是一种完全托管的机器学习服务,内置了用于线性回归和逻辑回归的回归算法,以及其他几个统计软件包。您可以根据需要,使用任意数量的输入值来进行线性回归,也可以使用逻辑概率模型求解回归问题。

例如,以下是使用 SageMaker 可以获得的益处:

  • 快速准备、构建、训练和部署回归模型
  • 消除线性和逻辑回归过程每个步骤的繁重工作,开发高质量的回归模型
  • 在单个工具集中访问回归分析所需的所有组件,使模型更快、更容易、更经济地投入生产

立即创建账户,开始在 AWS 上使用回归分析。