1. 用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同?
|
线性回归 |
逻辑回归 |
描述 |
利用数理统计中回归分析来确定两种或两种以上变量间的关系。 找到连续数据之间最合适的关系函数,用来解决回归问题,预测数据 |
是一种预测在不同的自变量情况下,发生某种情况的概率有多大 本质是线性回归,但是用来解决二分类问题 即分类0/1问题 |
Sigmoid函数 |
无 |
有,在线性回归的基础上加了Sigmoid函数 |
输出结果 |
连续型 |
离散型 |
策略和优化目标函数 |
策略:最小二乘法 优化:正规方差 梯度下降法,其损失函数为:
|
策略:对数似然函数 优化:梯度下降法,其损失函数为对数似然损失:
|
范围 |
整个实数域范围 |
[0,1] |
优点 |
建模速度快,数据量大也能运行很快 能直观表达变量关系 |
适合需要得到一个分类概率的场景,简单,速度快 |
缺点 |
不能很好的拟合非线性数据 |
不适合处理多分类的问题 |
图 |
|
2. 自述一下什么是过拟合和欠拟合?
|
过拟合 |
欠拟合 |
训练数据 |
可以很好地得到与原数据很data接近的训练结果 |
并不能很好的得到与原数据data接近的训练结果 |
测试数据 |
测试时,却不能很好地得到与原数据data接近的训练结果 |
测试时,也不能很好得到与原数据data接近的训练结果 |
原因 |
特征过多,模型尝试去兼顾每一个测试点数据 |
学习到的数据特征过少 |
解决办法 |
1、进行特征选择 2、交叉验证,让所有数据都有过训练 3、正则化 |
增加数据的特征数量 |
案例 |
1、给很多西瓜的图片,告诉模型特征是“圆的”,“皮是绿的”,“果肉是红的”,“籽是黑色的”,“表面平滑”等很多特征。 2、数据训练以后得到了与实际很接近的训练结果。 3、但是有“方形”西瓜进行测试时,就没有很好的得到训练结果。 |
1、给很多西瓜的图片,告诉模型特征是“圆的”,“皮是绿的”,“果肉是红的”。 2、数据训练以后没有很好的得到与实际很接近的训练结果。 3、有其他特征的西瓜进行测试时,也没有很好的得到训练结果。 |
3.思考一下逻辑回归的应用场景有哪些?
1、搜索某个电商品牌,搜索了则是1,没有搜索则是0,这样分好类以后,统计所有电商品牌的搜索次数,就可以得到搜索排名
2、判断是良性肿瘤还是恶性肿瘤
3、判断是否为垃圾邮件
4、新闻app排序基线