1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同?
简单来说, 逻辑回归是一种用于解决二分类问题的机器学习方法,用于估计某种事物的可能性。逻辑回归与线性回归都是一种广义线性模型。逻辑回归假设因变量 y 服从伯努利分布,而线性回归假设因变量 y 服从高斯分布。可以说,逻辑回归是以线性回归为理论支持的,但是逻辑回归通过Sigmoid函数引入了非线性因素,因此可以轻松处理0/1分类问题。
简而言之,他们的区别在于输出变量的类型不一样,线性回归偏向于预测,逻辑回归偏向于分类。
2.自述一下什么是过拟合和欠拟合?
过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。即原始特征过多且存在一些嘈杂特征模型过于复杂,要进行特征选择、交叉验证及正规化。
机器学习中一个重要的话题便是模型的泛化能力,泛化能力强的模型才是好模型,对于训练好的模型,若在训练集表现差,在测试集表现同样会很差,这可能是欠拟合导致。欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。即学习到的特征太少要增加数据的特征数量。
两者之间的区别如下图:
具体表现如下图:
概念上,欠拟合与机器学习算法无法从初始训练数据中推断出有效知识有关。与此相反,过拟合与创建的假设过于普通或抽象而又不切实际的假设模型有关。简单来说,欠拟合模型过于简单,而过拟合模型往往会产生错觉(想象不存在的东西)过于复杂。
3.思考一下逻辑回归的应用场景有哪些?
①根据某一株植物的特征。判断该植物属于哪一个品种
②垃圾分类,根据某一个垃圾的特征分析改垃圾属于哪一类垃圾。
③判断肿瘤的类型
④广告点击率
⑤是否为垃圾邮件
......