回归问题是指f(x)是一个连续的值,给定一个新的模式,根据训练集推断它所对应的输出值(实数)是多少,是一种定量输出,也叫连续变量预测。
分类问题是指f(x)是一个离散的值,给定一个新的模式,根据训练集推断它所对应的类别(如:+1,-1),是一种定性输出,也叫离散变量预测。
回归算法:
线性回归
岭回归
树回归
分类算法
逻辑回归
K邻近
朴素贝叶斯
支持向量机
决策树:ID3,C4.5,cart
集成算法:随机森林,adaboost,xgboost
挖掘流程
从大量数据中获取有效的,新颖的,潜在有用的。简单地说,数据挖掘就是从大量数据中提取或挖掘知识
定义问题
准备数据
数据预处理
特征工程
生成模型
评价模型部署和更新模型