一:机器学习应用领域:信息检索,数据挖掘,搜索引擎,社交网络,推荐引擎,计算广告,电子商务。与“大数据,深度学习,知识图谱”也关系密切
二:机器学习分类:
监督学习:用户知道目标,知道从数据中找什么
监督学习:分类{k-近邻,决策树,logistic回归,概率论分类器,SVM , AdaBoost}
回归
无监督学习:从算法中得到数据共同特征(聚类,密度估计)
无监督学习:数据无类别,无目标值
三:算法选择的一般原则:
基于目的:
预测目标变量的值-->监督学习算法{
目标变量值类型为离散:分类器算法(机器学习主要任务)
目标变量值类型为连续型:回归
}
其他无目标变量-->无监督学习算法
{
唯一需求为划分离散组:聚类
除分组外,估计 数值与分组相似程度:密度估计算法
}
基于数据:
特征值为离散/连续,特征值是否存在缺失,缺失的原因,数据中是否存在异常,某特征发生频率。
四:开发机器学习应用程序的步骤
(1)收集数据:网络爬虫,RSS反馈,API,设备
(2)准备输入数据:确保数据格式符合程序语言要求,同时为机器学习算法准备特定数据格式
(3)分析输入数据:(人工分析,确保前两步有效)
(4)训练算法(无监督学习不需要训练算法,直接到第五步)
(5)测试算法:
监督学习必须已知用于评估算法的目标变量值
无监督学习:用其他的评测手段检验算法的成功率
(6)使用算法