什么是机器学习:
机器学习应用:数据挖掘,计算机视觉,自然语言处理,生物特征识别,搜索引擎,医学诊断,语音和手写识别……
统计学习和机器学习:机器学习比统计学习多了算法model的内容等;研究方法差异(统计学研究形式化和推导),维度差异(机器学习强调高维预测问题),关心领域不同(统计学习:机器学习:online learning,active learning,boosting,semisupervised learning……)
统计学习的方法(基本分类):------- 监督学习、无监督学习、半监督学习、强化学习
按算法分:---------在线学习(实时不断地在喂入数据),批量学习(一次性或分批喂入数据)
监督学习:(基本术语:实例,特征向量,特征空间等)
训练数据 training data
模型 model -------假设空间 hypothesis
评价准则 evaluation criterion ------策略 strategy
算法 algorithm
输入变量和输出变量:--> 分类问题、回归问题、标注问题
半监督学习:
少量标注数据,大量未标注数据
利用未标注数据的信息,辅助标注数据,进行监督学习
较低成本
主动学习-------机器主动给出实例,教师进行标注
经验风险最小化和结构最小化
经验风险最小化最优模型(ERM):
结构风险最小化: