机器学习——基础概念(一)
目录
参考Bilibili课程AIMOOC av37947862
一、概要
Frank Vincent Zappa said, "Information is not knowledge. Knowledge is not wisdom. Wisdom is not truth. Truth is not beauty. Beauty is not love. Love is not music. Music is THE BEST"
我们人工智能能够达到WISDOM的程度,机器学习基础足够达到KNOWLEDGE。
二、数据挖掘简析
1.周杰伦是男歌手吗?
2.吸烟是不是肺癌的主要原因
我们进行分析,可以知道第一条语句的信息:周杰伦,男,歌手。第二条信息:吸烟,肺癌,原因。我们数据挖掘会去挖掘语句深层含义。
三、建模前必做的三件事
3.1.训练集(Training data)
训练集用来训练,构建模型
3.2.验证集(Validation data)
验证集用来模型训练阶段测试模型好坏
3.3.测试集(Test data)
等模型训练好后,来测试集评估模型好坏
四、训练方式
1.监督学习(supervised learning)
标签进行监督学习,如图示,左边是3,右边是dog,使用标签进行监督,叫做监督学习
2.无监督学习(unsupervised learning)
我们发现,上4个标签离得很近,下面4个离得很近,这个数据集刚开始是无标签的,进行训练的时候根据特征进行聚类,可以进行无监督学习
3.半监督学习(semi-supervised learning)
半监督学习,有些有标签,有些没有标签,进行半监督
五、应用
1.线性回归
我们使用分布进行拟合图像,这条直线,就是线性回归,应用领域,股票预测、图像识别、垃圾邮件分类。
2.聚类
使用聚类算法,进行分3类,进行无标签进行分析。