《白话大数据与机器学习》读书笔记
1.机器学习与数据挖掘的关系
1.1《白话》的观点:
1.1.1区别
数据挖掘:从数据中找到规律或知识。
机器学习:让机器独立或至半独立地进行复杂或者高要求的工作。
1.1.2联系
对于算法的使用而言,不必区分该算法是属于机器学习领域还是数据挖掘领域。
1.2《西瓜书》的观点:
数据挖掘受数据库、机器学习、统计学影响最大,它是从海量数据中发掘知识。机器学习和统计学的研究为数据挖掘提供数据分析技术。统计学主要是通过机器学习对数据挖掘发挥影响,机器学习支撑数据挖掘。
1.3清华数据挖掘公开课的观点:
数据挖掘 = 机器学习 + 人工智能 + 模式识别 + 统计学
2.度量距离的手段
- 欧式距离
- 曼哈顿距离
- 余弦相似度
3.当数据线性不可分时
- SVM的做法:映射到高维(升维)
- 神经网络的做法:增加输入的变量、增加网络的层次、增加输出层
4.必备前驱知识
4.1概率论
- 古典概型
- 条件概率
4.2分布
- 高斯分布
- 泊松分布
- 伯努利分布
4.3信息论
- 信息的定义:“信息是被消除的不确定性”
- 信息量的表示
I = log_2 M
4.4矩阵
- 维度
- 矩阵的转置
4.5高等数学
- 求偏导数