hands on matchine learning

hands on matchine learning
机器学习分类
1. unsupervised learning
- Clustering —k-Means
  
  —Hierarchical Cluster Analysis (HCA)-层次聚类分析
  
  —Expectation Maximization
- Visualization and dimensionality reduction 降维方法
  
  —Principal Component Analysis (PCA)主成成分分析
  
  —Kernel PCA
  
  —Locally-Linear Embedding (LLE) 局部线性嵌入
  
  —t-distributed Stochastic Neighbor Embedding (t-SNE) t分布随机近邻嵌入
- Association rule learning 关联规则挖掘
  
  —Apriori 算法
  
  —Eclat（大成功）
1. Semisupervised learning（半监督学习）
  
  大量无标签数据和少量标记数据
  
  照片标记的时候
2. 强化学习
  
  奖励和惩罚机制
3. 批学习和在线学习（batch learning and online learning）
  
  从是否用新到来的数据进行学习来区分
  - 批学习每次把所有数据都放进去学习，如果数据集过大则不适用
  - 在线学习：每次学习之后可以删除数据，占用计算资源也少
    
    学习率：接收新数据，以及遗忘旧数据的频率
4. 基于实例的学习和基于模型的学习
  - 基于实例的学习：在邮件标记系统中，比较新邮件与已标记为垃圾邮件的相似度，由此来决定是否为垃圾邮件
  - 基于模型的学习：先训练出模型（比如线性模型或者是多项式模型之类的），然后将新的数据输入模型得到结果
机器学习问题解决思路

frame the problem

搞清楚真正的目标是什么。如何用结果去帮公司盈利之类的。

A sequence of data processing components is called a data pipeline.

data pipeline：一系列的数据处理组件被称为数据管道

随机排列数：np.random.permutation()

如果要固定随机的方式，可以在一开始使用np.random.seed(42)

train_test_split：把数据集按比例分成训练集和测试集

绘制带有colorbar的图，用圈的大小表示人口数量，用颜色表示放假的高低，红色最高，蓝色最低
```
housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4,
s=housing["population"]/100, label="population",
c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True,
)
plt.legend()
```
相关阅读:
Java面试集合（一）
Java面试集合（一）
Android-如何显示版本号并制作3秒跳转页
 Android-如何显示版本号并制作3秒跳转页
 安卓入门教程（十五）- Fragment，Service，WAMP下载
 安卓入门教程（十五）- Fragment，Service，WAMP下载
 网络开发Socket和ServerSocket
网络开发Socket和ServerSocket
深入浅出的Java网络通信
 深入浅出的Java网络通信
原文地址：https://www.cnblogs.com/drawon/p/8520733.html

最新文章
Android 创建工程
 点击事件
 Android 工程目录
 Android开发环境搭建
 人大金仓KCI
kingbase常用语句
 无名管道
 有名管道
 MD5 加密
 linux pid文件

hands on matchine learning

机器学习分类

机器学习问题解决思路

frame the problem