用数据剖析热点
数据科学家=统计学家+程序员+讲故事的人+艺术家
第一部分:总体思路
1、这是要完成一个区分水果类型的程序。
2、假象自己去果园,获得了一些数据,就是:苹果和橘子的重量和表面粗糙和光滑。
3、根据获得的数据,训练出一个模型。
4、用模型预测。即用新的一个水果,当输入重量和粗糙与否判断这是苹果还是橘子。
第二部分:实现步骤。
1、安装anaconda,这个教程我前面写过,总之很简单,不懂得可以的在评论区提问。
2、整理数据,我们用视频中的案例数据,如下:
weight | texture | label |
150 | bumpy | orange |
170 | bumpy | orange |
140 | smooth | apple |
130 | smooth | apple |
进一步整理,把光滑的表面用1表示,粗糙用0表示。苹果过0表示,橘子用1表示。得到一下数据:
weight | texture | label |
130 | 1 | 0 |
140 | 1 | 0 |
150 | 0 | 1 |
170 | 0 | 1 |
3、打开jupyter,安装好anaconda后会有这个jupyter notebook。打开后会自动打开一个网页,在里面进行操作就行。
4.新建notebook,这个不多说,直接正题。
5、(1)导入所需要的包
(2)读取数据并显示
(3)整理数据,需要注意的事,这里的x1格式必须要这种样子。这是tree.ExtraTreeClassifier()要求的数据格式,可以看tree.ExtraTreeClassifier()?就可以查看要求的。
(4)训练数据,建立模型
(5)预测,假如现在输入一个重量为150g,表面为粗糙的水果,用模型进行判断。
得到结果为1,,没错就是1,说明判断正确,他是橘子,
总结:是不是感觉智商被碾压。嘿嘿,不要在意,我们只是学习这个过程。
欢迎关注头条号,精彩内容持续更新!