一行一行学python&一行一行敲KNN

一行一行学python&一行一行敲KNN
本学习笔记参考于https://www.runoob.com/python/python-functions.html和https://blog.csdn.net/scott198510/article/details/98198312

https://blog.csdn.net/HCYHanson/article/details/89332207

# TODO :

TODO 自然表示需要做而未做的一些待完成的事项，有助于事后的检索，以及对整体项目做进一步的修改迭代，在 PyCharm 中，使用 Alt + 6 快捷键，可快速调出项目中的全部 TODO 注释，个人理解为就是个标签，代表这里有东西没干，待会想干的时候在搞回来。

iris数据：

Iris数据集是常用的分类实验数据集，由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150个数据样本，分为3类，每类50个数据，每个数据包含4个属性。简单来说就是我们要处理的数据对象。iris的target属性代表花的种类，也就是我们最终要通过花的四个属性为他的taget值分类，0，1，2表示三种不同的花，iris的tager_name可以访问花的真正名字。iris的data是150行的，每行有四个属性的数据域。

train_test_split

　　格式为train_test_split(test_size, train_size, rondom_state=None, shuffle=True, stratify=None)，参数分别为测试集大小，训练集大小，指定随机方式（随机种子），是否人为洗牌，最后一个，如果不是None,则数据集以分层方式拆分，并使用此作为类标签。在代码中，X_train为训练集数据，y_train为训练集标签，X_test为测试集数据，y_test为测试集标签。此模型就是用X_train和y_train对机器进行监督学习，再对X_test和y_test进行检查，最后预测特值。

定义距离函数def euc_dis(instance1, instance2):

　　python的函数要怎么写呢，首先格式是 def 函数名( 参数列表 ):，与c，java不同的是，类型属于对象，变量是没有类型的，所以参数列表里面某得参数类型，就是一个一个对象，可以理解为把一个数据的名字传了进来，我们再对这个对象进行操作，类似 c++ 的值传递，如整数、字符串、元组。如fun（a），传递的只是a的值，没有影响a对象本身。比如在 fun（a）内部修改 a 的值，只是修改另一个复制的对象，不会影响 a 本身；类似 c++ 的引用传递，如列表，字典。如 fun（la），则是将 la 真正的传过去，修改后fun外部的la也会受影响。

**运算符和sum函数

　　**表示乘方运算例如 2**3=8。

　　sum函数格式为sum（iterable，start）返回一个数字序列（非字符串）的和，并加上参数'start'的值，不写start就默认为0

为啥没有main函数

　　python是一种解释型脚本语言，和C/C++语言不同，C/C++程序从main函数开始执行，python程序从开始到结尾顺序执行。就是一行一行执行的意思，所以呢，在python里面函数要先定义，再使用！

数组　　

　　定义就是数组名=【】，可以使用append方法在末尾添加元素，或者将另一个数组作为元素本身添加进去

for循环

　　格式：for 迭代器名 in 数组名

nlargest()和nsmallest()

　　在heapq库中，返回最大的几个或最小的几个数字，格式：heapq.nlargest(k,对象名)//返回前k大的数字

全部代码加注释：
1 import heapq 2 import numpy as np 3 from sklearn import datasets 4 from sklearn.model_selection import train_test_split 5 6 #导入数据m 7 iris=datasets.load_iris() 8 x = iris.data 9 y = iris.target 10 x_train,y_train,x_test,y_test=train_test_split(x,y,random_state=2019) 11 12 def dis(instance1, instance2): #参数是向量,在直角坐标系就有两个数据，（x,y） 13 diff=instance1-instance2 #向量相减就是（x1-x2，y1-y2） 14 diff=diff ** 2 15 distnum=sum(diff) ** 0.5 16 return distnum 17 18 def knn_classify(x,y,testinstance,k):#返回testinstance的k个最短邻居的类别 19 dis=[] 20 for i in x: 21 dis.append(dis(i,testinstance)) #此时dis【i】表示第i个向量与testinstance的距离 22 23 24 maxindex = map(dis.index, heapq,nsmallset(k,dis)) # map代表一个映射，选出k个最小距离的值和索引作为映射 25 maxy=[] 26 for i in maxindex: 27 maxy.append(y[i])#这里的y是iris.target的数据集，y【i】表示第i朵花的颜色 28 29 return max(maxy, key=maxy.count) #这里返回的是出现次数最多的那个值，那个值就是标签 30 31 redictions = [knn_classify(x_train,y_train,data,3) for data in x_test] 32 correct = np.count_nonzero((predictions==y_test)==True) 33 print("Accruacy is: %.3f" %(correct/len(x_test)))
View Code
心得：

　　在学的时候有一些些困难，思想虽然会了，但落实到python不知道怎么写，所以我就一行一行查百度，这是啥这又是啥，还好经过无数次百度之后终于大致略懂了函数的格式，但也只是知道格式而已，没有系统性地学一下python，故这周目标就是系统性地学python了，从hello word开始吧，手动滑稽。

　　
相关阅读:
就现在的几种代码管理库的比较
 就书籍“构造之法”的问题
 软件工程之中期学习总结
 软件项目管理之理解
 软件代码规范之理解
 介绍几个常用的代码管理工具
 关于构建之法的问题
 研究生竞赛系统需求规格说明书
 各种GIT代码托管工具比较
 第一个作业
原文地址：https://www.cnblogs.com/qq2210446939/p/11865408.html