1.常用操作符
算术操作符,赋值操作符,比较操作符和逻辑操作符
2.数字数据
变量与赋值、 数字数据类型
3.流程控制
条件语句、While语句、break语句和continue语句、for循环
4.数据结构
标量、序列、映射、集合
列表、列表函数、字符串、字符串函数、元组、字典、集合
5.文件读写镀金
文件访问是一门语言重要的一环,适当地进行文本读写能够保存一次程序
运行下来的结果。
在数据挖掘的工作中,数据量很大,整个挖掘程序可以分为几部分,我们
应该把每一部分运行的结果都保存下来,如果后面的程序出现错误,我们
也不必再从头开始。
要进行文件的读写,首先要设置工作目录。如果使用脚本运行,那么默认
的工作目录为脚本所在的目录。
要改变工作目录,首先要引入os模块,语句为:import os。查看当前工
作目录的方法是os.getwd(),改变工作目录的方法是os.chdir(string)。
Python进行文件读写的函数是open或file。其格式如下:
file_handler = open(filename,mode=’r’)
其中filename是我们希望打开的文件的字符串名字,mode表示我们的读
写模式,默认为read模式。如果此语句执行成功,那么一个文件句柄就
会返回,后面的文件操作需依赖文件句柄的方法进行。
我们常用的文件读入函数是readline()和readlines()。
首先我们假设在我们脚本目录下有这样一个data.txt,其数据如下:
1,2 3,4
注意第一行中有一个换行符。如果我们采用readline()语句读取,执行
f=open(‘data.txt’,’r’)和 a =f. readline(),那么就会将第一行以字
符串的形式返回,此时a=’1,2
’ 。
同时文件指针指向第一行末尾,如果再执行语句b = f.readline(),那么
b=’3,4’ ,此时文件指针就指向文件末尾,文件已读取完毕。可以使
用下面的while循环读取所有语句:L=2#文件的行数
for i in range(L):
a = readline()# 对该行的处理
如果我们想去掉第一行的读取的换行符,可以使用语a=a.strip(),strip()
是一个可以去掉一个字符串开头和末尾的空白字符,包括换行符。
而readlines则返回一个列表,列表的包含了每一行的字符串数据。如执
行a=f.readlines(),那么此时a=[‘1,2
’,’3,4’]。最终保存的形式是
一个二维列表,在后面的数据处理可以很容易的变换为numpy.array,
大部分数据挖掘的算法都需要numpy.array作为数据存储的格式。
:
csv文件读取:
文件输出:
我们把数据成功读入到程序中,现在我们考虑,假设我们的程序中得出
了一个二维列表,我们重新输出到文件。
我们可以使用方法f.write(string),并且借助字符串的join方法输出到文
件中。
如果二维列表的元素不是字符类型而是整数类型,我们不能使用join方
法,使用f.write(string)输出比较麻烦,这里介绍另一中更灵活的输出到
文件的方式:print>>>f,…。这样就会把原本print函数输出到shell的内
容改为输出到文件中。
JSON处理数据: