python常用模块学习
本节大纲:
模块介绍
time &datetime模块
random
os
sys
shutil
json & picle
shelve
xml处理
yaml处理
configparser
hashlib
subprocess
logging模块
re正则表达式
模块,用一砣代码实现了某个功能的代码集合。
类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用性和代码间的耦合。而对于一个复杂的功能来,可能需要多个函数才能完成(函数又可以在不同的.py文件中),n个 .py 文件组成的代码集合就称为模块。
如:os 是系统相关的模块;file是文件操作相关的模块
模块分为三种:
自定义模块
内置标准模块(又称标准库)
开源模块
time & datetime模块
在Python中,通常有这几种方式来表示时间:1)时间戳 2)格式化的时间字符串 3)元组(struct_time)共九个元素。由于Python的time模块实现主要调用C库,所以各个平台可能有所不同。
UTC(Coordinated Universal Time)即格林威治天文时间,为世界标准时间。中国北京为UTC+8。
DST(Daylight Saving Time)即夏令时。
时间戳(timestamp)的方式:通常来说,时间戳是指格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总秒数。
我们运行“type(time.time())”,返回的是float类型。
返回时间戳方式的函数主要有time(),clock()等。
元组(struct_time)方式:struct_time元组共有9个元素,返回struct_time的函数主要有gmtime(),localtime(),strptime()。
下面列出这种方式元组中的几个元素:
1 | 1.以元组方式返回本地当前时间 |
1 | 格式参照: |
1 | datetime模块 |
1 | 1 #_*_coding:utf-8_*_ |
总结:格式化的字符串(format string)转化成元组(struct_time)用strptime,元组(struct_time)转换成格式化的字符串(format string)用strftime
元组(struct_time)转换成时间戳(timestamp)用mktime,时间戳(timestamp)转成元组(struct_time)用localtime,gmtime
元组(struct_time)转换成%a %b %d %H %D %Y用asctime,时间戳(timestamp)转换成%a %b %d %H %D %Y用ctime。
random模块
随机数
1 | import random |
os模块
提供对操作系统进行调用的接口
1 | os.getcwd() 获取当前工作目录,即当前python脚本工作的目录路径 |
更多:https://docs.python.org/2/library/os.html?highlight=os#module-os
sys模块
1 | sys.argv 命令行参数List,第一个元素是程序本身路径 |
shutil模块
shutil – High-level file operations 是一种高层次的文件操作工具
类似于高级API,而且主要强大之处在于其对文件的复制与删除操作更是比较支持好。
shutil:高级的文件、文件夹、压缩包处理模块
shutil被定义为python中的一个高级的文件操作模块,拥有比os模块中更强大的函数。
1、shutil.copyfileobj(fsrc, fdst[, length])(copyfileobj方法只会拷贝文件内容)
将文件内容拷贝到另一个文件中
1 | import shutil |
2、拷贝文件
1 | shutil.copyfile('f1.log', 'f2.log') |
3、shutil.copy2(src, dst)
拷贝文件和状态信息
1 | shutil.copy2('f1.log', 'f2.log') |
4、shutil.copymode(src, dst) (前提是dst文件存在,不然报错)
仅拷贝权限。内容、组、用户均不变
1 | shutil.copymode('f1.log', 'f2.log') |
5、shutil.copystat(src, dst)
仅拷贝状态的信息,即文件属性,包括:mode bits, atime, mtime, flags
1 | shutil.copystat('f1.log', 'f2.log') |
6、shutil.ignore_patterns(*patterns) (忽略哪个文件,有选择性的拷贝)
7、shutil.copytree(src, dst, symlinks=False, ignore=None)
递归的去拷贝文件夹
1 | shutil.copytree('folder1', 'folder2', ignore=shutil.ignore_patterns('*.pyc', 'tmp*')) |
8、shutil.rmtree(path[, ignore_errors[, onerror]])
递归的去删除文件
1 | shutil.rmtree('folder1') |
9、shutil.move(src, dst)
递归的去移动文件,它类似mv命令,其实就是重命名。
1 | shutil.move('folder1', 'folder3') |
10、shutil.make_archive(base_name, format,…)
1 | 创建压缩包并返回文件路径,例如:zip、tar |
11、shutil 对压缩包的处理是调用 ZipFile 和 TarFile 两个模块来进行的,详细:
1 | import zipfile |
备注:zipfile压缩不会保留文件的状态信息,而tarfile会保留文件的状态信息
json & pickle 模块
用于序列化的两个模块
序列化
在程序运行的过程中,所有的变量都是在内存中,比如,定义一个dict:
1 | d = dict(name='Bob', age=20, score=88) |
import pickle
d = dict(name=’Bob’, age=20, score=88)
pickle.dumps(d)
b’x80x03}qx00(Xx03x00x00x00ageqx01Kx14Xx05x00x00x00scoreqx02KXXx04x00x00x00nameqx03Xx03x00x00x00Bobqx04u.’
1 | pickle.dumps()方法把任意对象序列化成一个bytes,然后,就可以把这个bytes写入文件。或者用另一个方法pickle.dump()直接把对象序列化后写入一个file-like Object: |
f = open(‘dump.txt’, ‘wb’)
pickle.dump(d, f)
f.close()
1 | 看看写入的dump.txt文件,一堆乱七八糟的内容,这些都是Python保存的对象内部信息。 |
f = open(‘dump.txt’, ‘rb’)
d = pickle.load(f)
f.close()
d
{‘age’: 20, ‘score’: 88, ‘name’: ‘Bob’}
1 | 变量的内容又回来了! |
JSON类型 Python类型
{} dict
[] list
“string” str
1234.56 int或float
true/false True/False
null None
1 | Python内置的json模块提供了非常完善的Python对象到JSON格式的转换。我们先看看如何把Python对象变成一个JSON: |
import json
d = dict(name=’Bob’, age=20, score=88)
json.dumps(d)
‘{“age”: 20, “score”: 88, “name”: “Bob”}’
1 | dumps()方法返回一个str,内容就是标准的JSON。类似的,dump()方法可以直接把JSON写入一个file-like Object。 |
json_str = ‘{“age”: 20, “score”: 88, “name”: “Bob”}’
json.loads(json_str)
{‘age’: 20, ‘score’: 88, ‘name’: ‘Bob’}
1 | 由于JSON标准规定JSON编码是UTF-8,所以我们总是能正确地在Python的str与JSON的字符串之间转换。 |
import json
class Student(object):
def init(self, name, age, score):
self.name = name
self.age = age
self.score = score
s = Student(‘Bob’, 20, 88)
print(json.dumps(s))
1 | 运行代码,毫不留情地得到一个TypeError: |
Traceback (most recent call last):
…
TypeError: <main.Student object at 0x10603cc50> is not JSON serializable
1 | 错误的原因是Student对象不是一个可序列化为JSON的对象。 |
def student2dict(std):
return {
‘name’: std.name,
‘age’: std.age,
‘score’: std.score
}
1 | 这样,Student实例首先被student2dict()函数转换成dict,然后再被顺利序列化为JSON: |
print(json.dumps(s, default=student2dict))
{“age”: 20, “name”: “Bob”, “score”: 88}
1 | 不过,下次如果遇到一个Teacher类的实例,照样无法序列化为JSON。我们可以偷个懒,把任意class的实例变为dict: |
print(json.dumps(s, default=lambda obj: obj.dict))
1 | 因为通常class的实例都有一个__dict__属性,它就是一个dict,用来存储实例变量。也有少数例外,比如定义了__slots__的class。 |
def dict2student(d):
return Student(d[‘name’], d[‘age’], d[‘score’])
1 | 运行结果如下: |
json_str = ‘{“age”: 20, “score”: 88, “name”: “Bob”}’
print(json.loads(json_str, object_hook=dict2student))
<main.Student object at 0x10cd3c190>
1 | 打印出的是反序列化的Student实例对象。 |
import shelve
d = shelve.open(‘shelve_test’) #打开一个文件
class Test(object):
def init(self,n):
self.n = n
t = Test(123)
t2 = Test(123334)
name = [“alex”,”rain”,”test”]
d[“test”] = name #持久化列表
d[“t1”] = t #持久化类
d[“t2”] = t2
d.close()
1 | ### xml处理模块 |
1 | xml协议在各个语言里的都 是支持的,在python中可以用以下模块操作xml |
import xml.etree.ElementTree as ET
tree = ET.parse(“xmltest.xml”)
root = tree.getroot()
print(root.tag)
#遍历xml文档
for child in root:
print(child.tag, child.attrib)
for i in child:
print(i.tag,i.text)
#只遍历year 节点
for node in root.iter(‘year’):
print(node.tag,node.text)
1 | 修改和删除xml文档内容 |
import xml.etree.ElementTree as ET
tree = ET.parse(“xmltest.xml”)
root = tree.getroot()
#修改
for node in root.iter(‘year’):
new_year = int(node.text) + 1
node.text = str(new_year)
node.set(“updated”,”yes”)
tree.write(“xmltest.xml”)
#删除node
for country in root.findall(‘country’):
rank = int(country.find(‘rank’).text)
if rank > 50:
root.remove(country)
tree.write(‘output.xml’)
1 | 自己创建xml文档 |
import xml.etree.ElementTree as ET
new_xml = ET.Element(“namelist”)
name = ET.SubElement(new_xml,”name”,attrib={“enrolled”:”yes”})
age = ET.SubElement(name,”age”,attrib={“checked”:”no”})
sex = ET.SubElement(name,”sex”)
sex.text = ‘33’
name2 = ET.SubElement(new_xml,”name”,attrib={“enrolled”:”no”})
age = ET.SubElement(name2,”age”)
age.text = ‘19’
et = ET.ElementTree(new_xml) #生成文档对象
et.write(“test.xml”, encoding=”utf-8”,xml_declaration=True)
ET.dump(new_xml) #打印生成的格式
1 | ### PyYAML模块 |
[DEFAULT]
ServerAliveInterval = 45
Compression = yes
CompressionLevel = 9
ForwardX11 = yes
[bitbucket.org]
User = hg
[topsecret.server.com]
Port = 50022
ForwardX11 = no
1 | 如果想用python生成一个这样的文档怎么做呢? |
import configparser
config = configparser.ConfigParser()
config[“DEFAULT”] = {‘ServerAliveInterval’: ‘45’,
‘Compression’: ‘yes’,
‘CompressionLevel’: ‘9’}
config[‘bitbucket.org’] = {}
config[‘bitbucket.org’][‘User’] = ‘hg’
config[‘topsecret.server.com’] = {}
topsecret = config[‘topsecret.server.com’]
topsecret[‘Host Port’] = ‘50022’ # mutates the parser
topsecret[‘ForwardX11’] = ‘no’ # same here
config[‘DEFAULT’][‘ForwardX11’] = ‘yes’
with open(‘example.ini’, ‘w’) as configfile:
config.write(configfile)
1 | 写完了还可以再读出来哈。 |
import configparser
config = configparser.ConfigParser()
config.sections()
[]
config.read(‘example.ini’)
[‘example.ini’]
config.sections()
[‘bitbucket.org’, ‘topsecret.server.com’]
‘bitbucket.org’ in config
True
‘bytebong.com’ in config
False
config[‘bitbucket.org’][‘User’]
‘hg’
config[‘DEFAULT’][‘Compression’]
‘yes’
topsecret = config[‘topsecret.server.com’]
topsecret[‘ForwardX11’]
‘no’
topsecret[‘Port’]
‘50022’
for key in config[‘bitbucket.org’]: print(key)
…
user
compressionlevel
serveraliveinterval
compression
forwardx11
config[‘bitbucket.org’][‘ForwardX11’]
‘yes’
1 | configparser增删改查语法 |
[section1]
k1 = v1
k2:v2
[section2]
k1 = v1
import ConfigParser
config = ConfigParser.ConfigParser()
config.read(‘i.cfg’)
#secs = config.sections()
#print secs
#options = config.options(‘group2’)
#print options
#item_list = config.items(‘group2’)
#print item_list
#val = config.get(‘group1’,’key’)
#val = config.getint(‘group1’,’key’)
########## 改写
#sec = config.remove_section(‘group1’)
#config.write(open(‘i.cfg’, “w”))
#sec = config.has_section(‘wupeiqi’)
#sec = config.add_section(‘wupeiqi’)
#config.write(open(‘i.cfg’, “w”))
#config.set(‘group2’,’k1’,11111)
#config.write(open(‘i.cfg’, “w”))
#config.remove_option(‘group2’,’age’)
#config.write(open(‘i.cfg’, “w”))
1 | ### hashlib模块 |
import hashlib
m = hashlib.md5()
m.update(b”Hello”)
m.update(b”It’s me”)
print(m.digest())
m.update(b”It’s been a long time since last time we …”)
print(m.digest()) #2进制格式hash
print(len(m.hexdigest())) #16进制格式hash
‘’’
def digest(self, args, *kwargs): # real signature unknown
“”” Return the digest value as a string of binary data. “””
pass
def hexdigest(self, args, *kwargs): # real signature unknown
“”” Return the digest value as a string of hexadecimal digits. “””
pass
‘’’
import hashlib
######## md5
hash = hashlib.md5()
hash.update(‘admin’)
print(hash.hexdigest())
######## sha1
hash = hashlib.sha1()
hash.update(‘admin’)
print(hash.hexdigest())
######## sha256
hash = hashlib.sha256()
hash.update(‘admin’)
print(hash.hexdigest())
######## sha384
hash = hashlib.sha384()
hash.update(‘admin’)
print(hash.hexdigest())
######## sha512
hash = hashlib.sha512()
hash.update(‘admin’)
print(hash.hexdigest())
1 | 还不够吊?python 还有一个 hmac 模块,它内部对我们创建 key 和 内容 再进行处理然后再加密 |
import hmac
h = hmac.new(b’天王盖地虎’, b’宝塔镇河妖’)
print h.hexdigest()
更多关于md5,sha1,sha256等介绍的文章看这里https://www.tbs-certificates.co.uk/FAQ/en/sha256.html
1 |
|
‘.’ 默认匹配除n之外的任意一个字符,若指定flag DOTALL,则匹配任意字符,包括换行
‘^’ 匹配字符开头,若指定flags MULTILINE,这种也可以匹配上(r”^a”,”nabcneee”,flags=re.MULTILINE)
‘$’ 匹配字符结尾,或e.search(“foo$”,”bfoonsdfsf”,flags=re.MULTILINE).group()也可以
‘‘ 匹配*号前的字符0次或多次,re.findall(“ab“,”cabb3abcbbac”) 结果为[‘abb’, ‘ab’, ‘a’]
‘+’ 匹配前一个字符1次或多次,re.findall(“ab+”,”ab+cd+abb+bba”) 结果[‘ab’, ‘abb’]
‘?’ 匹配前一个字符1次或0次
‘{m}’ 匹配前一个字符m次
‘{n,m}’ 匹配前一个字符n到m次,re.findall(“ab{1,3}”,”abb abc abbcbbb”) 结果’abb’, ‘ab’, ‘abb’]
‘|’ 匹配|左或|右的字符,re.search(“abc|ABC”,”ABCBabcCD”).group() 结果’ABC’
‘(…)’ 分组匹配,re.search(“(abc){2}a(123|456)c”, “abcabca456c”).group() 结果 abcabca456c
‘A’ 只从字符开头匹配,re.search(“Aabc”,”alexabc”) 是匹配不到的
‘Z’ 匹配字符结尾,同$
‘d’ 匹配数字0-9
‘D’ 匹配非数字
‘w’ 匹配[A-Za-z0-9]
‘W’ 匹配非[A-Za-z0-9]
‘s’ 匹配空白字符、t、n、r , re.search(“s+”,”abtc1n3”).group() 结果 ‘t’
‘(?P
1 | 最常用的匹配语法 |
re.match 从头开始匹配
re.search 匹配包含
re.findall 把所有匹配到的字符放到以列表中的元素返回
re.splitall 以匹配到的字符当做列表分隔符
re.sub 匹配字符并替换
1 | 反斜杠的困扰 |
re.I(re.IGNORECASE): 忽略大小写(括号内是完整写法,下同)
M(MULTILINE): 多行模式,改变’^’和’$’的行为(参见上图)
S(DOTALL): 点任意匹配模式,改变’.’的行为