Collections 是 Python 内建的一个集合模块,提供了许多额外的数据类型。
namedtuple
namedtuple 主要用来生成可以使用名称来访问元素的数据对象,通常用来增强代码的可读性。
namedtuple 是一个函数,它用来创建一个自定义的 tuple 对象,并且规定了 tuple 元素的个数,可以用属性而不是索引来写入或者访问 tuple 的某个元素。
>>> from collections import namedtuple
>>> Point = namedtuple('Point',['x','y'])
>>> p = Point(1,2)
>>> print(p.x,p.y)
1 2
>>> Web = namedtuple('web',['name','type','url'])
>>> p1 = Web('google','search','www.google.com')
>>> p2 = Web('sina','portal','www.sina.com.cn')
>>> print(p1)
Web(name='google',type='search',url='www.google.com')
deque
使用 list 存储数据时,按索引访问元素很快,但是插入和删除元素就很慢了,因为 list 是线性存储,数据量大的时候,插入和删除效率很低。
deque 是为了实现高效插入和删除操作的双向列表,适合用于队列和栈。
deque 在插入数据时速度比 list 快很多,当然这个是相对于存在大量数据的 list 而言的。
>>> from collections import deque
>>> import time
>>> q = deque(['a','b','c'])
>>> q.append('x')
>>> q.appendleft('y')
>>> print(q)
deque(['y','a','b','c','x'])
对比一下 deque 和 list 的速度。对含有 1 亿个元素的 list 执行插入:
>>> q0 = [x*x for x in range(100000000)]
>>> a = time.time()
>>> q0.insert(0,888)
>>> b = time.time()
>>> print(b-a)
0.09701275825500488
对含有 1 亿个元素的 deque 执行插入:
>>> q1 = deque(q0)
>>> a = time.time()
>>> q1.appendleft(888)
>>> b = time.time()
>>> print(b-a)
0.0009984970092773438
defaultdict
在使用原生的 dict 的时候,如果用 d[key]
这样的方式访问,当指定的 key 不存在时,会抛出 KeyError 异常,也就是发生错误。
如果使用 defaultdict,只要你传入一个默认的方法,那么请求一个不存在的 key 时,便会调用这个方法,使用其结果来作为这个 key 的默认值。
>>> from collections import defaultdict
>>> i = defaultdict(lambda:100)
>>> i['name']='David'
>>> print(i['name'])
David
>>> print(i['score'])
100
OrderedDict
原生的 dict 的 key 是无序的。而使用 OrderedDict,追加一对 key value。OrderedDict 的 key 会按照插入的顺序排列。
其他的方法基本一致。
Counter
Counter 提供了一个简单的计数器功能。
>>> from collections import Counter
>>> s = input('Please input:')
Please input:abcddeee
>>> s = s.lower()
>>> c = Counter(s)
>>> print(c.most_common(5)) # 获取出现频率最高的5个字符
[('e',3),('d',2),('b',1),('c',1),('a',1)]