1.集合是一个无序的,且不重复元素的集合。它里面的元素是可哈希的(不可变类型),但是集合本身是不可哈希(所以集合做不了字典的键)的。
2.基本功能包括关系测试和消除重复元素。注意:集合存在的意义就是去重和关系运算。
- 去重,把一个列表变成集合,就自动去重了。
- 关系测试,测试两组数据之前的交集、差集、并集等关系。
3.集合中的三个特征
- 确定性(元素必须是可hash)
- 互异性(去重)
- 无序性(集合中的元素没有先后之分)如集合{1,2,3}和集合{2,3,1}算作一个集合
集合的创建
可以使用大括号 { } 或者 set() 函数创建集合,注意:创建一个空集合必须用 set() 而不是 { },因为 { } 是用来创建一个空字典。大括号也不可以创建元素含有字典与列表的集合。
创建set需要一个list或者tuple或者dict作为输入集合。其中重复元素在set中会自动过滤。
集合可以通过可迭代对象(字符串、元组、列表等)进行创建;集合中的元素不可重复;集合中的元素无序排列。
创建空的集合:s = set(),不能用 { } 来创建空集合。
创建非空集合:s = {1,2,3,4},或者 s = set(iterable)。
# 创建空集合 set1 = set() print(set1, type(set1)) # (set([]), <type 'set'>) # 创建非空集合 set1 = {1, 2, 2} print(set1, type(set1)) # (set([1, 2]), <type 'set'>) set2 = set({1, 2, 2}) print(set2, type(set2)) # (set([1, 2]), <type 'set'>) set3 = set('abcdefabcd') set4 = set(['a','b','c','a']) set5 = set(('a','b','c','a')) set6 = set({'a':1, 'b':2}) set7 = set(range(1, 10, 3)) print(set3, type(set3)) # (set(['a', 'c', 'b', 'e', 'd', 'f']), <type 'set'>) print(set4, type(set4)) # (set(['a', 'c', 'b']), <type 'set'>) print(set5, type(set5)) # (set(['a', 'c', 'b']), <type 'set'>) print(set6, type(set6)) # (set(['a', 'b']), <type 'set'>) print(set7, type(set7)) # (set([1, 4, 7]), <type 'set'>) # 集合推导式 set1 = {x for x in 'abracdabra' if x not in 'abc'} print(set1, type(set1)) # (set(['r', 'd']), <type 'set'>)
集合的常用方法:见help(set)
添加元素
set1 = {'1', '2'} set2 = {'1', '2'} set3 = {'1', '2'} set1.add('3') # add的作用相当于列表中的append方法,但是添加新元素时,如果存在就不添加。 print set1 # set(['1', '3', '2']) set2.update('2345') # update 类似于列表中的extend方法,update方法可以支持同时传入多个参数 print set2 # set(['1', '3', '2', '5', '4']) set3.update(['6', '8'], 'de') # 添加列表到集合,列表元素会被分解为单个元素后添加到集合 print set3 # set(['e', 'd', '1', '2', '6', '8'])
删除元素
s1 = set(['Python','Java','C','C++','C#']) s2 = set(['Python','Java','C','C++','C#']) s3 = set(['Python','Java','C','C++','C#']) s1.remove('C++') # 使用remove(element)方法删除指定元素,参数element为需要删除的元素。如果集合中不存在element元素,则会抛出异常。 s2.discard('C++') # 使用discard(element)方法删除指定元素,参数element为需要删除的元素。如果集合中不存在element元素,不会抛出异常。 print s1 # set(['Python', 'C#', 'C', 'Java']) print s2 # set(['Python', 'C#', 'C', 'Java']) print s3.pop() # Python 随机删除一个元素。由于集合是无序的,pop返回的结果不能确定,且当集合为空时调用pop会抛出KeyError错误。 print s3 # set(['C#', 'C', 'Java', 'C++']) s3.clear() # 清空集合 print s3 # set([]) del s3 # 删除整个集合:del set print s3 # NameError: name 's3' is not defined
查找元素
s1 = set(['Python','Java','C','C++','C#']) for i in s1: print i
集合的运算
交集、并集、补集、差集、子集、超集
in /not in运算符:in等同于字典的in,用于集合中,当某个值存在于集合中,返回True,否则返回False。not in 与in 返回值相反。集合的in / not in 运算符的速度快于序列。
s1 = {1, 2, 3} s2 = {3, 4, 5} # 交集 & 或者 intersection() print s1 & s2 # {3} print s1.intersection(s2) # 并集 | 或者 union() print s1 | s2 # {1, 2, 3, 4, 5} print s1.union(s2) # 补集(反交集) ^ 或者 symmetric_difference() print s1 ^ s2 # {1, 2, 4, 5} print s1.symmetric_difference(s2) # 差集 - 或者 difference() print s1 - s2 # {1, 2} print s1.difference(s2) # 超集>:判断一个集合是另一个集合的超集,使用 >= 也可以 print {1,2,3} > {1,2} # True {1,2,3} 是 {1,2} 的超集 print {1,2,3}.issuperset({1,2}) # 子集<:判断一个集合是另一个集合的子集,使用 <= 也可以 print {1,2} < {1,2,3} # True {1,2} 是 {1,2,3} 的子集 print {1,2}.issubset({1,2,3}) print {1,2,3} == {3,2,1} # True print {1,2,3} != {3,2,1} # False print 1 in {1,2,3} # True print 1 not in {1,2,3} # False
集合的函数
len(x) max(x) min(x) sum(x) any(x) all(x)
s1 = {1, 2, 3, 6} print len(s1) # 4 print max(s1) # 6 print min(s1) # 1 print sum(s1) # 12 print any(s1) # True print all(s1) # True
补充:集合数据类型可以去重
arry = [1, 2, 3, 4, 6, 3, 8, 2] set1 = set(arry) print set1 # {1, 2, 3, 4, 6, 8} arry = list(set1) print arry # [1, 2, 3, 4, 6, 8]