# 例1-2 正确缩进
# 比较两个数字对于π的精度,保持缩进一致
pie = 3.1415
pie1 = 3.14
# 同一代码块内各行缩进空格数目相同,观察输出结果
if pie > pie1:
print('π取pie更精确')
elif pie == pie1:
print('π取pie或pie1一样精确')
else:
print('π取pie1更精确')
# 例1-4 长语句换行
# 给出3种水果的价格,计算总价
apple_price, banana_price, pear_price = 1, 1.5, 0.5
# 通过反斜杠实现长语句换行
total_price = apple_price +
banana_price +
pear_price
print('total_price =', total_price)
# 例1-5 逗号换行
# 方括号内,在逗号后直接换行
total_price = sum([apple_price,
banana_price,
pear_price])
print('total_price =', total_price)
# 例1-6 分号隔离
# 给出3种水果的价格,计算总价
apple_price = 1; banana_price = 1.5; pear_price = 0.5
total_price = apple_price + banana_price + pear_price
print('total_price =', total_price)
import keyword
print('Python中的所有保留字为:
',keyword.kwlist)
# 例1-8 赋值的基本形式
# 使用等号直接给num_int赋值一个整数值
num_int = 1
print('使用等号创建的整数为:', num_int)
# 使用等号直接给num_float赋值一个浮点数值
num_float = 9.9
print('使用等号创建的浮点数为:', num_float)
# 使用等号直接给string赋值一个字符串
string = 'python'
print('使用等号创建的字符串为:', string)
# 例1-9 序列赋值
# 序列赋值可给变量赋值多种数据类型
num_int, string, list1 = 123, 'str', [4,6]
print('赋值创建的多种数据类型为:', num_int, string, list1)
# 序列赋值可给变量赋值已赋值的变量
num1, num2, num3 = 7, 8, 9
num_int1, num_int2, num_int3 = num1, num2, num3
print('变量赋值为已赋值变量结果为:', num_int1, num_int2, num_int3)
# 例1-10 链接赋值
str1 = str2 = str3 = 'STR'
print('str1, str2, str3分别为:', str1, str2, str3)
print('str1, str2, str3的内存地址分别为:', id(str1), id(str2), id(str3))
print('str1, str2, str3是否等价:', str1 is str2 is str)
# 代码1-11 增量赋值
x = 100
x += 10
print('x += 10等价于x=x+10,其值为:', x)
# 例1-12 算术运算
num_int = 4
num_float = 4.0
print('整数与浮点数的和为:', num_int + num_float)
print('整数与浮点数的差为:', num_int - num_float)
print('整数与浮点数的积为:', num_int * num_float)
print('浮点数与整数的商为:', num_float / num_int)
print('浮点数对整数取模结果为:', num_float % num_int)
print('浮点数的整数次幂为:', num_float ** num_int)
# 例1-13 赋值运算
num_int1 = 4
print('赋值后num_int1为:', num_int1)
num_int1 = 4 + 6
print('赋值后num_int1为:', num_int1)
num_int1 = 4 * 2
print('赋值后num_int1为:', num_int1)
num_int1 = 4 / 2
print('赋值后num_int1为:', num_int1)
num_int1 = 4 % 2
print('赋值后num_int1为:', num_int1)
num_int1 = 4 ** 2
print('赋值后num_int1为:', num_int1)
# 例1-14 比较运算
num_int = 4
num_float = 4.0
print('num_int与num_float是否相等:', num_int == num_float)
print('num_int与num_float是否不相等:', num_int != num_float)
print('num_int是否大于num_float:', num_int > num_float)
print('num_int是否小于num_float:', num_int < num_float)
print('num_int是否大于等于numfloat:', num_int >= num_float)
print('num_int是否小于等于num_float:', num_int <= num_float)
# 例1-15 逻辑运算
num_bool1 = False
num_bool2 = True
print('num_bool1 and num_bool2返回值为:', num_bool1 and num_bool2)
print('num_bool1 or num_bool2返回值为:', num_bool1 or num_bool2)
print('not num_bool2的返回值为:', not (num_bool2))
# 例1-16 身份运算
num_int1 = 15
num_int3 = 15
print('num_int1与num_int3储存单位是否相同:', num_int1 is num_int3)
num_int2 = 15.0
print('num_int1与num_int2储存单位是否相同:', num_int1 is num_int2)
# 如果储存单位相同就返回True,否则返回False
print('num_int1与num_int3储存单位是否不同:', num_int1 is not num_int3)
print('num_int1与num_int2储存单位是否不同:', num_int1 is not num_int2)
# 例1-17 成员运算
num_int1 = 15
list2 = [1, 'apple', 15]
print('num_int1是否在list2中:', num_int1 in list2)
array = ('orange', 6, 15)
print('num_int1是否不在array中:', num_int1 not in array)
# 例1-18 运算符优先级
# 先执行乘除法运算,再执行加减法运算
print('num_float + num_int1 / num_int3 =', num_float + num_int1 / num_int3)
# 先执行加减法运算,再执行比较运算
print('num_int1 - num_int2 > num_int1 - num_int3:',
num_int1 - num_int2 > num_int1 - num_int3)
# 先执行加减法运算,再做身份判断
print('num_int1 - num_int3 + num_int1 is num_int1:',
num_int1 - num_int3 + num_int1 is num_int1)
# 先执行指数运算,再执行减法运算,最后做身份判断
print('num_float ** 2 - 1 is not num_int2:',
num_float ** 2 - 1 is not num_int2)
#例1-19 创建 number
num_int = 2
num_float = 4.5
num_bool = True
num_complex = 3j
print('数据类型分别为:
', type(num_int),
type(num_float), type(num_bool), type(num_complex))
# 例1-20 number 类型装换与混合运算
# number类型转换, 将float转换为int(直接去掉小数部分)
print('int(4.5)的结果为:', int(4.5))
# 将int转换为float(直接增加小数部分)
print('float(4)的结果为:', float(4))
# 将int和float转换为complex(直接增加虚部)
print('complex(4)和complex(4.5)的结果分别为:', complex(4), complex(4.5))
# 不同number类型混合运算, int + float = float
print('整数和浮点数和的类型为:', type(124 + 4.0))
# int + complex = complex
print('整数和复数和的类型为:', type(124 + 5.3j))
# float + complex = complex
print('浮点数和复数和的类型为:', type(4.0 + 5.3j))
# 例1-21 str 索引
string = "ilovePython"
# 下标为正数,从第2个字符开始索引,到第5个字符
print('ilovePython[1:5] =', string[1:5])
# 下标为负数,从倒数第10个字符开始索引,到倒数第6个字符
print('ilovePython[-10:-6] =', string[-10:-6])
print('ilovePython[:5] =', string[:5])
# 尾下标留空,从第2个字符开始索引,到最后一个字符截止
print('ilovePython[1:] =', string[1:])
# 按步索引,从第2个元素开始索引,到第11个元素,步距为3
print('ilovePython[1:10:3] =', string[1:10:3])
# 例1-22 str 查询方法
print('string中n的位置和总数分别为:', string.index('n'), string.count('n'))
print('string中是否只包含字母:', string.isalpha())
print('string中是否只包含数字:', string.isdigit())
print('string是否已P开头:', string.startswith('P'))
print('string是否是标题化的:', string.istitle())
# 例1-23 str 改写方法
print('string左对齐填充至20个字符结果为:', string.ljust(20))
print('string右对齐填充至20个字符结果为:', string.rjust(20))
print('string大写化结果为:', string.upper())
print('string大小写置换结果为:', string.swapcase())
print('string中h替换为H结果为:', string.replace('h','H'))
# 例1-24 str 方法-其他
# 以指定格式编码
string = string.encode('UTF-16', 'strict')
print ("string编码为:", string)
# 以指定格式解码
string = string.decode('UTF-16', 'strict')
print ("string解码为:", string)
# 以指定分隔符分割str
print(string.partition("."))
string1 = ('I','love','Python')
sep = '-'
# 以sep为分隔将string1合并为新的字符串
print('以sep分隔合并string1为:', sep.join(string1))
# 例1-25 str 转义与常用操作
print ('
otemybook') # str中包含
,识别为换行符并转义
print (' itlemybook') # str中包含 ,识别为制表符并转义
print (r'
otemybook ') # 使用r制止转义
print (string + "TEST") # 输出连接的str
print (string * 2) # 输出str两次
# 例1-26 创建 list
# 使用方括号创建一个非空list
list1 = ['runoob', 786, 2.23, 'john']
print('方括号建立的列表为:', list1)
#建立元组
tuple1 = (123, 'xyz', 'zara', 'abc')
list2 = list(tuple1)
print('元组转换成列表结果为:', list2)
# list函数将str拆开,作为新list中的元素
list3 = list('china')
print('字符串转换成列表结果为:', list3)
# 例1-27 list 基本操作
print('列表按指定长度索引结果为:', list3[-4:-2])
print('列表按步长索引结果为:', list3[0::2])
list1[2] = 666
print('列表替换结果为:', list1)
print('list1和list2用+连接结果为:', list1 + list2)
print('列表通过*重复结果为:', list1 * 2)
# 例1-28 list 常用方法
print('list3中a出现的次数:', list3.count('a'), '
', 'list3中a首次出现的位置:', list3.index('a'))
list3.insert(0,'g')
list1.append('新增')
list2.extend(list3)
print('在列表指定位置插入元素:', list3, '
', '在列表末尾新增元素:', list1, '
', '将list3扩展至list2:', list2)
list3.insert(0,'g')
list1.append('新增')
list2.extend(list3)
print('在列表指定位置插入元素:', list3, '
', '在列表末尾新增元素:', list1, '
', '将list3扩展至list2:', list2)
list3.pop(0)
list1.remove('新增')
print('使用pop删除指定位置的元素:', list3, '
', '使用remove删除指定元素:', list1)
list2.pop(0)
list2.sort()
list3.reverse()
print('列表排序:', list2, '
', '列表反向排序:', list3)
# 例1-29 创建tuple
# 使用圆括号创建tuple
tup1 = ('Google', 'Runoob')
print('查看tup1类型:', type(tup1), '
', '查看tup1:', tup1)
# 不加括号创建tuple
tup2 = "a", "b", "c", "d"
print('查看tup2:', tup2, '
', '查看tup2类型:', type(tup2))
# 将[‘x',’y',’z']转换成tuple
tup3 = tuple(['x','y','z'])
print('查看tup3:', tup3, '
', '查看tup3类型:', type(tup3))
# 单个数字元素加逗号,变量是tuple
tup4 = (50,)
# 单个数字元素无逗号,变量是int
tup5 = (50)
print('tup4和tup5的类型分别为:', type(tup4), type(tup5))
# 例1-30 tuple 基本操作
print('tup2中第3元素为:', tup2[2])
print('tup2中第1个到倒数第二个元素为:', tup2[:-1])
print('连接两个元组结果为:', tup1 + tup2)
print('元组重复输出结果为:', tup3 * 2)
# 例1-31 tuple 内置方法
print('tup2中元素a出现的次数:', tup2.count('a'))
print('tup2中元素a首次出现的位置:', tup2.index('a'))
# 例1-32 创建 dict
# 使用花括号创建空dict,更新键值对
dict1 = {}
dict1['one'] = "This is 1"
dict1['two'] = "This is 2"
print('查看字典:', dict1)
# 使用dict函数创建dict,指定键值对
dict2 = dict(name='小明', height=187)
print('查看字典:', dict2)
# 例1-33
print('通过键索引字典元素:', dict1['one'])
dict1['one'] = 'this is 1'
print('以键改字典元素值:', dict1)
dict1[3] = 'This is 3'
print('更新后的字典为:', dict1)
del dict1[3]
print('删除键3后的字典为:', dict1)
# 例1-34 dict 内置方法
print('输出dict1中所有键值对:', dict1.items(), '
',
'输出dict1中所有的键:', dict1.keys(), '
',
'输出dict1中所有的值:', dict1.values())
print('与one对应的元素为:', dict1.get('one'), dict1.setdefault('one'))
dict1.update(dict2)
dict3 = dict2.copy()
print('将dict2中键值对更新到dict1中:', dict1, '
',
'将dict2中内容复制到新的字典中:', dict3)
dict1.pop('name')
dict2.popitem()
dict3.clear()
print('删除dict1中name键对应的内容:', dict1, '
',
'随机删除dict2中的一个键值对为:', dict2.popitem(), '
',
'清空dict3中的内容:', dict3)
# 例1-35 创建 set
# 使用非空的{}创建set
set1 = {1, 2, 3}
print('set1的类型为:', type(set1))
# 创建一个空的set只能使用set函数
set2 = set()
print('查看set2:', set2, '
', 'set2的类型为:', type(set2))
# 将list、tuple转换为set
set3 = set([1,2,3])
set4 = set((1,2,3))
print('查看set3和set4:', set3, set4, '
',
'set3和set4的类型分别为:', type(set3), type(set4))
# 例1-36 set 常用方法
set1.add('a')
print('add方法向set1中添加元素结果为:', set1)
set1.pop()
print('pop方法删除set1中任意一个元素结果为:', set1)
set2.clear()
print('清除set2中内容结果为:', set2)
# 例1-37 set 集合运算
print('set4是否为set1的子集:', set4 < set1)
print('set4和set1的并集为:', set4 | set1)
print('set4和set1的交集为:', set4 & set1)
print('set4和set1的差集为:', set4 - set1)
# # 例1-38 输入不同数据类型
# # 输入一个数字,由Python默认类型
# number1 = input('请输入一个数字:')
# # 输入一个str,由Python默认类型
# str1 = input('请输入一个字符串:')
# # 输入一个数字,并将其转换为int类型
# number2 = int(input('请输入一个数字:'))
# # 查看以上输入的输出结果类型
# print('number1、str1和number2的类型分别为:
',
# type(number1), type(str1), type(number2))
# 例1-39 print 函数应用
# print函数接受多个str
print('我', '爱', '中华')
# print函数在打印前计算结果
print('100+200 =', 100 + 200)
# 例1-40 “ % + 格式符” 格式化输出
# 用%s、%d分别格式化字符串'Zara'和整数20
print("我的名字叫做%s,已经%d岁了!"%('Zara',20))
# 用%d格式化16,用%o将十进制整数16用八进制数表示
print("%d 的八进制是 %o"%(16,16))
# 用%.3f将整数转化为保留小数点后3位的float
print("23 转化为保留3位小数的浮点数%.3f"%(23))
# format函数不带参数情况下的输出
print("我的名字叫做{},已经{}岁了!".format('Zara', 18))
# format函数带数字编号并打乱顺序
print("我的名字叫做{1},已经{0}岁了!".format(18, 'Zara'))
# format函数带关键字参数
print("我的名字叫做{name},已经{age}岁了!".format(age=18,name='Zara'))
# format函数格式化数字为二进制数
print("我的名字叫做{},已经{:b}岁了!".format('Zara', 18))
# # 例1-41 read 函数读取 test.txt 文件
# # 以只读模式打开test.txt文件
# data = open('../data/test.txt', 'r')
# # 读取文件中的内容,存到content变量中
# content = data.read()
# # 打印出content变量中包含的文本内容
# print('该文本中的内容是:', content)
# #例1-42 write 函数写入文件
# # 打开一个文件
# web = open('../data/web.txt', 'w')
# # 转换内容,写入文件
# value = ('http://www.tipdm.org', 14)
# str_value = str(value)
# web.write(str_value)
# web.close()
# # 打开文本,读取出写入的内容
# web = open(‘../data/web.txt', 'r')
# content = web.read()
# print('该文本中的内容是:', content)
# # 例1-43 if-else语句实现登录界面
# name = input ('请输入用户名:')
# password = input ('请输入密码:')
# if name == "Lucy" and password == "123456":
# print ('****登录成功,欢迎!*****')
# else:
# print ('-----您的输入有误,登录失败!-----')
# # 例1-44 使用if-elif-else语句实现年龄段的判断
# age = input('请输入您的年龄:')
# age = int(age)
# if age < 18:
# print('未成年人!')
# elif age >= 18 and age <= 25:
# print('青年人!')
# elif age > 25 and age <= 60:
# print('中年人!')
# else:
# print('老年人!')
# #例1-45 嵌套if-elif-else语句
# age = input('请输入你的年龄:')
# age = int(age)
# if age == 35:
# nation = input('请输入你的国籍:')
# if nation == '英国':
# print('你是Tom! ')
# elif (nation == '法国'):
# print('你是Frank! ')
# else:
# print('你是Bob! ')
# elif age == 21:
# print('你是Jane,来自南非! ')
# elif age == 51:
# print('你是Washington,来自澳大利亚! ')
# else:
# print('请输入正确年龄值! ')
# 例1-46 if-else语句的单行形式
num1, num2 = 11, 90
print('num1加num2为百分数') if 1000 > num1 + num2 >100 else print('num1加num2不为百分数')
# 例1-47 for语句遍历提取str
# 单纯遍历的for语句
names = ['Michael', 'Bob', 'Tracy']
# 遍历输出names中的元素
for name in names:
print(name)
#例1-48 for语句遍历查询dict
dic = {'a': 1, 'b': 2, 'c': 3, 'd': 4}
# 遍历键值对
print('
key_value:', end = '')
for key, value in dic.items():
print(key, value, sep = ':', end = ' ')
# 遍历键
print('
keys:', end = '')
for key in dic.keys():
print(key, end = ' ')
# 遍历值
print('
values:', end = '')
for value in dic.values():
print(value, end = ' ')
# # 例1-49 嵌套for语句
# students = ['小明', '小红']
# subjects = ['语文', '数学']
# sum1 = []
# avg = []
# for i in students:
# print ('开始录入%s的考试成绩!'%i)
# sum = 0
# for j in subjects:
# print('请输入%s成绩:'%j)
# score = int(input())
# sum += score
# average = sum / 2
# avg.append(average)
# sum1.append(sum)
# print(students, '的总分依次是', sum1, ',', '平均分依次是', avg)
# print('完成成绩录入!')
# 例1-50 while语句
sum = 0
n = 99
while n > 0:
sum += n
n -= 2
print(sum)
# # 例1-51 嵌套while语句
# j = 1
# while j <= 2:
# sum = 0
# i = 1
# name = input('请输入学生姓名:')
# while i <= 2:
# print ('请输入第%d门的考试成绩: '%i)
# sum += int(input())
# i += 1
# avg = sum / (i-1)
# print(name, '的平均成绩是%d'%avg)
# j += 1
# print('学生成绩输入完成!')
# 例1-52 break语句的使用
# break语句用于for循环
string = "Python"
for i in string:
# 遍历至string中的字符n时,不再执行else代码块
if i == 'n':
break
else:
print("letter:{}". format(i))
# break语句用于while循环
counts = 0
while True:
print(counts)
counts += 1
# 满足counts等于3时跳出循环,不再进入循环体
if counts == 3:
break
# 例1-53
# 第一层循环,遍历次数为2
for i in range(2):
print("-----%d-----" %i)
# 第二层循环,遍历次数为5
for j in range(5):
# 当j等于2或4时,不执行循环体
if j == 2 or j == 4:
continue
print(j)
# 例1-54
for element in "Python":
# element为y时,不做任何操作,不会被输出
if element == "y":
pass
else:
print(element)
counts = 0
while counts < 5:
counts += 1
# i=3时,不执行循环体
if counts == 3:
pass
else:
print(counts ** 2)
# 例1-55
vec = [-4, -2, 0, 2, 4]
# 用vec中元素的倍数,创建一个数组
print([x * 2 for x in vec])
# 创建一个包含2元tuple的list
print([(x, x ** 2) for x in range(6)])
# 例1-56
list1 = [1, 2, 3, 4]
# bytes函数、bytearray函数
print('list1的不可变字节数组为:', bytes(list1), '
',
'list1的可变字节数组为:', bytearray(list1))
# chr函数、ord函数
print('整数40的unicode字符为:', chr(40), '
',
'unicode字符(对应的整数为:', ord('('))
# bin函数
print('整数40的二进制形式为:', bin(40))
# ascii函数
print('字符串tipdm的ascii码为:', ascii('tipdm'))
# hash函数
print('字符串tipdm的hash值为:', hash('tipdm'))
# 例 1-57
# max函数、min函数
print('序列中的最大数为:', max(list1), '
',
'序列中的最小数为:', min(list1))
# abs函数
print('-10和100的绝对值分别为:', abs(-10), abs(100))
# pow函数
print('3的6次方为:', pow(3, 6))
# round函数
print('3.2四舍五入结果为:', round(3.2))
# divmod函数
print('7除以3的商和余数分别为:', divmod(7, 3))
#例 1-58
# map函数
# 对一个list中的各个float分别四舍五入
print('浮点数的四舍五入结果为:', list(map(round, [1.1, 2.2, 3.3, 4.4, 5.5])))
# zip函数
list3 = [1, 2, 3]
list4 = [4, 5, 6]
zipped = zip(list3, list4)
# zip函数直接返回的是数据对象
print('返回对象为:', zipped, '
', '返回为list:', list(zipped))
# 例1-59
def exponent(a, b):
x = a ** b
return x
print('自定义幂运算的返回值为:', exponent(3, 6))
# 例 1-60
# 无参数,无返回值
def hello():
print('Hello!')
hello()
print('***以上为hello()的输出,以下为print(hello())的输出***')
print(hello())
# 无参数,有返回值
def func():
return("Python")
func()
# 多参数,无返回值
def func1(a, b):
print("a + b = %d"%(a + b))
func1(3, 4)
# 多参数,有返回值
def func2(a, b):
return (a + b)
print('a、b加和为:', func2(4, 3))
# 多个返回值
def maxtomin(a, b):
#返回a,b从大到小的排列
if a > b:
return a, b
else:
return b, a
print('a、b排序为:', maxtomin(2, 4))
# 例 1-61
# 使用位置参数
def func3(b, a, c):
return (a ** 2, b ** 2, c ** 2)
result = func3(1, 2, 3)
print('1、2、3经函数func3运算的结果为:', result)
# 使用关键字参数
def func4(a, b, c):
return (a ** 2, b ** 2, c ** 2)
result1 = func4(b=2, a=1, c=3)
print('1、2、3经函数func4运算的结果为:', result1)
# 混合使用位置参数和关键字参数,位置参数必须在关键字参数的前面
def func5(a, b, c):
return (a ** 2, b ** 2, c ** 2)
result2 = func5(1, c=3, b=2)
print('1、2、3经函数func5运算的结果为:', result2)
# 例1-62
def func6(a, b = 2):
print(a, b)
func6(1)
def func7(string, *numbers):
print(string, numbers)
func7('numbers:', 1, 2, 3)
def func8(a, *numbers, **kwargs):
print (a, numbers, kwargs)
func8(4, 2, 3, 4, b = 2, c = 3)
# 例1-63
x = 99
def func9(y):
return x + y
print('y = 1, x + y为:', func9(1))
def func10(y):
x = 12
return x + y
print('x为:', x, '
',
'y=1, x+y为:', func10(1))
# 例1-64
x, y, z = 0, 2, 3
def func11():
x = 1
print('x + y与z是否相等:', x + y == z)
# 调用函数
func11()
print('x + y与z是否相等:', x + y == z)
def func12():
global x
x = 1
print('x + y与z是否相等:', x + y == z)
# 调用函数
func12()
print('x + y与z是否相等:', x + y == z)
# 例1-65
x = 1
list1 = [1, 2]
def func13(x,y):
x = 2
y[0] = 'str'
func13(x, list1)
print('调用函数后传入的参数变化为:', x, list1)
# 例1-66
sum1 = lambda arg1, arg2: arg1 + arg2
print("相加值为:", sum1(10, 20))
# 使用lambda语句
print(list(map(lambda x: x * x, [1, 2, 3, 4, 5, 6, 7, 8, 9])))
f1 = lambda x: '传入的参数为1' if x == 1 else '传入的参数不为1'
f1(10)
# #1. 输入一个包含若干自然数的列表,输出这些数的平均值,结果保留3位小数。
# data=eval(input('请输入一个包含若干自然数的列表:'))
# avg=sum(data)/len(data)
# avg=round(avg,3)
# print('平均值为:',avg)
# #2. 输入一个包含若干自然数的列表,输出一个新列表,新列表中每个元素为原列表中每个自然数的位数。
# data=eval(input('请输入一个包含若干自然数的列表:'))
# data=map(str,data)
# length=list(map(len,data))
# print('每个元素的位数:',length)
# #3. 输入一个字符串,输出其中每个唯一字符最后一次出现的下标。
# text=input('请输入一个字符串:')
# positions=[(ch,index) for index,ch in enumerate(text) if (index==text.rindex(ch)) and (text.count(ch)==1)]
# print(positions)
# #4. 输入一个字符串,检查该字符串是否为回文,输出yes / no,要求用切片实现。
# text=input('请输入一个字符串:')
# if text==text[::-1]:
# print('yes')
# else:
# print('no')
# #5. 接收两个正整数参数n和a(要求a为小于10的自然数),计算形如a+aa+aaa+…+aaa...aaa的表达式前n项的值。
# def compute(n,a):
# return(sum(map(lambda i:int(str(a)*i),range(1,n+1))))
# print(compute(3,5))
# 例3-1
import numpy as np
print('整数42转换为浮点数结果为:', np.float64(42))
print('浮点数42.0转换为整数结果为:', np.int8(42.0))
print('浮点数42转换为布尔型转换结果为:', np.bool(42.0))
print('整数0转换为布尔型结果为:', np.bool(0))
print('布尔型数据True转换为浮点数结果为:', np.float(True))
print('布尔型数据False转换为整型结果为:', np.int8(False))
#例3-2
arr1 = np.array([1, 2, 3, 4])
print('创建的一维ndarray为:', arr1)
arr2 = np.array([[1, 2, 3, 4], [4, 5, 6, 7], [7, 8, 9, 10]])
print('创建的二维ndarray为:
', arr2)
print('ndarray arr2的维数为:', arr2.ndim)
print('ndarray arr2的形状为:', arr2.shape)
print('ndarray arr2的数据类型为:', arr2.dtype)
print('ndarray arr2的元素个数为:', arr2.size)
print('ndarray arr2每个元素的大小为:', arr2.itemsize)
# 代码 3-3
print('使用arange函数创建的ndarray为:', np.arange(0, 1, 0.1))
print('使用linspace函数创建的ndarray为:
',np.linspace(0, 1, 12))
print('使用logspace函数创建的ndarray为:
', np.logspace(0, 2, 20))
print('使用zeros函数创建的ndarray为:
', np.zeros((2, 3)))
print('使用eye函数创建的ndarray为:
', np.eye(3))
print('使用diag函数创建的ndarray为:
',np.diag([1, 2, 3, 4]))
print('使用ones函数的ndarray为:
', np.ones((2, 3)))
# 代码 3-4
print('random函数生成的随机数ndarray为:
', np.random.random(100))
print('rand函数生成的服从均匀分布的随机数ndarray为:
', np.random.rand(4, 5))
print('randn函数生成的服从正态分布的随机数ndarray为:
', np.random.randn(4, 5))
print('randint函数生成的指定上下限的随机整数ndarray为:
',
np.random.randint(low=2, high=10, size=[2, 5]))
# 代码 3-5
arr = np.arange(10)
print('使用元素位置索引结果为:', arr[5])
print('使用元素位置切片结果为:', arr[3:5])
print('省略单个位置切片结果为:', arr[:5])
print('使用元素反向位置切片结果为:', arr[:-1])
arr[2:4] = 100, 101 # 修改对应下标的值
print('修改后的ndarray arr为:', arr)
print('元素位置等差索引结果为:', arr[1:-1:2])
# 步长为负数时,开始位置必须大于结束位置
print('元素位置负数步长等差索引结果为:', arr[5:1:-2])
# 代码 3-6
arr = np.array([[1, 2, 3, 4, 5], [4, 5, 6, 7, 8], [7, 8, 9, 10, 11]])
print('创建的二维ndarray arr为:
', arr)
print('切片结果为:', arr[0, 3:5]) # 访问第0行中第3和第4列的元素
print('切片结果为:
', arr[1:, 2:]) # 访问第1和第2行中第2列、第3列和第4列的元素
print('切片结果为:
', arr[:, 2]) # 访问第2列所有的元素
# 索引第1、3行中第2列的元素
mask = np.array([1, 0, 1], dtype=np.bool)
print('使用布尔值ndarray索引结果为:', arr[mask, 2])
arr = np.empty((8, 4))
for i in range(8):
arr[i] = i
print('创建的二维ndarray arr为:
', arr)
print('以特定顺序索引arr结果为:
', arr[[4, 3, 0, 6]])
print('以特定逆序索引arr结果为:
', arr[[-3, -5, -7]])
arr = np.array([np.arange(i*4, i*4+4) for i in np.arange(6)])
print('创建的二维ndarray arr为:
', arr)
# 返回一个ndarray最终的元素(1,0)、(5,3)、(4,1)、(2,2)
print('使用二维ndarray索引arr结果为:', arr[[1, 5, 4, 2], [0, 3, 1, 2]])
# 代码 3-7
arr = np.arange(12) # 创建一维ndarray
print('创建的一维ndarray arr为:', arr)
arr1 = arr.reshape(3, 4) # 设置ndarray的维度
print('改变形状后的ndarray arr1为:
', arr1)
print('形状改变后ndarray arr1的维度为:', arr1.ndim)
# 代码 3-7
arr.resize(2, 6)
print('resize改变原ndarray形状,ndarray arr变为:
', arr)
arr.shape = (4, 3)
print('通过重新设置shape属性后,ndarray arr为:
', arr)
# 代码 3-8
arr = np.arange(12).reshape(3, 4)
print('创建的二维ndarray arr为:
', arr)
print('ndarray arr横向展平后为:', arr.ravel())
# 代码 3-8
print('ndarray arr使用flatten方法横向展平后为:', arr.flatten())
print('ndarray arr使用flatten方法纵向展平后为:', arr.flatten('F'))
# 代码 3-9
arr1 = np.arange(12).reshape(3, 4)
print('创建的ndarray arr1为:
', arr1)
arr2 = arr1*3
print('创建的ndarray arr2为:
', arr2)
print('hstack横向组合ndarray arr1与arr2为:
', np.hstack((arr1, arr2)))
print('vstack纵向组合ndarray arr1与arr2为:
', np.vstack((arr1, arr2)))
# 代码 3-9
print('concatenate横向组合arr1与arr2为:
', np.concatenate((arr1, arr2), axis=1))
print('concatenate纵向组合arr1与arr2为:
', np.concatenate((arr1, arr2), axis=0))
print('dstack深度组合arr1与arr2为:
', np.dstack((arr1, arr2)))
# 代码 3-10
arr = np.arange(16).reshape(4, 4)
print('创建的二维ndarray arr为:
', arr)
print('hsplit横向分割arr为:
', np.hsplit(arr, 2))
print('hsplit纵向分割arr为:
', np.vsplit(arr, 2))
print('split横向分割arr为:
', np.split(arr, 2, axis=1))
print('split纵向分割arr为:
', np.split(arr, 2, axis=0))
# 代码 3-11
np.random.seed(42) #设置随机种子
arr = np.random.randint(1, 10, size=12).reshape(4, 3)
print('创建的随机数ndarray arr为:
', arr)
print('默认排序后ndarray arr为:
', np.sort(arr))
print('展平排序的ndarray arr为:', np.sort(arr, axis=None))
# 代码 3-11
print('横轴排序后ndarray arr为:
', np.sort(arr, axis=1))
print('纵轴排序后ndarray arr为:
', np.sort(arr, axis=0))
print('横轴排序后arr的下标为:
', np.argsort(arr, axis=1))
print('展平排序后arr的下标为:', np.argsort(arr, axis=None))
# 代码 3-12
arr = np.arange(6, 12).reshape(2, 3)
print('创建的ndarray arr为:
', arr)
print('ndarray arr中最大元素的索引为:', np.argmax(arr))
print('ndarray arr中最小元素的索引为:', np.argmin(arr))
# 代码 3-12
print('ndarray arr中各列最大元素的索引为:', np.argmax(arr, axis=0))
print('ndarray arr中各行最小元素的索引为:', np.argmin(arr, axis=1))
# 代码 3-13
arr = np.arange(12).reshape(4,3)
print('创建的ndarray arr为:
', arr)
print('where输出ndarray arr满足条件的下标为:
', np.where(arr>6))
arr1 = np.arange(12).reshape(3, 4)
print('创建的ndarray arr1为:
', arr1)
arr2 = np.arange(-12, 0).reshape(3, 4)
print('创建的ndarray arr2为:
', arr2)
exp = arr1>5
print('arr1大于5的布尔ndarray为:
', exp)
# 代码 3-13
print('where函数搜索符合条件的arr1与arr2为:
', np.where(exp, arr1, arr2))
arr = np.arange(9).reshape(3, 3)
print('创建的ndarray arr为:
', arr)
exp = (arr % 2) == 0
print('arr能被2整除的布尔ndarray为:
', exp)
print('arr基于条件exp提取的元素为:
', np.extract(exp, arr))
import numpy as np
x=np.array([1,2,3])
y=np.array([4,5,6])
print(x+y)
# 代码 3-15
import numpy as np
arr = np.arange(-4, 5).reshape(3, 3)
print('创建的ndarray arr为:
', arr)
print('ndarray arr各元素的相反数为:
', np.negative(arr))
print('ndarray arr各元素的绝对值为:
', np.absolute(arr))
print('ndarray arr各元素的符号为:
', np.sign(arr))
print('ndarray arr各元素的平方根为:
', np.sqrt(arr))
print('ndarray arr各元素的自然对数为:
', np.log(arr))
# 代码 3-16
arr = np.arange(20).reshape(4, 5)
print('创建的ndarray arr为:
', arr)
print('ndarray arr各元素的和为:', np.sum(arr))
print('ndarray arr各行的极差为:', np.ptp(arr, axis=1))
print('ndarray arr各列的均值为:', np.mean(arr, axis=0))
print('ndarray arr的中位数为:', np.median(arr))
# 代码 3-16
print('ndarray arr各行的上四分位数为:',np.percentile(arr, 75, axis =1))
print('ndarray arr各列的下四分位数为:', np.percentile(arr, 25, axis =0))
print('ndarray arr的标准差为:', np.std(arr))
print('ndarray arr的方差为:', np.var(arr))
print('ndarray arr的最小值为:', np.min(arr))
print('ndarray arr的最大值为:', np.max(arr))
# 代码 3-17
arr = np.arange(1, 11)
print('创建的ndarray arr为:', arr)
print('ndarray arr的元素累计和为:', np.cumsum(arr))
print('ndarray arr的元素累计积为:
', np.cumprod(arr))
# # 代码 3-18
# import numpy as np
# arr = np.load('../data/arr.npy')
# print('从二进制文件arr.npy读取的ndarray arr为:
', arr)
# arr1 = np.load('../data/arr.npz')
# print('从二进制文件arr.npz读取的第1个ndarray为:
', arr1['arr_0'])
# print('从二进制文件arr.npz读取的第2个ndarray为:
', arr1['arr_1'])
# # 代码 3-19
# np.random.seed(123)
# arr = np.random.rand(25).reshape(5, 5)
# print('创建的ndarray arr为:
', arr)
# np.save('../tmp/save_arr.npy', arr)
# print('……存储成功……')
# # 代码 3-20
# arr1 = np.random.rand(36).reshape(6, 6)
# print('创建的ndarray arr1为:
', arr1)
# arr2 = np.random.rand(16).reshape(4, 4)
# print('创建的ndarray arr2为:
', arr2)
# np.savez('../tmp/save_arr.npz', arr1, arr2)
# # 代码 3-20
# arr3 = np.load('../tmp/save_arr.npz')
# print('存取的第1个ndarray为:
', arr3['arr_0'])
# np.savez('../tmp/save_kwds.npz', x=arr1, y=arr2)
# arr4 = np.load('../tmp/save_kwds.npz')
# print('存取的第2个ndarray为:
', arr4['y'])
# # 代码 3-21
# # 指定分隔符读入文本文件
# arr = np.loadtxt("../data/arr.txt", delimiter=",")
# print('读取的ndarray arr为:
', arr1)
# arr = np.arange(36).reshape(6, 6)
# print('创建的ndarray arr为:', arr)
# np.savetxt("../tmp/savetxt.txt", arr, fmt="%d", delimiter=",")
# print('……存储成功……')
# 代码 3-23
import pandas as pd
list1=[0,1,2,3,4]
series = pd.Series(list1, index = ['a', 'b', 'c', 'd', 'e'], name = 'list')
print('Series位于第1位置的数据为:', series[0])
print('Series中Index为a的数据为:', series['a'])
bool = (series < 4)
print('bool类型的Series为:
', bool)
print('通过bool数据访问Series结果为:
', series[bool])
# 代码 3-24
# 更新元素
series['a'] = 3
print('更新后的Series为:
', series)
series1 = pd.Series([4, 5], index = ['f', 'g'])
# 追加Series
print('在series插入series1后为:
', series.append(series1))
# 新增单个数据
series1['h'] = 7
print('在series1插入单个数据后为:
', series1)
# 删除数据
series.drop('e', inplace = True)
print('删除索引e对应数据后的series为:
', series)
# 代码 3-25
dict1 = {'col1': [0, 1, 2, 3, 4], 'col2': [5, 6, 7, 8, 9]}
print('通过dict创建的DataFrame为:
', pd.DataFrame(dict1, index = ['a', 'b', 'c', 'd', 'e']))
list2 = [[0, 5], [1, 6], [2, 7], [3, 8], [4, 9]]
print('通过list创建的DataFrame为:
',
pd.DataFrame(list2, index = ['a', 'b', 'c', 'd', 'e'], columns = ['col1', 'col2']))
# 代码 3-26
df = pd.DataFrame({'col1': [0, 1, 2, 3, 4], 'col2': [5, 6, 7, 8, 9]},
index = ['a', 'b', 'c', 'd', 'e'])
print(df)
print('DataFrame的Index为:', df.index)
print('DataFrame的列标签为:', df.columns)
print('DataFrame的轴标签为:', df.axes)
print('DataFrame的维度为:', df.ndim)
print('DataFrame的形状为:', df.shape)
# 代码 3-28
# 更新列
df['col1'] = [10, 11, 12, 13, 14]
print('更新列后的DataFrame为:
', df)
# 插入列
df['col3'] = [15, 16, 17, 18, 19]
print('插入列后的DataFrame为:
', df)
# 代码 3-28
# 删除列
df.drop(['col3'], axis = 1, inplace = True)
print('删除col3列后的DataFrame为:
', df)
# 删除行
df.drop('a', axis = 0, inplace = True)
print('删除a行后的DataFrame为:
', df)
# 代码 3-29
df = pd.DataFrame({'col1': [0, 1, 2, 3, 4], 'col2': [5, 6, 7, 8, 9]}, index = ['a', 'b', 'c', 'd', 'e'])
print('创建的DataFrame为:
', df)
# 访问单列数据
print('DataFrame中col1列数据为:
', df['col1'])
# 以属性的方式访问单列数据
print('DataFrame中col1列数据为:
', df.col1)
# 代码3-30
# 访问单列多行数据
print('DataFrame中col1列前3行数据为:
', df['col1'][0: 3])
# 访问多列多行数据
print('DataFrame中col1列、col2列前3行数据为:
', df[['col1', 'col2']][0: 3])
# 访问多行数据
print('DataFrame的前3行为:
', df[: ][0: 3])
# 代码 3-31
# 访问单列数据
print('DataFrame中col1列数据为:
', df.loc[: , 'col1'])
# 访问多列数据
print('DataFrame中col1列、col2数据为:
', df.loc[: , ['col1', 'col2']])
# 访问单行数据
print('DataFrame中a行对应数据为:
', df.loc['a', :])
# 访问多行数据
print('DataFrame中a行、b行对应数据为:
', df.loc[['a', 'b'], :])
# 行列结合访问数据
print('DataFrame中a行、b行,col1列、col2列对应的数据为:
',
df.loc[['a', 'b'], ['col1', 'col2']])
# 接收bool数据
print('DataFrame中col1列大于0的数据为:
', df.loc[df['col1'] > 0, :])
# 接收函数
print('DataFrame中col1列大于0的数据为:
', df.loc[lambda df: df['col1'] > 0, :])
# 代码 3-32
# 访问单列数据
print('DataFrame中col1列数据为:
', df.iloc[: , 0])
# 访问多列数据
print('DataFrame中col1列、col2列数据为:
', df.iloc[: , [0, 1]])
# 访问单行数据
print('DataFrame中a行数据为:
', df.iloc[0, :])
# 访问多行数据
print('DataFrame中a行、b行数据为:
', df.iloc[[0, 1], :])
# 行列结合访问数据
print('DataFrame中a行、b行,col1列、col2列数据为:
', df.iloc[[0, 1], [0, 1]])
# 代码 3-33
multiindex = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]
df1 = pd.DataFrame(np.arange(16).reshape(8, 2),
index=multiindex, columns=['column1', 'column2'])
print('创建的DataFrame为:
', df1)
print('DataFrame的层次化索引为:
', df1.index)
# 代码 3-34
print('访问DataFrame第1索引层bar,第2索引层two结果为:
',
df1.loc[('bar', 'two'), :])
print('访问DataFrame第1索引层bar、baz、foo,第2索引层one、two结果为:
',
df1.loc[(['bar', 'baz', 'foo'], ['one', 'two']), :])
print('访问DataFrame第1索引层bar、baz、foo,第2索引层one、two结果为:
',
df1.loc[(slice('bar', 'foo'), slice(None)), :])
# 代码 3-35
# 接收单个标签
idx = pd.IndexSlice
print('访问DataFrame第1索引层bar,第2索引层two结果为:
', df1.loc[idx['bar', 'two'], :])
# 接收标签list
print('访问DataFrame第1索引层bar、foo,第2索引层two结果为:
',
df1.loc[idx[['bar', 'foo'], 'two'], :])
# 接收标签切片
print('访问DataFrame第1索引层bar到foo,第2索引层two结果为:
',
df1.loc[idx['bar': 'foo', 'one'], :])
# 接收bool数组
con = df1['column1']>0
print('访问DataFrame第1索引层bar到foo,第二索引层对应的'
'column1列大于0结果为:
',df1.loc[idx['bar': 'foo', con], :])
# 代码 3-36
# 按行索引排序
print('按行索引排序后的DataFrame为:
', df.sort_index(axis = 0))
# 按列索引降序排列
print('按列索引降序排列后的DataFrame为:
', df.sort_index(axis = 1, ascending = False))
# 按列排序
print('按col2列排序后的DataFrame为:
', df.sort_values('col2'))
# 按行降序排列
print('按列降序排列后的DataFrame为:
', df.sort_values('a', axis = 1, ascending = False))
print('按col2列排序,返回前2个最小值:
', df.nsmallest(2, 'col2'))
print('按col2列排序,返回前2个最大值:
', df.nlargest(2, 'col2'))
# 代码 3-37
df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3', 'K4', 'K5'],
'A': ['A0', 'A1', 'A2', 'A3', 'A4', 'A5']})
df3 = pd.DataFrame({'key': ['K0', 'K1', 'K2'], 'B': ['B0', 'B1', 'B2']})
# 横向堆叠df2、df3
print('横向堆叠df2、df3后的DataFrame为:
', pd.concat([df2, df3], axis = 1))
# 横向堆叠(内连)df2、df3
print('横向堆叠(内连)df2、df3后的DataFrame为:
',
pd.concat([df2, df3], axis = 1, join = 'inner'))
# 代码 3-38
print('横向堆叠df2、df3后的DataFrame为:
', df2.join(df3, rsuffix = '_2'))
# 纵向堆叠df2、df3
print('纵向堆叠df2、df3后的DataFrame为:
', pd.concat([df2, df3], axis = 0))
# 纵向堆叠(内连)df2、df3
print('纵向堆叠(内连)df2、df3后的DataFrame为:
',
pd.concat([df2, df3], axis = 0, join = 'inner'))
print('纵向堆叠df2、df3后的DataFrame为:
', df2.append(df3))
# 代码 3-39
print('以列key为键,内连df2、df3后的DataFrame为:
',
pd.merge(df2, df3, on = 'key', how = 'inner'))
# # 代码 3-40
# df = pd.read_csv('../data/meal_order_info.csv', encoding = 'gbk')
# print('读取的CSV文件前5行数据为:
', df.head())
# # 代码 3-42
# df = pd.read_excel('../data/users_info.xlsx', encoding = 'gbk')
# print('读取的Excel文件前5行数据为:
', df.head())
# 代码 3-43
import matplotlib.pyplot as plt
X=np.random.randn(100)
Y=np.random.randn(100)
plt.scatter(X,Y)
#代码3-44
years=[1950,1960,1970,1980,1990,2000,2010]
gdp=[300.2,543.3,1075.9,2862.5,5979.6,10289.7,14958.3]
plt.plot(years,gdp,color='r')
#代码3-45
data=np.random.randint(1,10,10)
data
plt.pie(data)
#代码3-46
x=np.random.normal(size=100)
plt.hist(x,bins=30)
#代码3-47
data=[23,85,72,43,52]
plt.bar([1,2,3,4,5],data)
#代码3-48
list10=np.random.randint(1,100,10)
plt.boxplot(list10)
# 代码 3-42
import matplotlib.pyplot as plt
import numpy as np
fig = plt.figure(figsize = (6, 6), dpi = 80) # 创建画布。大小为6×6,像素为80
x = np.linspace(0, 1, 1000)
fig.add_subplot(2, 1, 1) # 分为2×1图形阵,选择第1张图片绘图
plt.title('y=x^2 & y=x') # 添加标题
plt.xlabel('x') # 添加x轴名称‘x’
plt.ylabel('y') # 添加y轴名称‘y’
plt.xlim((0, 1)) # 指定x轴范围(0,1)
plt.ylim((0, 1)) # 指定y轴范围(0,1)
plt.xticks([0, 0.3, 0.6, 1]) # 设置x轴刻度
plt.yticks([0, 0.5, 1]) # 设置y轴刻度
plt.plot(x, x ** 2)
plt.plot(x, x)
plt.legend(['y=x^2', 'y=x']) # 添加图例
#代码3-49
fig=plt.figure(figsize=(10,6))
ax1=fig.add_subplot(2,2,1)
ax2=fig.add_subplot(2,2,2)
ax3=fig.add_subplot(2,2,3)
ax4=fig.add_subplot(2,2,4)
ax1.scatter(years,gdp)
ax2.plot(years,gdp)
ax3.bar(years,gdp)
ax4.hist(years,gdp)
# 三维曲面
import matplotlib.pyplot as plt
import numpy as np
x,y=np.mgrid[-2:2:20j,-2:2:20j]
z=50*np.sin(x+y*2)
ax=plt.subplot(111,projection='3d')
ax.plot_surface(x,y,z,rstride=3,cstride=2,cmap=plt.cm.coolwarm)
ax.set_xlabel('X')
ax.set_ylabel('Y')
ax.set_zlabel('Z')
# 三维柱状图
x=np.random.randint(0,40,10)
y=np.random.randint(0,40,10)
z=80*abs(np.sin(x+y))
ax=plt.subplot(projection='3d')
ax.bar3d(x,y,np.zeros_like(z),dx=1,dy=1,dz=z,color='red')
ax.set_xlabel('X')
ax.set_ylabel('Y')
ax.set_zlabel('Z')
# 三维散点图
x=np.random.randint(0,40,30)
y=np.random.randint(0,40,30)
z=np.random.randint(0,40,30)
ax=plt.subplot(projection='3d')
for xx,yy,zz in zip(x,y,z):
color='r'
if 10<zz<20:
color='b'
elif zz>=20:
color='g'
ax.scatter(xx,yy,zz,c=color,marker='*',s=160,linewidth=1,edgecolor='b')
ax.set_xlabel('X')
ax.set_ylabel('Y')
ax.set_zlabel('Z')
#代码4-1
import pandas as pd
df = pd.read_html('http://worldcup.2014.163.com/schedule/')
# #代码4-2
# import requests
# from bs4 import BeautifulSoup
# data = []
# wb_data = requests.get('http://www.kugou.com/yy/rank/home/1-8888.html')
# soup = BeautifulSoup(wb_data.text,'lxml')
# ranks = soup.select('span.pc_temp_num')
# titles = soup.select('div.pc_temp_songlist > ul > li > a')
# times = soup.select('span.pc_temp_tips_r > span')
# for rank,title,time in zip(ranks,titles,times):
# a = {
# 'rank':rank.get_text().strip(),
# 'singer':title.get_text().split('-')[0],
# 'song':title.get_text().split('-')[1],
# 'time':time.get_text().strip()
# }
# data.append(a)
# #代码4-3
# import json
# f = open('D:/data/eueo2012.json')
# obj = f.read()
# result = json.loads(obj)
# result
# 代码4-5
import numpy as np
df1=pd.DataFrame([[3,5,3],[1,6,np.nan],['lili',np.nan,'pop'],[np.nan,'a','b']])
print(df1.isnull().sum())
df1.isnull().sum().sum()
#代码4-7
data={'name':['张飒','李苏','张飒','万明'], 'sex':['female','male','female','male'],
'year':[2001,2002,2001,2002],
'city':['北京','上海','北京','北京']}
df3=pd.DataFrame(data)
df3.duplicated()
df3.drop_duplicates()
df3.drop_duplicates(keep='last')
#代码4-8
data1={'name':['张飒','李苏','张飒','万明'],
'sex':['female','male','','male'],
'year':[2001,2002,2001,2002],
'city':['北京','上海','','北京']}
df4=pd.DataFrame(data1)
df4.replace('','不详')
df4.replace(['',2001],['不详',2002])
df4.replace({'':'不详',2001:2002})
#代码4-9
data2={'name':['张三','李四','王五','小明'],
'math':[79,52,63,92]}
df5=pd.DataFrame(data2)
def f(x):
if x>=90:
return '优秀'
elif x>=70:
return '良好'
elif x>=60:
return '合格'
else:
return '不合格'
df5['class']=df5['math'].map(f)
#代码4-10
df6=pd.DataFrame(np.arange(10),columns=['X'])
df6['Y']=2*df6['X']+0.5
df6.iloc[9,1]=185
df6.plot(kind='scatter',x='X',y='Y')
#代码4-11
df7=pd.DataFrame({'朝向':['东','南','东','西','北'],
'价格':[1200,2100,2300,2900,1400]})
pd.get_dummies(df7['朝向'])
#代码4-12
from pandas import Series
df8=pd.DataFrame({'朝向':['东/北','西/南','东','西/北','北'],
'价格':[1200,2100,2300,2900,1400]})
dummy=df8['朝向'].apply(lambda x:Series(x.split('/')).value_counts())
#代码4-13
price=pd.DataFrame({'fruit':['apple','banana','orange'],
'price':[23,32,45]})
amount=pd.DataFrame({'fruit':['apple','banana','apple','apple','banana','pear'],
'amount':[5,3,6,3,5,7]})
pd.merge(amount,price)
pd.merge(amount,price,how='left')
pd.merge(amount,price,how='right')
pd.merge(amount,price,how='outer')
#代码4-14
s1=Series([0,1],index=['a','b'])
s2=Series([2,3],index=['c','d'])
s3=Series([4,5],index=['e','f'])
pd.concat([s1,s2,s3])
pd.concat([s1,s2,s3],axis=1)
#代码4-15
import pandas as pd
import numpy as np
df10=pd.DataFrame({'a':[3.0,np.nan,6.0,np.nan],'b':[np.nan,4.0,6.0,np.nan]})
df11=pd.DataFrame({'a':[0,1,2,3,4],'b':[0,1,2,3,4]})
df10.combine_first(df11)
df10=pd.DataFrame({'a':[3.0,np.nan,6.0,np.nan],'b':[np.nan,4.0,6.0,np.nan]})
df11=pd.DataFrame({'a':[0,1,2,3,4],'b':[0,1,2,3,4]})
df10.combine_first(df11)
#代码4-16
from pandas import Series,DataFrame
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns #导入seaborn绘图库
iris_data = pd.read_csv(open(r'E:资料数据集seaborn-data-masteriris.csv'))
iris_data.head()
iris_data.shape
iris_data.describe()
# iris_data['class'].unique()
# iris_data.ix[iris_data['class'] == 'versicolor', 'class'] = 'Iris-versicolor'
# iris_data.ix[iris_data['class'] == 'Iris-setossa', 'class'] = 'Iris-setosa'
# iris_data['class'].unique()
# sns.pairplot(iris_data, hue='class')
# iris_data.ix[iris_data['class'] == 'Iris-setosa', 'sepal_width_cm'].hist()
# iris_data = iris_data.loc[(iris_data['class'] != 'Iris-setosa') | (iris_data['sepal_width_cm'] >= 2.5)]
# iris_data.loc[iris_data['class'] == 'Iris-setosa', 'sepal_width_cm'].hist()
# iris_data.loc[(iris_data['class'] == 'Iris-versicolor') &
# (iris_data['sepal_length_cm'] < 1.0)]
# iris_data.loc[(iris_data['class'] == 'Iris-versicolor') &
# (iris_data['sepal_length_cm'] < 1.0),
# 'sepal_length_cm'] *= 100.0
# iris_data.isnull().sum()
# iris_data[iris_data['petal_width_cm'].isnull()]
# iris_data.dropna(inplace=True)
# iris_data.to_csv('H:python数据分析数据iris-clean-data.csv', index=False)
# iris_data = pd.read_csv(open('H:python数据分析数据iris-clean-data.csv'))
# iris_data.head()
# iris_data.shape
# sns.pairplot(iris_data, hue='class')
# iris_data.boxplot(column='petal_length_cm', by='class',grid=False,figsize=(6,6))
# # 代码 4-17
# import pandas as pd
# import numpy as np
# df = pd.read_csv('D:/data/Concrete.csv', encoding = 'gbk')
# print('数据框df每列对应的最大值为:
', np.max(df), '
', '数据框df每列对应的最小值为:
', np.min(df))
# print('数据框df每列对应的均值为:
', np.mean(df))
# print('数据框df对应的中位数为:', np.median(df))
# print('数据框df每列对应的标准差为:
', np.std(df))
# print('数据框df每列对应的方差为:
', np.var(df))
# # 代码 4-18
# print('数据框df每列对应的最大值为:
', df.max(), '
','数据框df每列对应的最小值为:
', df.min())
# print('数据框df每列对应的均值为:
', df.mean())
# print('数据框df每列对应的中位数为:
', df.median())
# print('数据框df每列对应的标准差为:
', df.std())
# print('数据框df每列对应的方差为:
', df.var())
# print('使用describe方法的描述性统计结果为:
', df.describe())
# # 代码 4-19
# df1 = pd.DataFrame({'col1': list('abca'), 'col2': list('bccd')}, dtype = 'category')
# print('使用describe方法的描述性统计结果为:
', df1.describe())
# print('DataFrame的info信息为:
')
# df.info()
# # 代码 4-20
# station = pd.read_csv('D:/data/Station.csv', encoding = 'gbk')
# group = station.groupby('station')
# print('以station为分组键,创建的GroupBy对象为:
', group)
# print('分组数据的均值前5行结果为:
', group.mean().head())
# print('分组数据的和前5行结果为:
',group.sum().head())
# print('分组数据的最大值前5行结果为:
',group.max().head())
# # 代码 4-21
# print('分组的均值前5行结果为:
', group.agg(np.mean).head())
# def f(x):
# return x.max() - x.min()
# group1 = group.agg(f)
# print('分组的极差前5行结果为:
', group1.head())
# group2 = group.agg([np.mean, np.sum])
# print('分组的均值和总和前5行结果为:
', group2.head())
# group3 = group.agg({'on_man': np.mean, 'off_man': np.sum})
# print('列on_man应用均值函数,列off_man应用汇总函数前5行结果为:
', group3.head())
# # 代码 4-22
# print('分组的均值前5行结果为:
', group.apply(np.mean).head())
# def f(x):
# result = x[0: 2]
# return result
# print('分组的前两个数据前5行结果为:
', group.apply(f).head())
# # 代码 4-23
# print('对分组应用均值函数,返回的DataFrame前5行数据为:
',
# group.transform(np.mean).head())
# def f(x):
# result = x*2
# return result
# print('对分组的每个元组乘以2,返回的DataFrame前5行数据为:
', group.transform(f).head())
# 代码 4-24
dit = {'one': ['a', 'b', 'b', 'b', 'a'], 'two': [0, 1, 2, 3, 4],
'three': [5, 6, 7, 8, 9], 'four': ['x', 'x', 'y', 'y', 'y']}
df = pd.DataFrame(dit)
tdf = pd.pivot_table(df, index=['four'], columns=['one'])
print('创建的透视表为:
', tdf)
tdf = pd.pivot_table(df, index=['four'], columns=['one'], aggfunc = np.sum)
print('分组和的透视表为:
', tdf)
# 代码 4-25
cdf = pd.crosstab(index = df['four'], columns = df['one'])
print('创建的交叉表为:
', cdf)
cdf = pd.pivot_table(df, values = 'two', index = ['four'], columns = ['one'],
aggfunc = (lambda x: len(x)))
print('使用pivot_table函数创建的交叉表为:
', cdf)
导包
import numpy as np
创建二维数组
x = np.matrix([[1,2,3],[4,5,6]])
创建一维数组
y = np.matrix([1,2,3,4,5,6])
x 的第二行第二列元素
x[1,1]
矩阵的乘法
x*y
复制代码
# 相关系数矩阵,可使用在列表元素数组矩阵
# 负相关
np.corrcoef([1,2,3],[8,5,4])
'''
array([[ 1. , -0.96076892],
[-0.96076892, 1. ]])
'''
# 正相关
np.corrcoef([1,2,3],[4,5,7])
'''
array([[1. , 0.98198051],
[0.98198051, 1. ]])
'''
复制代码
矩阵的方差
np.cov([1,1,1,1,1])
矩阵的标准差
np.std([1,1,1,1,1])
垂直堆叠矩阵
z = np.vstack((x,y))
矩阵的协方差
np.cov(z)
np.cov(x,y)
标准差
np.std(z)
列向标准差
np.std(z,axis = 1)
方差
np.cov(x)
特征值和特征向量
A = np.array([[1,-3,3],[3,-5,3],[6,-6,4]])
e,v = np.linalg.eig(A)
e 为特征值, v 为特征向量
矩阵与特征向量的乘积
np.dot(A,v)
特征值与特征向量的乘积
e * v
验证两个乘积是否相等
np.isclose(np.dot(A,v),(e * v))
行列式 |A - λE| 的值应为 0
np.linalg.det(A-np.eye(3,3)*e)
逆矩阵
y = np.linalg.inv(x)
复制代码
矩阵的乘法(注意先后顺序)
x * y
'''
matrix([[ 1.00000000e+00, 5.55111512e-17, 1.38777878e-17],
[ 5.55111512e-17, 1.00000000e+00, 2.77555756e-17],
[ 1.77635684e-15, -8.88178420e-16, 1.00000000e+00]])
'''
y * x
'''
matrix([[ 1.00000000e+00, -1.11022302e-16, 0.00000000e+00],
[ 8.32667268e-17, 1.00000000e+00, 2.22044605e-16],
[ 6.93889390e-17, 0.00000000e+00, 1.00000000e+00]])
'''
复制代码
求解线性方程组
a = np.array([[3,1],[1,2]])
b = np.array([9,8])
x = np.linalg.solve(a,b)
最小二乘解:返回解,余项,a 的秩,a 的奇异值
np.linalg.lstsq(a,b)
# (array([2., 3.]), array([], dtype=float64), 2, array([3.61803399, 1.38196601]))
复制代码
计算向量和矩阵的范数
x = np.matrix([[1,2],[3,-4]])
np.linalg.norm(x)
# 5.477225575051661
np.linalg.norm(x,-2)
# 1.9543950758485487
np.linalg.norm(x,-1)
# 4.0
np.linalg.norm(x,1)
# 6.0
np.linalg.norm([1,2,0,3,4,0],0)
# 4.0
np.linalg.norm([1,2,0,3,4,0],2)
# 5.477225575051661
复制代码
复制代码
奇异值分解
a = np.matrix([[1,2,3],[4,5,6],[7,8,9]])
u,s,v = np.linalg.svd(a)
u
'''
matrix([[-0.21483724, 0.88723069, 0.40824829],
[-0.52058739, 0.24964395, -0.81649658],
[-0.82633754, -0.38794278, 0.40824829]])
'''
s
'''
array([1.68481034e+01, 1.06836951e+00, 4.41842475e-16])
'''
v
'''
matrix([[-0.47967118, -0.57236779, -0.66506441],
[-0.77669099, -0.07568647, 0.62531805],
[-0.40824829, 0.81649658, -0.40824829]])
'''
# 验证
u * np.diag(s) * v
'''
matrix([[1., 2., 3.],
[4., 5., 6.],
[7., 8., 9.]])
'''
复制代码
实现矩阵的转置
x.T
元素平均值
x.mean()
纵向平均值
x.mean(axis = 0)
横向平均值
x.mean(axis = 1)
所有元素之和
x.sum()
横向最大值
x.max(axis = 1)
横向最大值的索引下标
x.argmax(axis = 1)
对角线元素
x.diagonal()
非零元素下标
x.nonzero()
创建数组
np.array([1,2,3,4])
np.array((1,2,3,4))
np.array(range(4)) # 不包含终止数字
# array([0, 1, 2, 3])
# 使用 arange(初始位置=0,末尾,步长=1)
np.arange(1,8,2)
# array([1, 3, 5, 7])
生成等差数组,endpoint 为 True 则包含末尾数字
np.linspace(1,3,4,endpoint=False)
# array([1. , 1.5, 2. , 2.5])
np.linspace(1,3,4,endpoint=True)
# array([1. , 1.66666667, 2.33333333, 3. ])
创建全为零的一维数组
np.zeros(3)
创建全为一的一维数组
np.ones(4)
np.linspace(1,3,4)
# array([1. , 1.66666667, 2.33333333, 3. ])
复制代码
np.logspace(起始数字,终止数字,数字个数,base = 10) 对数数组
np.logspace(1,3,4)
# 相当于 10 的 linspace(1,3,4) 次方
# array([ 10. , 46.41588834, 215.443469 , 1000. ])
np.logspace(1,3,4,base = 2)
# 2 的 linspace(1,3,4) 次方
# array([2. , 3.1748021, 5.0396842, 8. ])
复制代码
创建二维数组(列表嵌套列表)
np.array([[1,2,3],[4,5,6]])
# 创建全为零的二维数组
# 两行两列
np.zeros((2,2))
三行两列
np.zeros((3,2))
复制代码
# 创建一个单位数组
np.identity(3)
'''
array([[1., 0., 0.],
[0., 1., 0.],
[0., 0., 1.]])
'''
复制代码
复制代码
创建一个对角矩阵,(参数为对角线上的数字)
np.diag((1,2,3))
'''
array([[1, 0, 0],
[0, 2, 0],
[0, 0, 3]])
'''
复制代码
第一行元素
n[0]
第一行第三列元素
n[0,2]
第一行和第二行的元素
n[[0,1]]
第一行第三列,第三行第二列,第二行第一列
n[[0,2,1],[2,1,0]]
将数组倒序
a[::-1]
步长为 2
a[::2]
从 0 到 4 的元素
a[:5]
复制代码
变换 c 的矩阵行和列
c = np.arange(16)
# array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15])
c.shape = 4,4
'''
array([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11],
[12, 13, 14, 15]])
'''
复制代码
第一行,第三个元素到第五个元素(如果没有则输出到末尾截止)
c[0,2:5]
第二行元素
c[1]
第三行到第六行,第三列到第六列
c[2:5,2:5]
第二行第三列元素和第三行第四列元素
c[[1,2],[2,3]]
第一行和第三行的第二列到第三列的元素
c[[0,2],1:3]
第一列和第三列的所有横行元素
c[:,[0,2]]
第三列所有元素
c[:,2]
第二行和第四行的所有元素
c[[1,3]]
第一行的第二列,第四列元素,第四行的第二列,第四列元素
c[[0,3]][:,[1,3]]
使用 * 进行相乘
x*2
使用 / 进行相除
x / 2
2 / x
使用 // 进行整除
x//2
10//x
使用 ** 进行幂运算
x**3
2 ** x
使用 + 进行相加
x + 2
使用 % 进行取模
x % 3
使用 + 进行相加
np.array([1,2,3,4]) + np.array([11,22,33,44])
np.array([1,2,3,4]) + np.array([3])
# array([4, 5, 6, 7])
数组的内积运算(对应位置上元素相乘)
np.dot(x,y)
sum(x*y)
将数组中大于 0.5 的元素显示
n[n>0.5]
找到数组中 0.05 ~ 0.4 的元素总数
sum((n > 0.05)&(n < 0.4))
是否都大于 0.2
np.all(n > 0.2)
是否有元素小于 0.1
np.any(n < 0.1)
复制代码
在 a 中是否有大于 b 的元素
a > b
# array([False, True, False])
# 在 a 中是否有等于 b 的元素
a == b
# array([False, False, True])
# 显示 a 中 a 的元素等于 b 的元素
a[a == b]
# array([7])
复制代码
显示 a 中的偶数且小于 5 的元素
a[(a%2 == 0) & (a < 5)]
生成一个随机数组
np.random.randint(0,6,3)
生成一个随机数组(二维数组)
np.random.randint(0,6,(3,3))
生成十个随机数在[0,1)之间
np.random.rand(10)
'''
array([0.9283789 , 0.43515554, 0.27117021, 0.94829333, 0.31733981,
0.42314939, 0.81838647, 0.39091899, 0.33571004, 0.90240897])
'''
从标准正态分布中随机抽选出3个数
np.random.standard_normal(3)
返回三页四行两列的标准正态分布数
np.random.standard_normal((3,4,2))
x = np.arange(8)
在数组尾部追加一个元素
np.append(x,10)
在数组尾部追加多个元素
np.append(x,[15,16,17])
使用 数组下标修改元素的值
x[0] = 99
在指定位置插入数据
np.insert(x,0,54)
创建一个多维数组
x = np.array([[1,2,3],[11,22,33],[111,222,333]])
修改第 0 行第 2 列的元素值
x[0,2] = 9
行数大于等于 1 的,列数大于等于 1 的置为 1
x[1:,1:] = 1
复制代码
# 同时修改多个元素值
x[1:,1:] = [7,8]
'''
array([[ 1, 2, 9],
[ 11, 7, 8],
[111, 7, 8]])
'''
x[1:,1:] = [[7,8],[9,10]]
'''
array([[ 1, 2, 9],
[ 11, 7, 8],
[111, 9, 10]])
'''
复制代码
查看数组的大小
n.size
将数组分为两行五列
n.shape = 2,5
显示数组的维度
n.shape
设置数组的维度,-1 表示自动计算
n.shape = 5,-1
将新数组设置为调用数组的两行五列并返回
x = n.reshape(2,5)
复制代码
x = np.arange(5)
# 将数组设置为两行,没有数的设置为 0
x.resize((2,10))
'''
array([[0, 1, 2, 3, 4, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])
'''
# 将 x 数组的两行五列形式显示,不改变 x 的值
np.resize(x,(2,5))
'''
array([[0, 1, 2, 3, 4],
[0, 0, 0, 0, 0]])
'''
复制代码
x = np.array([1,4,5,2])
# array([1, 4, 5, 2])
# 返回排序后元素的原下标
np.argsort(x)
# array([0, 3, 1, 2], dtype=int64)
输出最大值的下标
x.argmax( )
输出最小值的下标
x.argmin( )
对数组进行排序
x.sort( )
每个数组元素对应的正弦值
np.sin(x)
每个数组元素对应的余弦值
np.cos(x)
对参数进行四舍五入
np.round(np.cos(x))
对参数进行上入整数 3.3->4
np.ceil(x/3)
复制代码
# 分段函数
x = np.random.randint(0,10,size=(1,10))
# array([[0, 3, 6, 7, 9, 4, 9, 8, 1, 8]])
# 大于 4 的置为 0
np.where(x > 4,0,1)
# array([[1, 1, 0, 0, 0, 1, 0, 0, 1, 0]])
# 小于 4 的乘 2 ,大于 7 的乘3
np.piecewise(x,[x<4,x>7],[lambda x:x*2,lambda x:x*3])
# array([[ 0, 6, 0, 0, 27, 0, 27, 24, 2, 24]])
导包
import pandas as pd
设置输出结果列对齐
pd.set_option('display.unicode.ambiguous_as_wide',True)
pd.set_option('display.unicode.east_asian_width',True)
创建 从 0 开始的非负整数索引
s1 = pd.Series(range(1,20,5))
使用字典创建 Series 字典的键作为索引
s2 = pd.Series({'语文':95,'数学':98,'Python':100,'物理':97,'化学':99})
修改 Series 对象的值
s1[3] = -17
查看 s1 的绝对值
abs(s1)
将 s1 所有的值都加 5、使用加法时,对所有元素都进行
s1 + 5
在 s1 的索引下标前加入参数值
s1.add_prefix(2)
s2 数据的直方图
s2.hist()
每行索引后面加上 hany
s2.add_suffix('hany')
查看 s2 中最大值的索引
s2.argmax()
查看 s2 的值是否在指定区间内
s2.between(90,100,inclusive = True)
查看 s2 中 97 分以上的数据
s2[s2 > 97]
查看 s2 中大于中值的数据
s2[s2 > s2.median()]
s2 与数字之间的运算,开平方根 * 10 保留一位小数
round((s2**0.5)*10,1)
s2 的中值
s2.median()
s2 中最小的两个数
s2.nsmallest(2)
s2 中最大的两个数
s2.nlargest(2)
Series 对象之间的运算,对相同索引进行计算,不是相同索引的使用 NaN
pd.Series(range(5)) + pd.Series(range(5,10))
对 Series 对象使用匿名函数
pd.Series(range(5)).pipe(lambda x,y,z :(x**y)%z,2,5)
pd.Series(range(5)).pipe(lambda x:x+3)
pd.Series(range(5)).pipe(lambda x:x+3).pipe(lambda x:x*3)
对 Series 对象使用匿名函数
pd.Series(range(5)).apply(lambda x:x+3)
查看标准差
pd.Series(range(0,5)).std()
查看无偏方差
pd.Series(range(0,5)).var()
查看无偏标准差
pd.Series(range(0,5)).sem()
查看是否存在等价于 True 的值
any(pd.Series([3,0,True]))
查看是否所有的值都等价于 True
all(pd.Series([3,0,True]))
创建一个 DataFrame 对象
dataframe = pd.DataFrame(np.random.randint(1,20,(5,3)),
index = range(5),
columns = ['A','B','C'])
索引为时间序列
dataframe2 = pd.DataFrame(np.random.randint(5,15,(9,3)),
index = pd.date_range(start = '202003211126',
end = '202003212000',
freq = 'H'),
columns = ['Pandas','爬虫','比赛'])
使用字典进行创建
dataframe3 = pd.DataFrame({'语文':[87,79,67,92],
'数学':[93,89,80,77],
'英语':[88,95,76,77]},
index = ['张三','李四','王五','赵六'])
创建时自动扩充
dataframe4 = pd.DataFrame({'A':range(5,10),'B':3})
查看周几
dff['日期'] = pd.to_datetime(data['日期']).dt.weekday_name
按照周几进行分组,查看交易的平均值
dff = dff.groupby('日期').mean().apply(round)
dff.index.name = '周几'
对姓名和日期进行分组,并进行求和
dff = dataframe.groupby(by = ['姓名','日期'],as_index = False).sum()
将 dff 的索引,列 设置成透视表形式
dff = dff.pivot(index = '姓名',columns = '日期',values = '交易额')
查看前一天的数据
dff.iloc[:,:1]
交易总额小于 4000 的人的前三天业绩
dff[dff.sum(axis = 1) < 4000].iloc[:,:3]
工资总额大于 2900 元的员工的姓名
dff[dff.sum(axis = 1) > 2900].index.values
显示前两天每一天的交易总额以及每个人的交易金额
dataframe.pivot_table(values = '交易额',index = '姓名',
columns = '日期',aggfunc = 'sum',margins = True).iloc[:,:2]
显示每个人在每个柜台的交易总额
dff = dataframe.groupby(by = ['姓名','柜台'],as_index = False).sum()
dff.pivot(index = '姓名',columns = '柜台',values = '交易额')
查看每人每天的上班次数
dataframe.pivot_table(values = '交易额',index = '姓名',columns = '日期',aggfunc = 'count',margins = True).iloc[:,:1]
查看每个人每天购买的次数
dataframe.pivot_table(values = '交易额',index = '姓名',columns = '日期',aggfunc = 'count',margins = True)
每个人每天上过几次班
pd.crosstab(dataframe.姓名,dataframe.日期,margins = True).iloc[:,:2]
每个人每天去过几次柜台
pd.crosstab(dataframe.姓名,dataframe.柜台)
将每一个人在每一个柜台的交易总额显示出来
pd.crosstab(dataframe.姓名,dataframe.柜台,dataframe.交易额,aggfunc='sum')
每个人在每个柜台交易额的平均值,金额/天数
pd.crosstab(dataframe.姓名,dataframe.柜台,dataframe.交易额,aggfunc = 'mean').apply(lambda num:round(num,2) )
对 5 的余数进行分组
dataframe.groupby(by = lambda num:num % 5)['交易额'].sum()
查看索引为 7 15 的交易额
dataframe.groupby(by = {7:'索引为7的行',15:'索引为15的行'})['交易额'].sum()
查看不同时段的交易总额
dataframe.groupby(by = '时段')['交易额'].sum()
各柜台的销售总额
dataframe.groupby(by = '柜台')['交易额'].sum()
查看每个人在每个时段购买的次数
count = dataframe.groupby(by = '姓名')['时段'].count()
每个人的交易额平均值并排序
dataframe.groupby(by = '姓名')['交易额'].mean().round(2).sort_values()
每个人的交易额,apply(int) 转换为整数
dataframe.groupby(by = '姓名').sum()['交易额'].apply(int)
每一个员工交易额的中值
data = dataframe.groupby(by = '姓名').median()
查看交易额对应的排名
data['排名'] = data['交易额'].rank(ascending = False)
data[['交易额','排名']]
每个人不同时段的交易额
dataframe.groupby(by = ['姓名','时段'])['交易额'].sum()
设置各时段累计
dataframe.groupby(by = ['姓名'])['时段','交易额'].aggregate({'交易额':np.sum,'时段':lambda x:'各时段累计'})
对指定列进行聚合,查看最大,最小,和,平均值,中值
dataframe.groupby(by = '姓名').agg(['max','min','sum','mean','median'])
查看部分聚合后的结果
dataframe.groupby(by = '姓名').agg(['max','min','sum','mean','median'])['交易额']
查看交易额低于 2000 的三条数据
dataframe[dataframe.交易额 < 2000][:3]
查看上浮了 50% 之后依旧低于 1500 的交易额,查看 4 条数据
dataframe.loc[dataframe.交易额 < 1500,'交易额'] = dataframe[dataframe.交易额 < 1500]['交易额'].map(lambda num:num*1.5)
查看交易额大于 2500 的数据
dataframe[dataframe.交易额 > 2500]
查看交易额低于 900 或 高于 1800 的数据
dataframe[(dataframe.交易额 < 900)|(dataframe.交易额 > 1800)]
将所有低于 200 的交易额都替换成 200
dataframe.loc[dataframe.交易额 < 200,'交易额'] = 200
查看低于 1500 的交易额个数
dataframe.loc[dataframe.交易额 < 1500,'交易额'].count()
将大于 3000 元的都替换为 3000 元
dataframe.loc[dataframe.交易额 > 3000,'交易额'] = 3000
查看有多少行数据
len(dataframe)
丢弃缺失值之后的行数
len(dataframe.dropna())
包含缺失值的行
dataframe[dataframe['交易额'].isnull()]
使用固定值替换缺失值
dff = copy.deepcopy(dataframe)
dff.loc[dff.交易额.isnull(),'交易额'] = 999
使用交易额的均值替换缺失值
dff = copy.deepcopy(dataframe)
for i in dff[dff.交易额.isnull()].index:
dff.loc[i,'交易额'] = round(dff.loc[dff.姓名 == dff.loc[i,'姓名'],'交易额'].mean())
使用整体均值的 80% 填充缺失值
dataframe.fillna({'交易额':round(dataframe['交易额'].mean() * 0.8)},inplace = True)
查看重复值
dataframe[dataframe.duplicated()]
丢弃重复行
dataframe = dataframe.drop_duplicates()
查看员工业绩波动情况(每一天和昨天的数据作比较)
dff = dataframe.groupby(by = '日期').sum()['交易额'].diff()
对数据使用 map 函数
dff.map(lambda num:'%.2f'%(num))[:5]
查看张三的波动情况
dataframe[dataframe.姓名 == '张三'].groupby(by = '日期').sum()['交易额'].diff()
修改异常值
data.loc[data.交易额 > 3000,'交易额'] = 3000
data.loc[data.交易额 < 200,'交易额'] = 200
删除重复值
data.drop_duplicates(inplace = True)
填充缺失值
data['交易额'].fillna(data['交易额'].mean(),inplace = True)
使用交叉表得到每人在各柜台交易额的平均值
data_group = pd.crosstab(data.姓名,data.柜台,data.交易额,aggfunc = 'mean').apply(round)
绘制柱状图
data_group.plot(kind = 'bar')
使用 concat 连接两个相同结构的 DataFrame 对象
df3 = pd.concat([df1,df2])
合并,忽略原来的索引 ignore_index
df4 = df3.append([df1,df2],ignore_index = True)
按照列进行拆分
df5 = df4.loc[:,['姓名','柜台','交易额']]
按照工号进行合并,随机查看 3 条数据
rows = np.random.randint(0,len(df5),3)
pd.merge(df4,df5).iloc[rows,:]
按照工号进行合并,指定其他同名列的后缀
pd.merge(df1,df2,on = '工号',suffixes = ['_x','_y']).iloc[:,:]
两个表都设置工号为索引 set_index
df2.set_index('工号').join(df3.set_index('工号'),lsuffix = '_x',rsuffix = '_y').iloc[:]
按照交易额和工号降序排序,查看五条数据
dataframe.sort_values(by = ['交易额','工号'],ascending = False)[:5]
按照交易额和工号升序排序,查看五条数据
dataframe.sort_values(by = ['交易额','工号'])[:5]
按照交易额降序和工号升序排序,查看五条数据
dataframe.sort_values(by = ['交易额','工号'],ascending = [False,True])[:5]
按工号升序排序
dataframe.sort_values(by = ['工号'])[:5]
按列名升序排序
dataframe.sort_index(axis = 1)[:5]
每隔五天--5D
pd.date_range(start = '20200101',end = '20200131',freq = '5D')
每隔一周--W
pd.date_range(start = '20200301',end = '20200331',freq = 'W')
间隔两天,五个数据
pd.date_range(start = '20200301',periods = 5,freq = '2D')
间隔三小时,八个数据
pd.date_range(start = '20200301',periods = 8,freq = '3H')
三点开始,十二个数据,间隔一分钟
pd.date_range(start = '202003010300',periods = 12,freq = 'T')
每个月的最后一天
pd.date_range(start = '20190101',end = '20191231',freq = 'M')
间隔一年,六个数据,年末最后一天
pd.date_range(start = '20190101',periods = 6,freq = 'A')
间隔一年,六个数据,年初最后一天
pd.date_range(start = '20200101',periods = 6,freq = 'AS')
使用 Series 对象包含时间序列对象,使用特定索引
data = pd.Series(index = pd.date_range(start = '20200321',periods = 24,freq = 'H'),data = range(24))
三分钟重采样,计算均值
data.resample('3H').mean()
五分钟重采样,求和
data.resample('5H').sum()
计算OHLC open,high,low,close
data.resample('5H').ohlc()
将日期替换为第二天
data.index = data.index + pd.Timedelta('1D')
查看指定日期的年份是否是闰年
pd.Timestamp('20200301').is_leap_year
查看指定日期所在的季度和月份
day = pd.Timestamp('20200321')
查看日期的季度
day.quarter
查看日期所在的月份
day.month
转换为 python 的日期时间对象
day.to_pydatetime()
查看所有的交易额信息
dataframe['交易额'].describe()
查看四分位数
dataframe['交易额'].quantile([0,0.25,0.5,0.75,1.0])
查看最大的交易额数据
dataframe.nlargest(2,'交易额')
查看最后一个日期
dataframe['日期'].max()
查看最小的工号
dataframe['工号'].min()
第一个最小交易额的行下标
index = dataframe['交易额'].idxmin()
第一个最小交易额
dataframe.loc[index,'交易额']
最大交易额的行下标
index = dataframe['交易额'].idxmax()
跳过 1 2 4 行,以第一列姓名为索引
dataframe2 = pd.read_excel('超市营业额.xlsx',
skiprows = [1,2,4],
index_col = 1)
查看 5 到 10 的数据
dataframe[5:11]
查看第六行的数据
dataframe.iloc[5]
查看第 1 3 4 行的数据
dataframe.iloc[[0,2,3],:]
查看第 1 3 4 行的第 1 2 列
dataframe.iloc[[0,2,3],[0,1]]
查看前五行指定,姓名、时段和交易额的数据
dataframe[['姓名','时段','交易额']][:5]
查看第 2 4 5 行 姓名,交易额 数据 loc 函数
dataframe.loc[[1,3,4],['姓名','交易额']]
查看第四行的姓名数据
dataframe.at[3,'姓名']
某一时段的交易总和
dataframe[dataframe['时段'] == '14:00-21:00']['交易额'].sum()
查看张三总共的交易额
dataframe[dataframe['姓名'].isin(['张三'])]['交易额'].sum()
查看日用品的销售总额
dataframe[dataframe['柜台'] == '日用品']['交易额'].sum()
查看交易额在 1500~3000 之间的记录
dataframe[dataframe['交易额'].between(1500,3000)]
将日期设置为 python 中的日期类型
data.日期 = pd.to_datetime(data.日期)
每七天营业的总额
data.resample('7D',on = '日期').sum()['交易额']
每七天营业总额
data.resample('7D',on = '日期',label = 'right').sum()['交易额']
每七天营业额的平均值
func = lambda item:round(np.sum(item)/len(item),2)
data.resample('7D',on = '日期',label = 'right').apply(func)['交易额']
每七天营业额的平均值
func = lambda num:round(num,2)
data.resample('7D',on = '日期',label = 'right').mean().apply(func)['交易额']
删除工号这一列
data.drop('工号',axis = 1,inplace = True)
按照姓名和柜台进行分组汇总
data = data.groupby(by = ['姓名','柜台']).sum()
查看张三的汇总数据
data.loc['张三',:]
查看张三在蔬菜水果的交易数据
data.loc['张三','蔬菜水果']
丢弃工号列
data.drop('工号',axis = 1,inplace = True)
按照柜台进行排序
dff = data.sort_index(level = '柜台',axis = 0)
按照姓名进行排序
dff = data.sort_index(level = '姓名',axis = 0)
按照柜台进行分组求和
dff = data.groupby(level = '柜台').sum()['交易额']
平均值
data.mean()
标准差
data.std()
协方差
data.cov()
删除缺失值和重复值,inplace = True 直接丢弃
data.dropna(inplace = True)
data.drop_duplicates(inplace = True)
将 NaN 替换成某一数值
使用 fillna
dataframe.fillna(value = 'xxx',inplace=True)
删除某一个值
使用 drop
dataframe.drop(10,inplace=True)
复制代码
复制代码
交换两行的值
if m != n:
temp = np.copy(dataframe[m])
dataframe[m] = dataframe[n]
dataframe[n] = temp
else:
temp = np.copy(dataframe[dataframe.shape[1]-1])
dataframe[dataframe.shape[1]-1] = dataframe[n]
dataframe[n] = temp
复制代码
删除 columns 这些列
dataframe.drop(columns = list, inplace=True)
2020-07-03