python第二天

第二天内容

列表、元组操作
字符串操作
字典操作
集合操作
文件操作
字符编码与转码

一、列表、元组操作

列表是我们最以后最常用的数据类型之一，通过列表可以对数据实现最方便的存储、修改等操作

1.定义列表

name_list=['张三','李四','王五']

2.访问列表中的元素：通过下标访问下标从0开始

>>>name_list[0]
>>>张三

负数也可以取值：到着取值　　

>>>name_list[-1]
>>>王五

切片

Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 17:00:18) [MSC v.1900 64 bit (AMD64)] on win32
Type "copyright", "credits" or "license()" for more information.
>>> name_list=['张三','李四','王五','王麻子','王老五']
>>> name_list[1:3]#取出从1到3下标的元素不包括3
['李四', '王五']
>>> name_list[1:-2]#取出从1到倒数第2个元素不包含倒数第2个元素
['李四', '王五']
>>> name_list[0:4]
['张三', '李四', '王五', '王麻子']
>>> name_list[:3]#从0开始取值
['张三', '李四', '王五']
>>> name_list[2:]#从2开始取到最后一个元素
['王五', '王麻子', '王老五']
>>> name_list[0::2]#每隔一个元素取一个值
['张三', '王五', '王老五']
>>> name_list[0::3]
['张三', '王麻子']
>>>

View Code

追加

>>> name_list.append('新来的')
>>> name_list
['张三', '李四', '王五', '王麻子', '王老五', '新来的']

View Code

插入

>>> name_list
['张三', '李四', '王五', '王麻子', '王老五', '新来的']
>>> name_list.insert(2,'钻石王老五')
>>> name_list
['张三', '李四', '钻石王老五', '王五', '王麻子', '王老五', '新来的']
>>> name_list.insert(5,'在这个位置强制插入')
>>> name_list
['张三', '李四', '钻石王老五', '王五', '王麻子', '在这个位置强制插入', '王老五', '新来的']

View Code

修改

>>> name_list[2]='新的王老五'
>>> name_list
['张三', '李四', '新的王老五', '王五', '王麻子', '在这个位置强制插入', '王老五', '新来的']
>>>

View Code

删除

>>> name_list
['张三', '李四', '新的王老五', '王五', '王麻子', '在这个位置强制插入', '王老五', '新来的']
>>> del name_list[2]#删除指定位置的元素
>>> name_list
['张三', '李四', '王五', '王麻子', '在这个位置强制插入', '王老五', '新来的']
>>> 
>>> name_list.remove("王五")#删除指定的元素
>>> name_list
['张三', '李四', '王麻子', '在这个位置强制插入', '王老五', '新来的']
>>> name_list.pop()#删除最后一个元素
'新来的'
>>> name_list
['张三', '李四', '王麻子', '在这个位置强制插入', '王老五']
>>>

View Code

扩展

>>> name_list
['张三', '李四', '王麻子', '在这个位置强制插入', '王老五']
>>> a=[1,2,3]
>>> name_list.extend(a)
>>> name_list
['张三', '李四', '王麻子', '在这个位置强制插入', '王老五', 1, 2, 3]
>>>

View Code

拷贝

>>> name_list
['张三', '李四', '王麻子', '在这个位置强制插入', '王老五', 1, 2, 3]
>>> copy_name=name_list.copy()
>>> copy_name
['张三', '李四', '王麻子', '在这个位置强制插入', '王老五', 1, 2, 3]
>>>

View Code

统计

>>> name_list=['张三','李四','王五','王麻子','王老五','王五']
>>> name_list.count('王五')
2
>>>

View Code

排序

>>> name_list.sort()
>>> name_list
['张三', '李四', '王五', '王五', '王老五', '王麻子']
>>>

View Code

反转

>>> name_list.reverse()
>>> name_list
['王麻子', '王老五', '王五', '王五', '李四', '张三']
>>>

View Code

获取下标

>>> name_list
['王麻子', '王老五', '王五', '王五', '李四', '张三']
>>> name_list.index('王五')#重复元素返回的是第一个出现的下标
2
>>>

元组

元组其实跟列表差不多，也是存一组数，只不是它一旦创建，便不能再修改，所以又叫只读列表

name_list=('张三','李四','王五','王麻子','王老五','王五')

它只有2个方法，一个是count,一个是index，

二、字符串操作

字符串不可改变

name="drango war"


name.capitalize()  首字母大写
name.casefold()   大写全部变小写
name.center(50,"-")
name.count('a') 统计 lex出现次数
name.encode()  将字符串编码成bytes格式
name.endswith("ar")  判断字符串是否以 Li结尾
name.find('a')查找a,找到返回其索引， 找不到返回-1
name.index('o')返回o的索引
msg="my name is {name}，and age is {age}";

>>> msg="my name is {}，and age is {}";
>>> msg.format('Drango war',20)
'my name is Drango war，and age is 20'
>>> msg="my name is {1}，and age is {0}";
>>> msg.format('Drango war',23);
'my name is 23，and age is Drango war'
>>> msg="my name is {name}，and age is {age}";
>>> msg.format(name="Drango war",age=30)
'my name is Drango war，and age is 30'
>>> msg="my name is {name}，and age is {age}";
>>> msg.format_map({'name':'Drango war','age':40})
'my name is Drango war，and age is 40'
>>>

View Code

三、字典操作

字典一种key - value 的数据类型，使用就像我们上学用的字典，通过笔划、字母来查对应页的详细内容。

语法

userinfo = {'name':'Drango war','age':30}

字典的特性：

dict是无序的
key必须是唯一的,so 天生去重

添加

>>> userinfo = {'name':'Drango war','age':30}
>>> userinfo['sex']='女'
>>> userinfo
{'name': 'Drango war', 'age': 30, 'sex': '女'}
>>>

View Code

修改

>>> userinfo['sex']='男'
>>> userinfo
{'name': 'Drango war', 'age': 30, 'sex': '男'}
>>>

View Code

删除

>>> userinfo
{'name': 'Drango war', 'age': 30, 'sex': '男'}
>>> userinfo.pop('sex')
'男'
>>> userinfo
{'name': 'Drango war', 'age': 30}
>>> del userinfo['age']
>>> userinfo
{'name': 'Drango war'}
>>> userinfo = {'name':'Drango war','age':30}
>>> userinfo.popitem()
('age', 30)
>>>

View Code

查找

>>> userinfo = {'name':'Drango war','age':30}
>>> 'age'in userinfo
True
>>> userinfo.get('age')
30
>>> userinfo['age']
30
>>>

View Code

多级字典嵌套及操作

av_catalog = {
    "欧美":{
        "www.youporn.com": ["很多免费的,世界最大的","质量一般"],
        "www.pornhub.com": ["很多免费的,也很大","质量比yourporn高点"],
        "letmedothistoyou.com": ["多是自拍,高质量图片很多","资源不多,更新慢"],
        "x-art.com":["质量很高,真的很高","全部收费,屌比请绕过"]
    },
    "日韩":{
        "tokyo-hot":["质量怎样不清楚,个人已经不喜欢日韩范了","听说是收费的"]
    },
    "大陆":{
        "1024":["全部免费,真好,好人一生平安","服务器在国外,慢"]
    }
}

av_catalog["大陆"]["1024"][1] += ",可以用爬虫爬下来"
print(av_catalog["大陆"]["1024"])
#ouput 
['全部免费,真好,好人一生平安', '服务器在国外,慢,可以用爬虫爬下来']

View Code

四、集合操作

集合是一个无序的，不重复的数据组合，它的主要作用如下：

去重，把一个列表变成集合，就自动去重了
关系测试，测试两组数据之前的交集、差集、并集等关系

s = set([3,5,9,10])      #创建一个数值集合  
  
t = set("Hello")         #创建一个唯一字符的集合  


a = t | s          # t 和 s的并集  
  
b = t & s          # t 和 s的交集  
  
c = t – s          # 求差集（项在t中，但不在s中）  
  
d = t ^ s          # 对称差集（项在t或s中，但不会同时出现在二者中）  
  
   
  
基本操作：  
  
t.add('x')            # 添加一项  
  
s.update([10,37,42])  # 在s中添加多项  
  
   
  
使用remove()可以删除一项：  
  
t.remove('H')  
  
  
len(s)  
set 的长度  
  
x in s  
测试 x 是否是 s 的成员  
  
x not in s  
测试 x 是否不是 s 的成员  
  
s.issubset(t)  
s <= t  
测试是否 s 中的每一个元素都在 t 中  
  
s.issuperset(t)  
s >= t  
测试是否 t 中的每一个元素都在 s 中  
  
s.union(t)  
s | t  
返回一个新的 set 包含 s 和 t 中的每一个元素  
  
s.intersection(t)  
s & t  
返回一个新的 set 包含 s 和 t 中的公共元素  
  
s.difference(t)  
s - t  
返回一个新的 set 包含 s 中有但是 t 中没有的元素  
  
s.symmetric_difference(t)  
s ^ t  
返回一个新的 set 包含 s 和 t 中不重复的元素  
  
s.copy()  
返回 set “s”的一个浅复制

View Code

五、文件操作

对文件操作流程

打开文件，得到文件句柄并赋值给一个变量
通过句柄对文件进行操作
关闭文件

文件

Somehow, it seems the love I knew was always the most destructive kind
不知为何，我经历的爱情总是最具毁灭性的的那种
Yesterday when I was young
昨日当我年少轻狂
The taste of life was sweet
生命的滋味是甜的
As rain upon my tongue
就如舌尖上的雨露
I teased at life as if it were a foolish game
我戏弄生命 视其为愚蠢的游戏
The way the evening breeze
就如夜晚的微风
May tease the candle flame
逗弄蜡烛的火苗
The thousand dreams I dreamed
我曾千万次梦见
The splendid things I planned
那些我计划的绚丽蓝图
I always built to last on weak and shifting sand
但我总是将之建筑在易逝的流沙上
I lived by night and shunned the naked light of day
我夜夜笙歌 逃避白昼赤裸的阳光
And only now I see how the time ran away
事到如今我才看清岁月是如何匆匆流逝
Yesterday when I was young
昨日当我年少轻狂
So many lovely songs were waiting to be sung
有那么多甜美的曲儿等我歌唱
So many wild pleasures lay in store for me
有那么多肆意的快乐等我享受
And so much pain my eyes refused to see
还有那么多痛苦 我的双眼却视而不见
I ran so fast that time and youth at last ran out
我飞快地奔走 最终时光与青春消逝殆尽
I never stopped to think what life was all about
我从未停下脚步去思考生命的意义
And every conversation that I can now recall
如今回想起的所有对话
Concerned itself with me and nothing else at all
除了和我相关的 什么都记不得了
The game of love I played with arrogance and pride
我用自负和傲慢玩着爱情的游戏
And every flame I lit too quickly, quickly died
所有我点燃的火焰都熄灭得太快
The friends I made all somehow seemed to slip away
所有我交的朋友似乎都不知不觉地离开了
And only now I'm left alone to end the play, yeah
只剩我一个人在台上来结束这场闹剧
Oh, yesterday when I was young
噢 昨日当我年少轻狂
So many, many songs were waiting to be sung
有那么那么多甜美的曲儿等我歌唱
So many wild pleasures lay in store for me
有那么多肆意的快乐等我享受
And so much pain my eyes refused to see
还有那么多痛苦 我的双眼却视而不见
There are so many songs in me that won't be sung
我有太多歌曲永远不会被唱起
I feel the bitter taste of tears upon my tongue
我尝到了舌尖泪水的苦涩滋味
The time has come for me to pay for yesterday
终于到了付出代价的时间 为了昨日
When I was young
当我年少轻狂

View Code

基本操作

f = open('lyrics') #打开文件
first_line = f.readline()
print('first line:',first_line) #读一行
print('我是分隔线'.center(50,'-'))
data = f.read()# 读取剩下的所有内容,文件大时不要用
print(data) #打印文件
 
f.close() #关闭文件

View Code

打开文件的模式有：

r，只读模式（默认）。
w，只写模式。【不可读；不存在则创建；存在则删除内容；】
a，追加模式。【可读；不存在则创建；存在则只追加内容；】

"+" 表示可以同时读写某个文件

r+，可读写文件。【可读；可写；可追加】
w+，写读
a+，同a

"U"表示在读取时，可以将自动转换成（与 r 或 r+ 模式同使用）

"b"表示处理二进制文件（如：FTP发送上传ISO镜像文件，linux可忽略，windows处理二进制文件时需标注）

with语句

为了避免打开文件后忘记关闭，可以通过管理上下文，即：

with open('log','r') as f:
     
    ...

View Code

如此方式，当with代码块执行完毕时，内部会自动关闭并释放文件资源。

在Python 2.7 后，with又支持同时对多个文件的上下文进行管理，即：

with open('log1') as obj1, open('log2') as obj2:
    pass

　六、字符编码与转码

详细文章:

http://www.cnblogs.com/yuanchenqi/articles/5956943.html

http://www.diveintopython3.net/strings.html

需知:

1.在python2默认编码是ASCII, python3里默认是utf-8

2.unicode 分为 utf-32(占4个字节),utf-16(占两个字节)，utf-8(占1-4个字节)， so utf-8就是unicode

3.在py3中encode,在转码的同时还会把string 变成bytes类型，decode在解码的同时还会把bytes变回string

一、python2

py2里默认编码是ascii
文件开头那个编码声明是告诉解释这个代码的程序以什么编码格式把这段代码读入到内存，因为到了内存里，这段代码其实是以bytes二进制格式存的，不过即使是2进制流，也可以按不同的编码格式转成2进制流，你懂么？
如果在文件头声明了#_*_coding:utf-8*_，就可以写中文了，不声明的话，python在处理这段代码时按ascii，显然会出错，加了这个声明后，里面的代码就全是utf-8格式了
在有#_*_coding:utf-8*_的情况下，你在声明变量如果写成name=u"大保健"，那这个字符就是unicode格式，不加这个u,那你声明的字符串就是utf-8格式
utf-8 to gbk怎么转，utf8先decode成unicode,再encode成gbk

二、python3

py3里默认文件编码就是utf-8,所以可以直接写中文，也不需要文件头声明编码了，干的漂亮
你声明的变量默认是unicode编码，不是utf-8, 因为默认即是unicode了（不像在py2里，你想直接声明成unicode还得在变量前加个u）, 此时你想转成gbk的话，直接your_str.encode("gbk")即可以
但py3里，你在your_str.encode("gbk")时，感觉好像还加了一个动作，就是就是encode的数据变成了bytes里，我操，这是怎么个情况，因为在py3里，str and bytes做了明确的区分，你可以理解为bytes就是2进制流，你会说，我看到的不是010101这样的2进制呀，那是因为python为了让你能对数据进行操作而在内存级别又帮你做了一层封装，否则让你直接看到一堆2进制，你能看出哪个字符对应哪段2进制么？什么？自己换算，得了吧，你连超过2位数的数字加减运算都费劲，还还是省省心吧。　　
那你说，在py2里好像也有bytes呀，是的，不过py2里的bytes只是对str做了个别名，没有像py3一样给你显示的多出来一层封装，但其实其内部还是封装了的。这么讲吧，无论是2还是三，从硬盘到内存，数据格式都是 010101二进制到-->b'xe4xbdxa0xe5xa5xbd' bytes类型－－>按照指定编码转成你能看懂的文字

编码应用比较多的场景应该是爬虫了，互联网上很多网站用的编码格式很杂，虽然整体趋向都变成utf-8，但现在还是很杂，所以爬网页时就需要你进行各种编码的转换，不过生活正在变美好，期待一个不需要转码的世界。

#!/usr/bin/env python
#Author: nulige

import sys
print(sys.getdefaultencoding())

s = "你哈"                   #默认是utf-8
s_gbk = s.encode("gbk")     #utf-8转成gbk

print(s_gbk)
print(s.encode())

 utf-8                     #python默认是utf-8
 b'xc4xe3xb9xfe'       #utf-8转成gbk
 b'xe4xbdxa0xe5x93x88'

#!/usr/bin/env python
#Author: nulige

import sys
print(sys.getdefaultencoding())

s = "你哈"
s_gbk = s.encode("gbk")

print(s_gbk)
print(s.encode())

gbk_to_utf8 = s_gbk.decode("gbk").encode("utf-8")    #gbk转成utf-8
print("utf8",gbk_to_utf8)

1 utf-8
2 b'xc4xe3xb9xfe'
3 b'xe4xbdxa0xe5x93x88'
4 utf8 b'xe4xbdxa0xe5x93x88'

总结

把PyCharm字符编码调成gbk

#!/usr/bin/env python
# -*-coding:gbk-*-
#Author: nulige

#不同字符编码要先转成uncode
import sys
print(sys.getdefaultencoding())

s = '你好'   #默认uncode
print(s.encode("gbk"))
print(s.encode("utf-8"))
print(s.encode("utf-8").decode("utf-8").encode("gb2312"))
print(s.encode("utf-8").decode("utf-8").encode("gb2312").decode("gb2312"))

1 utf-8
2 b'xc4xe3xbaxc3'
3 b'xe4xbdxa0xe5xa5xbd'
4 b'xc4xe3xbaxc3'
5 你好

相关阅读:
不错的英文商业站点，可以学习
 RegexMagic是好东东，可惜不会用
 PyBlosxom
computer english
已经在uubuntu下基本切换到chrome
supervisor 管理后台进程
 精彩putty教程，乱码=,stdout,stderr重定向
 分析一个软件要考虑的问题
 Google has acquired AppJet Inc
文件目录相关
原文地址：https://www.cnblogs.com/wuzhilong/p/9295735.html