要点概论:
1 了解文件的概念
2. 了解字符编码
3. 掌握文件的读取和写入
4. 了解存储器
1. 字符编码
字符编码是计算机技术的基石,常见的字符编码有 ASCII , UTF-8 , Unicode , GB2312 , GBK等。
1.1 ASCII 编码
在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有 0 和 1 两种状态,8个二进制位就可以组合出256中状态,称为一个字节(byte)。
ASCII编码将英语字符与二进制值之间的关系进行了规定,对 0~9 的 10 个数字,26 个大小写字英文字母及一些其他符号进行了编码。
1.2 GB2312 编码
汉字多达 10 万个左右,而 ASCII 编码只能表示 256 种符号,远远不够,因为简体中文使用GB2312 编码方法,使用两个字节表示一个汉字
1.3 Unicode 编码
Unicode(Universal Multple-Octet Coded Character Set)编码将世界上的每一个符号进行独一无二的编码,解决了乱码问题。Unicode 又称为抽象编码,只是一个符号集,规定了符号的二进制代码,
并没有规定这个二进制代码应该如何存储和传输。传输编码是由UTF规范规定,常见的UTF规范包括UTF-8,UTF-16。
1.4 UTF 编码
浏览网页的源码上会有类似 <meta charset = "UTF-8/">的信息,表示该网页为 UTF-8 编码。 UTF-8 作为互联网上使用最广的 Unicode 编码的实现方式之一,以 8 位表示英语,以 24 位表示中文及其他语言。
2. 文件分类
python语言根据文件编码方式不同将文件分为文本文件和二进制文件
1)文本文件:又称为 ASCII 文件,是由ASCII编码字符组成并且不带任何格式的文件,通常使用字处理软件(如 windows 记事本等)编辑。
文本文件的读取必须从文件的头部开始,一次全部读出,不能只读取中间的一部分数据,不可以跳跃式访问。
文本文件的每一行相当于一条记录,每条记录可长可短,记录之间使用“换行符”进行分割,不能同时进行读,写操作。
文本文件的有点是使用方便,占用内存资源较少,但其访问速度较慢,并且不易维护。
2)二进制文件:最原始的文件类型,直接把二进制码存放在文件中,以字节为单位访问数据,不能用字处理软件进行编辑。
二进制文件允许程序按所需的任何方式组织和访问数据,也允许对文件中各字节数据进行存取和访问。
3)除此之外,根据存储数据的性质可以将文件分为程序文件和数据文件,根据文件的流向分为输入文件和输出文件,根据文件的存储介质分为磁盘文件,磁带文件等。
3. 文件读写操作
如何使用 open() 函数:http://www.cnblogs.com/HZY258/p/8464512.html