• 文件名乱码问题


    Python中通过open()操作文件时的文件中文名乱码问题

      最近在用Python进行文件操作的时候,遇到创建中文文件名的乱码问题。

      Python默认是不支持中文的,一般我们在程序的开头加上#-*-coding:utf-8-*-来解决这个问题,但是在我用open()方法打开文件时,中文名字却显示成了乱码。

      我先给大家说说Python中的编码问题,Python中的字符串的大概分为为str和Unicode两种形式,其中str常用的编码类型为utf-8,gb2312,gbk等等,Python使用Unicode作为编码的基础类型。str记录的是字节数组,只是某种编码的存储格式,终于输出到文件或是打印出来是什么格式,完全取决于其解码的编码将他解码成什么样子;Unicode是一种类似于符号集的抽象编码,它只规定了符号的二进制代码,却没有规定这个二进制代码该如何存储,也就是它只是一种内部表示,不能直接保存,所以存储时需要规定一种存储形式,比如utf-8等。

      Python中有编码转换的函数,decode(char_set)可以实现其他编码到Unicode的转换,encode(char_set)实现Unicode到其他编码的转换。

      查看Python文档会发现:

        open(filename, 'w')这个方法中,filename这个参数必须是Unicode编码的参数

      我之前加上#-*-coding:utf-8-*-将编码设置为utf-8,当调用这个方法往里传参数时,需要将这个变量编码转换为Unicode,比如name='中国',使用open()时,这样写open(name.decode('utf-8'), 'w'),这样创建的中文文件名就没有乱码问题了,问题解决。

    #!/usr/bin/env python
    # -*- coding:utf-8 -*-
    
    import urllib
    import urllib2
    
    def loadPage(url, filename):
        """
            作用:根据url发送请求,获取服务器响应文件
            url: 需要爬取的url地址
            filename : 处理的文件名
        """
        print "正在下载 " + filename
        headers = {"User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"}
    
        request = urllib2.Request(url, headers = headers)
        return urllib2.urlopen(request).read()
    
    def writePage(html, filename):
        """
            作用:将html内容写入到本地
            html:服务器相应文件内容
        """
        print "正在保存 " + filename
        # 文件写入
        with open(filename.decode('utf-8'), 'w') as f:
            f.write(html)
        print "-" * 30
    
    def tiebaSpider(url, beginPage, endPage):
        """
            作用:贴吧爬虫调度器,负责组合处理每个页面的url
            url : 贴吧url的前部分
            beginPage : 起始页
            endPage : 结束页
        """
        for page in range(beginPage, endPage + 1):
            pn = (page - 1) * 50
            filename = "" + str(page) + "页.html"
            fullurl = url + "&pn=" + str(pn)
            #print fullurl
            html = loadPage(fullurl, filename)
            #print html
            writePage(html, filename)
            print "谢谢使用"
    
    if __name__ == "__main__":
        kw = raw_input("请输入需要爬取的贴吧名:")
        beginPage = int(raw_input("请输入起始页:"))
        endPage = int(raw_input("请输入结束页:"))
    
        url = "http://tieba.baidu.com/f?"
        key = urllib.urlencode({"kw": kw})
        fullurl = url + key
        tiebaSpider(fullurl, beginPage, endPage)
    如果没有加这句 filename.decode('utf-8'),就会报如下错误:
     IOError: [Errno 22] invalid mode ('w') or filename: 'xe7xacxac2xe9xa1xb5.html'
  • 相关阅读:
    菜鸟小试牛刀。。
    RDBMS中部分关于可用性的特性
    ORA01403:no data found exception的解决小道
    oracle的存储结构(一)
    过度使用DBLINK带来的问题
    如何远程指定查询分区表的某个分区
    oracle显式游标不关闭、不关闭就再次打开会不会报错?
    Http方式下载Servlet实现
    Javazip压缩文件乱码问题
    mysql “Access denied for user 'root'@'localhost'
  • 原文地址:https://www.cnblogs.com/weihu/p/8410633.html
Copyright © 2020-2023  润新知