• Python信息抽取之乱码解决


      俺希望大家能多多指教,有什么错误或者不同意见请联系我

      就事论事,直说自己遇到的情况,和我不一样的路过吧,一样的就看看吧

      信息抓取,用python,beautifulSoup,lxml,re,urllib2,urllib2去获取想要抽取的页面内容,然后使用lxml或者beautifulSoup进行解析,插入mysql 具体的内容,好了貌似很简单很easy的样子,可是里面的恶心之处就来了,第一,国内开发网站的人在指定网站编码或者是保存网站源码的时候并没有考虑什么编码,反正一句话,一个网站即使你用工具查看或者查看源码头信息查看到他们的源码是utf-8,或者GBK之类的,也别信,哎,什么东西信了就遭殃了,即<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

      以下给出一些流程:(具体各个库不是我这里向说的哦)

      import urllib2

       import chardet

      html = urllib2.urlopen("某网站")

      print chardet.detect(html) #这里会输出一个字典{'a':0.99999,'encoding':'utf-8'}

      好,这整个html的编码都知道,该插入以utf-8建立的mysql数据库了吧,但是我就在插入的时候发生错误了,因为我使用lxml以后的字符串不是utf-8,而是Big5(繁体字编码),还有各种未知编码EUC-JP(日本语编码),OK,我采取了unicode方法,先对这个字段进行解码,在进行编码

    if chardet.detect(name)['encoding'] == 'GB2312':   name = unicode(name,'GB2312','ignore').encode('utf-8','ignore') elif chardet.detect(name)['encoding'] == 'Big5': name = unicode(name,'Big5','ignore').encode('utf-8','ignore') elif chardet.detect(name)['encoding'] == 'ascii': name = unicode(name,'ascii','ignore').encode('utf-8','ignore') elif chardet.detect(name)['encoding'] == 'GBK': name = unicode(name,'GBK','ignore').encode('utf-8','ignore') elif chardet.detect(name)['encoding'] == 'EUC-JP': name = unicode(name,'EUC-JP','ignore').encode('utf-8','ignore') else: name = '未知'

    能有什么万用的方法没

  • 相关阅读:
    Gecko SDK (XULRunner SDK)最新版
    北京联通机顶盒-中兴B860A破解
    litepdf简单的PDF操作库
    BZOJ1925 [SDOI2010]地精部落
    BZOJ 最大公约数 (通俗易懂&效率高&欧拉函数)
    Tarjan无向图的割点和桥(割边)全网详解&算法笔记&通俗易懂
    最近公共祖先综合算法笔记
    严格次小生成树[BJWC2010]
    NOIP2016 Day1 T2 天天爱跑步(树上差分,LCA)
    树上差分算法笔记
  • 原文地址:https://www.cnblogs.com/CLTANG/p/1941151.html
Copyright © 2020-2023  润新知