• XMLHTTP Get HTML页面时的中文乱码之完全客户端Script解决方案


    常有人说,他们在使用XMLHTTP过程中,总是为中文乱码的问题烦恼。本人查阅了一些资料,结果令我失望,大家都是使用ASP服务器端技术解决该问题。
        先分析一下为何会出现中文乱码的问题。原因很简单:XMLHTTP得到Response时假定Response是UTF8编码的,它把含GB2312编码的HTML当成UTF8格式,因此,出现了中文乱码。
        那么,除了使用ASP服务器端脚本技术外,就没有客户端的解决办法吗?答案是:有!
        本人使用VBScript客户端脚本,成功实现了不使用ASP,解决了XMLHTTP 抓取 HTML页面时出现中文乱码的问题。
        为何使用VBScript,而不是大家常用的JScript?XMLHTTP的responseBody返回的是一个unsigned bytes数组。VBScript提供了许多用于操作字符串和格式化数据的函数,以及访问安全数组的方法。这些函数或方法在JScript中并不存在。这里我们需要使用VBScript的内置函数:MidB、AscB、LenB等,来访问responseBody。
        说句题外话,我不是在强调VBScript比JScript好,而是二者都有自己的特点。第一次在CSDN上写文章,谢谢大家支持。写这边文章有两个目的:一、锻炼自己;二、希望大家遇到问题时,要学会分析问题,做到有的放矢,知其然也知其所以然。
        我给出代码Test.htm,它包括了获取自身代码和获取其他网页代码两种应用,具体脚本如下:

    <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
    <!-- 作者:小林,sulins@tom.com -->
    <HTML>

    <HEAD>
    <META http-equiv="Content-Type" content="text/html; charset=gb2312">
    </HEAD>

    <script language=VBScript>

    Function bytes2BSTR(vIn)
        strReturn = ""
        For i = 1 To LenB(vIn)
            ThisCharCode = AscB(MidB(vIn,i,1))
            If ThisCharCode < &H80 Then
                strReturn = strReturn & Chr(ThisCharCode)
            Else
                NextCharCode = AscB(MidB(vIn,i+1,1))
                strReturn = strReturn & Chr(CLng(ThisCharCode) * &H100 + CInt(NextCharCode))
                i = i + 1
            End If
        Next
        bytes2BSTR = strReturn
    End Function

    Function viewSource1()
     dim XmlHttp
     set XmlHttp = CreateObject("Microsoft.XMLHTTP")
     XmlHttp.Open "GET", document.location.href, false
     XmlHttp.setRequestHeader "Content-Type","text/XML"
     XmlHttp.Send
     
     dim html
     html = bytes2BSTR(XmlHttp.responseBody)
     msgbox html
    End Function

    Function viewSource2()
     dim XmlHttp
     set XmlHttp = CreateObject("Microsoft.XMLHTTP")
     XmlHttp.Open "GET", "http://www.google.com", false
     XmlHttp.setRequestHeader "Content-Type","text/XML"
     XmlHttp.Send
     
     dim html
     html = bytes2BSTR(XmlHttp.responseBody)
     msgbox html
    End Function

    </script>

    <BODY bgcolor=gainsboro style='border:1pt solid white'>
    <TABLE class=text>
     <tr>
      <td class=text>XMLHTTP Get HTML页面时的中文乱码之完全客户端Script解决方案</td>
     </tr>
     <tr>
      <td class=button><button onclick=viewSource1()>查看自身的网页代码</button></td>
     </tr>
     <tr>
      <td class=button><button onclick=viewSource2()>查看google主页代码</button></td>
     </tr> 
    </TABLE>
    </BODY>
    </HTML>

  • 相关阅读:
    MySQL 内存溢出
    使用pt-fifo-split 工具往mysql插入海量数据
    Summary: Calculate average where sum exceed double limits
    Pocket Gem OA: Log Parser
    Pocket Gem OA: Path Finder
    Leetcode: Sliding Window Median
    Leetcode: Number Complement
    FB面经 Prepare: Even Tree
    FB面经 Prepare: All Palindromic Substrings
    FB面经 Prepare: Largest Island
  • 原文地址:https://www.cnblogs.com/ZetaChow/p/2237466.html
Copyright © 2020-2023  润新知