• PHP解码unicode编码的中文字符


    问题背景:
    晚上在抓取某网站数据,结果在数据包中发现了这么一串编码的数据:"......u65b0u6d6au5faeu535a......www.jinyuanbao.cn", 这其实是中文被unicode编码后了的数据,我现在就是想解码出中文来,疯狂的google之后,发现很多人贴出了如下的函数,不过我发现根本不好使....如何解码unicode编码的字符?【好使】 - PHP网站开发 - 【开源与分享】每日最新博客在置顶博客之后:

    如何解码unicode编码的字符?【好使】 - PHP网站开发 - 【开源与分享】每日最新博客在置顶博客之后

    解决方案:
    呵呵,老外就是给力啊, 猛戳这里看老外给的解决方案

    方案A(稳定版+推荐):
    function replace_unicode_escape_sequence($match) {
        return mb_convert_encoding(pack('H*', $match[1]), 'UTF-8', 'UCS-2BE');
    }
    $name = 'u65b0u6d6au5faeu535a';
    $str = preg_replace_callback('/\\u([0-9a-f]{4})/i', 'replace_unicode_escape_sequence', $name);
    echo $str; //输出: 新浪微博 
    
       
    //咱将上述方案A给封装起来~~~(方案A稳定版+升级+推荐)
    class Helper_Tool
    {
        static function unicodeDecode($data)
        {   
            function replace_unicode_escape_sequence($match) {
                return mb_convert_encoding(pack('H*', $match[1]), 'UTF-8', 'UCS-2BE');
            }   
    
            $rs = preg_replace_callback('/\\u([0-9a-f]{4})/i', 'replace_unicode_escape_sequence', $data);
    
            return $rs;
        }   
    }
    //调用
    $name = 'u65b0u6d6au5faeu535a';
    $data = Helper_Tool::unicodeDecode($name); //输出新浪微博
    
    
    方案B(次推荐):
    <?php
    function unicodeDecode($name){
        $json = '{"str":"'.$name.'"}';
        $arr = json_decode($json,true);
        if(empty($arr)) return ''; 
        return $arr['str'];
    }
    $name = 'u65b0u6d6au5faeu535a';
    echo unicodeDecode($name); //输出: 新浪微博  
    

    对于方案B, 我要特别重点说明下注意事项, 在好友 XAR (猛戳XAR博客) 的技术支持下,总结出要处理的字符串(即传递给函数unicodeDecode的参数$name的内容中一定不能包含单引号,否则就会导致解析失败, 所以有必要的话可以借助 str_replace()函数将非法字符格式化为合格字符)

    个人作品展示:www.jinyuanbao.cn
  • 相关阅读:
    js相关禁止
    单例模式 俗称单例3步曲+1曲
    轮廓线重建:二维平行轮廓线重建理论和方法
    一种面向三维地质剖面的形体表面重构算法
    在不使用gluSphere()的情况下在OpenGL中绘制Sphere
    Balabolka
    jQuery学习笔记之可见性过滤选择器
    Flask学习之四 数据库
    Flask学习之三 web表单
    Flask学习之二 模板
  • 原文地址:https://www.cnblogs.com/jyb2014/p/3907774.html
Copyright © 2020-2023  润新知