php + mysql 存入表情【如何转义emoji表情，让它可以存入utf8的数据库】

方法1：base_encode64

这种方法是可以，但是旧数据没有经过encode操作，取数据的时候如果统一进行decode的话，旧数据会丢失的。

方法2：urlencode

这个似乎可以，对没有经过encode的数据进行decode也不会有影响，而且多次decode似乎也不会有影响。你们说这个方法有缺陷吗？

=======================
一个发现，微信获取用户基本信息的时候，笑哭那个表情print_r出的是ud83dude02，而我存储的时候，报错说这个 xF0x9Fx98x82 值不能存储，请问这是怎么回事，自动转码了，转成的这是什么？是微信转码过了吗？

=======================

方法3：采用了下面采纳的那个方法，因为我觉得它有下面几个优点：

1、那个方法只转换表情，不会转换中文，所以数据还是直接可读的
数据库中存储起来是这样的，如何转义emoji表情，让它可以存入utf8的数据库
后面的ud83dudca5可以随意复制粘贴，而显示出来是这样的， 如何转义emoji表情，让它可以存入utf8的数据库

2、不会把表情转换为其它标准，只有一个简单的，固定的转换算法，也就是说不需要一个表情库来对照着转换，所以以后其它人要使用这个数据的时候，也很容易知道每个表情是对应的哪个。就算苹果大爷又增加了表情，也不需要做什么额外的修改。

3、可以无限decode输出的都是正确的内容。因为有的时候可能需要在一次请求中的两个地方做decode，其它decode多次会把正确的数据改成其它数据，这个不会。
缺点：
1、看了下面的代码就知道，这个是强制修改字符编码中，指定区间内的编码，也就说有可能误杀，也有可能有超出这个区间的emoji没杀到。不过仅仅是在字符前加反斜杠，即使误杀了，发现之后也很容易改回来。
数据库中发现有这样的 ，是漏杀了，但是不知道为什么，这个可以直接存数据库。

/**
  把用户输入的文本转义（主要针对特殊符号和emoji表情）
 */
function userTextEncode($str){
    if(!is_string($str))return $str;
    if(!$str || $str=='undefined')return '';

    $text = json_encode($str); //暴露出unicode
    $text = preg_replace_callback("/(\u[ed][0-9a-f]{3})/i",function($str){
        return addslashes($str[0]);
    },$text); //将emoji的unicode留下，其他不动，这里的正则比原答案增加了d，因为我发现我很多emoji实际上是ud开头的，反而暂时没发现有ue开头。
    return json_decode($text);
}
/**
  解码上面的转义
 */
function userTextDecode($str){
    $text = json_encode($str); //暴露出unicode
    $text = preg_replace_callback('/\\\\/i',function($str){
        return '\';
    },$text); //将两条斜杠变成一条，其他不动
    return json_decode($text);
}

//处理名字的emoji符号
        $tmpStr = json_encode($text); //暴露出unicode
        $tmpStr = preg_replace("#(\ue[0-9a-f]{3})#ie","addslashes('\1')",$tmpStr); //将emoji的unicode留下，其他不动
        $text = json_decode($tmpStr);
        return $text;

方法4：一个标准的解决方案：

1、mysql的版本必须为v5.5.3或更高
2、把数据库的编码改成utf8mb4 -- UTF-8 Unicode
3、然后需要存储emoji表情的字段选择utf8mb4_general_ci
4、数据库连接也需要改为utf8mb4

设置完成后，应该可以看到如下类似字符集设置结果。那么可以直接的存入数据库，无需做任何额外的事情了。

mysql> SHOW VARIABLES WHERE Variable_name LIKE 'character\_set\_%' OR Variable_name LIKE 'collation%';  
+--------------------------+--------------------+  
| Variable_name            | Value              |  
+--------------------------+--------------------+  
| character_set_client     | utf8mb4            |  
| character_set_connection | utf8mb4            |  
| character_set_database   | utf8mb4            |  
| character_set_filesystem | binary             |  
| character_set_results    | utf8mb4            |  
| character_set_server     | utf8mb4            |  
| character_set_system     | utf8               |  
| collation_connection     | utf8mb4_unicode_ci |  
| collation_database       | utf8mb4_unicode_ci |  
| collation_server         | utf8mb4_unicode_ci |  
+--------------------------+--------------------+  

我在做微信公众平台开发时遇到过这个问题，微信用户的昵称可以包含表情（坑爹- -!）。于是我就将整个昵称转换成HEX字符串存在MySQL中，目前用户1W+，系统稳定，题主可以参考一下此方案。

MySQL支持hex() and unhex()函数。Java可以使用org.apache.commons.codec.binary.Hex工具类。其他语言也有相应的方法。

![这里写图片描述](http://img.blog.csdn.net/20160612155302911)

试试微博或qq里面的那种方式？用简单的编码来映射，比如微笑可以用 [wx] 或 /wx 。不过表情多了之后4个字符不怎么够用。。。

urldecode 
我看了一下 decode 的源码，应该是不会出现问题。

只要没有 % 解码后肯定还是原来的字符（串），有 % 会出现两种情况，一种是解码成功，这个时候肯定就不是原来的字符串了，一种是解码失败，抛出异常（其实这个异常可以作为是否 encode的标准）。

解码还算是比较严格吧，作为用户名的情况下 出现 % 还解码成功的概率比较小吧，对于这部分你可以手动改数据库，应该不会有很多。

你试试这个函数，之前弄微信自定义菜单的时候，也接触过Emoji表情，当时看到用的这个函数把Emoji表情的编码给转换了。
function utf8_bytes($cp) {
    if ($cp > 0x10000){
        # 4 bytes
        return    chr(0xF0 | (($cp & 0x1C0000) >> 18)).
        chr(0x80 | (($cp & 0x3F000) >> 12)).
        chr(0x80 | (($cp & 0xFC0) >> 6)).
        chr(0x80 | ($cp & 0x3F));
    }else if ($cp > 0x800){
        # 3 bytes
        return    chr(0xE0 | (($cp & 0xF000) >> 12)).
        chr(0x80 | (($cp & 0xFC0) >> 6)).
        chr(0x80 | ($cp & 0x3F));
    }else if ($cp > 0x80){
        # 2 bytes
        return    chr(0xC0 | (($cp & 0x7C0) >> 6)).
        chr(0x80 | ($cp & 0x3F));
    }else{
        # 1 byte
        return chr($cp);
    }
}
我这个刚解决的这个问题（后端是java实现的，数据库Mysql），供参考。
1、修改存储emoji字段编码，例如放在username字段中：

    ALTER TABLE user CHANGE username username VARCHAR(128) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci default null;
2、java在执行数据库插入、更新操作前，要先执行 sql语句"set names utf8mb4" 语句。

使用BOLO类型

将数据库编码改为 utf8mb4

https://github.com/iamcal/php-emoji
我是用这个处理的~

http://www.emoji-cheat-sheet.com/

有一种编码叫 utfmb4，支持 4 位长度的 utf8 编码

喏，你的 MySQL 版本必须为 5.5 以上的

不用转，直接数据库转成utf8mb4, 我以前就是这么干的

不用更改整个数据库的把。。。create xxx() charset=utf8mb4 单表 utf8mb4就行了把

因为我的项目中需要对字数有限制的需求，涉及到逐字计数，在这基础上我增加了emoji的功能完美实现。你需要代码的话请再告诉我，我提供给你。

方法5 干掉emoji表情

emoji表情是个麻烦的东西，即使你能存储，也不一定能完美显示。在iOS以外的平台上，例如PC或者android。如果你需要显示emoji，就得准备一大堆emoji图片并使用第三方前端类库才行。即便如此，还是可能因为emoji图片不够全而出现无法显示的情况
在大多数业务场景下，emoji也不是非要不可的。我们可以适当地考虑干掉它，节约各种成本

经过一番苦苦的google，终于找到靠谱能用的代码：

// 过滤掉emoji表情
function filterEmoji( $str) {$

 return $str;

}

相关阅读:
51Nod-1013 3的幂的和【快速模幂+逆元】
51Nod-1082 与7无关的数【进制+打表】
51Nod-1080 两个数的平方和【暴力法】
51Nod-1015 水仙花数【进制+查表搜索】
51Nod-1003 阶乘后面0的数量【分析思维】
51Nod-1002 数塔取数问题【DP】
51Nod-1179 最大的最大公约数【暴力】
51Nod-1018 排序【排序】
51Nod-1126 求递推序列的第N项【递推序列+模除】
51Nod-1031 骨牌覆盖【递推】
原文地址：https://www.cnblogs.com/liangzia/p/10058153.html