最常见的做法是采用正则表达式替换的方法,将特殊字符如 < > & 等进行替换,htmlencode的时候这样替换还比较容易,但发过来htmldecode的时候就不一定好用了,因为需要反转的情况很多,出了常见的<>&以外,还有 ©"®等数十个字符实体,还有AB中文或者中文之类以字符的Unicode编码的十进制或16进制表示的转义,难以全部列举,用逐个替换不仅代码冗长而且低效,还容易漏掉某些字符。
代码如下:
- function htmlencode(s){
- var div = document.createElement('div');
- div.appendChild(document.createTextNode(s));
- return div.innerHTML;
- }
- function htmldecode(s){
- var div = document.createElement('div');
- div.innerHTML = s;
- return div.innerText || div.textContent;
- }
相当简洁!
编码原理就是创建TextNode节点,附加到容器中,再取容器的innerHTML.
解码原理是将字符串赋給容器的innerHTML,再取innerText或textContent.
测试一下:
- //测试
- document.onclick = function (){
- //<p> & </p>
- alert(htmlencode('<p> & </p>'));
- //<p> & © ABC 中文 中文 </p>
- alert(htmldecode('<p> & © ABC 中文 中文 </p>'));
- }
效果不错。
htmldecode对入参有要求,如果入参不是合法的encode后的结果,可能无法得到预期结果。
我在google搜索,在cnblogs找到一篇和我一样思路的,原来已经有别人这样想了=||=,不过他的htmldecode代码有错误。