我们经常会遇到所谓的URL编码(也叫百分号编码)和Base64编码。
先说一下Bsae64编码。BASE64编码是一种常用的将二进制数据转换为64个可打印字符的编码,常用于在通常处理文本数据的场合,表示、传输、存储一些二进制数据。例如邮件系统的MIME协议等。这个协议的用途,是确保接收方在只能识别可见文本字符的情况下,能够接受和识别二进制数据。编码后数据长度大约为原长的135.1%。
Base64编码是一种一对一的映射编码,其编码长度始终是3的倍数,不足3位,用=填充。所以,如果你看到一大堆乱七八糟的数据后面是=结尾的,大部分时候可以判定是Base64编码。由于Base64是映射编码,所以如果人为改变它的映射表,就可以作为一种简单的数据加密手段了。
再说一下URL编码,这个编码通常用在网页地址(URL)的传递中,在URL解释中,部分字符例如/ +等,有着特定的意义,因此不能直接使用Base64编码来传输地址文本。这个编码也适用于统一资源标志符(URI)的编码。URI所允许的字符分作保留与未保留。保留字符是那些具有特殊含义的字符. 例如, 斜线字符用于URL (或者更一般的, URI)不同部分的分界符,未保留字符没有这些特殊含义。 URL编码把保留字符表示为%开头的特殊字符序列,所以又叫做百分号编码。
2005年1月发布的RFC 3986,强制所有新的URI必须对未保留字符不加以百分号编码;其它字符要先转换为UTF-8字节序列, 然后对其字节值使用百分号编码。但是在目前的实际应用中,一个URL地址在做百分号编码之前,其未保留的字符序列不一定采用的是UTF-8编码,也有可能是ANSI编码。此外,部分早期的系统将空格编码成+,而不是标准推荐的%20,这是我们在实际应用中应该注意的事项。