想把一个文件中的日文部分提取出来,可是其他的东西都不知道是什么,好在还能查到SHIFT-JIS编码的范围。有个范围怎么着还是能将就是把文字提出来,只是没有格式罢了。转自:http://blog.csdn.net/walacewang/archive/2006/03/03/614382.aspx
Shift_JIS是一个日本电脑系统常用的编码表。它能容纳全形及半形拉丁字母、平假名、片假名、符号及日语汉字。
它被命名为Shift_JIS的原因,是它在放置全形字符时,要避开原本在0xA1-0xDF放置的半角假名字符。
在微软及IBM的日语电脑系统中,即使用了这个编码表。这个编码表称为CP932。
字节结构
以下字元在Shift_JIS使用一个字节来表示。
ASCII字符 (0×20-0×7E),但”\”被\\”¥”取代
ASCII控制字符 (0×00-0×1F、0×7F)
JIS X 0201标准内的半角标点及片假名(0xA1-0xDF)
在部分操作系统中,0xA0用来放置”不换行空格\\”。
以下字元在Shift_JIS使用两个字节来表示。
JIS X 0208字集的所有字符
“第一位字节\\”使用0×81-0×9F、0xE0-0xEF (共47个)
“第二位字节\\”使用0×40-0×7E、0×80-0xFC (共188个)
使用者定义区
“第一位字节\\”使用0xF0-0xFC (共47个)
“第二位字节\\”使用0×40-0×7E、0×80-0xFC (共188个)
在Shift_JIS编码表中,并未使用0xFD、0xFE及0xFF。
在微软及IBM的日语电脑系统中,在0xFA、0xFB及0xFC的两字节区域,加入了388个JIS X 0208没有收录的符号和汉字。