• Java_util_02_Java判断字符串是中文还是英文


    做微信开发,使用百度翻译API时,需要指定译文的语种。这就需要我们判断待翻译内容是中文还是英文,若是中文,则翻译成英文,若是英文则翻译成中文。

    方法一:字符与字节的长度

    依据:一个中文占两个字节,一个英文占一个字节。故若是字符长度与字节长度相等,则判断为英文。否则为中文。

    示例:

     1  public static boolean isEnglish(String p) {  
     2   byte[] bytes = p.getBytes();  
     3   int i = bytes.length;//i为字节长度  
     4   int j = p.length();//j为字符长度  
     5   if(i==j){
     6   return true;
     7   }else{
     8   return false;
     9   }
    10  }  
    View Code

    方法二:正则表达式

    依据:中文Unicode编码表

    字符集 字数 Unicode 编码
    基本汉字 20902字 4E00-9FA5
    基本汉字补充 38字 9FA6-9FCB
    扩展A 6582字 3400-4DB5
    扩展B 42711字 20000-2A6D6
    扩展C 4149字 2A700-2B734
    扩展D 222字 2B740-2B81D
    康熙部首 214字 2F00-2FD5
    部首扩展 115字 2E80-2EF3
    兼容汉 477字 F900-FAD9
    兼容扩展 542字 2F800-2FA1D
    PUA(GBK)部件 81字 E815-E86F
    部件扩展 452字 E400-E5E8
    PUA增补 207字 E600-E6CF
    汉字笔画 36字 31C0-31E3
    汉字结构 12字 2FF0-2FFB
    汉语注音 22字 3105-3120
    注音扩展 22字 31A0-31BA
    1字 3007
     1 package org.liufeng.course.util;
     2 import java.util.regex.Matcher;
     3 import java.util.regex.Pattern;
     4 /**
     5  * Description 提供判断字符串是中文或者是英文的一种思路
     6  * 
     7  */
     8 public class ChineseAndEnglish_Util {
     9     public static void main(String[] args) {
    10         String str = "我爱你,!?():;“”、。";
    11         char[] charArray = str.toCharArray();
    12         for (int i = 0; i < charArray.length; i++) {
    13             isChinese(charArray[i]);
    14         }
    15         String chinese = "中国god damn";
    16         System.out.println(isContainChinese(chinese));
    17         String english = "dfafdabac";
    18         System.out.println(isEnglish(english));
    19     }
    20     
    21     /**
    22      * 1.判断字节是否是中文
    23      * 
    24      * CJK的意思是“Chinese,Japanese,Korea”的简写 ,实际上就是指中日韩三国的象形文字的Unicode编码 
    25      * Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS             :4E00-9FBF:CJK 统一表意符号 
    26      * Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS       :F900-FAFF:CJK 兼容象形文字
    27      * Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A :3400-4DBF:CJK 统一表意符号扩展 A 
    28      * Character.UnicodeBlock.GENERAL_PUNCTUATION                :2000-206F:常用标点 
    29      * Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION        :3000-303F:CJK 符号和标点 
    30      * Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS      :FF00-FFEF:半角及全角形式
    31      * 
    32      */
    33     public static boolean isChinese(char c) {
    34         Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
    35         if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
    36                 || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
    37                 || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
    38                 || ub == Character.UnicodeBlock.GENERAL_PUNCTUATION
    39                 || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
    40                 || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS) {
    41             return true;
    42         }
    43         return false;
    44     }
    45     //2.检测是否包含英文
    46     public static boolean isEnglish(String charaString) {
    47         return charaString.matches("^[a-zA-Z]*");
    48     }
    49     //3.检测是否包含中文
    50     public static boolean isContainChinese(String str) {
    51         String regEx = "[\u4E00-\u9FA5]+";
    52         Pattern p = Pattern.compile(regEx);
    53         Matcher m = p.matcher(str);
    54         if (m.find()) {
    55             return true;
    56         } else {
    57             return false;
    58         }
    59     }
    60 }
    View Code
  • 相关阅读:
    ElasticSearch搜索
    Muddery框架
    https和http的区别
    multiprocessing模块创建进程
    进程理论基础
    单例模式
    原型模式
    建造者模式
    StrutsTypeConverter的使用
    UML用例图之泛化(generalization)、扩展(extend)和包含(include)关系--UML一波流系列讲解
  • 原文地址:https://www.cnblogs.com/shirui/p/7344655.html
Copyright © 2020-2023  润新知