• hadoop中汉字与英文字符混合的keyword做为combine的key的问题


    近期,须要将汉字与字符的非常合串作为combine的输出的key,

    这样做是希望,利用hadoop的归并来依照key进行分组,然后,在reduce阶段,拿到的都是一个一个组。

    可是,发现,这样的,汉字混合的传做key,居然,在reduce阶段中,接受的的key并非唯一的,于是,考虑利用转码来实现。

    终于,问题攻克了。

    package test.com.gjob.services;  
       import java.util.Properties;  
        public class Test {   
               public static void main(String[] args) {   
               String s = "简单介绍";   
              String tt = gbEncoding(s);   
       //       String tt1 = "你好,我想给你说一个事情";  
              System.out.println(decodeUnicode("\u7b80\u4ecb"));   
       //       System.out.println(decodeUnicode(tt1));   
              System.out.println(HTMLDecoder.decode("中国"));  
              String s1 = "u7b80u4ecb";  
              System.out.println(s.indexOf("\"));  
             }   
            public static String gbEncoding(final String gbString) {   
            char[] utfBytes = gbString.toCharArray();   
                  String unicodeBytes = "";   
                   for (int byteIndex = 0; byteIndex < utfBytes.length; byteIndex++) {   
                        String hexB = Integer.toHexString(utfBytes[byteIndex]);   
                          if (hexB.length() <= 2) {   
                              hexB = "00" + hexB;   
                         }   
                          unicodeBytes = unicodeBytes + "\u" + hexB;   
                      }   
                      System.out.println("unicodeBytes is: " + unicodeBytes);   
                      return unicodeBytes;   
                 }   
                
                public static String decodeUnicode(final String dataStr) {   
                   int start = 0;   
                     int end = 0;   
                    final StringBuffer buffer = new StringBuffer();   
                     while (start > -1) {   
                        end = dataStr.indexOf("\u", start + 2);   
                         String charStr = "";   
                         if (end == -1) {   
                             charStr = dataStr.substring(start + 2, dataStr.length());   
                        } else {   
                            charStr = dataStr.substring(start + 2, end);   
                         }   
                         char letter = (char) Integer.parseInt(charStr, 16); // 16进制parse整形字符串。   
                       buffer.append(new Character(letter).toString());   
                       start = end;   
                     }   
                     return buffer.toString();   
                 }   
             }   


  • 相关阅读:
    0429 Scrum团队成立与第6-7章读后感
    0428 团队2.0
    0422 寻找数学口袋精灵BUG
    0422 Step2-FCFS调度
    0415 博客评价
    0414 结对--软件再升级(韩麒麟 列志华)
    0408 结对做汉堡
    0406 复利计算器--结对 组员 韩麒麟 列志华
    0405 构建之法第4章 读后感
    文法分析
  • 原文地址:https://www.cnblogs.com/blfshiye/p/4073545.html
Copyright © 2020-2023  润新知