• Sqoop处理Clob与Blob字段


    [Author]: kwu 

    Sqoop处理Clob与Blob字段,在Oracle中Clob为大文本。Blob存储二进制文件。

    遇到这类字段导入hive或者hdfs须要特殊处理。

    1、oracle中的測试表

    CREATE TABLE
        T_LOB
        (
            A INTEGER,
            B CLOB,
            C BLOB
        )

    測试数据

    insert into T_LOB (A, B, C) values (1, 'clob測试',to_blob('3456'));


    2、sqoop脚本

    import
    --append
    --connect
    jdbc:oracle:thin:@localhost:1521/orcl
    --username
    wuke
    --password
    Abcd1234
    --table
    BDC_TEST.T_LOB
    --columns
    "A,B,C"
    --target-dir 
    /tmp/t_lob
    
    -m
    1
    运行脚本

    sqoop --options-file ./importHdfs.opt



    3、查看生成的HDFS文件


    能够看出。clob的字段是导入到hdfs上是正常显示文本,blob是二进制文件导出到hdfs上显示为16进制

    16进制转换为string可採用例如以下方法,实际上通过移位操作来实现:

    package com.ganymede.test;
    
    /**
     * 十六进制的转换操作
     * @author Ganymede
     *
     */
    public class Hex {
    
    	/**
    	 * 用于建立十六进制字符的输出的小写字符数组
    	 */
    	private static final char[] DIGITS_LOWER = { '0', '1', '2', '3', '4', '5',
    			'6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f' };
    
    	/**
    	 * 用于建立十六进制字符的输出的大写字符数组
    	 */
    	private static final char[] DIGITS_UPPER = { '0', '1', '2', '3', '4', '5',
    			'6', '7', '8', '9', 'A', 'B', 'C', 'D', 'E', 'F' };
    
    	/**
    	 * 将字节数组转换为十六进制字符数组
    	 * 
    	 * @param data
    	 *            byte[]
    	 * @return 十六进制char[]
    	 */
    	public static char[] encodeHex(byte[] data) {
    		return encodeHex(data, true);
    	}
    
    	/**
    	 * 将字节数组转换为十六进制字符数组
    	 * 
    	 * @param data
    	 *            byte[]
    	 * @param toLowerCase
    	 *            <code>true</code> 传换成小写格式 。 <code>false</code> 传换成大写格式
    	 * @return 十六进制char[]
    	 */
    	public static char[] encodeHex(byte[] data, boolean toLowerCase) {
    		return encodeHex(data, toLowerCase ? DIGITS_LOWER : DIGITS_UPPER);
    	}
    
    	/**
    	 * 将字节数组转换为十六进制字符数组
    	 * 
    	 * @param data
    	 *            byte[]
    	 * @param toDigits
    	 *            用于控制输出的char[]
    	 * @return 十六进制char[]
    	 */
    	protected static char[] encodeHex(byte[] data, char[] toDigits) {
    		int l = data.length;
    		char[] out = new char[l << 1];
    		// two characters form the hex value.
    		for (int i = 0, j = 0; i < l; i++) {
    			out[j++] = toDigits[(0xF0 & data[i]) >>> 4];
    			out[j++] = toDigits[0x0F & data[i]];
    		}
    		return out;
    	}
    
    	/**
    	 * 将字节数组转换为十六进制字符串
    	 * 
    	 * @param data
    	 *            byte[]
    	 * @return 十六进制String
    	 */
    	public static String encodeHexStr(byte[] data) {
    		return encodeHexStr(data, true);
    	}
    
    	/**
    	 * 将字节数组转换为十六进制字符串
    	 * 
    	 * @param data
    	 *            byte[]
    	 * @param toLowerCase
    	 *            <code>true</code> 传换成小写格式 , <code>false</code> 传换成大写格式
    	 * @return 十六进制String
    	 */
    	public static String encodeHexStr(byte[] data, boolean toLowerCase) {
    		return encodeHexStr(data, toLowerCase ?

    DIGITS_LOWER : DIGITS_UPPER); } /** * 将字节数组转换为十六进制字符串 * * @param data * byte[] * @param toDigits * 用于控制输出的char[] * @return 十六进制String */ protected static String encodeHexStr(byte[] data, char[] toDigits) { return new String(encodeHex(data, toDigits)); } /** * 将十六进制字符数组转换为字节数组 * * @param data * 十六进制char[] * @return byte[] * @throws RuntimeException * 假设源十六进制字符数组是一个奇怪的长度,将抛出执行时异常 */ public static byte[] decodeHex(char[] data) { int len = data.length; if ((len & 0x01) != 0) { throw new RuntimeException("Odd number of characters."); } byte[] out = new byte[len >> 1]; // two characters form the hex value. for (int i = 0, j = 0; j < len; i++) { int f = toDigit(data[j], j) << 4; j++; f = f | toDigit(data[j], j); j++; out[i] = (byte) (f & 0xFF); } return out; } /** * 将十六进制字符转换成一个整数 * * @param ch * 十六进制char * @param index * 十六进制字符在字符数组中的位置 * @return 一个整数 * @throws RuntimeException * 当ch不是一个合法的十六进制字符时,抛出执行时异常 */ protected static int toDigit(char ch, int index) { int digit = Character.digit(ch, 16); if (digit == -1) { throw new RuntimeException("Illegal hexadecimal character " + ch + " at index " + index); } return digit; } public static void main(String[] args) { String srcStr = "待转换字符串"; String encodeStr = encodeHexStr(srcStr.getBytes()); String decodeStr = new String(decodeHex(encodeStr.toCharArray())); System.out.println("转换前:" + srcStr); System.out.println("转换后:" + encodeStr); System.out.println("还原后:" + decodeStr); System.out.println("---------------------------------------"); decodeStr = new String(decodeHex("3435363738390d0a626c6f62".toCharArray())); System.out.println("还原后:" + decodeStr); } }


    对于hive能够在入库前转换成string。或者直接入库后使用udf来转换

  • 相关阅读:
    鱼眼拼接实验
    多字节字符集 unicode字符集
    GPU编程接口
    零基础学java第一天
    最牛的减肥方法
    近期思考
    c++的stl容器
    蓝桥杯历年穷举题
    git简单指令3
    git简单指令2
  • 原文地址:https://www.cnblogs.com/bhlsheji/p/5224083.html
Copyright © 2020-2023  润新知