• 【TPCDS】处理数据的脚本


    
    

    用途:tpc-ds利用dbgen生成的数据,有些数据中有| |,之间是没有数据的,若直接导入到创建的表中,会提示失败,因此,在写入数据前,要先对生成的数据进行处理

    处理数据脚本存放的目录(可以自定义的存放,按照自己存放的目录,要修改脚本),此时我将处理数据的脚本与生成的数据放在了同一目录下

    脚本内容如下DATA_DIR=/home/minio/data/tpc-ds/tpc-ds-tool/test_dat #【重要】根据自己存放脚本的目录修改

    # 用0来替换第一个字段的NULL值,把^|替换成0|
    # 用0来替换中间字段的NULL值, 把||替换成|0|
    # 用0来替换最后一个字段的NULL值,把|$替换成|0
    for s_f in `ls *dat`
    do
        echo "$s_f"
        i=1
        while [ `egrep '\|\||^\||\|$' $s_f |wc -l` -gt 0 ]
        do
            echo $i
            sed 's/^|/0|/g;s/||/|0|/g;s/|$/|0/g' -i $s_f
            ((i++))
        done
    done
    
    
    #把date字段的0值替换成 0000-00-00
    for s_f in item.dat store.dat web_page.dat web_site.dat call_center.dat   #【重要】如果脚本没有和生成的数据放在同一个目录下,此处要添加数据存放的路径
    #for s_f in $DATA_DIR/item.dat $DATA_DIR/store.dat $DATA_DIR/web_page.dat $DATA_DIR/web_site.dat $DATA_DIR/call_center.dat
    do
    # 处理第一、第二个date都是NULL的 sed 's/^\([A-Za-z0-9]*|[A-Za-z0-9]*\)|0|0|\(.*\)/\1|0000-00-00|0000-00-00|\2/' -i $s_f # 处理第二个date是NULL的 sed 's/^\([0-9A-Za-z]*|[A-Za-z0-9]*|[0-9]\{4\}-[0-9]\{2\}-[0-9]\{2\}\)|0|\(.*\)/\1|0000-00-00|\2/' -i $s_f # 处理第一个date是NULL的 sed 's/^\([0-9A-Za-z]*|[A-Za-z0-9]*\)|0|\([0-9]\{4\}-[0-9]\{2\}-[0-9]\{2\}|.*\)/\1|0000-00-00|\2/' -i $s_f done

     

  • 相关阅读:
    stress工具使用指南和结果分析
    copy.c实现
    sysbench测试阿里云CPU
    sysbench测试阿里云ECS云磁盘的IOPS,吞吐量
    iostat详解
    sysbench_fileio.sh
    rm -f /var/lib/rpm/__db*;rpm --rebuilddb
    HeadFirst 13 (包装器, 过滤器) not Finish
    基于Linux的oracle数据库管理 part5( linux启动关闭 自动启动关闭 oracle )
    基于Linux的oracle数据库管理 part4( shell管理 上 )
  • 原文地址:https://www.cnblogs.com/syw20170419/p/16013123.html
Copyright © 2020-2023  润新知