• Linux运维


    统计行数

    wc -l /home/hadoop/workspace/ChemicalFactory/input/device101.csv

    输出前两行数据

     head -n 2 /home/hadoop/workspace/ChemicalFactory/input/device101.csv

     提取需要的某几列数据 (将csv文件中的第1,2和6列提取出来并输出到complexes.txt

    cut -d ';' -f 1,2,6 allComplexes.csv > complexes.txt

     按行取出含关键字的行并追加输入到另一文件中

    sed -n '/P04800/ p' oldfile >> newfile

    在关键字后加入内容(同行)

    sed 's/1151/&10086xxx/' filename

     替换字符串(可用于删除,例子删除了所有 '(' )

    sed -i "s/(//g" protein_complexes.csv 

     找出所有符合格式的文件(find),并对所有文件进行操作(-exec),最后将 结果输出到一个文件中(>>)

    find . -name "updates.20180129.*" -exec ../ripencc-bgpdump/bgpdump -m {} ; >> file

    看文件大小(du)

    du -b *

     统计重复记录个数

    * uniq -c 统计相邻的重复记录

    * sort -k 1 对第一列排序 -n 按数字而不是ASCII码 -r 逆序,即从大到小

    cut -d '|' -f 4 file | sort | uniq -c | sork -k 1 -n -r | head -n 10

     统计重复记录并求平均数

    cut -d '|' -f 4 file | sort | uniq -c | sork -k 1 -n -r | awk '{sum+=$1} END {print "Average=", sum/NR}'
  • 相关阅读:
    rabbitmq 安装和配置
    rabbitmq
    Redis Keys 命令
    python pickle模块
    Redis之Python操作
    flask中的g、add_url_rule、send_from_directory、static_url_path、static_folder的用法
    Python 并行分布式框架 Celery
    Celery+python+redis异步执行定时任务
    feed流拉取,读扩散,究竟是啥?
    DNS解析
  • 原文地址:https://www.cnblogs.com/waynelin/p/5775572.html
Copyright © 2020-2023  润新知