• Linux文本处理


    分屏查看文件more/less
    more分屏查看,空格按屏查看
    less支持按行上下键查看,空格按屏查看

    grep 查找 //若想使用正则表达式, 需要 -E选项
    grep -E "nice" metadata.txt //正则表达式匹配metadata中,包含nice的行
    egrep "nice" metadata.txt //正则表达式匹配metadata中,包含nice的行
    grep -E "nice" metadata.txt | wc -l //正则表达式匹配metadata中,包含nice的行,并统计行数,高亮显示
    fgrep "$" myfile //查找 “$” 在myfile文件中
    fgrep 无法使用正则表达式,适合查找单词

    文本分析
    wc(word count的缩写)

    root@DESKTOP-7T8UG8A:/mnt/i/学术视频/自然语言处理/Linux文本处理技术-试验数据# wc metadata.txt
    13096 430363 2766460 metadata.txt
    行数 词数 字符数
    wc -l 多少行(将 当成换行字符来统计)
    13096 metadata.txt


    sort 命令将以默认的方式将文本文件的第一列以ASCII 码的次序排列,并将结果输出到标准输出
    sort(默认按ASCAII码排序,输出到标准输出)以行为单位排序
    sort file.txt
    sort -r file.txt反向
    sort -n file.txt 按数值排序
    sort file.txt.save > file 覆盖
    sort file.txt.save >> file 追加
    sort -u file.txt //先排序,再去除重复行(相同sort file | uniq)


    uniq删除相邻重复的行
    sort file | uniq //先排序,再去除重复行
    sort file | uniq |wc -l //先排序,再去除重复行, 再统计行数
    sort file.txt | uniq -c //先排序,再去除重复行,并统计频数

    tr(字符替换命令)不对源文件改变

    tr ',' ' ' file.txt//将file.txt文件中的' , '改为' '。
    cat file.txt | tr ',' ' ' 将file文本中的','改为' '
    cat file.txt | tr ',' ' ' |head

    tail -n 599 scores.csv | tr ',' ' '|sort -n -k 2//截取文件后599行,将文本中的','改为' ',以第二列的数值大小排序
    tail -n 599 scores.csv | tr ',' ' '|sort -n -r -k 2//截取文件后599行,将文本中的','改为' ',以第二列的数值大小排序(反序)

    sed命令(字符串替换)
    egrep "snices" metadata.txt | sed 's/nice/GOOD/g' //将metadata中包含nice的行,把nice替换为GOOD

    cut命令
    cat metadata.txt | cut -d '|' -f3 | less
    cat metadata.txt | cut -d '|' -f3 | tr -sc 'A-Za-z' ' '//将metadata文本中每行以' | '分割,取出第三列,将第三列中每个字母组合后面加换行符(切分单词,未排序,未去重)
    cat metadata.txt | cut -d '|' -f3 | tr -sc 'A-Za-z' ' ' | sort | uniq //将metadata文本中每行以' | '分割,取出第三列,将第三列中每个字母组合后面加换行符, 按ASCAII码排序,去除重复(切分单词)
    cat metadata.txt | cut -d '|' -f3 | tr -sc 'A-Za-z' ' ' | sort | uniq -c //记录每个单词的频数
    cat metadata.txt | cut -d '|' -f3 | tr -sc 'A-Za-z' ' ' | sort | uniq |wc -l
    cat metadata.txt | cut -d '|' -f3 | tr -sc 'A-Za-z' ' ' | sort | uniq > dict.txt
    cat metadata.txt | cut -d '|' -f3 | tr -sc 'A-Za-z' ' ' | sort | uniq -c | sort -rn >dict.txt(最终)

  • 相关阅读:
    C#仿制QQ弹出消息框
    Winform下载文件
    asp.net文件下载
    C#FileStream复制大文件【转自www.bitsCN.com】
    C#解压或压缩文件夹
    TreeView无级级绑定
    C# WinForm窗口最小化到系统托盘
    [C#]实现序列号生成器
    VS2005小技巧收集(一)
    Failed TO CREATE LOGFILE GROUP解决
  • 原文地址:https://www.cnblogs.com/liweikuan/p/14211947.html
Copyright © 2020-2023  润新知