• 命令行中的数据科学_笔记1


    《命令行中的数据科学》真心不错,早一点看到,可以少走很多弯路。

    1.解压缩 tar -zxvf 等

    7z x         *.7z
    tar -xvjf    *.tar.bz2
    bunzip2   *.bz2
    tar -xvf     *.tar.gz
    unrar x     *.rar
    unzip        *.zip
    gunzip      *.gz

    2. 微软excel表格转换 in2csv

    in2csv data/imdb-250.xlsx > data/imdb-250.csv

    3. 从互联网下载数据 curl 

    curl -s http://www.cnblogs.com/jkmiao/p/5105513.html -o my_html_1.html

    curl -s 取消进度条

    curl -u username:password ftp://host/file

    cur -L 自动跟踪重定向

    curl -I 只获取响应信息头部

    4.  管道结合使用

    curl -s http://www.cnblogs.com/jkmiao/p/5105513.html | tr '[:upper:]' '[:lower:]' | grep -oE 'w+' |
    sort | uniq -c | sort -nr | head -n 10

     5. 文本清洗过滤

    $ seq -f "LIne %g" 100 | tee lines
    
    // 输出前5行
    $ < lines  head -n 5
    $ < lines  lines sed -n '1,5p'
    $ < lines  awk 'NR<=5'

    linux 重定向说明:

    http://baike.baidu.com/link?url=A6cpsb2JF3XqkFgHqHUmJujCHWdVGIIscHZ9ZsG6U1WQabLyvT6o0EVBlw_arwdMSOZjbSYG4QUvacyGmKYPCq

    每天一小步,人生一大步!Good luck~
  • 相关阅读:
    视频直播和实时音视频区别调研
    MySQL5.7 并行复制
    MySQL5.7 并行复制
    SSH 超时设置
    有赞透明多级缓存解决方案(TMC)设计思路
    有赞透明多级缓存解决方案(TMC)设计思路
    spring.net异常处理
    python之for学习
    pyhton小方法
    时间戳处理
  • 原文地址:https://www.cnblogs.com/jkmiao/p/5124554.html
Copyright © 2020-2023  润新知