• 7、sraToolkit安装使用


    参考:http://blog.csdn.net/Cs_mary/article/details/78378552        ###prefetch 参数解释

              https://www.ncbi.nlm.nih.gov/books/NBK158900/#SRA_download.how_do_i_use_the_sra_toolki    ##  convert data into a particular format (fastq-dump等)

              https://github.com/ncbi/sra-tools/wiki/Downloads                ###sra-tools软件的下载,不同系统(Centos ubuntu window)

              http://blog.csdn.net/xubo245/article/details/50513201                                 ###用Aspera connect从NCBI上下载SRA格式数据

             https://indexofire.gitbooks.io/notebook_of_analyzing_pathogen_ngs_data/content/chapter_1/sra.html

            http://boyun.sh.cn/bio/?p=1933

    一. window

    1.下载地址:

    http://downloads.asperasoft.com/connect2/

    2.下载:

    数据下载地址:

    http://www.ncbi.nlm.nih.gov/projects/faspftp/1000genomes/

     其他地址:

    http://www.1000genomes.org/aspera

    二 linux

    1、下载安装

    http://downloads.asperasoft.com/

    curl -O http://download.asperasoft.com/download/sw/connect/3.6.1/aspera-connect-3.6.1.110647-linux-64.tar.gz

     tar zxf asper-commect-3.6.1.110647-linux.tar.gz  

    sh aspera-connect-2.4.7.37118-linux-64.sh  

    2、##加入路径

    echo "alias acsp=/home/sxuan/.aspera/connect/bin/ascp"  >>  ~/.bashrc 

    3、下载地址查找:http://www.ncbi.nlm.nih.gov/Traces/study/   

          1)单个下载:ascp -i /your-path-to/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR689/SRR689250/SRR689250.sra ./

        

          2)批量下载:整理成下面的格式黏贴在文本SRR_Download_List_file_list.txt 中:

        /sra/sra-instant/reads/ByRun/sra/SRR/SRR689/SRR689250/SRR689250.sra

       /sra/sra-instant/reads/ByRun/sra/SRR/SRR893/SRR893046/SRR893046.sra

    nohup ascp  -i  /share/home/jialj/.aspera/connect/etc/asperaweb_id_dsa.putty --mode recv --host ftp-private.ncbi.nlm.nih.gov --user anonftp   --file-list  SRR_Download_List_file_list.txt ./ &

    Aspera的用法: $ ascp [参数] 目标文件 目的地址
    Aspera的常用参数:
    -T            不进行加密。若不添加此参数,可能会下载不了。
    -i             string 输入私钥,安装 aspera 后有在目录 ~/.aspera/connect/etc/ 下有几个私钥,使用 linux 服务器的时候一般使用 asperaweb_id_dsa.openssh 文件作为私钥。
    --host      string ftp的host名,NCBI的为ftp-private.ncbi.nlm.nih.gov;EBI的为fasp.sra.ebi.ac.uk。
    --user      string 用户名,NCBI的为anonftp,EBI的为era-fasp。
    --mode    string 选择模式,上传为 send,下载为 recv。
    -l             string 设置最大传输速度,比如设置为 200M 则表示最大传输速度为 200m/s。若不设置该参数,则一般可达到10m/s的速度,而设置了,传输速度可以更高。

    三  prefetch直接调用ascp,没有安装ascp之前直接用http

    -f | –force Force object download. One of: no, yes, all. no [default]: Skip download if the object if found and complete; yes: Download it even if it is found and is complete; all: Ignore lock files (stale locks or if it is currently being downloaded: use at your own risk!). 
    强制下载 
    默认:文件已经存在则跳过 
    yes: 即使已存在完整文件仍然下载

    –transport Value one of: ascp (only), http (only), both (first try ascp, fallback to http). Default: both. 
    传输 
    默认: 先尝试ascp, 再尝试http

    -l | –list List the contents of a kart file. 
    列表kart文件 
    -s | –list-sizes List the content of kart file with target file sizes. 
    列表Kart文件及文件大小 
    -N | –min-size Minimum file size to download in KB (inclusive). 
    最小下载文件大小 
    -X | –max-size Maximum file size to download in KB (exclusive). Default: 20G. 
    最大下载文件大小 
    默认 20G 
    -o | –order Kart prefetch order. One of: kart (in kart order), size (by file size: smallest first). default: size. 
    Kart文件下载顺序 
    默认:按文件大小顺序下载 
    -a | –ascp-path

    prefetch -a “/opt/aspera/bin/ascp|/opt/aspera/etc/asperaweb_id_dsa.openssh” SRR390728

    When the toolkit is unable to locate an installed version of Aspera, the location of ascp and ssh key (-a /opt/aspera/bin/ascp|/opt/aspera/bin/asperaweb_id_dsa.openssh”) can be provided. 
    无法自动调用Aspera时就需要提供ascp的路径和密钥

    prefetch -t ascp -a “/opt/aspera/bin/ascp|/opt/aspera/bin/asperaweb_id_dsa.openssh --list SRR.file

    prefetch -c SRR390728

    This command will check the availability of all needed reference sequences (-c) for a given accession. 
    检查给定序列号是否可以能够下载

    =====================================

    批量下载SRRxxxxxx

    # 如何下载多个文件?创建一个含有SRR runs的文件。

    echo SRR1553608 > sra.ids

    echo SRR1553605 >> sra.ids

    # 用这个文件去prefetch对应的runs.

    prefetch --option-file sra.ids

    # 拆包下载好的所有文件。请注意下边的做法不是特别妥当,因为(文件夹里)除了我们用sra.ids下载的,可能还有别的prefetch下来的文件。

    fastq-dump --split-files ~/ncbi/public/sra/SRR15536*

    --split-files:   By using this, one single SRR file will download as SRRxxx_1.fastq and SRRxxx_2.fastq.

    --split-3:     which splits your SRR into 3 files: one for read 1, one for read 2, and one for any orphan reads (ie: reads that aren’t present in both files). This is important for downstream analysis, as some aligners require your paired reads to be in sync (ie: present in each file at the same line number) and orphan reads can throw this order off.

  • 相关阅读:
    Script to Create Benchmark Procs
    自定义数据类型修改
    需求管理工具试用 – CaliberRM
    标识值重复的原因示例
    Vmware vFabric Suite开始支持自动化部署与PostgreSQL
    在ubuntu上安装Oracle Java SDK
    详解数据中心基础设施的模块化建设
    Xcode 4 无证书真机调试 环境配置
    Calculate_and_Insert_Event_Intervals_in_SQL2005_Profiler
    浏览器工作原理
  • 原文地址:https://www.cnblogs.com/renping/p/7977456.html
Copyright © 2020-2023  润新知