NCBI_GEO数据上传攻略

NCBI_GEO数据上传攻略
python机器学习生物信息学，博主录制，2k超清
腾讯课堂报名入口

网易云课堂报名入口

（腾讯课堂新营业，报名可领取20元优惠券）

（原创课程，版权所有，项目合作QQ：231469242，微信公众号：pythonEducation）

GEO数据库全称GENE EXPRESSION OMNIBUS，成立于2000年，是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库，主要收录高通量基因表达数据。除SRA数据库之外，GEO数据库也是目前文章投递数据上传的数据库之一。

数据上传需要提交各种类型的数据、表格和资料，过程比较繁琐。以下是一份详细的数据上传指南，每一步都有详细的说明，一看就会，再也不用担心数据上传。下面主要介绍RNA-seq和ChIP-seq的上传流程。

注册账号

首先需要注册一个NCBI（https://www.ncbi.nlm.nih.gov/geo/submitter/），GEO账号，如果已经有账号，可以直接点击登录。
https://www.ncbi.nlm.nih.gov/geo/info/submission.html
数据准备

选择需要上传的高通量数据

需要上传的数据有三种

1. Metadata spreadsheet

该文件是关于整个研究中样本和实验的相关信息。

1.1 SERIES

主要包含文章的标题、概述、实验整体设计、共同作者、补充材料和SAR号（SRA号为选填，如果已经上传了SRA，则填上，否则空着即可）。此项需要填写的稍微详细一点，不然后面GEO可能发邮件要求补充abstract。

1.2 SAMPLE

样品的详细信息，包括样品名称、来源、器官、年龄、表达值数据和原始数据等，如果是ChIP-seq，还需要提供相关的抗体信息。

1.3 PROTOCOLS

样品的实验和提取建库详细信息。

1.4 DATA PROCESSING PIPELINE

数据处理步骤，参考基因组详细信息。

1.5 PROCESSED DATA FILES

RNA-seq或者ChIP-seq等实验，通常需要提供一些额外的数据文件，比如基因表达量，基因信号文件和MD5（用来核实真伪）等。

1.6 RAW FILES

原始数据详细信息

1.7 PAIRED-END EXPERIMENTS

双端测序序列详细信息，此项可不填。

2. Processed data files

经过处理的数据是GEO提交的必要部分，GEO会审核客户上传的处理过的数据，以此来检验相关文章结论的真实可靠性。RNA-seq可以上传基因表达量文件，ChIP-seq可以上传WIG, bigWig, bedGraph等，不过由于是中间文件，该部分内容没有完全固定的格式。

3 Raw data files

原始数据一般采用FASTQ格式，另外SRA数据库接受的其他格式也是可以的（https://www.ncbi.nlm.nih.gov/sra/docs/submitformats/）。

准备好所有数据之后选择Uploading your submission，Transter Files。

数据上传

数据上传，小编推荐FileZilla（https://filezilla-project.org/可以先在此处下载）。打开FileZilla，主机(H) 框填写上图中host对应的内容ftp-private.ncbi.nlm.nih.gov，用户名(U)填写geoftp，密码填写rebUzyi1（此项可能不定期更新），端口号可不填，全部填好后，点击快速连接按钮。

3.1 连接成功后，在远程站点下的文件名展示中创建自己的文件，例如ABC，将本地站点中需要上传的数据拖入右下角的方框内。

3.2 快速连接后，也可能显示“错误: 读取目录列表失败”，此时可忽略该项，直接在远程站点输入数据存放地址，然后回车，该地址会在选择Uploading your submissionTransfer Files后自动弹出。然后同样将本地站点中需要上传的数据拖入FileZilla右下角的方框内即可。

注意：使用FileZilla上传要注意进行相关设置，不然会一直中断，导致上传失败。选择编辑中的设置，连接，在重连设置中进行以下设置。

通知GEO数据上传完成

数据上传完成后，需要通过以下方式通知GEO：

也可以给GEO（geo@ncbi.nlm.nih.gov）发送邮件，邮件内容可以参考下方：

一般GEO第二天就会回复邮件，5个工作日以内会告知具体的GEO号。

文章转自微信公众号：嘉因生物

欢迎访问讲师教学主页：

腾讯课堂

网易云课堂主页
相关阅读:
Android RSS阅读器
 X86汇编语言学习教程之1 ————前言
 beanstalk源码剖析——概述
 从软件质量看如何写代码(1)
软件开发模型
 软件质量思考
 数据结构概述
 Don't Distract New Programmers with OOP(转)
Linus Torvalds’s Lessons on Software Development Management(转)
谈测试驱动开发
原文地址：https://www.cnblogs.com/webRobot/p/14130052.html

NCBI_GEO数据上传攻略

注册账号

数据准备

1. Metadata spreadsheet

2. Processed data files

3 Raw data files

数据上传

通知GEO数据上传完成