SAINT的介绍
SAINT(Significance Analysis of INTeractome)是一种概率方法,用于在亲和纯化-质谱(AP-MS)实验中对阴性对照的诱饵-猎物相互作用进行打分,从而获取与靶向蛋白具有可能互作关系的蛋白。
SAINTexpress是SAINT的改进版,具有更简单的统计模型和更快的评分算法,显著提高了计算速度和评分的敏感性,下面简单介绍一下这个软件的使用。
SAINTexpress的使用
下载与安装
wget https://sourceforge.net/projects/saint-apms/files/SAINTexpress_v3.6.3__2018-03-09.tar.gz
tar xf SAINTexpress_v3.6.3__2018-03-09.tar.gz
cd SAINTexpress_v3.6.3__2018-03-09 && make
输入文件的准备
主要有三个输入文件
-
Bait file
第一列是 IP name IP蛋白的名称,可以理解为具体的
第二列是 bait name 靶向蛋白的名称 我的理解为第一列是具体
第三列是 标识分组的 T标识test C 标识control
-
Prey file
第一列是 prey name 蛋白的名称 可以为GI号或者Uniprot号
第二列是 prey protein length 蛋白的长度
第三列是 prey gene name 基因的名称 可以与蛋白名称一样
-
Interaction file
第一列是 IP name
第二列是 bait name
第三列是 prey name
第四列是 spectral counts
软件的运行与参数
SAINTexpress-spc [OPTIONS] <interaction data> <prey data> <bait data>
-L 用来设置虚拟的对照值。例如,如果我们想获得对照的最大的4个光谱值
SAINTexpress-spc –L4 inter.dat prey.dat bait.dat
-R 设置计算时每一个baits使用重复的数量。当一些baits的重复多余其他的baits时,这个参数很有用,默认为100
合并已知交互关系的数据
可以输入一个GO格式的文件计算一个TopoAvgP的得分,需要提供包含两列的交互数据库文件,如下图的GO.txt文件。
第一列是GO id 应该可以为其他的id
第二列是属于这个GO term的基因id 用空格分隔开,id名称与prey file的第一列一样
SAINTexpress-spc –L4 inter.dat prey.dat bait.dat GO.txt
输出文件格式
输出的文件有16列,每一列的具体解释如下
Bait: bait identifier bait 文件里面的第二列
Prey: prey identifier 蛋白的名称
PreyGene: additional prey identifier 蛋白对应的基因名
**Spec: **spectral counts for the bait-prey pair 每一个样的光谱定量值
SpecSum: sum of the spectral counts 定量的和
AvgSpec: average spectral counts over replicates 平均定量值
NumReplicate: number of replicate purifications for the given bait 重复数
ctrlCounts: spectral counts in the negative controls 阴性对照的定量值
AvgP: main probability score 主要的打分值
**MaxP: **maximal probability score of the interaction over replicates 基于重复互作的最大概率得分
TopoAvgP: topology-aware probability score incorporating known interaction data 包含已知交互数据的拓扑感知概率得分
TopoMaxP: topology-aware maximal probability score over replicates 基于拓扑感知的重复最大概率得分
**SaintScore: **larger of AvgP and TopoAvgP AvgP和TopoAvgP中的较大值
**FoldChange: **average spectral count in test interaction divided by the average in controls 处理的平均光谱值处理对照的平均光谱值
Boosted_by: indicates which known interactors of the same bait contributed to TopoAvgP 基于同一诱饵的已知互作关系得到的一个TopoAvgP共享值,具体不太清楚,需要使用GO.txt文件才会得到这个值
FDR: Bayesian false discovery rate 矫正值
logOddsScore: 得分值,应该是指示互作的概率?一般取log