bedtools核心用法详解

为什么不得不用bedtools？

速度，当数据到达百万级以上，R和C的速度差别就非常明显了
专业，但凡涉及到region、peak的处理，bedtools都可以胜任

chr <- unlist(lapply(tmp$frag2, function(x) {
    strsplit(x, split = ":|-")[[1]][1]
}))

start <- unlist(lapply(tmp$frag2, function(x) {
    strsplit(x, split = ":|-")[[1]][2]
}))

end <- unlist(lapply(tmp$frag2, function(x) {
    strsplit(x, split = ":|-")[[1]][3]
}))

tmp.bed <- data.frame(chr=chr, start=start, end=end, rsid=current.all.LD.all$RS_Number)

write.table(tmp.bed, file = "cHi-C/tmp.input.bed", row.names = F, col.names = F, quote = F, sep = "	")

基本安装

conda install -c bioconda bedtools

排序，构建一个chr.list文件

chr1
chr2
chr3
chr4
chr5
chr6
chr7
chr8
chr9
chr10
chr11
chr12
chr13
chr14
chr15
chr16
chr17
chr18
chr19
chr20
chr21
chr22
chrX
chrY

然后sort，不同版本命令略微有差异

cat capture_HiC.curated.bed | bedtools sort -faidx chr.list > capture_HiC.curated.sorted.bed

cat tmp.input.bed | bedtools sort -faidx chr.list > tmp.input.sorted.bed

用一个query region去overlap另一个database region，并取得属性

bedtools intersect -a tmp.input.sorted.bed -b capture_HiC.curated.sorted.bed -wo > tmp.output.bed

这部分比较细节，需要仔细参考教程：https://bedtools.readthedocs.io/en/latest/content/tools/intersect.html

-a query bed，比如SNP的位置

-b database bed，比如capture Hi-c的位置

-wo 如果有overlap，则原样输出-a和-b的文件信息

如果用R的条件规则去判断，估计要花10倍以上的时间。

相关阅读:
AspNet上传文件的几个控件(downmoon收集)
简单的iframe无刷新上传带生产缩略图和水印
js 操作frameset frame 对象
C#里的三种定时器类型
Asp.net上传图片同时生成缩略图和水印图后台代码
.NET调用新浪微博开放平台接口的代码示例
用 javascript 获取鼠标(光标)的坐标位置兼容IE/Firefox等浏览器
IIS Web服务扩展中没有Asp.net 2.0
asp.net实现form验证登陆
Asp.net实现在线截图（大图截取为小图）

原文地址：https://www.cnblogs.com/leezx/p/14475092.html

bedtools核心用法详解

目录

bed文件基本处理：导出，排序

用一个query region去overlap另一个database region，并取得属性