在二代测序仪上测出的数据,通常都会表现出测序深度与GC 含量的相关性,称为GC bias。
GC bias校正
为了后续生物信息分析更加准确,通常需要做GC bias的校正。
2010 年 steven Quake 在Noninvasive diagnosis of fetal aneuploidy by shotgun sequencing DNA from maternal blood提出将GC content画出bin,并算出每个GC bin里的tags number的平均值,
然后将同一个GC bin里的其它depth除以这个平均的tags number值,得到一条曲线:
后来进一步改进,现在常用的LOESS回归的方法进行GC bias校正。
GC bias程度的评估
2013年 A Single Cell Level Based Method for Copy Number Variation Analysis by Low Coverage Massively Parallel Sequencing提到一种GC bias程度的计算: