2019年06月25日 - 卷土重来未可知
从最开始的MBSIT,到之前的DPR,到现在新的DPR,感觉想法已经更加成熟,应用场景也更加明确,可以真正开始搞了。
待做事项:
1. DPR的logo;
2. 借鉴SC3的方法和综合方法来寻找单细胞里的核心hub;
3. 根据KNN来连接hub,直至把所有hub包含进去,构建一个无环的tree;
4. 把每个cell映射到backbone上;
5. 距离度量,判断分化的距离;
6. 整个多个数据,多个分化的数据,这是现在的难点;
一个专门讲聚类的网页课程 - Alexander Strehl 2002-05-03
值得借鉴的一个工具:SC3: consensus clustering of single-cell RNA-seq data
1. 如何在一个模型里整合多种距离度量;
2. 方法的数学化;
可行性分析
假设
连续性 - 与clustering的假设正好相反
分支事件
特征的选择;距离的度量;
限定KNN的必要性;
MST构建;
主支的构建和简化;省略中间点;最短路径;
迭代处理所有分支;统计
投射所有细胞;使用longest branch
root the tree;
相对主线的深度的拓展
简化的ggtree;nodes center
下游分析
分支的显著性排列,节点数、深度;
branching driving factor
聚类比较
pseudotime比较
技术细节:
特征选择
drop out处理
outlier处理
拓展:
大规模测序应用,减少算法复杂度;
留好各种接口,便于个性化分析;
方便使用,提高引用率;
敏感性和特异性的平衡;