生物医疗大数据
存在系统误差使得估计量有偏,如下图红色和蓝色图形,存在随机误差使得估计量并不是同一个值,如图中除去期望之外的曲线值,为了控制随机抽样造成的误差,可以使用p-value决定是否服从假设检验,判断两个变量之间相关性的有无。
相关系数:该系数广泛用于度量两个变量之间的线性相关程度。
建立模型:
技术种类:线性模型&机器学习模型
按输出数据分类:监督学习模型&非监督学习模型
Average linkage demo
第一个矩阵是原始数据,单未知数据结构,通过average linkage方法结倒推得到其数据结构,即把数据展开了。主要步骤是找到Smallest distance(因为此两者之间的关系最简单),将距离均值作为到中间未知的距离(因为average linkage中的average决定的),随后以此类推。
除去average linkage方法之外还有Max:Complete linkage&min:single linkage。
对于classify来说,有data-base的KNN:K取值重要决定学习规则的范围;和Model-oriented其最重要的是找到区分多类数据的曲线,该曲线的函数思路可有以下三种:
1.高次项SVM(升维)
2.用傅里叶变换用三角函数凑不平滑曲线
3.signals function源自泰勒展开,通过将signals function加权得到划分曲线,这也是神经网络模型的基础