第七讲
编辑课件
Quantile Normalization
使每张芯片/通道的强度值有相同的分布(intensity distribution)
编辑课件
Quantile normalization
Bef学上的意义。为了达到这个目的,统计学家们常常用控制错误发现率(False Discovery Rate)的方法来判断差异基因。
编辑课件
Multiple test (Pvalue adjustment)
编辑课件
火山图(volcano plot)
Statistical test: Pvalue
Fold change: Ratio
编辑课件
其他方法
B-statistics (Smyth,2004)
Bayes T-test (Baldi and Long, 2001)
SAMROC (Broberg, 2002)
Zhao-Pan method (Zhao and Pan, 2003)
… …
编辑课件
Improved Detection of Differentially Expressed Genes
Time series microarray dataset
编辑课件
聚类分析
编辑课件
基因表达数据矩阵 (Affymetrix GeneChip® oligonucleotide arrays)
sam/ref
编辑课件
基因表达数据矩阵 (glass slides)
编辑课件
数据矩阵具体形式
编辑课件
数据形式
数据矩阵,基因数远大于样品数
对任意一个基因来说,样本值是特征值,数据的维数是M
对任意一个样本来说,基因值是特征值,数据的维数是N
聚类时考虑基因之间的相似性,从数学上讲就是看对应的M维数据之间的相似性
编辑课件
Cluster&Treeview软件
编辑课件
Cluster&Treeview软件
编辑课件
Genesis软件
编辑课件
预分析(Pre-Analysis)
重复值合并( replicate handling )
数据转换和标准化(data transformation and standardization)
缺失数据处理( missing value management )
基因筛选(pattern selection)
编辑课件
重复值合并
编辑课件
基因不同命名
编辑课件
重复值合并
编辑课件
Gene ID converter
编辑课件
重复值合并
在特定条件下把所有的重复值合并成一个数值可能更为方便,而这一个值是给定基因/条件的代表。
通常的合并是指计算这些重复值的集中趋势指标,如均数、中位数或众数。然而,使用一个集中趋势指标代替一组数值意味着信息的丢失,因此数据的合并应谨慎。
去除奇异值。可以通过计算原始数据的均数和标准差,去除位于给定区间外的数据(如均数加减3个标准差外的数据)。剩余的数据重新计算均数和标准差,并消除给定区间外的数据。
编辑课件
数据转换和标准化
数据变换的目的是在尽量保证原始数据特征不变的前提下,使变换后的数据更适于进行统计分析。
对数转化(log-transformation)
中心化处理(center)
单位圆化
正态化(均值为0,方差为1)
编辑课件
缺失数据处理
芯片上的某些点可能因为芯片的缺陷、点像素强度达到饱和、点像素强度非常小等因素而产生异常的数据点,在数据的预处理阶段把这些数据点删除。
未观测点
若后续的统计分析要求数据满足完整性,如特征基因提取的奇异值分解、某些基因的聚类分析方法等,则需要对含有缺失值的数据进行处理
删除含有缺失值的整条记录,这种方法操作简单,但却因为个别值的缺失而删除整个记录,可能丢失大量有价值的信息
填充或修补缺失数据
编辑课件
编辑课件
缺失数据的处理
固定值法,比如0或者1
行平均法
使用重复数据点对缺失数据进行填充。对于生物学重复中缺失数据的填充应慎重,应当使用尽量同质的样品对缺失值进行估计。
使用基因间的相关性对缺失数据进行填充。奇异值分解法,KNN法。
其他方法,最小二乘法拟合修补,方差迭代分析,最大可能性分析
编辑课件
KNN法
K最近邻法(K-nearest neighborhood method):假定某个基因在某个指标上含有缺失值,计算此包含缺失值的基因与在该指标上无缺失的基因间的相似性指标或距离指标(相似性或距离的计算中不包括欲估计的指标),与该基因相似性最大的K个基因称为该基因的K个最近邻(k nearest neighborhoods)
《差异表达基因分析》 来自淘豆网www.taodocs.com转载请标明出处.