Illumina_HiSeq_2000高通量测序结果分析
问题描述:
Illumina_HiSeq_2000高通量测序结果分析
你好,最近在看TCGA数据库,其中raw_count,scaled_estimate,normalized_count,没能看明白什么意思,分别代表什么,我想做转录水平基因表达差异分析,需要用到哪些数据.
答
raw_count应该是某个转录本/基因的测到的原始reads条数,normalized_count是经过标准化的数据量;
差异分析需要统计 raw_count,FPKM值,pvalue我是用normalized_count的值做差异分析的,不知道可不可以,而且差异很显著,但我不知道他们经过rsem处理后的数据,拿来用会不会有问题做差异分析就是用normalized_count的值来做的。先根据count,利用rsem软件来计算表达量,然后根据表达量进行表达差异分析。
使用RSEM计算表达量是因为:由于质量剪切后会有以下现象发生,如果一个pair-end的片段map到序列上确实只记一个count,另外还有两种情况是read只有一部分map到了参考序列上,或者read map到了参考序列的多个位置上。因此RSEM会用最大似然法(Expectation-Maximization) 来估计一个count值。