Illumina_HiSeq_2000高通量测序结果分析

问题描述：

Illumina_HiSeq_2000高通量测序结果分析
你好,最近在看TCGA数据库,其中raw_count,scaled_estimate,normalized_count,没能看明白什么意思,分别代表什么,我想做转录水平基因表达差异分析,需要用到哪些数据.

答

raw_count应该是某个转录本/基因的测到的原始reads条数,normalized_count是经过标准化的数据量；
差异分析需要统计 raw_count,FPKM值,pvalue我是用normalized_count的值做差异分析的，不知道可不可以，而且差异很显著，但我不知道他们经过rsem处理后的数据，拿来用会不会有问题做差异分析就是用normalized_count的值来做的。先根据count，利用rsem软件来计算表达量，然后根据表达量进行表达差异分析。
使用RSEM计算表达量是因为：由于质量剪切后会有以下现象发生，如果一个pair-end的片段map到序列上确实只记一个count，另外还有两种情况是read只有一部分map到了参考序列上，或者read map到了参考序列的多个位置上。因此RSEM会用最大似然法(Expectation-Maximization) 来估计一个count值。

Illumina_HiSeq_2000高通量测序结果分析

相关推荐