有搞生物信息学研究的朋友吗?我想问一下,NCBI里面的序列是不是有很多是计算机预测出来的,而没有经过实验验证,比如那些前面标注着预测和临时的序列,计算机室根据什么原理跑出来的?没有经过试验验证的可信不可信?能不能拿来合成后做表达等下游工作

问题描述：

答

那些序列一般是全球的实验室通过测序的方法得到的，然后放在NCBI上，会有genbank编号。计算机只能将测序得到的数据进行装配、拼接、注释等，最终得到一个比较完美的、非常接近真实情况的数据。目前只有蛋白质的空间结构可以通过衍射啊等来预测二级结构和三级结构，序列是无法预测的。

答

计算机能够预测序列我是没有听说过，我感觉不可能。Genbank中的序列是验证可信的，而核酸库中有些序列并没有得到验证或者其序列并不完整，有时只是核心序列，但是一般NCBI库里的基因序列都是可信的

答

NCBI里边的序列是先通过测序,得到一系列的测序数据,用相应的一些数学算法和模型（这个很复杂,不是一两句话就能说清楚的）进行组装,拼接和注释.可以理解为是预测吧,但是这种“预测”是比较准确的,有些实验室测了一些序列,发现一些感兴趣的基因,肯定会拿去做实验验证的,但是还是有很多基因的功能是未知的.

答

是的。大部分都是通过基因预测得来的，需要后期验证。准确度应该说还是蛮高的，在基因水平上，预测是通过open reading frame得来的，具体有算法，已经很成熟了。当然其中会有一些是假基因，pseudogene。做表达没有问题，可能可以找出不同的转录产物。