研究密码子偏好性常用的参数
1、相对同义密码子使用度(Relativ e Synonymous Codon Usage, RSCU )
是指对于某一特定的密码子在编码对应多肽的同义密码子间的相对机率,它消除了多肽组成对密码子使用的影响。如果密码子的使用没有偏好性,该密码子的RSCU值等于1,当某一密码子的RSCU值小于1时,代表该密码子为使用相对较多的密码子,反之亦然。第i个多肽的第j个密码子的相对同义密码子使用度值的估算公式如下:
#f:7:e:7:2:7:e:d:3:1:6:f:a:7:1:5:f:c:3:e:3:c:d:d:4:1:b:3:1:8:c:a#
公式中, X ij是编码第i个多肽的第j个密码子的出现次数, n i是编码第i个多肽的同义密码子的数目( 值为1~6) 。研究中一般先借助高抒发基因的RSCU值构建参考表格。
2、密码子适应指数(Codon Adaptation Index, CAI)
可以按照已知高抒发基因的序列来恐怕未知基因密码子使用的偏好性程度。CAI的值在0~1之间, 如果越高则表明该基因的密码子使用偏好性越强。CAI 值通常拿来预测种内基因的抒发水平( 但目前的研究发觉对于单细胞生物比较适用, 而在哺乳动物中并不能拿来表示基因表达水平), 又可以拿来预测外源基因的抒发水平。
w ij(The relative adaptiveness of a codon): 密码子相对适应度
#5:3:a:f:c:1:4:1:0:6:0:7:e:4:d:9:e:8:2:9:6:0:b:1:d:5:b:0:0:1:1:c#
上式中RSCU imax、X imax分别指编码第i个多肽的使用频度最高的密码子的RSCU值和X值
#a:1:3:2:0:2:8:7:4:c:5:e:5:5:d:8:5:1:3:d:b:e:9:2:4:d:b:0:a:7:8:4#
L是指基因中所使用的密码子数。
3、密码子偏好参数(Codon Preference Parameter, CPP)
CPP的变化范围为0 ~ 18, 越接近18表示密码子被非随机使用的程度越高。它对于基因编码区域总的核苷酸组成不敏感, 适于比较基因间或物种间密码子使用偏性的大小。
#4:5:3:e:1:d:d:e:c:6:6:8:1:5:7:3:a:3:1:7:3:d:c:7:a:a:b:8:1:e:6:6#
x ij是编码第i个多肽的第j个密码子的出现次数, n i是编码第i个多肽的同义密码子的数目( 值为2~6, n i= 1 的情况被排除)
4、有效密码子数(Effective Number of Codon, ENC)
ENC值的范围在20~ 61之间, 越紧靠20偏性越强。此值是描述密码子使用偏离随机选择的
程度( 并不是某个特殊密码子的使用频度与其他密码子的比较), 能反映密码子家族中同义密码子非均衡使用的偏好程度。已知高抒发基因其密码子青睐程度也大,从而ENC 值较小; 低抒发基因则富含较多种类的稀有密码子, ENC值也较大, 所以, 当前普遍通过比较ENC来确定内源基因抒发量的相对高低。ENC值越小, 对应的内源基因常常抒发量也越高。
#8:e:1:e:a:2:1:c:d:1:8:c:5:3:7:7:b:6:3:b:7:e:7:e:d:b:7:0:a:1:7:a#
n 表示基因中所使用的密码子总量, k为同义密码子数目, p i是第i个密码子的使用频度( n i/ n ) 。ENC值会遭到基因多肽组成和基因长短的影响。
5、最优密码子使用频度(Frequency of Optimal Codons, FOP)
最优密码子是指在某物种高抒发基因中使用频度最高的密码子, 也有人将一个多肽的最优密码子定义为具有最大数目的带有其反密码子tRNA 基因的密码子; FOP 是种特异性的, 而且最优密码子的确定须要一组基因序列以及相应的抒发信息。
计算公式如下:
#8:0:e:7:b:9:0:d:7:f:9:1:8:8:9:b:e:a:5:7:7:e:3:e:d:f:1:6:d:f:1:6#
#0:3:b:1:4:1:4:0:f:0:d:2:7:6:9:7:2:d:2:8:b:9:1:4:0:c:a:8:b:7:f:f#
下标s代表“simple ”, n i表示基因g中密码子i的数目; N为基因g中的密码子总量, 但是用这一方式估算的FOP值受多肽组成的影响; 为了克服这一缺点人们改进了估算方式:
#6:9:1:4:4:b:5:3:e:3:4:0:1:a:e:4:8:7:4:9:d:5:8:5:8:b:d:f:5:c:5:f#
#0:7:3:4:d:b:a:a:0:b:9:8:4:5:6:0:e:e:0:e:8:5:8:7:4:b:1:0:0:d:9:6#
公式中的syn(i)表示密码子i编码的多肽对应的同义密码子数目。上式整理后可得:
#3:b:d:5:1:c:1:a:e:0:f:b:a:1:a:7:1:5:3:f:a:9:b:e:2:b:3:4:0:4:7:5#
#1:e:3:6:d:1:9:b:d:6:0:4:2:5:6:8:9:3:f:4:6:7:4:2:e:4:5:2:4:1:d:3#
公式中,可见FOP成为了多肽使用频度为加权系数的最优密码子
的RSCU值加权平均值。
6、密码子青睐指数(Codon Bias Index, CBI )
反应了一个具体基因中高表达优越密码子的组分情况。对目的寄主自身的基因, 该指数和ENC值有挺好的相关性, 但在实际工作中可以更明晰地反映外源基因在目的寄主中可能的抒发情况, 故而得到广泛应用。
计算公式如下:
#5:5:3:7:4:b:e:b:3:6:e:2:f:d:e:8:5:e:1:0:f:6:3:6:b:1:9:7:3:c:4:d#
N opt代表优越密码子在该基因中出现次数之和; N ran代表多肽序列不变,所有同义密码子随机出现时优越密码子的出现次数之和;N tot代表了优越密码子对应的多肽在基因中出现的次数之和。
7、G+C浓度
一般觉得G+C浓度越高,密码子的偏好性就可能就越强!其浓度可以通过一些软件进行编程进行求出,比如说使用perl语言。
8、GC3S
第三位上的各类核苷酸的浓度,在蛋白质的合成过程中同义密码子的使用机率并不相同,而同义密码子的主要差异彰显在第三位核苷酸上。
9、Kyte和Doolittle
计算每一个氢基酸的疏水指数,然后进行算术平均。(可参考文献:Translational selection shapes codon usage in the GC-rich genomes of Chlamydomonas reinhardtii)
10、对应分析(correspondence analysis, COA)
在对基因密码子使用机率剖析时,将每一条基因作为一个对象,相对密码子使用度作为变量采用59个同义密码子[去除编码组氨酸(M)的密码子AUG和编码色氨酸(W)的密码子UGG以及3个终止密码子的RSCU值对其密码子使用偏性进行剖析基因间的距离规定为同义密码子相对使用度的欧拉平方距离。对于基因a与基因b,其密码子使用距离的估算公式为::
#0:3:f:c:0:d:2:1:0:e:f:3:a:1:4:1:e:7:2:4:d:4:6:2:f:a:2:9:5:d:9:8#
11、AT偏斜(AT-skew)
定义为整个基因组DNA序列的(A - T)/(A + T)的比值。通过估算AT偏斜可剖析整个基因组中A、T的变化趋势。
12、高抒发优越密码子(High-expression Codon ,HE)
参考文献:Expression pattern and , surprisingly , gene length shape codon usage in Caenorhabditis, Drosophila, and Arabi-dopsis1
13、高频密码子(High-frequency Codon)
参考文献:High-frequency codon analysis and its application in codon analysis of tobacco
另外,还有GRAVY值(反映蛋白质的疏水性对密码子使用偏好的影响)、Aromo值(反映芳香族蛋白质对密码子使用偏好的影响)等