须弥葛叶绿体基因组密码子使用偏好性分析
作者: 万美暄 黄显俊 李雪 徐立
摘要 [目的]揭示须弥葛叶绿体基因组中影响其密码子使用偏好和模式的因素。[方法]利用 CUSP在线程序、Codon W 1.4.2、Microsoft Excel、SPSS 24.0等软件,计算并分析须弥葛叶绿体基因组中52条蛋白质编码基因序列(coding sequences,CDS)的密码子使用偏性指标和碱基组成。[结果]须弥葛密码子更偏好A/U结尾的密码子。52条CDS的有效密码子数(effective number of codon,ENC)以及各项偏性指标分析结果均提示密码子偏好性较弱。相关性分析显示,ENC与GC1、GC2的相关性均不显著,但与GC3相关性极显著,表明须弥葛密码子第3位碱基组成对其密码子偏好性影响较大。通过ENC-plot、中性绘图、PR2-plot分析发现,须弥葛叶绿体基因组同义密码子使用偏好性的主要影响因素是自然选择;最后筛选出10个最优密码子UUG、CUU、UCC、UCA、CCA、ACA、GCA、UAU、CAU、AGA。[结论]该结果可为须弥葛叶绿体基因组密码子优化、遗传修饰及系统进化的相关研究提供理论依据。
关键词 须弥葛;密码子偏好;最优密码子;自然选择
中图分类号 Q 943 文献标识码 A 文章编号 0517-6611(2022)21-0102-06
doi:10.3969/j.issn.0517-6611.2022.21.024
开放科学(资源服务)标识码(OSID):
Analysis of Codon Bias in the Chloroplast Genome of Haymondia wallihii
WAN Mei-xuan HUANG Xian-jun2, LI Xue1 et al
(1.College of Basic Medicine, Dali University, Dali, Yunnan 671000;2.College of Pharmaceutical Science, Dali University, Key Laboratory of Yunnan Provincial Higher Education Institutions for Development of Yunnan Daodi Medicinal Materials Resources, Dali, Yunnan 671000)
Abstract [Objective]To reveal the factors that affect the preference and usage patterns of synonymous codons in the Haymondia wallihii chloroplast genome. [Method]The codon usage bias indexes and base composition of 52 coding sequences (CDS) were calculated and analyzed using the CUSP online program, Codon W 1.4.2, Microsoft Excel, and SPSS 24.0. [Result]The results showed that synonymous codons had a greater preference for using codons ending with A/T. The effective number of codon (ENC) values of the 52 CDS and each bias indicator analysis indicated a weak codon preference. The correlation analysis showed that ENC was strongly correlated with GC3, but neither were correlated with GC1 and GC2. GC3 could affect codon usage bias. ENC-plot, Neutrality plot, PR2-plot revealed that natural selection might play an important role in the synonymous codon usage bias of the Haymondia wallihii chloroplast genome. After filtering, ten optimal codons UUG, CUU, UCC, UCA, CCA, ACA, GCA, UAU, CAU and AGA were obtained. [Conclusion]The results of this study can provide a theoretical basis for the related research on codon optimization, genetic modification and phylogenetic evolution of the Haymondia wallihii chloroplast genome.
Key words Haymondia wallihii;Codon preference;Optimal codon;Natural selection
叶绿体(chloroplast,Cp)是半自主性细胞器,在植物光合作用、代谢反应、脂肪酸、氨基酸、维生素等生物合成中至关重要[1]。叶绿体DNA一般以双链环状存在于高等植物叶绿体中,长度在120~180 kb,具有典型的四分体结构[2],且由于其母系遗传和适度的进化速度,在序列和结构上高度保守[3]。因此,Cp基因组测序备受关注,NCBI数据库也提供了越来越多的叶绿体基因组,这为种族遗传学和系统发育方面的研究提供了方便。
密码子(condon)是信使RNA(mRNA)翻译的基本信息单位,61个密码子编码20种氨基酸,除色氨酸和蛋氨酸,其他氨基酸均有1种以上的密码子编码[4]。然而,在蛋白质合成中同义密码子(Synonymous condon)不一定以相同的频率被使用,这种特定密码子使用频率高于其他同义密码子的现象被称为“同义密码子使用偏好性(codon usage bias,CUB)”[5-6]。CUB广泛存在于生物体中,反映了不同物种或品种之间基因的起源、进化趋势和突变模式[7]。有研究表明,CUB与基因表达水平之间存在相关性[8]。此外,密码子使用模式可能会影响 mRNA 生物合成、蛋白质折叠、翻译延伸率及其他下游表达的生物学功能[9]。因此,对CUB分析可以更好地了解物种的遗传规律、蛋白质的机制及预测新基因。
须弥葛(Haymondia wallihii),俗称“马鹿花”,为豆科蝶形花亚科(Papilionaceae)须弥葛属(Haymondia)植物[10]。在我国主要分布于广州、四川、广西、福建、云南等省区及云南省内的思茅、红河、临沧、保山、德宏 、大理 、楚雄、怒江等州市[11]。须弥葛花较大,生长速度快,可做观赏绿化,在大理白族自治州常被采集花朵,腌制野菜[12]。有研究发现,须弥葛中含有大豆素、大豆苷、葛根素、豆甾醇等化合物[12],具有抗心血管疾病的生理活性,还能缓解高血压患者的头痛,解决平滑肌痉挛,镇咳及抑制癌细胞生长等药性[13]。笔者基于须弥葛植物叶绿体基因组高通量测序结果,挑选出长度>300 bp的52条蛋白编码序列,对其进行整合分析,探讨须弥葛密码子使用偏性的影响因素,并最终确定最优密码子,以期为须弥葛的进化关系研究、品种改良及叶绿体基因组的应用提供参考。
1 材料与方法
1.1 试验材料的获取
须弥葛植株的新鲜幼嫩叶片于2019年12月采自云南省丽江永胜县( 25°53′73.23″E,100°25′48.40″N),经云南省高校滇西道地药材资源开发重点实验室的夏从龙教授鉴定为豆科须弥葛属植物须弥葛(Haymndia wallichii)。用无菌水将采集到的健康须弥葛叶片冲洗多次,装入有变色硅胶的自封袋中脱水干燥,委托上海生物科技有限公司的Illumina No-vaSeq 6000平台测序,最后通过组装和注释获得须弥葛叶绿体全基因组序列号(NCBI数据库,登录号为NC052910.1)。
1.2 叶绿体基因组蛋白质编码序列的获取
从NCBI数据库下载须弥葛叶绿体基因组蛋白质编码序列(CDS)后,为加强数据可靠性及减少数据冗杂,剔除重复基因和长度<300 bp的基因[14]。最后将符合条件的52条CDS整合成一个fasta文件,用于后续分析。
1.3 密码子使用偏好性分析
将整理的fasta文件通过CodonW1.4.2软件处理[15],获取到须弥葛叶绿体基因组蛋白质编码基因序列的相对同义密码子使用度(relative synonymous codon usage,RSCU)、编码氨基酸的密码子数量、有效密码子数(effective number of codon,ENC)、最优密码子使用频率(frequency of optical codons,Fop)、密码子适应指数(codon adaptation index,CAI)、密码子偏性指数(codon bias index,CBI)。然后,将52条CDS依次提取整理成52个fasta文件,使用在线程序CUSP[16]计算每个基因不同位置的密码子GC含量(GCall、GC1 、GC2、 GC3),将所得数据使用SPSS 24.0和Microsoft Excel软件进行统计及Person相关性分析。
1.4 PR2 plot绘图分析
PR2 plot图是以C=G和A=U为矢量发出中心点,用A3/(A3+T3)为纵坐标,G3/(G3+C3)为横坐标绘制而成,表明影响密码子偏好性的主要因素[17]。
1.5 中性绘图分析
将GC3作为横坐标,GG1和GC2的平均值(GC12)为纵坐标,作二维散点图,再次绘制回归曲线,然后对GC3和GC12进行相关性分析。
1.6 ENC-plot绘图分析
首先利用Excel绘制GC3和ENC 的二维散点图,并根据公式ENC= 2+GC3+29/[GC32+(1-GC3)2]绘制标准曲线,以此判断基因点在图中分布情况。然后利用ENC公式求得ENC期望,再通过 ENC比值=(ENC期望-ENC实际)/ENC期望,算出ENC比值频数分布,从而确定影响密码子偏好性的主要因素。
1.7 最优密码子的筛选
以52条CDS分别得到的ENC值为基础,用Excel将 ENC值依次排序,选出ENC值最高的5个基因和最低的5个基因建立高低表达基因库,然后将这些基因序列整理成不同的fasta文件,运行Codon W 1.4.2软件得出2个库中编码各氨基酸密码子的RSCU值,计算△RSCU值(RSCU高表达,-RSCU低表达)。以高表达组RSCU> 且△RSCU≥0.08的密码子为最优密码子[18]。
1.8 统计分析
使用SPSS 24.0和Excel软件,进行Pearson相关分析,显著性水平为P<0.05或P<0.01。
2 结果与分析
2.1 须弥葛叶绿体基因组密码子偏性分析
2.1.1 相对同义密码子使用度。
须弥葛叶绿体基因组中的52条CDS序列的相对同义密码子使用度(relative synonymous codon usage,RSCU)结果显示(表1),31个高频密码子(RSCU>1)中以U结尾的有16个,以A结尾的有14个,以G结尾的有1个,表明须弥葛叶绿体基因组密码子更倾向A/U结尾。所有高频密码子RSCU值均在1~2,除亮氨酸(Leu)密码子UUA>2,提示须弥葛叶绿体基因组密码子使用偏好性较弱。