锦鲤疱疹病毒胸苷激酶基因的生物信息学分析
作者: 陈莉 周广彪 郑耿东 温尔英 陈文婉 吴松浩 利光辉
摘要 [目的]探究锦鲤疱疹病毒胸苷激酶(Thymidine Kinase,TK)基因编码蛋白的生物学特性及结构功能特征。[方法]采用生物信息学软件对胸苷激酶蛋白的理化性质、亲/疏水性、结构域及二级结构和三级结构进行预测分析。[结果]TK蛋白编码224个氨基酸,不稳定系数较大,属于不稳定蛋白;且该蛋白不含有信号肽及跨膜结构,位于膜外;结构域位于2-175氨基酸残基区域,与其他病毒氨基酸序列比对分析,锦鲤疱疹病毒TK基因与鲤科疱疹病毒亲缘关系较近。[结论]对锦鲤疱疹病毒TK基因的分析,为深入研究锦鲤疱疹病毒的特性及分子机制,采取更有效的精准防控措施提供了基础保障,也为下一步的研究计划提供了方向。
关键词 锦鲤疱疹病毒;胸苷激酶;生物信息学
中图分类号 S 917.4 文献标识码 A
文章编号 0517-6611(2023)16-0090-05
doi:10.3969/j.issn.0517-6611.2023.16.022
开放科学(资源服务)标识码(OSID):
Bioinformatics Analysis of Koi Herpesvirus Thymidine Kinase Gene
CHEN Li1,2,ZHOU Guang-biao1,2,ZHENG Geng-dong1,2 et al
(1.Shantou Customs District Technology Center,Shantou,Guangdong 515041;2.Shantou Customs Technology Center/Shantou University Science College Joint Laboratory of Aquatic Products,Shantou,Guangdong 515041)
Abstract [Objective]To investigate the biological properties and structure-function characteristics of the protein encoded by thymidine kinase (TK) gene of koi herpesvirus.[Method]Bioinformatics software was used to predict the physicochemical properties,hydrophilicity/hydrophobicity,domain and secondary structure and tertiary structure of the thymidine kinase protein.[Result]The results showed that TK protein encodes 224 amino acids with a large instability coefficient,which is an unstable protein;and the protein does not contain signal peptide and transmembrane structure,which is located outside the membrane;the structural domain is located in the region of amino acid residues 2-175,and the analysis of amino acid sequence comparison with other viruses showed that the TK gene of koi herpesvirus is closely related to koi herpesvirus.[Conclusion]The analysis of the TK gene of koi herpesvirus provides a basic guarantee for the in-depth study of the characteristics and molecular mechanism of koi herpesvirus and the adoption of more effective and precise prevention and control measures,and provides a direction for the next research plan.
Key words Koi herpesvirus;Thymidine kinase;Bioinformatics
基金项目 汕头海关科研项目“广谱中和剂的研制及其对医用消毒用品微生物检验的影响”(2020STK009);汕头海关科研项目“观赏鱼类检疫性病毒生物信息学分析及病毒爆发的分子机制”(2022STK004);汕头海关科研项目“特殊样本核酸提取及测序分析在海关缉私鉴定中的应用研究”(2022STK005)。
作者简介 陈莉(1992—),女,安徽合肥人,助理工程师,硕士,从事水生动物疫病研究。通信作者,高级兽医师,从事病原生物检测鉴定研究。
收稿日期 2022-07-20
锦鲤疱疹病毒(Koi Herpesvirus,KHV)又称鲤鱼间质性肾炎及鳃坏死性病毒(carp interstitial nephritis and necrosis virus,CNGV),被归类为疱疹病毒目(Herpesvirales)疱疹病毒科(Herpesviridae)鲤疱疹病毒属(Cyprinid Herpesviridae),该病原被我国列入动物疫病病种名录中的二类疾病,世界动物卫生组织(WOAH)也将其列为必须申报的动物疫病之一[1-4]。锦鲤疱疹病毒是一种dsDNA疱疹病毒的病原体,它是由31种病毒粒子多肽和8种糖基化蛋白组成,成熟的病毒粒子包含一个松散的包膜,病毒粒子总直径为170~230 nm,具有一个线性双链DNA基因组[5-8]。Aoki等[9]描述了锦鲤疱疹病毒的全基因组序列,并鉴定了156个独特的蛋白质编码基因,为后续科学研究奠定基础。鱼类感染锦鲤疱疹病毒,最明显的特征之一是鳃弓内血管充血,鳃耙变细,其次该病易发生在肾,肾小管周围出现炎性浸润,并伴随血管充血;发病中后期,病鱼行动缓慢,鱼眼严重凹陷,一般情况下,锦鲤患病死亡率高达90%~100%,因此应引起各国高度重视[10-14]。有研究表明,疱疹病毒增殖的主要毒力基因是胸苷激酶基因[15],胸苷激酶基因编码胸苷激酶,该酶可将核苷类似物无毒性抗病毒物丙氧鸟苷磷酸化为一磷酸化形式,继而在细胞的一磷酸鸟苷激酶或细胞内其他激酶的作用下形成二磷酸化产物和三磷酸化产物,三磷酸化产物能整合到细胞DNA上,抑制DNA聚合酶的活性,从而抑制蛋白的合成,阻断DNA的合成,使分裂细胞被杀伤。锦鲤疱疹病毒中ORF140基因编码胸苷激酶,是致病基因中的一种,在病毒吸附、穿入、复制合成及细胞中发挥重要作用[16]。
生物信息学(Bioinformatics)是随着人类基因组计划发展而不断发展的一门联合计算机和信息科学中的技术、方法[17-18]。生物信息学在分子生物学领域取得重大进步,加上基因组技术的进步,突显生物信息学的重要性。随着一代测序、二代测序及三代测序的快速发展,测序成本不断降低,促使更全面、更深入地对基因组进行分析。目前基于生物信息学的方法多种多样,笔者通过相关软件对锦鲤疱疹病毒胸苷激酶基因进行生物信息学分析,以期为锦鲤疱疹病毒的分子生物学研究提供方向,为下一步研究的开展奠定基础。
1 材料与方法
1.1 序列信息 锦鲤疱疹病毒(KHV)登录号:DQ177346.1,可由登录号在NCBI中查阅完整基因序列。胸苷激酶基因(登录号:AB375391)是编码其中一段以ATG为起始密码子,在NCBI(https://www.ncbi.nlm.nih.gov/nuccore/AB375391)中可以查看TK基因的完整基因序列。
1.2 方法
1.2.1 BioXM基因序列的组成分析。BioXM是进行DNA序列的常规分析,包括ORF查找、序列格式化、翻译、限制酶切位点分析等功能,通过对基因组分析,确定序列的基本信息。利用NCBI数据网站获得TK基因的序列,以FASTA格式保存至相关文件夹。将TK基因序列运行至BioXM软件中,获得核酸序列的组成分析。
1.2.2 TK蛋白质理化性质分析、亲/疏水性、信号肽及跨膜区预测。根据TK基因登录号,从NCBI中获得的TK基因序列,利用NCBI ORF Finder软件寻找序列中潜在开放阅读框(open reading fraction,ORF),并获得TK基因的氨基酸序列。通过获取的氨基酸序列和在线软件Expasy进行蛋白质的理化性质分析,将获得蛋白质的一般信息;使用在线分析软件ProtScale(http://web.expasy.org/cgi-bin/protparam)预测TK蛋白的亲水性和疏水性;利用在线分析软件TMHMM server(http://www.cbs.dtu.dk/services/TMHMM)和SignalP sever(http://www.cbs.dtu.dk/services/signalP)预测TK蛋白的信号肽和跨膜结构,获得相关数据。
1.2.3 TK蛋白结构域分析。利用在线软件NCBI-CDD分析TK蛋白的结构域,并结合HMMER和SMART对TK蛋白同时进行预测。
1.2.4 TK蛋白的二级结构和三级结构预测。利用SOPMA软件对已获得的氨基酸序列进行蛋白质二级结构预测的综合分析。根据SWISS-MODEL软件进行蛋白质三级结构预测,为丰富TK基因的蛋白数据提供支持。
1.2.5 利用MEGA构建蛋白系统发育树。从数据库中获得不同病毒中TK蛋白的氨基酸系列,利用MEGA6软件的NJ法构建蛋白质系统进化树,分析亲缘关系。
2 结果与分析
2.1 TK基因序列的组成
根据TK基因登录号,从NCBI数据网站获得TK基因序列,将序列输入BioXM软件,可知TK基因序列长度224 bp,其中腺嘌呤核苷酸(A)共24个,占10.71%;鸟嘌呤核苷酸(G)共15个,占总核苷酸序列6.70%;胞嘧啶核苷酸(C)共8个,占总核苷酸序列3.57%;胸腺嘧啶核苷酸(T)共9个,占总核苷酸序列4.02%;其中腺嘌呤核苷酸和胸腺嘧啶占14.73%,较鸟嘌呤核苷酸和胞嘧啶核苷酸(10.27%)少4.46%,TK基因分子量为17 378 Da。
2.2 TK蛋白质理化性质预测分析
TK基因共编码224个氨基酸,编码蛋白质的分子质量为24 623.70 Da,蛋白质的等电点(pI)值为6.31,其中氨基酸的组成见表1。该蛋白中含量前4的为丙氨酸、缬氨酸、亮氨酸和脯氨酸,占比分别为10.7%、9.4%、8.0%和8.0%。酸性氨基酸总数为(Asp+Glu)23,碱性氨基酸总数为(Arg+Lys)22,分子式为C1096H1733N289O316S19,原子总数为3 453。由TK基因编码的蛋白质不含任何色氨酸残基,表明这可能导致计算的消光系数约有10%以上的误差。不稳定系数为44.11,其中不稳定系数大于40,则表示该蛋白不稳定;脂肪指数为84.91,总平均亲水性为0.030。通过ProtScale软件分析结果可知,纵坐标越大,蛋白疏水性就越强。如图1所示,在氨基酸序列第45个位点,亲水性最高;在第5个位点,TK蛋白的疏水性得分最高,综合理化性质分析,说明该蛋白为亲水蛋白。SignaIP是一个信号肽预测服务器,它的功能是预测给定的氨基酸序列中是否存在潜在的信号肽剪切位点及其所在位置。如图2所示,每个氨基酸对应1个S值,信号肽区域的S值较高;同时每个氨基酸有1个C值,在剪切位点的C值是最高的。综合考虑S值、C值、Y值,该蛋白不含有信号肽。蛋白结构决定蛋白功能,利用生物学软件工具TMHMM Server来预测蛋白质跨膜螺旋(图3)。由TMHMM分析结果可知,TK蛋白长度为224,该蛋白不存在跨膜螺旋,同时跨膜螺旋氨基酸残基数量的期望值远远低于18,该蛋白不存在跨膜螺旋和信号肽,且位于膜外。
2.3 TK蛋白结构域分析
根据NCBI-CDD进行蛋白结构域分析,结果可知,该蛋白有一个TK超家族结构域,在序列中的位置是4-185(图4a)氨基酸残基区域,图4b则为该蛋白结构域区间;其中E值越小随机性越低,结果在统计学中越显著。HMMER(图4c和4d)和SMART(图4e)结果表明,TK蛋白结构域位于2-175氨基酸残基区域。综合分析可知,TK蛋白结构域位于2-175氨基酸残基区域的可能性较大。
2.4 TK蛋白质二级结构预测分析