广东烟区育种材料遗传性状及群体结构分析
作者: 宗钊辉 陈帧禄 贺广生 王军 曾涛 陈泽鹏 赵伟才
摘要 为明确广东烟草主要育种材料间的遗传关系,通过对广东烟草的5个主要育种材料(YY98、HY1、NX002、NX212与K326)重测序,进行遗传多样性及群体结构分析。平均测序深度高达25.10X,R_q30>95%,基因组平均覆盖度为92.88%,通过筛选分析,最终获得26728180 SNPs,不同染色体间SNP数量分布差异较大,SNP密度在7.4~11.1个/kb,其中17号染色体上数量最多。不同品种间在Chr3、Chr4、Chr8、Chr12、Chr14和Chr22上分化程度较大,其中Chr3染色体分化程度最大,平均杂合度为0.471 5。 K326、NX002、NX212群体的杂合度大于0.500 0,具备较高的遗传多样性。系统发育树与主成分分析均认为NX002与K326,HY1与YY98亲缘关系接近,聚为一类,NX212单独分支。该研究为广东烟草亲本选配、优良育种材料利用提供技术支持。
关键词 烟草品种;重测序;SNP;群体分析;多样性分析
中图分类号 S572 文献标识码 A 文章编号 0517-6611(2023)19-0031-05
doi:10.3969/j.issn.0517-6611.2023.19.007
Analysis of Population Diversity and Structure of Main Cultivars in Guangdong Province Based on Whole Genome Resequencing Data
ZONG Zhao-hui1,2, CHEN Zhen-lu3, HE Guang-sheng3 et al
(1. Guangdong Tobacco Scientific Research Institute, Shaoguan, Guangdong 512000;2. Guangdong Tobacco Shaoguan City Co., Ltd., Shaoguan, Guangdong 512000;3. China National Tobacco Corporation Guangdong Branch, Guangzhou, Guangdong 510000)
Abstract In order to clarify the genetic relationship of main breeding materials in Guangdong Province, the population diversity and structure of main breeding materials (YY98, HY1, NX002, NX212 and K326) were analyzed by resequencing. The average sequencing depth was as high as 25.10X, R_q30>95%, and the average genome coverage was 92.88%. The 26,728,180 SNPs were finally obtained by screening and analysis. The number distribution of SNPs between different chromosomes had significant differences, the SNP density was 7.4-11.1/kb ,and the largest SNP density was Chr17. The Chr3, Chr4, Chr8, Chr12, Chr14 and Chr22 had the higher degree of chromosomal differentiation, which Chr3 had the highest. The average heterozygosity was 0.471 5, the heterozygosity of K326, NX002 and NX212 populations were more than 0.500 0, which had higher population diversity. The phylogenetic tree and principal component analysis indicated highly similarity formost of NX002 and K326, HY1 and YY98, the NX212 was a separate branch. This study provided scientific reference for parental selection and utilization of excellent breeding materials in Guangdong Province.
Key words Tobacco varieties;Resequencing;SNP;Population analysis;Diversity analysis
作物在种植过程中,生长发育受生态环境、种植水平与品种等因素影响,其中品种对作物产量与质量尤为重要[1-2]。优良品种(系)的研究价值不仅在于提质、增产与高抗,更是作为重要种质资源与品种选育的重要材料,研究其携带的优良基因以及与其他品种的基因差异,包括优良基因在染色体的位点、蛋白质组学功能与SNP分析[3-4]。
烟草是我国重要的经济作物,是烟草行业可持续发展的重要保障,优良烤烟品种是生产优质烟叶的前提。烟草基因组计划重大专项启动以来,我国烟草分子育种技术取得了快速发展,在烟草育种分子标记辅助选择、种质资源遗传多样性分析、群体遗传结构分析、遗传图谱构建、标记-性状关联分析和基因芯片等领域广泛应用[5-8]。明确育种材料的遗传背景及其遗传关系,能减少育种材料选择与亲本选配的盲目性,提高育种的选育效率,对于常规育种具有重大的意义[9-11]。遗传背景分析包括遗传多样性、群体结构等,对于烟草种质资源的遗传多样性与群体结构研究已有多篇报道,蒋勋等[12]通过对春雷一号等30分高烟碱烤烟种质资源进行再鉴定,筛选出春雷一号、毕金一号、8100、I-35、广东黄(1)、辽烟十四号和 NC729共7 个低糖、高烟碱烟草品种;向小华等[13]利用92分雪茄烟种质资源进行遗传分析,将雪茄烟种质分为4类,构建了92份雪茄烟种质资源DNA 指纹图谱代码;陈芳等[14]利用SSR标记把80份种质资源分为两大类群,构建了不同烟草种质资源的数字指纹图谱;方敦煌等[15]利用SSR标记把60份香料烟种质资源分为3个亚群;刘国祥等[16]利用SSR标记将33份晒烟种质资源分为2个亚群。以上研究都是基于第二代分子标记技术进行的烟草种质遗传资源分析,但我国的烟草品种遗传狭窄,开发出的SSR 标记多态性水平低,导致SSR 标记在烟草中的研究和应用存在一定局限性。
全基因组重测序(whole genome resequencing,WGR)是通过对已知基因组序列物种不同个体的基因组进行测序,对不同种质资源进行差异性分析的高通量测序技术,前人利用从测序技术对马铃薯[17]、金针菇[18]、大麦[19]、水稻[20]等作物的种质遗传多样性进行分析。鉴于此,笔者基于重测序技术对韶关5个烤烟品种(系)进行全基因组重测序,分析其遗传多样性及群体结构,为烤烟亲本选配、优良育种材料利用提供理论依据。
1 材料与方法
1.1 供试材料
供试的5个品种(系)来自广东省烟草南雄科学研究所,详细信息见表1。
1.2 样品取样与SNP标记检测
试验材料种植于广东省烟草南雄科学研究所内的原种圃内,打顶后选取长势良好、无病害发生的烟株腋芽。样品送至华大农业研究院进行高通量测序,根据识别标签序列得到每个个体的测序reads,先使用Trimmomatic(0.38)对测序原始数据进行过滤处理,主要是去除接头污染和低质量reads,得到高质量的cleandata数据用于后续的比对分析。
以Nitab-v4.5_genome_Chr_Edwards2017.fasta.gz为参考基序列,使用短序列比对软件BWA(Version:0.7.16a)的 “mem”算法将 clean reads 比对到参考基因组上(比对参数为-t 2 -k 32 -M -R),使用samtools(v1.7)将sam格式的比对结果转换为bam格式,再用gcta(v 4.1.1.0)软件的SortSam工具对比对文件进行排序得到的sort.bam文件,使用MarkDuplicates工具标记重复,利用HaplotypeCaller模块3.2的比对结果进行变异检测,仅选择mapQ值大于20且为properly paired比对的reads用于后续的变异检测分析(过滤参数为-ERC GVCF --minimum-mapping-quality 20)。
1.3 群体结构分析
以系统进化树、主成分分析和Structure分析,研究样本间的亲缘关系和进化关系。
1.3.1 系统发育树。
采用IqTree软件构建系统发育树,使用GTR+CAT模型进行最大似然亲缘关系分析(https://itol.embl.de/)。
1.3.2 主成分分析。
PCA 仅针对个体数n=XX 的常染色体数据,忽略高于2个等位基因位点以及错配数据,其分析方法如下在个体i,k位置的SNP用dik表示,若个体i与参考等位基因是纯合,则dik=0;若是杂合,则dik=1;若个体i与非参考等位基因是纯合,则dik=2。利用公式计算获得标准基因型的n×S的矩阵:
式中:E(dk)是dk的平均值;个体样本协方差n×n矩阵通过X=MMT/S计算测出。最后利用功能特征函数R分解X特征向量。采用GCTA(v1.93)软件进行PCA 分析,利用过滤好的SNP数据构建所有样本间的亲缘矩阵;再使用构建好的亲缘矩阵计算前3个特征值和特征向量;最后,使用Python脚本进行图形展示。
1.3.3 群体间遗传系数(Fst)分析。
Fst指数由F统计量演变而来,反应群体等位基因杂合性水平,用于衡量种群分化程度。计算公式:
式中:πBetween代表群体间的两两个体差异的均值;πWithin 代表群体内两两个体差异的均值。
使用vcftools软件进行群体Fst分析,参数为(--fst-window-size 500000-fst-window-step 50000)。
2 结果与分析
2.1 不同烤烟品种(系)重测序质量评估
样本重测序数据详细结果见表2。样本测序的碱基序列在5.060×109~5.880×109;每个样本重测序数据与参考基因组比对R_q20值在98.70%~98.80%,平均值98.74%;R_q30值在95.70%~96.18%,平均值95.90%;R_gc含量在39.78%~45.24%,平均值42.42%。以Nitab-v4.5_genome_Chr_Edwards2017.fasta.gz为参考基因组序列,共有24条染色体,比对结果见表3,每个样本与参考基因组的比对率最高93.64%,最低91.97%,平均92.88%;测序深度最高27.96X,最低23.37X,平均测序深度为25.10X,平均覆盖度为92.77%。以上数据表明,送样样本与参考基因组的相似度达到重测序标准,满足该群体的遗传多样性分析与群体结构分析。
2.2 不同烤烟品种(系)间SNP检测、统计结果
采用GATK(v4.1.1.0)软件对群体进行SNP变异进行检测,被检测到的SNP再用GATK进行过滤,具体参数如下:SNP过滤参数:"QD < 5.0 || QUAL<50.0 || MQ < 20.0。然后对SNP进行“无缺失”过滤,最终被明确定位在染色体水平上的SNP位点为26728180 SNPs,这些SNP位点将被用于5个烤烟种质资源的遗传多样性分析。
从各染色体的SNP位点分布情况来看(图1),不同染色体上均有SNP位点分布,染色体间分布差异较大。17号染色体上SNP位点数量最多为2 346 665个,占总数的8.78%,其次是22号、6号、1号染色体,SNP位点数量分别为1 613 506、1 503 797、1 388 858个,占比分别为6.04%、5.63%、5.20%;9号与21号染色体SNP位点数量分别为702 575、740 812个,占比分别为2.63%、2.77%,其余染色体位点数量在8.0×106~1.22×107,占比在3.00%~4.70%。从各染色体SNP位点密度来看(图2),SNP密度在7.4~11.1个/kb,1号、3号、5号、6号、7号、8号、10号、11号、17号、20号染色体SNP密度较大,在10个/kb以上,其余染色体SNP密度均在10.0个/kb以下。