主页 > 案例大全 > 论文技巧大全-基于支持向量机对2019新型冠状病毒的分期预测

论文技巧大全-基于支持向量机对2019新型冠状病毒的分期预测

2021-04-01 10:31:23

  2019新型冠状病毒的出现严重影响到了我们的生活,无论是对人民群众的生命安全,还是国家的经济与建设都产生了极大的危害。对2019新型冠状病毒的分期预测有助于进一步了解和分析疫情发展的趋势与疫情发展的程度。

  本文构建了2019新型冠状病毒数据集,其中包含病毒的RNA序列信息,编码蛋白质的氨基酸序列信息。从数据集中提取了RNA序列的k-mer信息,氨基酸组分信息,氨基酸二肽组分信息等作为特征参数。利用单特征以及各种特征融合,根据SVM算法在Jackknife检验下对2019新型冠状病毒数据集进行预测,取得了一些有意义的结论。本文还利用网络服务器CVTree3构建了2019新型冠状病毒的系统发生树。

  1.1研究背景介绍

  2019年12月,有新闻陆续报道在我国的湖北省武汉市出现多例不明原因造成的肺炎案例。之后证明这是一种由先前没有在自然界中发现的冠状病毒引起的,被这种病毒感染之后会引发急性呼吸道传染病。2020年2月11日,2019新型冠状病毒被世界卫生组织正式命名为“COVID-19”(corona virus disease 2019)。截止3月24日24时,2019新型冠状病毒已经造成我国81803人确诊,3283人死亡,虽然目前在我国以武汉为主战场的本土疫情传播已经基本阻断,但是在全球其他地区,这场由2019新型冠状病毒引发的传染病仍在肆虐。

  1.2研究目的介绍

  2019新型冠状病毒的传播严重危害到了我们的生活和生命。自疫情爆发起,我国所有地区人民群众的正常生活都遭受到了干扰,许多人在与这场病毒抗争期间失去了自己的生命。由于2019新型冠状病毒是一种正链的单链RNA病毒,在传播的过程中很容易发生突变,为防控病毒疫情和制定病毒性肺炎治疗方案加大了难度。而病毒的突变往往会在病毒感染的宿主类型与病毒感染力的强弱这两方面产生影响。所以,对2019新型冠状病毒的分期预测有助于进一步了解和分析疫情发展的趋势与疫情发展的程度。

  1.3 2019新型冠状病毒与冠状病毒简介

  2019新型冠状病毒是一种全新的冠状病毒,此前并没有在自然界中被发现[[[1]Na Zhu Ph.D.,Dingyu Zhang M.D.,Wenling Wang Ph.D.,Xingwang Li M.D.,Bo Yang M.S.,Jingdong Song Ph.D.,Xiang Zhao Ph.D.,Baoying Huang Ph.D.,Weifeng Shi Ph.D.,Roujian Lu M.D.,Peihua Niu Ph.D.,Faxian Zhan Ph.D.,Xuejun Ma Ph.D.,Dayan Wang Ph.D.,Wenbo Xu M.D.,Guizhen Wu M.D.,George F.Gao D.Phil.,Wenjie Tan M.D.Ph.D.,for the China Novel Coronavirus Investigating,Research Team.A Novel Coronavirus from Patients with Pneumonia in China,2019[J].New England Journal of Medicine,2020(prepublish).]]。而冠状病毒则比较常见,在该病毒的包膜四周存在着形状与花冠相似突起,因此而得名冠状病毒[[[2]李长宁,吴敬,马爱宁,胡洪波.新型冠状病毒肺炎健康教育手册[M].北京:人民卫生出版社,2020:2.]]。可见图1.1所示。

  图1.1 2019新型冠状病毒球状模型图[[[3]陈凯星,周亮.了解新冠病毒[DB].新华社客户端,2020]]

  冠状病毒是个大型的病毒家族,与人和动物的多种疾病相关。人感染了这种病毒之后,病情的严重程度也不相同,有些是轻微的感冒,而有些可能会发展成为重症疾病。动物冠状病毒一般分为两类,一类是哺乳动物冠状病毒,另一类是禽冠状病毒。在日常生活中如果我们接触、加工、甚至食用某些野生动物的话,可能会发生冠状病毒在不同物种之间传播的情况,从而引发人类疾病。目前,对于2019新型冠状病毒是通过什么动物媒介以何种途径及方式传给人的,仍然需要深入的研究。因为该病毒与中东呼吸综合征相关冠状病毒(MERS-Cov)和严重急性呼吸综合征相关冠状病毒(SARS-Cov)同属于β冠状病毒属[[[4]赵文明,宋述慧,陈梅丽,邹东,马利娜,马英克,李茹姣,郝丽丽,李翠萍,田东梅,唐碧霞,王彦青,朱军伟,陈焕新,章张,薛勇彪,鲍一明.2019新型冠状病毒信息库[J].遗传,2020,42(02):212-221.]],所以对其的认识多来自于对这两种病毒的研究。

  1.4论文研究内容和安排

  本文主要是对2019新型冠状病毒分期预测进行研究,建立2019新型冠状病毒数据集,根据病毒序列信息分别提取了每条序列的单碱基信息,二联体信息,三联体信息和编码蛋白质序列的氨基酸组分信息,运用到了支持向量机算法对所构建的数据集进行预测。文章主要包括以下几个部分:

  第一章介绍研究课题的背景和目的,也简要的介绍了2019新型冠状病毒与冠状病毒相关内容。

  第二章对本次研究课题所用数据库和构建的2019新型冠状病毒数据集进行介绍。

  第三章介绍了预测研究中特征参数提取及理论预测算法。

  第四章对2019新型冠状病毒分期预测结果进行展示和分析。

  第五章对建立的数据集构建系统发生树。

  最后是将论文的内容进行归纳的总结与致谢和参考文献。

  第2章数据集建立过程介绍

  2.1数据库介绍

  2.1.1 2019新型冠状病毒信息库简介

  本次课题研究所构建的数据集病毒序列信息来源于2019新型冠状病毒信息库[4](2019nCoVR,https://bigd.big.ac.cn/ncov)。该信息库是由国家生物信息中心(CNCB)/国家基因组科学数据中心(NGDC)建立的,并于2020年1月22日正式对外公开。

  自复旦大学教授张永振于2020年1月5日向美国国家生物技术信息中心(NCBI)的GenBank数据库提交了第一条2019新型冠状病毒基因组序列之后,在全球有许多个数据库相继公布已经完成测序的2019新型冠状病毒序列数据。这些序列及其相关信息散落在多个数据库中,没有形成统一的能够集中访问的数据集,这样的情况为科研人员在获取数据的过程中带来了很多不便。为了解决这些问题,让科研人员更方便的获得数据,同时构建能够高效完成基因组序列信息递交与发布的系统,CNCB/NGDC整合了全球2019新型冠状病毒的相关数据,构建了信息库。截止2020年3月24日24时,该信息库已经收录了201家数据单位递交的1824条2019新型冠状病毒序列。

  2.1.2美国国家生物技术信息中心NCBI数据库简介

  美国国家生物技术信息中心(NCBI,www.ncbi.nlm.nih.gov)GenBank数据库是本次课题研究所用到的另一个数据库。GenBank是NCBI最先创建的数据库[[[5]张见影,伦志军,李正红.NCBI基因序列数据库使用和检索方法[J].现代情报,2003(12):224-225.]],目前GenBank已经拥有来源于47000个物种的30亿个碱基。与2019新型冠状病毒数据库比较,NCBI的GenBank数据库中收录的新型冠状病毒序列信息还包括了编码蛋白质的碱基序列(CDS)及相关的编码蛋白质的氨基酸序列信息。

  2.2数据集建立过程介绍

  本文所用数据来自2019新型冠状病毒信息库与NCBI两大数据库。建立数据集的过程分为以下两个步骤,第一步,建立数据集,其中所有的序列完全依据这些规则得到:(1)从2019新型冠状病毒信息库搜索2019新型冠状病毒序列,(2)去掉质量低,采样时间不明确的病毒序列,(3)去掉无法在该网站直接获取的病毒序列。最终得到了144条2019新型冠状病毒序列。第二步,在NCBI数据库中检索关键词2019-nCov,在该词条下下载第一步中得到的144条2019新型冠状病毒编码蛋白质的氨基酸序列信息。

  得到的144条病毒序列按照2019新型冠状病毒在我国传染发展情况划分为三个类别,主要依据的是每日确诊患有2019新型冠状病毒肺炎的数据。本文将1月26日包括1月26日之前划分为第一个时期,将1月27日至2月18日划分为第二个时期,将2月19日包括2与19日至3月17日划分为第三个时期。具体序列数据信息见下表2.1。

  表2.1 2019新型冠状病毒数据集每种亚基的信息描述

  亚集条数最长序列(nt)最短序列(nt)平均长度(nt)

  1 55 29911 107 15955

  2 53 29981 367 23333

  3 36 29903 87 19187

  第3章特征参数提取与分类预测算法介绍

  3.1特征参数提取

  3.1.1 k-mer RNA序列信息

  2019新型冠状病毒的RNA序列中携带着非常重要的遗传信息,在这些信息中,序列中的信息是最基本的。序列中有四种不同的碱基:腺嘌呤(Adenine,A)、鸟嘌呤(Guanine,G)、胞嘧啶(Cytosine,C)、尿嘧啶(Uracil,U),它们构成了一条RNA序列。考虑到这四种碱基并不相同,比如说碱基的大小,化学性质等方面,本文从k-mer RNA序列信息出发,计算了在不同时期下2019新型冠状病毒RNA k-mer频数偏好。当k=1时,1-mer代表的是四种碱基A、G、C、U在RNA序列中出现的频率。这时,我们能够用一个4维的特征向量来表示数据集中任意的一条RNA序列。当k=2时,2-mer代表的是在RNA序列中二联体出现的频率,也就是在任意一条RNA序列中紧邻的两个碱基所出现的频率,在这种情况下一共有16(4×4)种二联体,这时我们能够用一个16维的特征向量来表示数据集中任意的一条RNA序列。当k=3时,3-mer代表的是在RNA序列中三联体出现的频率,也就是在任意一条RNA序列中紧邻的三个碱基所出现的频率,在这种情况下一共有64(4×4×4)种三联体,这时我们能够用一个64维的特征向量来表示数据集中任意的一条RNA序列。以此类推,数据集中任意的一条RNA序列,我们都能够选择用一个维的特征向量来表示。那么2019新型冠状病毒RNA序列则可由k-mer频数表示为如下公式:

  (3.3)

  在这之中,表示在第个亚集中第k个k-mer出现的频率。

  3.1.2氨基酸n肽组分信息

  氨基酸组分特征是蛋白质特征参数模型提取中最简单且最基础的方法,这个模型可以将20种氨基酸在序列中出现的频率分别用20个离散数字来表示。假设任意一个蛋白质,其序列的长度是,那么氨基酸组分特征就可以由以下的公式来表示:

  (3.2)

  其中,表示的是序列中的第一个残基,表示的是序列中的第二个残基,以此类推直到表示完序列中所有的残基。因为一共有20种氨基酸残基,所以根据此模型我们可以用一个20维的特征向量来表示数据集中任意一条序列:

  (3.3)

  其中,表示的是20种标准氨基酸;表示的是所分时期类别;表示的是类别总数;表示的是种类别中具有的蛋白质序列数目;表示的是种类别中蛋白质序列序号;表示的是种类别中第条蛋白质中第种氨基酸残基出现的频率;代表矩阵运算。

  虽然根据氨基酸组分信息进行预测是非常简便可行的预测方法,但这种方法并没有将氨基酸序列中残基的顺序表现出来。提取氨基酸n肽组分信息,这样一来就能够将序列之中与氨基酸残基顺序有关的信息表现出来,在n=1时,表示的是氨基酸组分信息,在n=2时,表示的是氨基酸二肽组分信息(dipeptide composition,DC),也就是两两组合之后的20种氨基酸在一条序列中出现的频率信息,此时使用到了字母的顺序排列;随着n的增大,虽然能够继续为我们提供有价值的信息,但是当时,会出现特征向量的维数变大的现象。而维数过大可能会带来一些问题,比如说引入噪声,这个问题会导致对我们有用的信息被掩盖,从而不能将序列中的信息准确真实的反映出来,因此在这样的情况下本文只考虑了的情况。在n=2时,数据集中每一条序列都能够由一个400维的特征向量表示:

  (3.4)

  在这之中,表示的是第种分类中第条蛋白质序列中某类氨基酸残基对在序列中出现的频率;表示的是某一类氨基酸残基对;表示的是转置运算。

  3.2支持向量机算法介绍

  3.2.1算法介绍

  万普尼克(Vapnik)根据统计学方法建立了一套关于机器学习的理论[[[6]Vapnik V.The Nature of Statistical Learning Theory.New York:springer,1995,1-188]],统计学习理论(Statistical Learning Theory,SLT),并且在这套理论的基础上他又提出了一种新的理论:支持向量机(Support Vector Machine,SVM),在机器学习理论的研究方面和一些应用领域都做出了非常显著的贡献。自SVM在20世纪90年代被Vapnik和他的研究团队提出后,不少的学者证明了这种方法在数据挖掘方面的有效性与应用的广泛性。自其诞生以来,发展势头相当迅猛。

  在解决实际问题过程中,能够采集的样本数据一般来说是有限的,这就使得原来具有良好学习能力的学习机器在泛化能力方面表现的很差,而支持向量机能够在映射之后的高维特征空间中寻求一个最优分类面。这使得样本数据少带来的问题得到解决。此次所选用到的是支持向量机中的C-支持向量分类器(C-SVC),核函数为径向基核函数:

  (3.5)

  在本文中所使用到的是由Chang和Lin共同开发的LIBSVM软件[[[7]Chang CC,Liu CJ.LIBSVM:A Library for Support Vector Machines[J].Acm Transactions on Intelligent System And Technology.2011,2(3):1-27.]],可以在http://www.csie.ntu.edu.tw/~cjlin/libsvm/免费获取。

  3.2.2支持向量机优点

  (1)在样本数量很少时,得到性能较好的决策函数。

  (2)利用核函数,SVM可以解决非线性问题。

  (3)与其他方法相比,“少数向量”决定SVM最终决策函数的机制在一定程度上可以避免“维数灾难”。同时,也利于抓住数据样本中那些关键样本,剔除冗余样本,简化算法。

  (4)通过求解凸二次规划问题,来最大化决策边界的边缘,这样可以很好地控制SVM的分类和回归能力,与此同时保障得到的最小值就是全局最小值。

  (5)很少出现“过拟合”现象。

  3.3算法评价

  检验预测系统好坏方法很多,通常情况下会用到以下几种:Jackknife检验、k-fold交叉检验、独立检验。在这之中的Jackknife检验[[[8]Chou KC,Elrod DW.Protein Subcellular location Prediction[J].Protein Eng.1999,12(2):107-18.]],它是把N条病毒序列中的每一条序列分别当作测试集,剩下的N-1条序列则当作训练集,然后重复N次进行测试。

  对于评价预测性能的指标,本文主要采用了敏感性(Sensitivity,)、特异性(Specificity,)、总体预测成功率(Accuracy,)、相关系数(Matthews correlation coefficient,MCC)这四个指标进行评价,这些指标分别定义如下:

  (3.6)

  (3.7)

  (3.8)

  (3.9)

  在这之中,代表的是第个亚集里正确预测的新型冠状病毒序列的条数,则代表的是不属于第个亚集里的正确预测的新型冠状病毒序列的条数,指的是并不是第个亚集里的新型冠状病毒序列但是却将其预测成为了第个亚集中的新型冠状病毒序列的条数,则指的是第个亚集里的错误预测的新型冠状病毒序列的条数,N表示的是构建的数据集中所有的新型冠状病毒序列的条数,代表的是所分的亚集类别。

  第4章2019新型冠状病毒的分期预测分析

  4.1特征参数提取方法

  本文对于分期预测所需要的序列中的相关信息全部通过编程软件python完成,python是一种不受局限、跨平台的开源编程语言,因为其能够快速处理数据的能力,强大的功能且简单易学的操作,被广泛的应用到了数据分析和处理等方面。

  本次课题需要提取的序列中的信息主要分为两类,第一类是提取RNA序列中4种碱基分别在整条序列中的占比,提取氨基酸序列中20种氨基酸残基分别在整条序列中的占比,第二类是提取RNA序列中碱基二联体三联体及紧相连的两个氨基酸残基对即二肽在整条氨基酸序列中的占比。在此仅展示提取相关参数代码的核心代码,提取第一类信息时的核心代码:

  图3.1提取第一类信息核心代码

  提取第二类信息时的核心代码:

  图3.2提取第二类信息时的核心代码

  4.2 k-mer RNA序列信息对预测结果的影响

  对于新建的包含144条2019新型冠状病毒序列的数据集,以2019新型冠状病毒的RNA序列、氨基酸序列作为研究对象,选取了1-mer RNA序列信息、2-mer RNA序列频数信息,3-mer RNA序列频数信息,氨基酸组分信息,氨基酸二肽组分信息,基于Jackknife检验使用支持向量机的分类预测算法对三个亚集的2019新型冠状病毒实现分类预测。

  4.2.1 1-mer RNA序列信息对预测结果的影响

  在本文的3.2.1节与4.1节非常详细的介绍了单碱基在整条序列中占比的提取方法,4种不同的碱基在序列中的占比可以将数据集中的每一条序列转化成一个4维的向量:

  (4.1)

  其中,表示第类亚集中病毒序列中的第条序列中某一种碱基出现的频率。

  这时,我们利用1-mer RNA序列信息并结合SVM算法基于Jackknife检验,得到的总体预测精度为:52.8%

  4.2.2 2-mer RNA序列信息对预测结果的影响

  2-mer RNA序列信息的提取方法在3.2.1节与4.1节有详细介绍,当k=2时,2-mer代表的是在RNA序列中二联体出现的频率。此时我们可以得到一个16维的特征向量:

  (4.2)

  其中,表示第类亚集中病毒序列中的第条序列中某种紧相邻的两个碱基对出现的频率;表示某类碱基对。

  根据2-mer RNA序列信息,采用SVM算法,在Jackknife检验下总体预测精度达到了56.9%

  4.2.3 3-mer RNA序列信息对预测结果的影响

  根据本文3.2.1节与4.1节介绍的方法可以提取病毒序列中3-mer RNA序列信息,当k=3时,3-mer代表的是在RNA序列中三联体出现的频率。此时我们可以得到一个64维的特征向量:

  (4.3)

  其中,表示第类亚集中病毒序列中的第条序列中某种紧相邻的三个碱基出现的频率;表示某类三联体。

  根据得到的根据3-mer RNA序列信息,采用SVM算法,在Jackknife检验下总体预测精度的结果为:63.2%

  4.2.4融合信息对预测结果的影响

  本章在RNA方面分别利用了1-mer RNA序列信息,2-mer RNA序列信息和3-mer RNA序列信息。根据这些信息本文分别构建了4维特征向量,16维特征向量与64维特征向量。在根据实际的情况解决问题时,将融合后得到的特征参数使用一定的预测方法进行预测往往能得到不错的结果,因此在本文中也采取了这样的方法,基于Jackknife检测使用SVM算法,不仅对得到的三种单特征参数进行了预测,还选择了融合三种特征信息之后得到的特征参数对2019新型冠状病毒进行分期预测,融合后的特征称为RNA hybrid。在下表4.1中列出了相关参数信息的具体数值。

  表4.1 RNA特性参数预测结果

  特性参数亚集Sn(%)Sp(%)Acc(%)MCC(%)OA(%)

  1-mer RNA sequence 1 38.18 94.38 72.92 0.41 52.8%

  2 84.91 35.17 53.47 0.22

  3 27.78 96.30 79.17 0.35

  2-mer RNA sequence 1 45.46 92.14 74.31 0.44 56.9%

  2 83.02 43.96 58.33 0.28

  3 36.11 96.30 81.25 0.44

  3-mer RNA sequence 1 72.73 84.27 79.86 0.57 63.2%

  2 67.92 67.03 67.36 0.34

  3 41.67 91.68 79.17 0.39

  RNA hybrid 1 92.19 78.65 84.31 0.70 73.20%

  2 67.93 83.00 77.78 0.51

  3 47.22 95.73 84.31 0.52

  根据上表中的数据可以发现,采用1-mer RNA序列信息进行预测的成功率为52.8%,2-mer RNA序列信息为56.9%,3-mer RNA序列信息为63.2%,预测成功率逐步提高。

  分析表明,与1-mer RNA序列信息相比,2-mer RNA序列信息与3-mer RNA序列信息考虑了相邻碱基信息,所构建的特征向量中包含了序列中碱基的排列顺序信息,能够更好的体现出RNA序列中碱基的顺序信息。其中3-mer RNA序列信息预测成功率相对较高,与1-mer RNA序列信息相比高了10.4个百分点。

  而融合三种单特征信息后,总体预测成功率达到了73.20%,比1-mer RNA序列信息提高了20.4个百分点,比2-mer RNA序列信息提高了16.3个百分点,比3-mer RNA序列信息提高了10个百分点。根据结果显示,三种单特征信息的融合能够更有效地反映2019新型冠状病毒不同分期的特征,使得预测成功率进一步提高。

  4.3氨基酸n肽组分信息对预测结果的影响

  4.3.1氨基酸组分信息

  在本文的3.2.2节与4.1节概述了如何提取序列中氨基酸n肽组分信息的办法,当n=1时,我们可以得到一个20维的特征向量:

  (4.4)

  其中,表示的是第种分类里第种氨基酸残基在第条蛋白质序列中出现的频率;表示的是20种氨基酸;代表矩阵运算。

  此时,按照氨基酸组分信息所构建的20维特征向量,采用SVM算法,在Jackknife检验下总体预测精度的结果为:61.5%

  4.3.2氨基酸二肽组分信息

  根据本文3.2.2节与4.1节介绍的方法可以提取n=2时的氨基酸二肽组分信息,与n=1时相比,从二肽组分信息中能够得到更多有关蛋白质序列的信息。此时我们可以得到一个400维的特征向量:

  (4.5)

  在这之中,表示的是第种分类里第条蛋白质序列中某类氨基酸残基对在序列中出现的频率;表示的是某类氨基酸残基对;表示的是转置运算。

  根据二肽组分信息再结合SVM算法,在Jackknife检验下总体预测成功率为:62.2%

  4.3.3融合信息对预测结果的影响

  氨基酸方面选取了氨基酸组分信息与氨基酸二肽组分信息。将这两种序列信息进行特征融合,把得到的特征称为AA hybrid,并对其进行预测,总体预测成功率为62.24%,详见下表4.2。

  表4.2氨基酸特性参数预测结果

  特性参数亚集Sn(%)Sp(%)Acc(%)MCC(%)OA(%)

  AC 1 54.55 90.91 76.92 0.50 61.54

  2 79.24 53.33 62.93 0.32

  3 45.71 95.37 83.21 0.50

  DC 1 58.18 87.5 76.22 0.49 62.24

  2 73.58 56.67 62.94 0.29

  3 51.42 96.30 85.31 0.56

  AA hybrid 1 58.18 87.50 76.22 0.48 62.24

  2 73.58 56.67 62.94 0.48

  3 47.22 94.87 83.66 0.50

  根据上表中的数据可以看出,采用氨基酸组分信息进行预测的成功率为61.54%,采用氨基酸二肽组分信息进行预测的成功率为62.24%,将两种特性融合后总体预测率没有得到提高,考虑到可能是维数过大导致引入噪声。

  4.4 RNA序列信息与氨基酸序列信息融合的结果分析

  将1-mer RNA序列信息、2-mer RNA序列信息、3-mer RNA序列信息,与氨基酸组分信息进行特征融合,得到的特征称为All hybird,预测的结果如表4.3所示。通过对融合四种特征参数后得到的特征信息进行预测的成功率与对单特征信息进行预测得到的成功率相比较,前者更高一些,达到了67.32%,并且在此模式下,融合后的特征预测得到的相关参数如敏感性和MCC也得到了提高,通过这些数据可以看到,特征融合的方法在此次课题研究中得到了有效利用。

  表4.3融合特征jackknife检验

  特性参数亚集Sn(%)Sp(%)Acc(%)MCC(%)OA(%)

  All hybrid 1 62.50 93.26 80.39 0.60 67.32

  2 88.68 62.00 71.34 0.49

  3 44.44 94.87 83.01 0.48

  第五章构建系统发生树

  5.1构建系统发生树的方法

  系统发生树也可以称之为演化树,是能够表现出那些认为具有同样祖先的各物种相互间演化关系的树。根据系统发生树可以比较容易地看出各物种之间的进化关系。在树中,每个节点表示的是该节点每一分支的最近共同祖先,而节点之间线段的长短是用来表示演化距离。

  本文构建系统树所用的是由复旦大学物理系和理论生命科学研究中心开发的CVTree(Composition vector tree)[[[9]左光宏,郝柏林.基于全基因组的微生物亲缘关系与分类系统研究工具——CVTree[J].生物技术通报,2015,31(11):60-67.]]网络服务器CVTree3(http://tlife.fudan.edu.cn/archaea/cvtree/cvtree3/)。CVTree指的是组分矢量构树法,这种方法是在全基因组的基础之上,不需要进行序列联配就能够得到物种之间亲缘关系。由于这种方法避免了挑选同源基因以及序列比对,在降低花费大量时间建树的同时,也避开了人为干预可能会对最终结果所产生的一些影响。这种方法的特点与具体计算过程是先统计基因序列中特定长度下的短串组,分别给每一个物种构建一个高维矢量,然后再通过矢量之间的夹角余弦来计算物种间的遗传距离,最后运用到了邻接法进行构树。目前这种方法已经在许多物种的分类研究中得到了应用,这其中包括了病毒、原核生物、真菌、叶绿体序列和人类的肠道元基因组等。

  5.2系统发生树

  在本文的5.1节有过相关介绍,构建系统发育树是建立在全基因组的基础上,而在本文中,所构建的2019新型冠状病毒数据集中的病毒序列有92条为全基因组序列,其余52条为片段。因此基于5.1节构建系统发生树的要求且为保证所构建系统发生树的准确性,本文选取了2.1节构建的数据集中的144条序列中的92条全序列进行建树。图5.1即为本文所构建的系统发生树。

  本文构建的系统发生树为有根非标度树,此系统发生树具有根节点,因此可以从该树中判断出演化的方向,同时此树也可以用来表明不同单元之间的进化关系。非标度则指分支表示的是进化关系,而其支长并不能体现变化的程度。