跳到主要内容

使用双重长读排序方法对痘病毒感染的宿主细胞响应的时间课程转录组分析

摘要

客观的

在本研究中,我们应用了两种长读测序(LRS)方法,包括单分子实时测序和纳米孔测序方法,研究宿主基因表达的延时转录组模式作为对痘苗病毒感染的响应。使用短读测序方法确定的转录组是不完整的,因为这些平台是低效的或不能区分多顺反子rna、转录同构体、转录起始位点、转录读取和重叠。长读测序能够读取全长的核酸,因此可以用来组装完整的转录组图谱。

结果

在这项工作中,我们确定了一些新的转录本和转录异构体Chortocebus sabaeus。另外,由于病毒感染的结果,对最丰富的768个宿主转录物的分析显示了“信号受体活性”基因本体注释的“信号受体活性的调节”中的基因级别。

介绍

痘苗病毒(Vaccinia virus, VACV)是痘病毒的原型成员,包含一个大的双链DNA分子,编码200多个蛋白质编码基因。

长读测序(LRS)现在已成为转录组研究中的主流方法。在几个方面,LRS在短读取测序(SRS)上优异,包括其检测全长转录物的能力,这允许有效鉴定长多时调RNA分子,也可转录和加工的转录物和转录重叠。目前,太平洋生物科学(PACBIO)和牛津纳米奥波尔技术(ONT)提供了两种LRS方法。我们的研究小组应用了各种病毒转录组的研究方法,包括疱疹病毒[123.4567],杆状病毒,[8],循环系统[9],逆转录病毒[10],Asfariviruses [11和痘病毒[12].这些调查确定了大量的新转录本,转录本亚型,多顺反子RNA分子和转录重叠。

利用SRS研究了病毒感染对宿主细胞转录组的影响[13]和lrs [14].在本研究中,我们报告了对非洲绿猴细胞转录组的影响的时间过程分析。这项工作展示了LRS对基因表达定量时间分析的一般效用。

主要内容

材料和方法

细胞,病毒,感染

非洲绿猴(chortocebus sabaeus.)肾的成纤维细胞(CV-1;来自ATCC,USA)用于捕获WISH的WAVV。将细胞在37℃下在含有5%CO的潮湿气氛中在37℃下孵育1,2,3,4,6,8和12小时2.培养后,移除培养基,用无血清RPMI 1640培养基冲洗细胞,并进行三次冻融循环。

RNA净化

根据制造商的建议,使用Macherey-Nagel RNA套件(Düren)从病毒感染的细胞中提取总RNA。在旋转柱协议之后,使用Oligotex mRNA mini试剂盒(Qiagen,Hilden,德国)从总RNA中分离聚腺苷酸化级分[123.456789101112].

图书馆准备

测序文库由polyA(+) RNA片段生成。PacBio文库使用SMARTer PCR cDNA Synthesis Kit (Clontech, Mountain View, California, United States)和“PacBio Isoform Sequencing (Iso-Seq) using Clontech SMARTer PCR cDNA Synthesis Kit and No Size Selection protocol”。使用ONT 1D链切换cDNA连接协议(SSE_9011_v108_revS_18Oct2016, Pacific Biosciences, Menlo Park, California, United States)生产用于纳米孔测序的文库。详情载于我们较早的刊物[121516].

数据处理

使用SMRT Link5.0.1.9585生成来自续集原始读取的插入件(ROI)。使用Albacore Software v.2.0.1(牛津纳米孔技术,牛津,英国)进行了矿物基础呼叫。ONT的Guppy v.3.0(牛津纳米孔技术,牛津,英国)也用于基于验证数据的目标。

CV-1细胞的转录组分析

c . sabeus参考基因组(GCF_000409795.2)用于对准矿物读数。我们排除了MAPQ = 0和辅助和补充对齐下游分析。分别计数映射到VACV基因组的主要比对。与宿主基因组对齐的读数与宿主基因相关联c . sabeus_1.1_top_level.gff3基因组坐标。只有读取与参考基因的外显子结构相匹配的读数(使用用于匹配外显子开始和结束位置的±5-BP窗口)。基因计数被标准化为映射到宿主基因组的总有效读数,以识别在实验期间不受病毒 - 宿主相互作用影响的丰富的内脏基因。为前16个内政基因计算几何手段(表1)。使用<0.2的变异系数来标准化基因计数。我们的基因表达统计分析的标准包含> 60标准化的总基因计数为六次点数据。为了通过其表达型序列对基因进行分类,我们将归一化基因转化为相对刻度,其中最高表达时间点的值为1.0(100%)。我们使用r(v.3.5)的基本统计包的K-means算法进行群集(https://cran.r-project.org/bin/windows/base/old/3.5.0/)。使用Calinski-Harabasz标准确定最佳簇数[17]使用素食的级联KM算法(v.2.5-4)R包(附加文件1:图。S1)。使用Heatmap(V.1.0.2)R包来可视化簇。因为很少有宿主基因读取未能在稍后的时间点(8-12小时p.I.)在稍后的时间点(8-12小时)表征宿主基因表达,因此仅分析宿主基因表达至6小时P.I.根据标准化的基因表达谱将基因聚集成五个子类别。我们确定了在实验期间改变了基因表达谱的四个类别(附加文件1:图。S2)。然而,由于将群体强制基因分类,我们鉴定了每个簇的最典型表达曲线的基因子集。因此,在每个群集中,我们使用GGPlot2(V.3.1.0,使用黄土方法的v.3.1.0,stat_smooth算法的不同采样时间绘制了平均表达水平)。

表1高表达的管家基因列表

以表达谱为基础计算每个基因的得分,以代表各聚类中差异最大的采样点之间的表达水平变化。基于这个分数,我们确定了所有聚类中最具特征的基因在最高分数和最高分数- 1 SD之间的范围内(附加文件5:表S1)。使用所识别的基因子集,我们使用768个高度表达基因作为与Panther的参考的引用进行了夸张的对每个群体中最特征基因的过度陈述分析(V.14.1使用2018_04数据集释放)[18]软件工具。我们分析了具有<1的假发现速率的基因本体生物过程。

结果

在这项工作中,应用LRS数据对CV-1细胞的时变转录组进行了分析。我们使用Albacore进行基调用。Guppy basecaller也运行了:我们发现两个工具包生成的结果几乎完美匹配[15].所获得的数据集用于确定VACV转录物[15]使用由我们组开发的Lortia管道[19].在此,我们使用工作流程和用于在我们的实验室中开发的LRS数据集的转录组分析的流程图[4620.].

MinION测序获得964,775次主机读(平均映射读长度:583 nts)。Sequel测序产生了439,330个主机roi(平均映射读长度:1368 nts)。PacBio MagBead载入协议选择片段小于1 kb [21].通过将归一化基因计数转化为相对刻度来分类动态基因表达曲线,其中最高表达时间点的值为1.0(100%)。

“静态”主机转录组

使用Lortia Toolkit,我们注释了共478个转录开始站点(TSSS),2011年转录端站点(TESS)和24,574个剪接连接,每个接头至少由10个读取(附加文件67:表S2、S3)。对TSSs上游序列区进行分析,发现43个典型CAATT盒(平均距离:104.913 nt;标准偏差(sd): 15.306), 880个标准GC盒(平均距离:60.095 nt;sd: 33.374)和80个标准型TATA箱(平均距离:31.13 nt;sd: 2.966)。研究表明,如果转录本在其TSS上游缺少TATA box,则更有可能存在围绕人类基因TSS的启动元素[22].在我们的分析中,BBCABW(B = C / G / T,W = A / T)发起者共识在TATA的基因TASS的TSS上比在TASS上游的塔塔盒子周围更加明显(图。1)。

图。1
图1

宿主启动子元件到TSS或转录启动子序列的距离。A-C.样本名称后面的字母'M'表示派对排序,而字母的's'表示续集排序。盒图中的水平线表示给定样品的中值。D.当没有TATA框在TSS的上游存在时,转录引发器区域携带BBCABW(B = C / G / T,W = A / A / T)启动序列,而使用TATA框,COSSS缺少共识

具体来说,1849个TESs包含规范的上游poly(A)信号(平均:26.681 nt;sd: 9.340),而±50 nt区域包含u丰富的上游和G/ u丰富的下游元素(附加文件2:图。S2)。共注释12,287个内含子:其中12,215种含有的典型GT / Ag,65例GC / Ag,7个具有/ AC接头结。接受从至少两种技术和三个样品中鉴定的那些Lortia转录物。平均转录长度为693.661NT(SD:962.62),在感染期间没有观察到显着偏差。5'-UTR的长度偏离平均值为52.956 nt(SD:75.903),而3'-UTRS的平均长度为295.219(SD:431.480)(附加文件3.:图S3)。读数少于10的抄本被排除在外。这些评估显示总共有758个转录异构体,207个tss和TESs在±10-nt的时间间隔之前注释过的转录异构体,692个长度异构体,66个选择性剪接异构体。总共有239个mRNA长度亚型在TSS位置与之前注释过的转录本不同(包括那些在各自翻译起始位点(TISs)下游有TSS的转录本),其中19个在TES位置,56个在两者。共发现31个转录同构体与先前注释的TISs下游的tss,并包含了受限的开放阅读框架(ORFs)形式。这些rna可能编码n端截断形式的典型蛋白。共有177个转录本被标注为非编码。目前的非编码rna包括以前注释过的核糖体rna的异构体,或者是缺失orf的截断mrna(附加文件8:表S4。)

宿主转录对疫苗感染的时间响应

对VACV感染宿主转录的分析显示差异表达基因相对较少[2324].最近的蛋白质组学研究还表明,VACV感染影响很少的宿主基因[25].根据宿主基因对病毒感染的反应,我们将5个不同的768个高表达宿主基因集群分类。在早期基因的,在病毒感染前没有或非常低的表达水平,但在随后的所有采样点均观察到高表达.初了成绩单在病毒表达之前高度表达,然后在稍后的时间点处持续不存在或具有低表达水平。早期的上/下成绩单在病毒感染前没有表达,高表达1小时。在后面的抽样点处没有或低表达。中间成绩单在病毒感染之前没有表达,并在2或3 H p.i处达到峰值和柔韧化。持续的成绩单在我们的实验过程中对相对表达水平没有显着变化(图。2)。我们评估了使用GO的最佳特征基因集群的表达模式(附加文件9:表S5),并发现通过在早期阶段高度表达但在晚期感染阶段中高度表达的基因的GO过程“调节信号受体活性的调节”的显着超越。在特定生物过程的基因中,大多数本簇都没有显着富集,尽管发现在病毒感染期间上调的许多基因在细胞分裂或“病毒生命周期的”阳性调节“中发挥作用。此外,在病毒感染后下调的一些基因被注释为“细胞生长”和“间充质分化”类别。

图2
图2.

病毒感染期间高丰富宿主基因的表达变化。一种宿主基因簇的表达模式。B.五个不同宿主基因簇的热图表示

讨论

我们对LRS平台雇用了非洲绿色猴子转录物的动力学分析。使用Lortia管道注释测序数据。为避免非特定读取作为转录物的注释,我们使用严格标准应用所获得的数据的附加筛选[15,但是一部分被排除的读数据可能代表真正的转录本。我们的分析显示了758个宿主转录异构体。虽然部分降解的rna被LRS捕获[26[我们在病毒感染之前和期间观察到来自宿主RNA的相对恒定的平均映射读取长度。我们在病毒感染期间鉴定了具有不同基因表达谱的基因子集。尽管只有一类基因在“信号受体活性的调节”中显示出显着的基因,但我们注意到该分析仅限于对最丰富的768个基因的研究。

总之,这项工作鉴定了大量的宿主rna和转录物亚型,并揭示了病毒感染细胞中“调控信号受体活性”GO注释中大量基因的过度表达。这项研究也证明了LRS在任何生物体中转录组的时间过程表征上的价值。

限制

虽然这项工作不能覆盖宿主分子途径的全部基因集,但我们认为,被鉴定基因的表达变化可能是病毒感染的结果,或与宿主对感染的反应有关。本研究的局限性是两种测序方法获得的数据覆盖面都相对较低。

可用性数据和材料

欧洲核苷酸存档提供原始数据集:Prjeb26430。Lortia管道可在Github提供:https://github.com/zsolt-balazs/lortia.

缩写

LRS:

长读测序

读者:

牛痘病毒

SRS:

短读序列测序

PACBIO:

太平洋生物科学

ont:

牛津纳米孔技术

会阴:

非洲绿色猴子成纤维细胞

C. Sabaeus.

chortocebus sabaeus.

C. Aethiops.

Chlorocebus Aethiops.

TSS:

转录起始点

TES:

转录端点

TIS:

翻译启动网站

orf:

开放阅读框架

参考

  1. 1.

    Tombáczd,csabai z,oláhp,balázsz,likói,zsigmond l,sharon d,snyder m,boldogkőiz.全长同种型测序显示新的转录物和疱疹病毒中的大量转录重叠。Plos一个。2016; 11(9):E0162868。

    文章谷歌学术

  2. 2.

    摩尔多瓦N,Tombáczd,szűcsa,csabai z,snyder m,boldogkőiz.多平台测序方法揭示了伪病毒中的新型转录组型材。前微生物。2018; 8:2708。

    文章谷歌学术

  3. 3.

    Tombáczd,csabai z,szűcsa,balázsz,moldovánn,sharon d,snyder m,boldogkőiz.长读同种型序列显示出单纯疱疹病毒类型1的转录景观的隐藏复杂性。前微生物。2017; 8:1079。

    文章谷歌学术

  4. 4.

    Tombáczd,摩尔多瓦N,BalázsZ,Gulyásg,csabai z,boldogkőim,snyder m,boldogkőiz.perialx病毒动态转录组的多长读测序调查。前群体。2019; 10:834。

    文章谷歌学术

  5. 5。

    Prazsák I, Moldován N, Balázs Z, Tombácz D, Megyeri K, Szűcs A, Csabai Z, Boldogkői Z.长读测序揭示水痘带状疱疹病毒复杂的转录组拓扑结构。BMC基因组学。2018;19(1):873。

    文章谷歌学术

  6. 6。

    Balázs Z, Tombácz D, Szűcs A, Csabai Z, Megyeri K, Petrov AN, Snyder M, Boldogkői Z。Sci众议员2017;7(1):15989。

    文章谷歌学术

  7. 7。

    Balázsz,tombáczd,szűcsa,snyder m,boldogkőiz.与太平洋生物科学的人巨细胞病毒转录组的长读测序。SCI数据。2017; 4:170194。

    文章谷歌学术

  8. 8。

    摩尔多瓦N,Tombáczd,szűcsa,csabai z,balázsz,kis e,molnárj,boldogkőiz.第三代测序显示了杆状病毒中的广泛的多辨比和转录重叠。SCI批准。2018; 8(1):8604。

    文章谷歌学术

  9. 9。

    Moldován N, Balázs Z, Tombácz D, Csabai Z, Szűcs A, Snyder M, Boldogkői Z。多平台分析揭示了环状病毒复杂的转录组结构。病毒杂志2017;237:37-46。

    文章谷歌学术

  10. 10。

    Moldovánn,szűcsa,tombáczd,balázsz,csabai z,snyder m,boldogkőiz.多平台下一代测序识别内源性逆转录病毒中的新型RNA分子和转录同种型。有限元微生物吧。2018; 365(5):FNY013。

    文章谷歌学术

  11. 11.

    Olasz F,Tombáczd,Torma G,Csabai Z,Moldovánn,Dörmőá,Prazsáki,Mészárosi,Magyar T,Tamásv,Zádoriz,zádoriz,zádoriz,boldogkőiz.非洲猪动态转录om的短期和长读测序调查发热病毒和宿主细胞。前群体。2020; 11:758。

    CAS文章谷歌学术

  12. 12.

    Tombáczd,prazsáki,szűcsa,dénesb,snyder m,boldogkőiz.从长读测序技术获得的痘苗病毒病毒的动态转录组分析数据集。傻瓜。2018; 7(12):GIY139。

    文章谷歌学术

  13. 13.

    胡b,李X,霍y,yu y,张q,陈g,张y,弗雷泽nw,wu d,zhou j.细胞反应对HSV-1感染的细胞反应与宿主转录组的特异性改变相关联。SCI REP。2016; 6:1-14。

    文章谷歌学术

  14. 14。

    Maróti Z, Moldován N, Torma G, Jefferson VA, Csabai Z, Gulyás G, Dörmő Á, Boldogkői M, Kalmár T, Meyer F, Tombácz D, Boldogkői Z。Res广场。2021;v1,https://doi.org/10.21203/rs.3.rs-264666/v1

    文章谷歌学术

  15. 15.

    Tombácz D, Prazsák I, Csabai Z, Moldován N, Dénes B, Snyder M, Boldogkői Z.长读分析揭示了病毒病原体的转录组复杂性。Sci众议员2020;10(1):13822。

    文章谷歌学术

  16. 16。

    Tombácz D, Sharon D, Szűcs A, Moldován N, Snyder M, Boldogkői Z.使用下一代和第三代测序平台的伪狂犬病毒转录组研究。科学数据。2018;5:180119。

    文章谷歌学术

  17. 17。

    聚类分析的枝晶方法。Commun Stat。1974;3:1-27。

    谷歌学术

  18. 18。

    Mi H, Muruganujan A, Casagrande JT, Thomas PD。使用PANTHER分类系统进行大规模基因功能分析。Nat Protoc。2013;8(8):1551 - 66。

    文章谷歌学术

  19. 19。

    BalázsZ,Tombáczd,csabai z,摩尔多瓦n,snyder m,boldogkőiz.模板切换工件类似于另类多腺苷酸。BMC基因组学。2019; 20(1):824。

    文章谷歌学术

  20. 20。

    Tombáczd,csabai z,oláhp,havelda z,沙龙d,snyder m,boldogkőiz.伪毒性病毒新型转录物的特征。病毒。2015; 7(5):2727-44。

    文章谷歌学术

  21. 21。

    单分子实时(SMRT)测序技术已经成熟:在医学诊断中的应用和实用。核酸科学与技术;2018;46(5):2159-68。

    CAS文章谷歌学术

  22. 22。

    Vo Ngoc L,Kassavetis Ga,Kadonaga JT。果蝇中的RNA聚合酶II核心启动子。遗传学。2019; 212(1):13-24。

    文章谷歌学术

  23. 23.

    Rubins Kh,Hensley Le,Relman Da,Brown Po。令人惊叹的沉默:用猴子蛋酒或痘苗病毒感染人体细胞的基因表达程序。Plos一个。2011; 6(1):E15615。

    CAS文章谷歌学术

  24. 24.

    Bourquain D,Dabrowski Pw,Nitsche A.宿主细胞基因表达在牛皮毒细胞中的比较,猴子氏虫或痘苗病病毒感染细胞揭示了免疫应答基因的病毒特异性调节。J病毒。2013; 10:61。

    CAS文章谷歌学术

  25. 25.

    Soday L,Lu Y,Albarnaz JD,Davies Ctr,Antrobus R,Smith GL,周MP。痘苗病毒感染的定量时间蛋白质组学分析揭示了干扰素拮抗剂的组蛋白脱乙酰酶的调节。细胞批准。2019; 27(6):1920-1933.E7。

    CAS文章谷歌学术

  26. 26。

    米洛克F,Milos PM。RNA测序:进展,挑战和机遇。NAT Rev Genet。2011; 12(2):87-98。

    CAS文章谷歌学术

下载参考

致谢

不适用。

资金

本研究得到国家研发创新办公室FK 128252和K 128247的资助。

作者信息

隶属关系

作者

贡献

构想与设计:ZM,DT,BD,MS和ZBO。在实验室工作中的贡献:DT,IP,ZC和BD。数据分析:ZM,DT,TK,IP,GT,ZBA,NM,ZBO。手稿起草:ZM,DT,TK,BD和ZBO。所有作者阅读并认可的终稿。

通讯作者

对应于Zsolt Boldogkő我

道德声明

伦理批准并同意参与

不适用。

同意出版物

不适用。

相互竞争的利益

提交人声明他们没有利益冲突。

附加信息

出版商的注意事项

188金宝搏牛牛技巧《自然》杂志对已出版的地图和附属机构的管辖权主张保持中立。

补充信息

附加文件1:图S1

.基于Calisnki-harabasz(CH)标准的最佳簇数。左侧的绘图显示了如何用越来越多的簇划分每个基因。在右侧,显示最大CH索引(对于5个集群)。

额外的文件2

图S2。宿主附近。(a)围绕苔丝的核苷酸分布Chlorocebus Aethiops.使用WebLogo进行可视化显示显示了RNA裂解和聚腺苷酸化的典型序列。(b)宿主的多聚腺苷酸化信号从未感染的TESs和p.i.样本的距离。样本名称后面的字母“M”表示MinION排序,而字母“S”表示Sequel排序。方框图中的水平线代表给定样本的中值距离。在病毒感染过程中,TESs的距离没有明显变化。TES的位置是用LoRTIA工具箱确定的。

附加文件3:图S3

.托管的成绩单和UTR长度(C. Aethiops.)(a)未感染的成绩单和每个p.i。样品。(b,c)5'和3'UTR的长度使用在未感染的TI.py和每个P.I中计算。样品。样本名称后面的字母'm'表示派对排序,字母的's'表示续集排序。盒子图中的水平线表示给定样本的中值转录长度。通过Lortia软件套装注释了转录物。

附加文件4:图S4

.本研究中使用的转录本亚型类别及其缩写。

附加文件5:表S1。

基于VACV感染过程中最活跃宿主基因表达的768个基因聚类分析每个p.i.时间点的相对表达值被归一化为给定基因的最高值。每一簇中最具特征的基因用灰色突出显示。

附加文件6:表S2。

转录主机的开始和结束网站(C. Aethiops.)RNA。读取计数,GC-,CAAT和TATA和TATA和TATA和TASS之间的距离,这些特征的序列,多腺苷酸信号与苔丝之间的距离以及曲折的曲折的曲线序列。样本名称后面的字母'm'表示派对排序,字母的's'是指续集排序。使用LORTIA软件套装识别TSS和TES序列。

附加文件7:表S3。

主体成绩单的内含子。剪接供体和受体位置显示,具有读数和接头连接的序列。样本名称后面的字母'm'表示派对排序,而字母的'是指续集排序。使用Lortia管道测定内含子。

附加文件8:表S4。

转录同种型宿主细胞。读取计数,类别缩写,转录物的长度和5'和3'UTR的长度。类别的缩写是在补充图4中定义的。4.使用Lortia Toolkit确定了转录同种型,并使用Ti.py脚本进行分类。

附加文件9:表S5。

宿主基因表达水平的过度陈述分析。第一列包含宿主基因的簇和簇的特征的基因数(在括号中)。具有最低假发现率值的GO生物过程(粗体)呈现出簇数量的基因数和参考数据集中的基因数(在括号中)。还列出了属于进程的基因。

权利和权限

开放获取本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.“创作共用公共领域”豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

Maróti, Z., Tombácz, D., Prazsák, I.,等等。使用双长读测序方法的宿主细胞对痘病毒感染应答的时间过程转录组分析BMC RES笔记14,239(2021)。https://doi.org/10.1186/s13104-021-05657-x

下载引用