Cistanche Deserticola lihava tüve RNA-Seq-põhine de Novo transkriptoomikoost ja geenide avastamine-Ⅰ

Taustad

Cistanche deserticola on täiesti mittefotosünteetiline parasiitaim, millel on suur raviväärtus ja mida levitatakse peamiselt Loode-Hiina kõrbes. Selle kuivatatud lihakas vars on oluline tooniktraditsiooniline hiina meditsiinmille roll on peamiselt meeste seksuaalfunktsiooni parandamine ja immuunsuse tugevdamine, kuid osaliselt on genoomiliste ja transkriptoomiliste ressursside puudumise tõttu läbi viidud vähe mehhaanilisi uuringuid.

Natural cistanche tubulosa

LOODUSLIK CISTANCHE TUBULOSA HIINA TRADITSIOONILINE MEDITSIIN PHGS75% ECH 30% ACT 12%

Tulemused

Selles uuringus teostasime sügava transkriptoomilise sekveneerimise C. deserticola lihakas varres ja umbes 8{14}} miljonit lugemist genereeriti, kasutades HiSeq2000 platvormil Illumina paariotsa sekveneerimist. Kolmsuse komplekteerijat kasutades saime 95 787 transkripti järjestust, mille transkripti pikkus oli vahemikus 200 aluspaari kuni 15 698 aluspaari, mille keskmine pikkus oli 950 alust ja N50 pikkus 1519 alust. 63 957 transkripti tuvastati aktiivselt ekspresseerituna FPKM-iga, mis on suurem või võrdne 0,5, kusjuures 30 098 transkripti märgiti geenikirjelduste või geeniontoloogia terminitega järjestuste sarnasuse analüüside abil mitme avaliku andmebaasiga (Uniprot, NR ja Nt NCBI-s ja KEGG). . Lisaks tuvastasime ligniini ja fenüületanoidglükosiidide (PhG) biosünteesis osalevad peamised ensüümgeenid, mis on teadaolevalt peamised toimeained. Järjestuste võrdluse ja fülogeneetilise analüüsi põhjal tuvastati neli fenüülalaniini ammoniaaklüaasi (PAL) geeni, mis on esimene ligniini ja PhG biosünteesi võtmeensüüm. Esimest korda pakuti välja ka kaks PhG-de biosünteesi rada.

Järeldused

Kokkuvõttes lõpetasime C. deserticola lihava tüve transkriptoomi globaalse analüüsi, kasutades RNA-seq tehnoloogiat. Kokkupandud ja annoteeritud transkriptidest tuvastati ligniini ja fenüületanoidglükosiidide biosünteesiga seotud ensüümgeenide kogu ning ennustati ka PAL-i geeniperekonda. Selle uuringu järjestusandmed pakuvad väärtuslikku ressurssi tulevaste fenüületanoidglükosiidide biosünteesi uuringute ja funktsionaalsete genoomiliste uuringute läbiviimiseks selles olulises ravimtaimes.

Sissejuhatus

C. deserticola on ülemaailmne mitmeaastaste kõrbetaimede perekond Orobanchaceae perekonnast ja on täiesti mittefotosünteetiline liik ja kasvab tavaliselt maa-aluses holoparasiitses taimes. See parasiteerub psammofüüdi Haloxylon ammodendron (Chenopodiaceae) juurtel, mis asustab peamiselt kõrbeid ja poolkõrbeid, kuna talub põuda ja soolsust. C. deserticola on tugevalt vastupidav karmidele keskkonnatingimustele ja on levinud peamiselt Loode-Hiinas, eriti Sise-Mongoolias, Gansus ja Xinjiangis. Seda peetakse viimastel aastatel inimeste suurenenud tarbimise tõttu ohustatud looduslikuks liigiks. C. deserticola, mida sageli nimetatakse kõrbe ženšenniks, on üldtuntud kui kõrbe-ludar ja kuivatatud lihakat vart on Hiinas ja Jaapanis juba aastaid laialdaselt kasutatud traditsiooniliselt olulise toonikuna. Algselt salvestati see Shen Nong Ben Cao Jingis (Hiina Materia Medica sõnaraamat, 1977) umbes 1800 aastat tagasi ja seda peeti üheks peamiseks allikaks.Hiina ravimtaim Cistanche.

Chinese cistanche tubulosa

LOODUSLIK TUBULOOS SUGUFUNKTSIOONI PARANDAMISEKS PHGS75% ECH 30% ACT 12%

C. deserticola ekstraktidel on lai valik meditsiinilisi funktsioone, eriti kasutamiseks seksuaalfunktsiooni parandamisel, neerude toniseerimisel, maksa kaitsmisel, aktiivsuse parandamisel, mälu parandamisel, immunomoduleerival, antioksüdatiivsel, põletikuvastasel, viirusevastasel toimel jne. C. deserticola peamised bioaktiivsed komponendid on fenüületanoidglükosiidid (PheG-d, PhG-d). Praeguseks on C.deserticola mahlakast varrest eraldatud üle 20 fenüületanoidglükosiidi. Nende hulgasakteosiid ja ehhinakosiidon kaks peamist olulist farmakoloogilise toimega komponenti ja need on Hiina farmakopöas (2005. ja 2010. aasta väljaanded) dokumenteeritud C. deserticola kvaliteedistandarditena. PhG-de kolm keemilist komponenti on orgaaniline hape, sahhariid ja fenüületanoid, kuid fenüületanoidi biosünteesi radade üksikasjad on C. deserticola puhul halvasti mõistetavad.

Vaatamata C.deserticola kaubanduslikule ja meditsiinilisele tähtsusele on selle liigi genoomilised ja transkriptoomilised andmed väga piiratud. NCBI andmebaasis ei ole EST-e saadaval ja selle liigi täielik genoomiteave jääb kättesaamatuks, välja arvatud kloroplasti genoomi järjestus. Piiratud transkriptoomilised andmed takistavad PhG biosünteesimehhanismide uurimist. RNA-seq tehnoloogia abil saab genereerida sihitud genoomi ekspresseeritud osade järjestusi ja tuvastada geene [18], kasutades NGS tehnoloogiaplatvorme (nagu Applied Biosystems SOLiD, Illumina HiSeq ja Roche 454). See on muutumas üha populaarsemaks transkriptsioonide de novo koostamisel, kuna see on kulutõhus ja võimas lähenemine kõrge eraldusvõime ja laia dünaamilise ulatusega, eriti kuna sellel on eeliseks vähese arvuga transkriptsioonide uurimine. Erinevate eeliste tõttu on RNA-seq eriti atraktiivne piiratud geneetiliste ressurssidega mittemudelorganismide jaoks. Siiski puuduvad üksikasjalikud uuringud C. deserticola transkriptoomi kohta RNA-seq.

Selles uuringus sekveneerisime ülemaailmselt C. deserticola tüve transkriptoomi, kasutades Illumina Hiseq2000 platvormi ja saime 7,9 G algandmeid. Koostamise ja annotatsiooni abil kaevandasime PhG biosünteesis osalevad geenid ja kogu ligniini biosünteesi eest vastutavad geenid. Meie RNA-seq analüüs genereeris esimese C. deserticola konsensusliku transkriptoomi ja andis uue ülevaate C. deserticola meditsiinilise väärtuse igakülgsest mõistmisest. Lisaks saab siin kirjeldatud meetodit laialdaselt rakendada profiili transkriptoomide jaoks, et hõlbustada spetsiifiliste ravimite komponentide biosünteesi radades osalevate geenide avastamist teises väga piiratud genoomse ressursiga ravimtaimes.

Materjalid ja meetodid

Taimse materjali kogumine

Värske mahlakas vars C. deserticola jaoks kaevamisetapis koguti Loode-Hiinas Sise-Mongoolias asuvast Alxa League'i BayanHoti linnas asuvast taimebaasist. Kogumisluba saadi tehasebaasi omanikult (HongKui CongRong Group). Vautšeri näidis deponeeriti Hiina Teaduste Akadeemia Pekingi Genoomika Instituudi genoomika põhikeskusesse. Pärast puhastamist lõigati mahlakad varrekoed väikesteks tükkideks ja külmutati kohe vedelas lämmastikus ning säilitati seejärel -80 kraadi juures kuni edasise töötlemiseni.

RNA ekstraheerimine, cDNA raamatukogu ehitamine ja Illumina sekveneerimine

Kogu RNA ekstraheeriti mahlakust varrest, kasutades TRIzol Reagenti (Invitrogen Inc., California, USA) vastavalt tootja juhistele. Saadud proove töödeldi genoomse DNA eemaldamiseks DNaas I-ga. Ekstraheeritud RNA-de kvantifitseerimiseks kasutati bioanalüsaatorit Agilent 2100 (Agilent Technologies) ja nende terviklikkust kontrolliti denatureeriva agaroosgeelelektroforeesi ja etiidiumbromiidiga värvimisega. Järgnevates analüüsides kasutati RNA proove, mille A260/A280 suhe oli vahemikus 1,9–2,1, RNA 28S:18S suhe oli suurem kui 1,0 ja RNA terviklikkuse arv (RIN) -8,5.

RNA-seq raamatukogud loodi Illumina Truseq RNA proovide ettevalmistamise komplektide abil. Polü(A)+ RNA eraldati kogu RNA-st, kasutades Dynal ligo(dT)25 helmeid vastavalt tootja juhistele. Pärast puhastamist lisati fragmentatsioonipuhver, et purustada mRNA lühikesteks fragmentideks. Esimese ahela cDNA sünteesimiseks kasutati neid lühikesi fragmente mallidena koos SuperScript III pöördtranskriptaasi ja N6 juhusliku heksameeri praimeriga. Seejärel sünteesiti teise ahela cDNA, kasutades puhvrit, dNTP-sid, RNaasH-d ja DNA polümeraasi I. Saadud kaheahelalise cDNA ots parandati, kasutades T4 DNA polümeraasi, DNA polümeraas I Klenowi fragmenti ja T4 polünukleotiidkinaasi ning ligeeriti adapterid, kasutades T4 DNA ligaasi. Adapteriga ligeeritud fragmendid puhastati QiaQuick PCR ekstraheerimiskomplekti abil ja elueeriti EB puhvriga. Pärast agaroosgeelelektroforeesiga analüüsi valiti sobivad fragmendid PCR amplifikatsiooni matriitsiks. Saadud cDNA raamatukogu sekveneerimine viidi läbi Illumina HiSeq 2000 süsteemiga.

Transkriptide de novo kokkupanek ja geeniekspressiooni kvantifitseerimine

Sekveneerimisel genereeritud töötlemata lugemised puhastati adapterjärjestuste (ATCTCGTATGCCGTC) eemaldamisega, kasutades ettevõttesisest meetodit. Seejärel viisime läbi range madala kvaliteediga filtreerimisprotsessi. Esiteks kärbitakse alla 20-st madalama phred-kvaliteediskooriga aluseid järjestuse 3'-otsast kuni ühe kõrgema kvaliteediga aluseni (suurem kui 20 või sellega võrdne). Kui lugemise pikkus oli lühem kui 50 bp, jäetakse see kõrvale. Teiseks filtreeritakse lugemisi veelgi kriteeriumi alusel, et 70% ühe lugemise alustest on kõrge kvaliteediga (suurem kui 20 või sellega võrdne). Kolmandaks kasutati edasiseks kokkupanekuks ainult paarisotsa lugemisi. De novo transkriptsiooni kokkupanek viidi läbi kasutades Trinity väljalaset{10}} [30], mis koosnes kolmest järjestikusest tarkvaramoodulist: Inchworm, Chrysalis ja Butterfly. Koosteparameetrid määrati järgmiselt:-seqType fq-JM 300G -min_contig_length 200-CPU 20-inchworm_cpu {{21} }bflyCPU 20.

Transkriptsioonide arvukuse kvantifitseerimiseks joondati järjestatud paarilõpu lugemised kokkupandud transkriptidega, kasutades Trinity skripti. Kaardistatud lugemisi kasutati kvantifitseerimiseks tarkvara RSEM (RNA-Seq by Expectation Maximization) abil. Geeni või isovormi arvukust väljendati fragmendina transkripti kilobaasi kohta miljoni kaardistatud fragmendi (FPKM) väärtusena, need transkriptid, mille FPKM väärtus on võrdne või suurem kui 0.05, määratleti ekspresseerituna.

Ekspresseeritud ärakirjade funktsionaalne annotatsioon

C. deserticola geeniannotatsioonikomplektid puuduvad, välja arvatud kloroplasti genoom [1]. Märkisime väljendatud ärakirjad, võrreldes neid Genbank Nt, Genbank Nr ja TAIR10_ pep_20101214_uuendatud andmekogumitega eraldi, kasutades programmi BLAST (E< = 1e-20). Meanwhile, all expressed transcripts were translated into potential proteins according to ORF prediction by TransDecoder and predicated for the conserved domains based on the Pfam database.

Geeniontoloogia ja KEGG raja annotatsioon Järjestuste sarnasuse joondamisega Uniproti andmebaasiga ( kõigi kokkupandud transkriptide geeniontoloogia (GO) annotatsioon saadi, kasutades seostusfaili, mis laaditi alla aadressilt (ftp://ftp.ebi.ac.uk/pub/ andmebaasid/GO/goa/UNIPROT/gene{0}}goa_uniprot.gz). CC, BP ja MF kategooriad eraldi.

KEGG rajateave määrati kõigi ennustatud valgujärjestuste jaoks, kasutades veebitööriista KAAS (KEGG Automatic Annotation Server) [34]. Fasta formaadis järjestused esitati KAAS-i päringule ja tulemuseks olevad failid kõigi C. deserticola tüve transkriptoomiga seotud radade teabe kohta laaditi alla. Annoteerimiseks kasutati BBH (bi-directional best hit) meetodit kasutades 13 taimeorganismi geeniandmekogumit KEGG-s.

cistanche tubulosa extract

LOODUSLIK TUBULOSA CISTANŠEKSTRAKT PHGS75% ECH 30% ACT 12%

RT-qPCR analüüs

Pärast DNaas I-ga lõhustamist konverteeriti ligikaudu 5 ug kogu RNA-st esimese ahela cDNA-ks pöördtranskriptsioonireaktsiooni kaudu oligo(dT)15 praimeritega ja GoScripti pöördtranskriptsioonisüsteemiga (Promega). Seejärel lahjendati cDNA produktid 10-kordselt nukleaasivaba deioniseeritud veega enne kasutamist reaalajas PCR-is matriitsina. Spetsiifilisi cDNA-sid amplifitseeriti GoTaq 2-Step RT-qPCR süsteemiga (Promega) mahus 20 ul. PCR amplifikatsioon viidi läbi anniilimistemperatuuril 60 kraadi 7500 reaalajalise PCR tuvastamissüsteemiga (Applied Biosystems) vastavalt tootja juhistele. Suhteline transkriptsioonide arvukus arvutati tsükli läve võrdleva meetodiga, kasutades sisestandardina geeni "comp10579_c0", kasutades tarkvara 7500 Manager.

RT-PCR jaoks mõeldud praimerite paarid töötati välja võrgutarkvara (http://primer3.ut.ee/) põhjal ja need on loetletud S1 andmestikus.

Tulemused

C. deserticola lihava varre RNA sekveneerimine ja de novo transkriptoomi kokkupanek

C. deserticola vart on Hiinas ja Jaapanis juba aastaid laialdaselt kasutatud traditsiooniliselt olulise toonikuna. Et saada globaalset ülevaadet geeniekspressioonist C. deserticola lihakas varres, kogusime 2013. ja 2014. aastal sama taimebaasi C. deserticola tüveproove. Kogu RNA-d ekstraheeriti ja polüA+ RNA-d puhastati paarisotsa RNA-seq raamatukogude konstrueerimiseks. Illumina HiSeq 2000 järjestuse abil saadi 79 433 734 ja 86 019 176 paarilõpu lugemist, mis vastavad peaaegu 8 miljardile ja 8,6 miljardile järjestuse alusele.

platvorm 2013-aasta ja 2014-aasta proovides (tabel 1). Pärast adapterjärjestuste eemaldamist ja madala kvaliteediga lugemiste filtreerimist (vt üksikasju jaotises Meetodid) kasutati de novo transkriptoomi kokkupanekuks 2013-aasta proovis 64 831 040 kvaliteetset paarilõpu lugemist. Trinity järjestuse komplekteerijat [30] kasutades genereeriti 51 719 geeni ja 95 787 transkriptsioonijärjestust transkripti pikkusega 200 aluspaari kuni 15 698 aluspaari. Kokkupandud ärakirjade keskmine pikkus on 950 alust ja N50 pikkus 1519 alust. Erineva pikkusega transkriptide arv näitas, et 57, 32% kokkupandud transkriptidest olid umbes 500 aluspaari pikkused või pikemad (joonis 1A). Kvaliteetsed paarilõpu lugemised 2014-aasta proovis kaardistati kokkupandud transkriptoomiga. Lisaks leidsime, et iga kokkupandud geeni transkriptsioonide arv varieerus ja 69% geenidest ühe ekspresseeritud isovormiga, samas kui 31% geenidest ekspresseeris kahte või enamat transkripti (joonis 1B).

Kokkupandud ärakirjade ekspressiooni kvantifitseerimine ja funktsionaalne annotatsioon

Geeni või transkripti arvukus kvantifitseeriti RSEM-paketi abil, milles järjestatud lugemised joondati Bowtie abil kokkupandud geenide või transkriptide järjestustega ja neid kaardistatud lugemisi kasutati kvantifitseerimiseks. Arvutati iga geeni või transkriptsiooni FPKM väärtus ja lõpuks tuvastasime 63 957 ja 52 857 aktiivselt ekspresseeritud transkripti (FPKM väärtus on suurem või võrdne 0,5) C. deserticola lihakates varreproovides 2{{17} }13 ja 2014 vastavalt. Tavaliselt väljendati kahes korduses 44 776 ärakirja (70,01% 2013-aasta valimis, 84,71% 2014-aasta valimis) ja nende ekspressiooniandmete korrelatsioon (Pearson korrelatsioonikordaja: 0,91979) oli näidatud S1 joonisel. Järjestuse toorandmed laaditi üles NCBI SRA andmebaasi (juurdepääsunumbrid: SRX857402 ja SRX858938). Edasiseks analüüsiks kasutasime 2013-aasta proovis tuvastatud ekspresseeritud geene. Funktsionaalne annotatsiooniteave kõigi ekspresseeritud transkriptide kohta saadi kahe meetodi abil. Esiteks joondati kõik ekspresseeritud transkriptid BLAST-algoritmi abil eraldi teadaolevate nukleotiidide (GenBank nt) ja peptiidijärjestuse andmebaasidega (GenBank nr ja Arabidopsis peptiid). 63 957 väljendatud ärakirjast

29 220 (45,7%) olid annoteeritud ja näitasid homoloogiat järjestustega mis tahes kolmest subjekti andmebaasist E-väärtuse piirväärtusega 1e-20. Vahepeal ennustati TransDecoder tarkvara abil kõigi ekspresseeritud transkriptsioonijärjestuste kodeerivaid kandidaatpiirkondi ja Pfam domeeni otsimiseks kasutati iga transkripti pikimaid ORF-e. Selle tulemusena märgiti Pfami andmebaasi põhjal 21 358 (33,4%) ärakirja. Üldiselt sobitati 30 098 (47, 1%) transkripti märkimisväärselt avalikes andmebaasides tuntud geenidega, kombineerides kahte ülaltoodud meetodit. Täielik väljendatud ärakirjade loend koos funktsiooni annotatsiooniga näidati täiendavates andmetes (S2 andmestik).

Uurisime 20 kõige kõrgema ekspressiooniga transkripti (tabel 2), mis vastab 18, 99% -le kõigist sekveneerimislugemistest, ja leidsime, et enamik neist on geenid, mis reageerivad abiootilistele

stressi stiimul. Dehüdriin (DHN), hüdrofiilsete ja termostabiilsete stressivalkude klass, millel on suur arv laetud aminohappeid ja mis kuuluvad II rühma hilise embrüogeneesi rikkalikku (LEA) perekonda, on kõige kõrgema ekspressiooniga geen. Kolm erinevat Dehyrini transkripti (komp28713_c0_seq1/2/4) tuvastati tugevalt ekspresseeritud lihavates vartes, mis võivad olla seotud rakkude kaitsmisega põuastressi põhjustatud kahjustuste eest. Samuti leiti, et teised stressiga seotud geenid, nagu kuumašoki valk, patogeeniga seotud valk ja metallotioneiin, ekspresseeruvad tugevalt, mis võib olla seotud selle raske ellujäämiskeskkonnaga. Lisaks sellele on mõned konstitutiivsed geenid, sealhulgas 26S ribosomaalse RNA geen (komp22329_c2_seq1), auksiiniga represseeritud/seotud valk (comp20999_c0_seq1), ADP-ribosüülimisfaktor (comp20499_ c0_seq1) oli samuti tugevalt transkribeeritud.

Cistanche tubulosa extract