Sekventering

Sekventering henviser til en række af forskellige teknologier, der relativt hurtigt kan kortlægge rækkefølgen af baserne (A, C, G, T/U) i genomet hos en bestemt organisme. Der findes forskellige typer og generationer af sekventeringsteknologier, der kendetegnes ved, hvad man ønsker at undersøge. Man kan groft opdele teknologierne i to kategorier – hvis man ønsker at sekventere en organisme der allerede er kendt eller en der er ukendt. Hvis man ønsker at undersøge en organisme der allerede er sekventeret før, er det ofte for at undersøge for mutationer eller variationer (ondartet eller godartet ændring i DNA’et). Dette kunne f.eks. være, når en person er syg og man ønsker at finde de DNA-ændringer der har medført sygdommen, eller til at undersøge om forskellige personer er i familie sammen. Hvis man ønsker at sekventere en hel ny organisme (DNA-sekvenser man ikke har set før), er det for at finde nye gener og stoffer. F.eks. hvis en bakterie er modstandsdygtig overfor en bestemt type antibiotika og man ønsker at finde resistensgenet. Eller som ved ARGO hvor de sekventerer planten Jaborandi for at finde de gener der danner stoffet pilocarpin, der kan bruges til at behandle grøn stær. Man kan altså bruge sekventering i alverdens sammenhænge – lige fra at definere evolutionære forhold, til at finde sekundære metabolitter som kan bruges til behandling af sygdomme.

Der findes tre generationer af sekventeringteknologier: første-, anden- og tredje generations sekventering, de bruges på forskellige områder med hver deres fordele og ulemper. Fælles for dem alle er at de producerer DNA-sekvenser, også kaldet reads, som efterfølgende skal sættes sammen ved assembly. En forståelse for hver generation, samt hvor og hvornår de benyttes, er essentiel når man skal afgøre hvilken slags data man bygger sine analyser på.

Første generation sekventering – Sanger sekventering

Den første generation af sekventering kaldes Sanger sekventering, chain-termination metoden, eller dideoxynukleotid metoden. Teknikken er langsom og laboratorieintensiv, men producerer reads med en længde mellem 600 og 1000 basepar (bp) med en forholdsvis lav fejlrate. Selvom teknologien er blevet erstattet af nyere generationer, benyttes metoden stadig ved kortlægning af enkelte gener, f.eks. hvis man genmodificerer en plante og vil teste at genet er indsat og placeret korrekt. Sanger sekventering bruges også ved et mindre antal af prøver eller til at validere reads produceret fra senere generationer af sekventering.

Anden generation sekventering – Next-Generation Sequencing

Next-Generation Sequencing (NGS) er nutidens mest udbredte metode og markedet er hovedsageligt domineret af firmaet Illumina. Metoden producerer rigtig mange reads, virkelig hurtigt og billigt. Desværre er DNA fragmenterne meget korte, hvilket gør det til en endnu større udfordring, når disse skal assembles til et fuldt genom. Et assembly kan sammenlignes med at samle et kæmpestort pulsespil, hvor nogen brikker mangler og andre kan være ens, og i tilfælde af at det er en ny organisme (de novo), ved man heller ikke hvordan puslespillet skal se ud. NGS bruges i alle tilfælde, hvor man har mange prøver eller store genomer. F.eks. hvis man sekventerer hele genomet fra en syg person, for efterfølgende at kunne analysere hvad personen fejler.

Tredje generation sekventering – PacBio / Nanopore

Ved tidligere generationer af sekventering skal DNA først brydes i fragmenter og derefter amplificeres ved PCR for at kunne blive sekventeret. Dette er ikke nødvendigt ved tredje generations sekventering (TGS), der kan kortlægge et helt enkelt molekyle af DNA. Dette har medført to vigtige fordele: der produceres meget lange reads og baserne bestemmes med det samme, når de forløber i sekventeringen (realtime). Dette er modsat ved Sanger og NGS, hvor man er nødt til at vente til reaktionerne er kørt færdig for at se rækkefølgen af baserne. TGS-teknologierne er først blevet præsenteret på markedet i løbet af dette årti, og der er to metoder der på nuværende tidspunkt dominerer området: Pacific Biosciences (PacBio) der bruger metoden Single-molecule real-time (SMRT) og Oxford Nanopore Technologies som bruger Nanopore Sequencer. TGS er på mange måder fordelagtigt over NGS og Sanger, men der produceres ikke lige så meget data som ved NGS, og der fås en højere sekventeringsfejlrate. Derfor kombinerer forskere ofte forskellige generationer af sekventering. TGS kan give lange reads, som kan hjælpe med at dække områder af genomet med høje repetitive regioner, mens NGS kan give en høj dækning i dybden (uddybes senere).

Tabel 1. Sammenligning af første, anden og tredie generations sekventeringsmetoder.

	Eksempler	Fordele	Ulemper	Read længe (bp)
Første generation (Sanger)	Applied biosystems	Priseffektivt og hurtigt for et småt antal af prøver	Dyrt, langsomt, laboratorieintensivt for mange prøver	600 – 1000
Anden generation (NGS)	Illumina	Hurtigt, billigt, høj følsomhed ved et stort antal af prøver, mere data produceret med samme mængde DNA	Korte reads, ineffektiv ved et lavt antal af prøver	50 – 300
Tredje generation (TGS)	PacBio, Oxford Nanopore	Lange reads, realtime	Høj sekventeringsfejlrate. Der produceres mindre data end ved NGS.	2500 – 50.000

Hvis du er interesseret i at lære mere om de forskellige sekventeringsmetoder, kan du se de nedenstående videoer

Sanger Sequencing: Sanger Sequencing of DNA [HD Animation]
Illumina Sequencing: Illumina Sequencing by Synthesis
PacBio Sequencing: Introduction to SMRT Sequencing
NanoPore Sequencing: Nanopore DNA sequencing

Kvalitetscheck, assembly og annotering

Kvalitet af assembly

Efter sekventeringen er forløbet og man har fået sine reads, skal der udføres assembly. Her samles alle reads til længere fragmenter, for så at kunne rekonstruere den originale sekvens. Dette betyder at man skal afgøre hvor hver enkelt read, er placeret i genomet. Figur 3 viser hvordan man finder lokaliseringen for reads langs et referencegenom og hvordan man kan angive kvaliteten af ens data ved to faktorer. Coverage er det gennemsnitlige antal af gange ens data dækker kendte positioner i genomet (hvor meget af den originale sekvens er dækket af reads). Depth er det antal reads der dækker et bestemt nukleotid på hver position i genomet (jo flere reads på den enkelte position, desto højere sandsynlighed for det korrekte nukleotid). Disse parametre hjælper med at angive kvaliteten af ens data, og hvis den ikke er tilstrækkelig høj, skal områder med lav score sekventeres igen. Som det ses fra figur 3, producerer tredje generations sekventering (orange) meget lange reads, som kan dække store områder, mens anden generation (blå) producerer rigtig mange reads, som kan give en høj dækning i dybden.

Figur 3. Efter sekventering skal de forskellige reads alignes til et reference genom. Dette danner et “assembly”. Jo flere og jo længere reads der overlapper, des bedre kvalitet assembly dannes. Dette benævnes som “coverage” og “depth”, henholdsvist.

Assembly metoder

Assembly kan udføres på to måder, alt efter om man har et referencegenom (reference based assembly) eller en hel ny og ukendt organisme (de novo assembly). Ved reference based assembly finder man overlap mellem ens reads og den kendte sekvens. Når man har placeret sine reads så de matcher de kendte områder, kan man til sidst samle det til en original sekvens, kaldet en konsensus sekvens. Den kan bruges til at sammenligne mellem andre typer af sekvenser der ligner, for at identificere variationer eller mutationer. De novo assembly er meget mere vanskelige at udføre, fordi man ingen ide har om hvordan sekvenserne hænger sammen. Derfor finder man ofte kun overlap mellem visse reads, hvilket resulterer i større stykker af sekvenser der kaldes for contigs, der er kort for en contiguous, dvs sammenhængende, region. Disse kan herefter blive mærket (annotereret) med de gener og andre funktionelle regioner der tilhører de contigs. Gen annotering er altså den proces hvormed man definerer hvor de specifikke gener er lokaliseret i genomet, samt deres funktion. Dette gøres ved at finde lignende gener fra nærtbeslægtede organismer vha. BLAST, som slår op i eksisterende databaser såsom ensembl som er en samlet database for genetisk information for forskellige organismer.

Figur 4. Ved reference based assembly finder man overlap mellem de enkelte reads og referencen til at bestemme placeringen af fragmenterne. Når de er placeret, samler man fragmenterne til hvad der kaldes en konsensus sekvens. Herefter kan man sammenligne sekvenser og identificere hvor på DNA’et der er en ændring. Ved de novo assembly har man ikke en reference og man samler derfor kun reads der overlapper med hinanden. Når de er identificeret, kan man samle dem til større områder kaldet contigs. Herefter udføres genannotering, hvor man finder de gener der er placeret på de forskellige contigs

Supercomputere og bioinformatik

Processen hvormed plantens gener sekventeres, assembles og genannoteres er kun muligt fordi computere er blevet langt kraftigere det sidste årti. Som bioinformatiker arbejder man selvfølgelig på sin egen personlige computer (PC), men når man bearbejder massive mængder af data, er dette ikke længere muligt og det er nødvendigt at gøre brug af en supercomputer. En supercomputer er en samling af mange computere, der udfører parallel processing (dataen opdeles i flere dele, hvor hver del udføres samtidigt, men på forskellige processorer/CPU’er), indeholder ekstremt meget lagerplads (memory) og kraft (CPU’er – antal processorer man vil fordele opgaven ud på). Det betyder, at den derfor kan håndtere utrolig meget data på rigtig kort tid. Et eksempel på en supercomputer er Danmarks Nationale Supercomputer i Life Science kaldet Computerome. Den kan tilgås fra egen PC, ved at benytte et terminal program, som kan kommunikeres med vha. programmering. Når man ønsker at supercomputeren skal køre en opgave med meget data, angiver man hvor meget RAM og hvor mange CPU’er man ønsker at benytte på supercomputeren.

Udover at arbejde på supercomputere, kan en bioinformatiker også lave en kaskade af forskellige analyser f.eks. finde plantens gener, oversætte dem til proteinsekvenser, forudsige proteinernes funktioner, hente deres 3D strukturer og analysere om de udtrykkes i specifikke celletyper. Hver analyse kræver adgang til forskellige databaser og værktøjer, og her er det en fordel at kunne anvende Application Programming Interface (API). Det er den del af computeren som modtager og tilbagesender forespørgsler. Den angiver hvordan forskellige programmer skal arbejde sammen.

Genome assembly

I nedenstående video forklarer Bent Petersen hvordan man går fra sekventerings data, til et komplet genom.