• Introduktion – Naturstoffer og bioinformatik

    Naturstoffer er bioaktive stoffer med unikke egenskaber, som har vist sig at være interessante og værdifulde for os mennesker. Nogle velkendte eksempler er koffeinen i vores kaffe og nikotinen i cigaretter, der produceres af henholdsvis kaffeplanten og tobaksplanten. En stor del af de farve-, duft- og smagsstoffer vi bruger til daglig, er baseret på forbindelser produceret af planter. Det samme gælder den medicin vi bruger. Aspirin er et af verdens mest almindelige smertestillende produkter. Det stammer fra piletræers bark og blade. Et af de bedste lægemidler vi i dag har mod sygdommen Malaria, er baseret på stof der hedder Artemisinin som produceres af planten Artemisia annua L. Begrebet naturstoffer omfatter også stoffer produceret af mikroorganismer som bakterier og svampe. Kigger man på nyere lægemidler, så er hele 40 % af dem baseret på naturstoffer, og ser man specifikt på lægemidler mod kræft og infektionssygdomme så bliver tallet helt op til 70%. Derfor er der meget stor interesse for naturstoffer. Man leder efter nye spændende stoffer, og man forsøger at forstå, hvordan stofferne dannes. Udfordringen ved naturstoffer er, at de typisk produceres i meget små mængder. For at kunne producere stofferne i større mængder, må vi først identficere generne, der står bag deres syntese, og så derefter indføre disse gener i en passende organisme, såsom alger. De resulterende alger vil derefter kunne producere interessestoffet i store mængder. 

    Genome mining dækker over de dele af denne proces, der omhandler sekventering af genomer, samt identifikationen af biosyntesevejene der er til stede i genomerne. Identifikationen foregår ved brug af bioinformatik, og bruges til at forudsige hvilke naturstoffer, den pågældende organisme er i stand til at producere. 

    Den første del af dette undervisningsprojekt handler om hvordan man kan bruge bioinformatik til at finde de genetiske opskrifter planterne bruger til at danne avancerede naturstoffer, og så bruge denne viden til at starte en produktion af naturstofferne i andre organismer.

    Potente plantestoffer

  • Teori

    Sekundære metabolitter

    Naturstoffer kaldes også metabolitter. Når man i naturstofkemien studerer disse metabolitter, så opdeler man dem i to kategorier; primære og sekundære.

    Primære metabolitter er essentielle for at organismen kan leve, og findes derfor på tværs af alle arter. Hos planter sørger de primære metabolitter for plantens basale processer såsom respiration, fotosyntese, udvikling og vækst. Det er stoffer som aminosyrer, nukleotider, klorofyl eller simple kulhydrater.

    De sekundære metabolitter er ikke direkte involveret i de basale livsprocesser, men spiller en vigtig rolle i f.eks. planters kommunikation og forsvar. Det er typisk blandt de sekundære metabolitter at vi finder de spændende bioaktive stoffer med særlige effekter, som vi er interesserede i.

    Men hvorfor producerer planterne disse komplekse stoffer?

    Planter er stationære. De er bundet til et bestemt levested via deres rødder. De kan hverken flygte fra angreb eller ændringer i miljøet. De er altså tvunget til at udvikle sig, så de kan håndtere enhver situation, der hvor de befinder sig. Derfor producerer planter reaktionsstoffer – sekundære metabolitter der kan hjælpe planten med at forsvare og tilpasse sig eller med at tiltrække samarbejdspartnere såsom bestøvere. Nikotin er f.eks. tobaksplantens forsøg på at holde angribere såsom insekter væk. I håbet om at angriberne ikke vil kunne lide lugten og smagen, pumper planten nikotin ud i bladene. Man kan måle, hvordan insektangreb på planter medfører en øget produktion af sekundære metabolitter, som f.eks. gør planterne mindre attraktive som føde for insekter. Nogle planter producerer stoffer, der gør at insekter eller andre dyr ikke kan fordøje planten, eller gør planten direkte giftig. Men insekterne vil svare igen ved også at tilpasse sig kemisk, og på den måde kan arterne ligge i krig, indtil det bliver for energikrævende for enten planten eller insektet, at producere den forøgede mængde af stofferne. Mutationer og selektion vil så medføre at nye sekundære metabolitter overtager plantens forsvar. Produktionen af de sekundære metabolitter varierer følgelig efter ydre påvirkninger som f.eks. angreb fra dyr eller mikroorganismer, miljøbetingelser på vækststedet eller etablering af symbiose. Symbiose vil sige at planten etablerer gunstige samarbejder med andre planter, dyr eller mikroorganismer og her bruges de sekundære metabolitter som en form for kommunikation.

    regnskov_sekundaer

    Figur 1. En plante kan tilpasse sig sine omgivelser på flere forskellige måder. Produktion af sekundære metabolitter kan bidrage til plantens forsvar, eller bruges til at tiltrække bestøvere og frøspredere. 

    Plantens kemiske fabrik

    Vi ved i dag at planter producerer en lang række af værdifulde stoffer i form af sekundære metabolitter, men den store udfordring er, at de sekundære metabolitter kun produceres i meget små mængder, og kun af helt specifikke arter, som svar på meget specifikke vækstbetingelser og interaktioner med andre arter. Smagsstoffet vanilje er et godt eksempel. Det produceres af nogle bestemte orkidéarter, som kun vokser få steder i verden under særlige forhold. For at vaniljeplanten kan producere vanilje skal den bestøves af en bestemt biart, der kun findes i visse områder af Mellemamerika. Indtil man opdagede, hvordan man kunstigt kunne bestøve vaniljeplanten, var det ikke muligt at dyrke vaniljeorkideen andre steder end i dette område. Dertil kommer at produktion af vanilje omfatter en tidskrævende fermenteringsprocess for at de høstede frugter udvikler de ønskede smagsstoffer. Dette er grunden til at ægte vanilje er et meget dyrt produkt. Men da efterspørgslen på vanilje er enorm, har man analyseret naturstoffet vanilje og fundet ud af, at det især er det kemiske molekyle vanillin, som giver den smag vi forbinder med vanilje. I dag er man i stand til at producere stoffet vanillin ved hjælp af kemisk syntese ud fra restprodukter enten fra råolie eller papirproduktion. Det betyder at man kan producere vanillin i store mængder og uden brug af vaniljeplanten overhovedet. Den kemisk fremstillede vanilje smager ikke helt, som den vanilje vaniljeplanten producerer, da den ægte vanilje indeholder et komplekst mix af flere forskellige stoffer. Der er derfor stadig stor efterspørgsel på ægte vanilje, men kun ca. 1 procent af verdens forbrug af vanilje kommer fra den ægte vare. Typisk er de stoffer, vi er interesserede i fra planterne,  så komplekse, at det slet ikke er muligt eller rentabelt at syntetisere dem kemisk. Så i stedet for en dyr og miljømæssigt belastende kemisk proces forsøger forskere at aflure, præcis hvordan planterne gør, for så at få andre planter eller simplere organismer til at producere de stoffer, vi er interesserede i. Men hvordan kan det lade sig gøre?

    Biosyntese og bioinformatik

    Planter producerer metabolitter gennem en række enzym-katalyserede reaktioner, hvor et substrat omdannes til et produkt. Dette kaldes biosyntesevejen, eller en metabolic pathway på engelsk. Enzymerne styres af gener, så opskrifterne på de stoffer som planten er i stand til at producere, ligger i plantens DNA. Indenfor de sidste 10-15 år er der sket store fremskridt i sekventeringsteknologi og forskellige analytiske teknologier. Det har gjort det muligt at kortlægge planters genomer, hvilket har medført at man nu kan identificere netop de gener og enzymer, der er involveret i produktionen af de spændende naturstoffer. Fremskridt indenfor bioteknologi har også gjort os i stand til at flytte gener fra en organisme til en anden, og derved få den nye organisme til at udtrykke genet, dvs. producere det stof vi er interesseret i. Men det er ikke så simpelt, som det måske lyder. Alle de forskellige trin i processen er meget komplekse og genererer enorme mængder af data. Derfor er denne type forskning afhængig af bioinformatikere, der kan producere, vurdere og analysere data. Bioinformatik er blevet et selvstændigt forskningsområde, hvor der hele tiden udvikles nye smarte metoder. I øvelserne til dette projekt får du muligheden for at afprøve nogle af bioinformatikerens metoder og værktøjer.

     

    regnskov_pathway

    Figur 2. Biosynteseveje (metabolic pathways) består af en række enzymatiske reaktioner, som er kodet for i organismens genom. Generne transskriberes til mRNA, der translateres til de aktive enzymer. Sekundære metabolitter er eksempler på produkterne, af en række enzymatiske pathways. I det viste eksempel omdannes et substrat til en sekundær metabolit igennem 3 enzymatiske reaktioner. 

    Medicin fra regnskoven

    Et eksempel på et initiativ der sigter efter at udforske og udnytte disse forhold, er det det internationale bioinformatiske forskningsprojekt ’Amazon Rainforest Genome Ontology’ (ARGO). Ved at sekventere DNA fra planter og mikroorganismer i regnskovsområder i Brasilien og Malaysia vil de karakterisere både kendte værdifulde medicinplanter, truede plantearter, samt endnu ukendte planters genomer og metabolitter. Fordi biodiversiteten (antallet af arter pr. kvm) er så stor i regnskoven, er det netop også her man finder de vildeste og mest komplekse stoffer. Ofte er det plantegifte som planten bruger til at forsvare sig med, men den gift der kan være dødelig i store mængder, kan faktisk bruges som medicin i korrekt doserede mængder.

    Lige nu arbejder et forskerhold på at kortlægge det samlede genom for nogle af planterne fra slægten Pilocarpus, hvoraf mange af planterne har det fælles navn jaborandi. Disse planter er meget interessante, fordi de syntetiserer et stof kaldet pilocarpin, der bruges til behandling af øjensygdommen grøn stær. Første step i processen er at ekstrahere og sekventere plantens DNA. Derefter skal DNA sekvenserne samles til det, man kalder et assemblet genom. Dette kan i sig selv være en udfordring, da planters genomer er ekstremt komplekse og kan være enormt store. F.eks. er et majsgenom på 3 mia. basepar (bp), hvor menneskets genom til sammenligning er på 3.2 mia. bp. Eller den japanske blomst, Paris Japonica, som består af 149 mia. bp, hvilket gør det næsten 47 gange større end menneskets genom. En anden udfordring er at planters genomer indeholder mange repetitive regioner (gentagende sekvenser), hvilket gør dem til en udfordring at samle korrekt. Dette kan du læse mere om i det følgende.

    Regnskovens medicin

    I nedenstående video fortæller Bent Petersen, lektor i bioinformatik på Københavns Universitet, om sit arbejde i regnskovene i Brasilien og Malaysia.

    Sekventering

    Sekventering henviser til en række af forskellige teknologier, der relativt hurtigt kan kortlægge rækkefølgen af baserne (A, C, G, T/U) i genomet hos en bestemt organisme. Der findes forskellige typer og generationer af sekventeringsteknologier, der kendetegnes ved, hvad man ønsker at undersøge. Man kan groft opdele teknologierne i to kategorier – hvis man ønsker at sekventere en organisme der allerede er kendt eller en der er ukendt. Hvis man ønsker at undersøge en organisme der allerede er sekventeret før, er det ofte for at undersøge for mutationer eller variationer (ondartet eller godartet ændring i DNA’et). Dette kunne f.eks. være, når en person er syg og man ønsker at finde de DNA-ændringer der har medført sygdommen, eller til at undersøge om forskellige personer er i familie sammen. Hvis man ønsker at sekventere en hel ny organisme (DNA-sekvenser man ikke har set før), er det for at finde nye gener og stoffer. F.eks. hvis en bakterie er modstandsdygtig overfor en bestemt type antibiotika og man ønsker at finde resistensgenet. Eller som ved ARGO hvor de sekventerer planten Jaborandi for at finde de gener der danner stoffet pilocarpin, der kan bruges til at behandle grøn stær. Man kan altså bruge sekventering i alverdens sammenhænge – lige fra at definere evolutionære forhold, til at finde sekundære metabolitter som kan bruges til behandling af sygdomme.

    Der findes tre generationer af sekventeringteknologier: første-, anden- og tredje generations sekventering, de bruges på forskellige områder med hver deres fordele og ulemper. Fælles for dem alle er at de producerer DNA-sekvenser, også kaldet reads, som efterfølgende skal sættes sammen ved assembly. En forståelse for hver generation, samt hvor og hvornår de benyttes, er essentiel når man skal afgøre hvilken slags data man bygger sine analyser på.

     

    Første generation sekventering – Sanger sekventering

    Den første generation af sekventering kaldes Sanger sekventering, chain-termination metoden, eller dideoxynukleotid metoden. Teknikken er langsom og laboratorieintensiv, men producerer reads med en længde mellem 600 og 1000 basepar (bp) med en forholdsvis lav fejlrate. Selvom teknologien er blevet erstattet af nyere generationer, benyttes metoden stadig ved kortlægning af enkelte gener, f.eks. hvis man genmodificerer en plante og vil teste at genet er indsat og placeret korrekt. Sanger sekventering bruges også ved et mindre antal af prøver eller til at validere reads produceret fra senere generationer af sekventering.

     

    Anden generation sekventering – Next-Generation Sequencing

    Next-Generation Sequencing (NGS) er nutidens mest udbredte metode og markedet er hovedsageligt domineret af firmaet Illumina. Metoden producerer rigtig mange reads, virkelig hurtigt og billigt. Desværre er DNA fragmenterne meget korte, hvilket gør det til en endnu større udfordring, når disse skal assembles til et fuldt genom. Et assembly kan sammenlignes med at samle et kæmpestort pulsespil, hvor nogen brikker mangler og andre kan være ens, og i tilfælde af at det er en ny organisme (de novo), ved man heller ikke hvordan puslespillet skal se ud. NGS bruges i alle tilfælde, hvor man har mange prøver eller store genomer. F.eks. hvis man sekventerer hele genomet fra en syg person, for efterfølgende at kunne analysere hvad personen fejler.

     

    Tredje generation sekventering – PacBio / Nanopore

    Ved tidligere generationer af sekventering skal DNA først brydes i fragmenter og derefter amplificeres ved PCR for at kunne blive sekventeret. Dette er ikke nødvendigt ved tredje generations sekventering (TGS), der kan kortlægge et helt enkelt molekyle af DNA. Dette har medført to vigtige fordele: der produceres meget lange reads og baserne bestemmes med det samme, når de forløber i sekventeringen (realtime). Dette er modsat ved Sanger og NGS, hvor man er nødt til at vente til reaktionerne er kørt færdig for at se rækkefølgen af baserne. TGS-teknologierne er først blevet præsenteret på markedet i løbet af dette årti, og der er to metoder der på nuværende tidspunkt dominerer området: Pacific Biosciences (PacBio) der bruger metoden Single-molecule real-time (SMRT) og Oxford Nanopore Technologies som bruger Nanopore Sequencer. TGS er på mange måder fordelagtigt over NGS og Sanger, men der produceres ikke lige så meget data som ved NGS, og der fås en højere sekventeringsfejlrate. Derfor kombinerer forskere ofte forskellige generationer af sekventering. TGS kan give lange reads, som kan hjælpe med at dække områder af genomet med høje repetitive regioner, mens NGS kan give en høj dækning i dybden (uddybes senere).

    Tabel 1. Sammenligning af første, anden og tredie generations sekventeringsmetoder. 

      Eksempler Fordele Ulemper Read længe (bp)
    Første generation (Sanger) Applied biosystems Priseffektivt og hurtigt for et småt antal af prøver Dyrt, langsomt, laboratorieintensivt for mange prøver 600 – 1000
    Anden generation (NGS) Illumina Hurtigt, billigt, høj følsomhed ved et stort antal af prøver, mere data produceret med samme mængde DNA Korte reads, ineffektiv ved et lavt antal af prøver 50 – 300
    Tredje generation (TGS) PacBio,
    Oxford Nanopore
    Lange reads, realtime Høj sekventeringsfejlrate. Der produceres mindre data end ved NGS. 2500 – 50.000

     

    Hvis du er interesseret i at lære mere om de forskellige sekventeringsmetoder, kan du se de nedenstående videoer

    Kvalitetscheck, assembly og annotering

    Kvalitet af assembly

    Efter sekventeringen er forløbet og man har fået sine reads, skal der udføres assembly. Her samles alle reads til længere fragmenter, for så at kunne rekonstruere den originale sekvens. Dette betyder at man skal afgøre hvor hver enkelt read, er placeret i genomet. Figur 3 viser hvordan man finder lokaliseringen for reads langs et referencegenom og hvordan man kan angive kvaliteten af ens data ved to faktorer. Coverage er det gennemsnitlige antal af gange ens data dækker kendte positioner i genomet (hvor meget af den originale sekvens er dækket af reads). Depth er det antal reads der dækker et bestemt nukleotid på hver position i genomet (jo flere reads på den enkelte position, desto højere sandsynlighed for det korrekte nukleotid). Disse parametre hjælper med at angive kvaliteten af ens data, og hvis den ikke er tilstrækkelig høj, skal områder med lav score sekventeres igen. Som det ses fra figur 3, producerer tredje generations sekventering (orange) meget lange reads, som kan dække store områder, mens anden generation (blå) producerer rigtig mange reads, som kan give en høj dækning i dybden.

    regnskov_assembly

    Figur 3. Efter sekventering skal de forskellige reads alignes til et reference genom. Dette danner et “assembly”. Jo flere og jo længere reads der overlapper, des bedre kvalitet assembly dannes. Dette benævnes som “coverage” og “depth”, henholdsvist. 

     

    Assembly metoder

    Assembly kan udføres på to måder, alt efter om man har et referencegenom (reference based assembly) eller en hel ny og ukendt organisme (de novo assembly). Ved reference based assembly finder man overlap mellem ens reads og den kendte sekvens. Når man har placeret sine reads så de matcher de kendte områder, kan man til sidst samle det til en original sekvens, kaldet en konsensus sekvens. Den kan bruges til at sammenligne mellem andre typer af sekvenser der ligner, for at identificere variationer eller mutationer. De novo assembly er meget mere vanskelige at udføre, fordi man ingen ide har om hvordan sekvenserne hænger sammen. Derfor finder man ofte kun overlap mellem visse reads, hvilket resulterer i større stykker af sekvenser der kaldes for contigs, der er kort for en contiguous, dvs sammenhængende, region. Disse kan herefter blive mærket (annotereret) med de gener og andre funktionelle regioner der tilhører de contigs. Gen annotering er altså den proces hvormed man definerer hvor de specifikke gener er lokaliseret i genomet, samt deres funktion. Dette gøres ved at finde lignende gener fra nærtbeslægtede organismer vha. BLAST, som slår op i eksisterende databaser såsom ensembl som er en samlet database for genetisk information for forskellige organismer.

    regnskov_assembly_metoder

    Figur 4. Ved reference based assembly finder man overlap mellem de enkelte reads og referencen til at bestemme placeringen af fragmenterne. Når de er placeret, samler man fragmenterne til hvad der kaldes en konsensus sekvens. Herefter kan man sammenligne sekvenser og identificere hvor på DNA’et der er en ændring. Ved de novo assembly har man ikke en reference og man samler derfor kun reads der overlapper med hinanden. Når de er identificeret, kan man samle dem til større områder kaldet contigs. Herefter udføres genannotering, hvor man finder de gener der er placeret på de forskellige contigs

    Supercomputere og bioinformatik

    Processen hvormed plantens gener sekventeres, assembles og genannoteres er kun muligt fordi computere er blevet langt kraftigere det sidste årti. Som bioinformatiker arbejder man selvfølgelig på sin egen personlige computer (PC), men når man bearbejder massive mængder af data, er dette ikke længere muligt og det er nødvendigt at gøre brug af en supercomputer. En supercomputer er en samling af mange computere, der udfører parallel processing (dataen opdeles i flere dele, hvor hver del udføres samtidigt, men på forskellige processorer/CPU’er), indeholder ekstremt meget lagerplads (memory) og kraft (CPU’er – antal processorer man vil fordele opgaven ud på). Det betyder, at den derfor kan håndtere utrolig meget data på rigtig kort tid. Et eksempel på en supercomputer er Danmarks Nationale Supercomputer i Life Science kaldet Computerome. Den kan tilgås fra egen PC, ved at benytte et terminal program, som kan kommunikeres med vha. programmering. Når man ønsker at supercomputeren skal køre en opgave med meget data, angiver man hvor meget RAM og hvor mange CPU’er man ønsker at benytte på supercomputeren.

    Udover at arbejde på supercomputere, kan en bioinformatiker også lave en kaskade af forskellige analyser f.eks. finde plantens gener, oversætte dem til proteinsekvenser, forudsige proteinernes funktioner, hente deres 3D strukturer og analysere om de udtrykkes i specifikke celletyper. Hver analyse kræver adgang til forskellige databaser og værktøjer, og her er det en fordel at kunne anvende Application Programming Interface (API). Det er den del af computeren som modtager og tilbagesender forespørgsler. Den angiver hvordan forskellige programmer skal arbejde sammen.

    Genome assembly

    I nedenstående video forklarer Bent Petersen hvordan man går fra sekventerings data, til et komplet genom.

    Biologiske pathways

    Når genomet er sekventeret og blevet annoteret med gener, er det færdige resultat stadig en samling af forskellige dele. For at forstå hvordan en celle fungerer, er det nødvendigt at vide mere end hvilke gener der er til stede. Det kræver at man undersøger forskellige biologiske pathways. En biologisk pathway er en række af interaktioner blandt molekyler i en celle, som fører til et bestemt produkt eller en ændring i cellen. Nogle af de vigtigste og mest kendte biologiske pathways er involveret i metabolismen, reguleringen af genekspressionen og overførslen af signaler. Genregulerings pathways kan aktivere eller inaktivere gener. Signal transduktion pathways behandler signaller fra cellens indre eller ydre, og forårsager et passende respons. Metaboliske pathways udgør alle de kemiske reaktioner der forekommer i en organisme.

    Signal transduktion pathways

    Cellen er en sammensat enhed bestående af tusindvis af forskellige typer af proteiner, som hver udfører en særlig opgave med utrolig præcision. For at holde sig i live skal celler kunne kommunikere med hinanden, hvilket kræver at celler kan modtage signaler fra det ydre miljø, og deraf forårsage en ændring i cellerbes indre miljø. Fra det ydre miljø kan celler fornemme mange forskellige signaler, herunder ydre fysiske parametre som eksempelvis temperatursvingninger, signaler fra andre celler eller skadelige stoffer. De kan også fornemme indre signaler, såsom skader på DNA. Måden hvorpå celler reagerer på og korrigerer efter disse signaler er gennem signal transduktion pathways.

    Signal transduktion pathways involverer bevægelsen af et signal fra en celles omkringliggende miljø til dens indre, hvor et ydre signal bliver modtaget af proteiner på cellens overflade kaldet receptorer, der igangsætter en respons som reaktion på signalet. Et respons involverer at signalet transporteres ind i cellen, hvor dens besked bliver videregivet til specielle proteiner der udløser en bestemt reaktion i cellen. F.eks. når cellen opdager tilstedeværelsen af sukker begynder den at beregne den mængde hvormed hver type af protein er nødvendig for at transportere sukkeret ind i cellen, nedbryde og udnytte det. Følgelig begynder den at fremstille den påkrævede mængde. Hvis cellen havde modtaget et signal der sagde at den var beskadiget, havde den reageret ved at beregne og fremstille de påkrævede mængde af proteiner, der var nødvendigt for at blive repareret.

     

    regnskov_signal_transduction

    Figur 5. Celler kan tage imod signaler fra omgivelserne ved hjælp af signal transduction pathways. En sådan pathway involverer typisk at en receptor på cellens overflade aktiveres, ved binding til et signalstof, hvilket bevirker en ændring indeni cellen (et respons). Dette indebærer ofte en ændring i cellens udtryk af gener, og kan derfor bidrage til udtrykket af metaboliske pathways.

     

    Genregulerings pathway

    Et gen er et stykke af DNA, som koder for et protein. Genregulerings pathways involverer transskription af et gen, som er den proces hvor DNA oversættes til mRNA (genets kodende del). Den hastighed ved hvilket genet transskriberes styres af promotoren (et regulatorisk område af DNA der ligger forud for genet). Her binder RNA polymerase, og det er stabiliteten og bindingsstyrken af denne promotor der angiver genets transskriptionshastighed. For at RNA polymerase kan binde til dette sted, spiller proteiner kaldet transskriptionsfaktorer en vigtig rolle, da det er dem der muliggør bindingen. Transskriptionsfaktorer er designet til at skifte hurtigt mellem aktive og inaktive tilstande, med en hastighed, der styres af signaler fra miljøet. Hver aktiv transkriptionsfaktor kan binde DNA’et for at regulere den hastighed, ved hvilken genet transskriberes. Herefter oversættes mRNA til et protein (genproduktet) ved processen kaldet translation, og nu kan proteinet påvirke miljøet tilbage. Transskriptionsfaktorer er kodet af gener, som er reguleret af andre transskriptionsfaktorer, som kodes fra andre gener, og igen er reguleret af endnu andre transskriptionsfaktorer osv. Det totale sæt interaktioner danner et transskriptionsnetværk, som kan beskrive alle de regulerende interaktioner i en celle.

    regnskov_genregulering

    Figur 6. Eksempel på opbygningen af en genregulerings pathway. Et ydre signal (grøn kugle) aktiverer transskriptionsfaktorer, (lilla kugle) der aktiverer transskription af gen A. GenA danner mRNA, der koder for protein A, som fungerer som transskriptionsfaktor for genB, der koder for protein B. Den øgede transskription af genB, medfører en øget mængde af protein B. 

     

    Metaboliske pathways

    Biosynteseveje

    Celler udfører konstant tusindvis af kemiske reaktioner der både nedbryder og opbygger molekyler, der er nødvendige for at cellen kan leve. Metabolisme henviser til stofomsætningen af alle de kemiske reaktioner, der finder sted i alle celler. Både encellede og multicellulære organismer bliver nødt til at kontrollere deres metabolisme for at overleve. Det betyder at når der skal opbygges og nedbrydes molekyler, sker det ikke i ét trin, men i mange små trin. De adskillige trin det tager et molekyle (kaldet substrat) at gå igennem en række af enzym-katalyserede reaktioner, hvorved det omdannes til et produkt, kaldes en metabolisk pathway. Der findes to hovedtyper af disse: kataboliske og anabolske pathways. En Katabolisk pathway nedbryder et substrat og derved frigiver energi, f.eks. ved cellulær respiration. En anabolsk pathway opbygger et molekyle og det kræver energi f.eks. fotosyntese. Der findes tusindvis af metaboliske pathways og de kan involvere et eller flere hundrede trin, som kan være reversible eller irreversible.

    Disse pathways eksisterer ikke i isolation, men interagerer i stort omfang med hinanden, hvor hver reaktion i hver pathway er katalyseret af et bestemt enzym. Det er tilstedeværelsen og aktiviteten af enzymerne der afgør hvordan substratet løber gennem pathwayen. Enzymaktiviteten er kontrolleret af genregulerings- og signal transduktion pathways. Som tidligere nævnt behandler disse pathways signaler, hvilket ændrer aktiviteten for transskriptionen af generne, som påvirker produktionen af de proteiner som enzymerne består af. De pathways afgør hvornår generne er aktive eller inaktive. Hvis et enzym i en metabolisk pathway er til stede betyder det ikke, at det er aktivt. Hvis det er inaktivt, er trinet og alle efterfølgende lukket ned, medmindre de får substratet en anden vej fra. Substratet kan nemlig stimuleres til at tage en anden metabolisk pathway, der stadig ender med det samme slutprodukt, men det vil tage længere tid at producere (se figur 7). Denne måde at aktivere/inaktivere generne muliggør forskellige pathways og det udnytter cellen. Det gør den ved at kontrollere hvilken pathway, der er aktiv på et bestemt tidspunkt, ved også at aktivere eller inaktivere de eksisterende enzymer. Tilsammen udgør alle metaboliske pathways et komplekst netværk, der gør at alle vores celler kan kommunikere med hinanden, producere de nødvendige produkter, eller metabolitter og derved opretholde livet. Disse pathways kan i praksis visualiseres og analyseres ved brug af platformen KEGG.

     

    regnskov_metabolisme_regulering

    Figur 7. Eksempel på en metabolisk pathway. Et substrat omdannes ved hjælp af enzym A B og C til et produkt. Som mellemprodukter dannes metabolitterne 1 og 2. Ved modtagelse af et signal, kan enzym A ændre funktion, og i stedet danne stof 5, der hæmmer aktiviteten af enzym B. På denne måde hæmmes reaktionsvejen. Det tilbageblevne stof 1 kan omdannes ved at tage en anden reaktionsvej ved hjælp af enzymerne D E og F. 

     

    KEGG

    KEGG er en database over centrale biologiske pathways og indeholder al nødvendig information (funktion, kemisk struktur, type, m.m.) for ethvert element i de pathways. Databasen kan tilgås igennem linket https://www.genome.jp/kegg/kegg2.html. I det følgende eksempel vil en gennemgang af undersiden https://www.genome.jp/kegg-bin/show_pathway?map00910 bruges.

    KEGG oversigter (maps) er beskrevet ud fra forskellige elementer:

    • Enzymer eller andre genprodukter er markeret med en firkant. Hvis de er markeret med grønt, betyder det de er tilstede i pathwayen for den undersøgte organisme.
    • Pathway maps er markeret med en oval ring.
    • Kemiske forbindelse (stoffer), DNA eller andre molekyler er markeret med små cirkler.
    • Hvis der sker en aktivering, er dette markeret med en fuldoptrukken pil
    • Hvis der sker en indirekte effekt eller en tilstandsændring er dette markeret med en striplet pil
    • Hvis pilen fører til en cirkel og så videre til en firkant betyder det at et gen udtrykkes.

     

    Da KEGG’s pathway maps kan virke uoverskuelige ved første blik, forklares de nemmest ud fra et eksempel, se figur 8. I et KEGG pathway map vises de forskellige metabolitter som cirkler, og metabolitterne forbindes til hinanden med pile. Over/under pilene står navne eller EC numre (Enzyme Commission number) for de enzymer, der omdanner metabolitterne, i kasser. Et EC nummer tildeles et enzym, afhængigt af hvilken type reaktion det katalyserer. Enzymer fra forskellige organismer kan altså have det samme EC nummer, såfremt de katalyserer den samme reaktion.

    Nedenstående KEGG pathway viser nitrogenmetabolismen for rhizobia bakterier (de bakterier der danner rodknolde hos planter fra ærteblomstfamilien og hjælper dem med at optage nitrogen). Dette vises ved, at de proteiner rhizobia bakterier besidder er markeret med grønt.

    Trykker man på et enzym finder man yderligere information om enzymet. Trykker man for eksempel på NrtABCD, vil man få information om enzymets funktion, hvilke gener der koder for enzymet, samt hvilke pathways enzymet er involveret i. Funktionen af NrtABCD fremstår også af pathway map’et: enzymet tager extracellulært Nitrat, og transporterer det ind i cellen. Følger man kæden af reaktioner, som rhizobacteren kan udføre (de enzymer den har, er som nævnt markeret med grønt), kan det ses at Nitrat (NO3) omdannes af 1.7.99 til Nitrit (NO2), som så enten kan danne Nitric Oxide (NO) eller ammoniak (ammonia på engelsk, NH3). Det ses endvidere at bakterien kan omdanne Nitrogen (N2) til ammoniak. Planter er i stand til at optage ammoniak, men ikke nitrogen, så rhizobacterne kan på denne måde “fodre” planterne med brugbart nitrogen. Til gengæld giver planterne brugbare kulstofkilder tilbage til bakterierne, og arterne indgår på denne måde i en symbiose.

    Tekst omringet af en oval ring f.eks. Methane metabolisme er andre pathway maps som er forbundet til pathwayen for nitrogenmetabolismen. Altså bliver stoffet Formate (markeret med en lille cirkel) f.eks. ført videre og brugt i andre pathways, i dette tilfælde Methane metabolismen og Glyoxylate metabolismen.

    Figur 8. Den metaboliske pathway brugt til at fixere nitrogen fra atmosfæren, samt til omdannelse af nitrat til ammoniak. Se brødtekst for detaljer.
    Denne pathway figur er taget fra KEGG’s hjemmeside: https://www.genome.jp/kegg/

    På sporet af planternes hemmeligheder

    I mere end 50 år har Birger Lindberg Møller undersøgt hvordan og hvorfor planter producerer en masse avancerede stoffer. Det har bragt ham på sporet af en grøn vision for fremtiden, hvor netop planternes unikke egenskaber er vores håb. I dette interview kan du høre om nogle af Birgers opdagelser, om hans lange liv som forsker, der slet ikke er slut endnu selvom han er 73. Hør hvordan det hele startede, og hvordan nysgerrighed har ført plantebiokemikeren fra giftig cassava i Afrika til tørstige koalaer i Australien.

     

     

    Bioinformatiker i junglen

    Bent Petersen er lektor i Bioinformatik ved Københavns Universitet. Det betyder at han kan noget særligt med supercomputere, men den retning som Bents forskning har taget har også ført ham på ekspeditioner i regnskoven og på sporet af kæmpeblæksprutter fra dybhavet og en hest som levede for 700.000 år siden. I dette interview får du et indblik i Bents liv som forsker. Hvad kræver det egentlig, og hvordan bliver man forsker? Hør Bents egen historie fra pandaklubben til store internationale forskningsprojekter.

     

     

    Opsummering

    Planter producerer et bredt spektrum af sekundære metabolitter som hver især har særlige egenskaber. Eksempelvis koffeinen i kaffe, krydderiet vanilje eller medicin som artemisinin. Grundet sekundære metabolitters store potentiale, er der stor akademisk og industriel interesse i at fremstille dem kunstigt. For at kunne dette, er det nødvendigt at kortlægge plantens genom, således at man har al den genetiske information og derved kan identificere de gener der koder for de enzymer der er involveret i biosyntesevejen, til fremstillingen af den særlige sekundære metabolit.

    Figur 9 opsummerer denne proces. Først tages en prøve fra planten, hvorfra man kan udvinde plantens DNA i laboratoriet og derefter sekventeres det ved brug af en eller flere af de forskellige typer af sekventering. Resultatet fra sekventeringen er uoverskueligt mange DNA-sekvenser (reads). Disse reads er meget korte og skal samles til længere sekvenser, i den proces der hedder assembly. Målet er at kunne genskabe plantens samlede genom.

    De assemblede sekvenser indeholder nu store områder med gener, hvis funktion er ukendt. For at angive (annotere) hvilken funktion de forskellige sekvenser har, søges de mod en database som indeholder information omkring eksisterende sekvenser og deres funktion (f.eks. vha. værktøjet BLAST). Resultatet er en annotering af gener, som giver information om hvilke proteiner generne producerer eller er involveret i. Yderligere skal biosyntesevejen for den sekundære metabolit undersøges, for at kunne identificere de forskellige enzymer som er nødvendige i dannelsen af stoffet. Når de pågældende enzymer er identificeret, kan man udlede hvilke gener der koder for dem. Når man kender generne og har identificeret dem på de annoterede sekvenser, kan man indsætte generne i alger eler bakterier. Produktionen af den sekundære metabolit kan herefter opskaleres ved brug af fermenteringsteknologi, og efter en oprensningsproces står man tilbage med sit færdige produkt.

    regnskov_opsummering

    Figur 9. Opsummering af metoder til identifikation af sekundære metabolit pathways. 

     

  • Caseopgaver

    Til dette projekt er der lavet tre programmerings- og bioinformatiks øvelser. De er lavet i Jupyter Notebooks, som er en bestemt type fil skrevet i Python. Øvelserne er tilgængelige ved hjælp af Colab, som er en online platform udviklet af Google. Det betyder, at det ikke er nødvendigt at installere nogle programmer for at lave projektet. Det skal gøres klart, at det ikke er en forudsætning at elever eller lærer har kendskab til programmering for at lave øvelserne. I vil blive introduceret til Python (et programmeringssprog ofte brugt indenfor bioinformatik) og lære at bruge andres koder, men det er meget begrænset hvad I selv skal skrive. Platformen tillader desuden at alle kan programmere på samme tid, og deler det på en nem måde – lidt ligesom at dele et google docs med andre. Desuden giver Colab adgang til brug af frie CPU’er (computerkraft) og er gratis at benytte!  De eneste forudsætninger for at bruge det, er at man har en google konto og at man er på internettet. Arbejde med opgaverne kræver at man bruger enten Google Chrome, Firefox eller Safari som internet browser. 

    Hvis du ikke har en google konto kan du oprette en her: https://accounts.google.com/signup/v2?flowName=GlifWebSignIn&flowEntry=SignUp

    Læs teksten grundigt og husk at I skal lave en kopi af dokumentet før I selv kan skrive ændringer eller køre koden.

     

    Introduktion til programmering

    Formålet med denne øvelse er give en introduktion til programmering med Python. De vigtigste koncepter og elementer vil blive gennemgået, og du vil få en fortåelse for, hvordan man kører kode i Colab. Øvelsen er en forudsætning for at kunne lave resten af øvelserne. 

     

    Link til øvelsen:

    https://colab.research.google.com/drive/174XonqIHY-aufYVe88GzG8ON4_3yfYkj

    Case 1: Planter 

    Tropiske regnskove er de steder på Jorden med størst biodiversitet. Selvom de kun dækker 6% af verdens landsareal, er de estimeret til at være hjem for 50% af alle landlevende dyr og planter. De rummer en guldmine af uopdagede naturstoffer og genetisk variation. Et eksempel på en særlig spændende plante fundet i regnskoven er Artemisia annua L. Det blev opdaget at planten producerer naturstoffet kaldet artemisinin som kan bruges til behandling af malaria. Malaria skyldes en parasit, der overføres til mennesker gennem bid af inficerede myg og World Health Organization (WHO) vurderede i 2015 at hvert år opdages omkring 212 millioner nye tilfælde af malaria, hvor 429.000 tilfælde fører til dødsfald. Der er derfor en enorm efterspørgsel på naturstoffet. Det har medført at planten er blevet plukket i en ekstrem grad, således at den er gået hen og blevet en truet art. For at imødekomme efterspørgslen og stadig bevare biodiversiteten, har forskere sekventeret planten og identificeret de gener der producerer det bioaktive stof. Dette muliggjorde en syntetisk produktion af stoffet i stor skala og samtidig sikrede plantens overlevelse.

    I denne case arbejdes der med planten Artemisia annua L., og der vil blive gennemgået de forskellige elementer der er vigtige for at kunne identificere de gener, der er involveret i dannelsen af artemisinin.

     

    Link til øvelsen: 

    https://colab.research.google.com/drive/19hR-aIx-B0KEWvXN7kzPGvQGX1rtm5M5 

    Case 2 – KEGG og vanilje

    I denne case skal du forestille dig, at du lige er blevet ansat som bioinformatiker for en stor bioteknologisk virksomhed. Virksomheden arbejder på at opskalere produktionen af forskellige fødevarer. I øjeblikket er vanilje i kæmpe efterspørgsel, men fordi ægte vanilje kun kan dyrkes ét sted i verden, er det både utroligt dyrt og kun tilgængeligt i meget små mængder. Din chef kommer forbi, og du får til opgave at finde de gener, der koder for de enzymer, der er involveret i pathwayen i dannelsen af vanilje fra orkideplanten. Andre firmaer har gjort noget lignende, men fordi produktet giver så stort udbytte, er deres viden ikke offentligt tilgængeligt. Den eneste information du kan finde, er forskningsresultater der ligger på KEGG.

    Din første opgave er at finde pathwayen for vanilje, derefter hvilke enzymer der står for omdannelsen af stofferne og til sidst identificere de gener der koder for enzymerne, således at de kan indsættes i en anden organisme – f.eks. E. Coli, som nemt kan dyrkes og derved udtrykke produktet i massiv skala.

     

    Link til øvelsen:

    https://colab.research.google.com/drive/1Dr5OCmIr31dRTLKUbw0LI9MYkPfFjGSz 

  • Lærervejledning

    En vejledning til brug af dette projekt kan findes her: Lærervejledning Regnskov

    Løsninger til opgaverne kan findes på følgende side: https://www.biotechacademy.dk/undervisning/laerervejledninger/

    Adgang til disse tilsendes lærere efter henvendelse over mail til: biotech@bio.dtu.dk

Kildehenvisning:
Dette projekt blev udgivet i februar 2020. Det er udarbejdet af Biotech Academy og er blevet opdateret løbende.

null

Projektet er udarbejdet af Charlotte Kaae

Charlotte Kaae

null

Bent Petersen har været sparringspartner på dette projekt. (Lektor, Section for Evolutionary Genomics, Københavns Universitet)

Bent Petersen

null

THOMAS SICHERITZ-PONTÉN har været sparringspartner på dette projekt. (Professor, Section for Evolutionary Genomics, Københavns Universitet)

Thomas sicheritz-Pontén

null

Iben Julie Scmidt har været sparringspartner på dette projekt. Hun er desuden ansvarlig for alle film og podcast produceret til projektet. (Kommunikationsspecialist, Scientifica)

Iben Julie Schmidt

null

Børne- og undervisningsministeriet har været sponsor for dette projekt.

Børne- og undervisningsministeriet