• Bioinformatik - en introduktion

    Materialet indeholder dels I) en beskrivelse af og en guide til nogle af de bioinformatisk relaterede programmer og databaser, der er tilgænglige online, dels II) fire tilhørende øvelser, der arbejder med brugen og forståelsen af de bioinformatiske værktøjer. Hver øvelse er inddelt i tre til fire deløvelser, der både kan laves enkeltvis eller som en hel øvelse i et samlet forløb.

    Udover ovenstående er fire biologisk-relaterede emner beskrevet i afsnittet ”Teori”. Disse teoridele er mere dybdegående end programbeskrivelserne, og vil bidrage til bedre forståelse af de emner, der indgår i programmerne og de databaser som man arbejder med i øvelserne.

  • Teori

    Teoridelen gennemgår de biologiske områder, som skal kendes for at kunne bruge og forstå de programmer, der arbejdes med i øvelserne.

    I programmet Virtual Ribosome benytter man viden omkring codons og læserammer til at finde det protein, der er kodet af en given DNA-sekvens. Viden omkring om codons og læserammer er derfor vigtig for at kunne bruge programmet og fortolke resultatet.

    Codons

    DNA er et makromolekyle, der indeholder en organismes arvemateriale. En DNA-sekvens indeholder normalt et gen, der koder for et protein. Den samlede proces, hvor DNA oversættes til protein, betegnes Det Centrale Dogme og består blandt andet af to trin, transkription (fra DNA til messenger-RNA, mRNA) og translation (fra mRNA til protein).

    DNA er sammensat af nukleotider. Under translationen til protein aflæses DNA-sekvensen som codons. Hvert codon aflæses til netop en aminosyre, dvs. tre nukleotider bliver til én aminosyre. Der kan dannes i alt 64 forskellige codons (4³) som således oversættes til forskellige aminosyrer samt stopcodons. Figur 1 viser en codon-translateringstabel, hvor det kan ses hvilke codons, der koder for hvilken aminosyre. Det ses, at flere codons koder for den samme aminosyre, og at nogle codons også koder for start- og stopsignaler. Start- og stopcodons fortæller, hvor translationen fra mRNA til protein skal henholdsvis starte og stoppe på mRNA-sekvensen.

    Figur 1. Codon-translationstabel. 

     

    Læserammer

    Da DNA-sekvenser aflæses i codons (tre nukleotider) og ikke én nukleotid ad gangen, kan der dannes forskellige aminosyrekæder alt afhængig af, i hvilken position på DNA-sekvensen translationen starter. Man siger, at DNA-sekvensen har forskellige læserammer. Antallet af læserammer (forskellige aminosyresekvenser), der kan dannes pr. DNA-streng, er dog begrænset til tre. Grunden til dette er, at en codon som nævnt består af tre nukleotider, og dermed aflæses DNA-sekvensen tre nukleotider ad gangen. Hvis man starter translationen på position 1 eller position 4, vil man således benytte den samme læseramme, og man vil dermed få den samme aminosyresekvens (dog uden den første aminosyre, hvis man starter på position 4). Den samme aminosyrekæde vil fås, hvis man starter på position 7, blot uden de to første aminosyrer etc. Hvis man starter på position 2, 5, 8… vil man få aminosyresekvensen fra læseramme 2. Denne aminosyresekvens vil være en anden end den fra læseramme 1, hvor man startede på position 1, 4, 7… Endelig er det samme princip gældende for læseramme 3, hvor aminosyresekvensen bliver translateret fra position 3, 6, 9…, se figur 2.

    Da DNA-molekyler er sat sammen af to DNA-strenge i en dobbeltbundet DNA-helix, findes der ikke kun tre læserammer, men faktisk seks forskellige læserammer for hvert DNA-molekyle; tre forskellige læserammer på hver DNA-streng.
    Læserammen mellem to stopcodons betegnes den åbne læseramme (eng. Open Reading Frame, ORF) og er den del af DNA’et, der kan kode for et protein.

    Figur 2. Læserammer. Hver DNA-streng har tre forskellige læserammer alt afhængig af startpositionen for aflæsningen. Hver startposition er markeret med en bestemt farve, og det ses, at der dannes forskellige aminosyrekæder alt afhængig af hvilken læserammer der bliver brugt.

     

     

    Det er dog ikke alle åbne læserammer, der koder for et funktionelt protein. Faktisk er det som regel kun én åben læseramme ud af de seks mulige, der koder for noget funktionelt. DNA-sekvensen i den åbne læseramme, der koder for det funktionelle protein, kaldes den kodende sekvens (eng. coding sequence, CDS) og er dermed det stykke DNA, der translateres til proteinet.

    I programmet FigTree kan man visualisere evolutionære træer. Kendskab til fylogeni og trækonstruktion er derfor vigtig for at kunne benytte programmet og fortolke resultatet.

    Fylogeni er læren om og beskrivelsen af organismers slægtskab. Fylogeni bruges blandt andet til:

    1. Klassificering af fossiler og levende arter, så de kan blive placeret i livets træ sammen med andre kendte organismer.
    2. Kortlægning af konserverede domæner i f.eks. vira og bakterier for at finde sekvenser til brug i vacciner. Du kan læse mere om konserverede domæner her.
    3. At finde sammenhæng mellem kendte og nyopdagede proteiner for at bestemme de nyes funktion.

    I fylogenetiske træer bliver arter og organismer betegnet som taxon (flertal: taxa). Træets spidser indeholder hver mere end én taxon, se figur 3. Hvis man følger en taxon tilbage, ned langs grenene, er hver forgrening ensbetydende med en fælles stamfader. Med andre ord er forgreningspunktet det sted, hvor en taxon udviklede sig til to forskellige taxa. Disse to taxa har hver en gren ud fra forgreningspunktet, og de betegnes derfor som søstergrupper. I figur 3 er taxa A og B søstergrupper, da de begge stammer fra stamfader III.

    Alle taxa , der er udviklet fra en fælles stamfader, kaldes for monofyletiske grupper (eng. clade). I figur 3, hører taxon A, B, C og stamfader III til samme monofyletiske gruppe, da de alle udspringer fra stamfader II. Monofyletiske grupper kan dannes, da medlemmerne i de forskellige grupper vil have en række enskarakteristika, som de alle har arvet fra deres fælles stamfader.

    Et fylogenetisk træ kan både være rodet eller ikke-rodet. Når der her skrives rodet, er det ikke ensbetydende med uorden, men derimod et udtryk for en kronologisk udvikling af træets taxa.

    Et ikke-rodet træ viser, hvorledes træets taxa er beslægtet med hinanden, men giver ikke noget billede af udvikling i forhold til, hvilke taxa der ældst og yngst. Et ikke-rodet træ benyttes derfor, hvis udviklingen er underordnet og man blot ønsker at se, hvorledes træets taxa er grupperet.

    Figur 3. Eksempel på et fylogenetisk træ med taxa, stamfædre og grupperinger.

     

    Et rodet træ har derimod en rod svarende til den ældste fælles stamfader, hvorfra træets taxa har udviklet sig. For at kunne lave et rodet træ er man nødt til at have et vist kendskab til træets taxa.

    Man kan benytte en såkaldt ydergruppe (eng. outgroup, se infoboks til højre) til at placere roden på et træ, da ydergruppen er den taxon, der først er divergeret væk fra træets andre taxa (eng. ingroup). For at være i stand til at lave et rodet træ er det derfor en god ide at inkludere en taxon, som på forhånd vides at være divergeret væk fra de andre først, dvs. ligge evolutionært langt væk fra de resterende taxa. Ønsker man eksempelvis at undersøge slægtskabet mellem pattedyr, kan man for hver art tage en sekvens, der koder for det samme protein samt inkludere den samme sekvens fra en fugl, da det på forhånd vides, at fugle ikke er evolutionært beslægtet med pattedyr på samme måde, som pattedyrerne er indbyrdes. Fugle-sekvensen kan således benyttes som ydergruppe, og dermed kan man lave et rodet træ, så det kronologiske slægtskabstræ for pattedyrerne kan visualiseres. Et eksempel på et ikke-rodet og et rodet træ kan ses i figur 4.

    Figur 4. Forskel mellem et rodet og ikke-rodet træ. A viser et fylogenetisk træ, der ikke er rodet. B viser et fylogenetisk træ, som er blevet rodet ved at bruge taxon A som ydergruppe. Det ses, at grenlængderne ikke er ændret, så slægtsskabet mellem træets taxa er dermed ikke ændret. Det rodede træ vil derfor “kun” give en kronologisk opbygning af slægsskabet og ikke ændre det. 

     

    Begge træer viser det samme slægtsskab, men i træ B er taxon A valgt som ydergruppe og træet er derfor blevet rodet. Hver gren i træet har en tilknytte en såkaldt distance, der er forskellen, givet i antal mutationer, mellem de to taxa grenen separerer. Ved at sammenligne træet i A og B ses det, at distancerne ikke er ændret, hvilket betyder, at det indbyrdes slægtsskab ikke er ændret, men blot den grafiske afbildning.

    Hvis man ønsker at læse mere om fylogeni og evolutionsteori kan følgende læses:

    • Gyldendals Store Danske Encyklopædi om Evolution: Gå til siden
    • Gyldendals Store Danske Encyklopædi om Fylogeni: Gå til siden

    Proteiner er polypeptider (poly = mange), som er sammensat afaminosyrer, der er bundet kovalent sammen gennem peptidbindinger (se infoboks 1).

     

    Aminosyrer

    Den generelle grundstruktur for en aminosyre kan ses i figur 5.

    Der findes i alt 20 forskellige standardaminosyrer, der hver er karakteriseret på baggrund af deres sidekæde. Sidekæden definerer, hvilke kemiske egenskaber aminosyren har og dermed hvilke bindinger, den kan lave. De 20 aminosyrer er inddelt i fem kategorier på baggrund af deres kemiske egenskaber. Aminosyreopdelingen kan ses i tabel 1.

    Primærstruktur

    Aminosyrer bliver sat sammen gennem peptidbindinger, hvorved lange rækker af aminosyrer kan dannes. Som nævnt ovenfor kaldes disse rækker polypeptider. Peptidbindingen bliver dannet ved, at det negativt ladede oxygenatom i carboxylgruppen reagerer med et af hydrogenatomerne fra aminogruppen i en anden aminosyre.

    Figur 5. Den generelle struktur af en aminosyre. Den består af et carbonatom bundet til en positivt ladet aminogruppe, en negativt ladet carboxylgruppe, et hydrogenatom og en sidekæde. 

     

    Ved reaktionen bliver der afgivet et vandmolekyle (reaktionen er en kondensation), og en peptidbinding er dermed skabt, se figur 6.

    Figur 6. Danelsen af peptidbindinger. Det ses, at der frigives ét vandmolekyle for hver binding, der dannes.

     

     

     Tabel 1. Oversigt over de 20 forskellige aminosyrer, opdelt efter kemiske egenskaber.

    Sekundærstruktur 

    De lange polypeptidkæder kan på grund af sidekædernes kemiske egenskaber foldes i lokale, rumlige strukturer. De mest udbredte strukturer kaldes α-helix og β-plader.

    α-helixen er en spiral med en rygrad af aminosyrer, der er holdt sammen vha. hydrogenbindinger mellem hver femte aminosyre. Spiralen er konstrueret sådan, at aminosyrernes sidekæder stikker ud af spiralen. Sidekæderne kan interagere med hinanden for at skabe stabilitet til spiralen, men de kan også interagere med andre molekyler, se figur 7. α-helix’er er mest udbredt i membranproteiner (proteiner der går gennem cellemembranen) og i DNA-bindende proteiner. I DNA-bindende proteiner findes α-helixen i de domæner, der interagerer med DNA’et, så proteinet kan ændre på transkriptionen af DNA’et.

    β-plader består af to eller flere β-strenge. β-strengene kaldes for β-plader backbones (rygrader) og er peptidkæder, der er sat sammen med hydrogenbindinger mellem hver backbone. β-pladernes struktur bevirker, at sidekæderne stikker vinkelret ud fra pladerne med en variation på hver anden, således at den første sidekæde stikker op ad, den anden stikker nedad, osv., se figur 8. β-plader bruges bl.a. til at danne strukturer, der går gennem cellemembranen, således at små molekyler kan transporteres ind og ud af cellen.

    Figur 7. α-helix med sidekæder, hvor hydrogenbindinger er vist med gule prikkede linjer. 

     

    Tertiærstruktur

    Polypeptidkæden er en dynamisk struktur, som på grund af de mange forskellige sidekæder kan foldes i forskellige strukturer. Disse strukturer danner proteinets tertiærstruktur, der ofte bliver stabiliseret af α-helix, β-plader, svovlbroer mellem aminosyren cysteins sidekæder samt hydrofobe/-file interaktioner mellem molekylerne. Proteiners tertiærstruktur bestemmer deres funktion. Foldningen bevirker nemlig, at aminosyrerne i proteinet bliver placeret, så de kan interagere i specifikke processer, f.eks. til at katalysere enzymatiske reaktioner.

    Figur 8. β-plade vist med sidekæder. Det kan ses, at sidekæderne er vinkelrette på pladen. Sidekæderne stikker skiftevis op og ned.  

     

    Proteiner kan være opdelt i såkaldte domæner, der hver folder uafhængigt af hinanden. Hvert domæne vil have en unik struktur og dermed forskellige egenskaber. I figur 9 er der givet et eksempel på en tertiærstruktur og i figur 10 et eksempel sammenhængen mellem et proteins primær-, sekundær- og tertiærstruktur.

    Figur 9. Et proteins tertiærstruktur. Her kan både β-plader og α-helix ses.

     

    Figur 10. Sammenhæng mellem et proteins primær-, sekundær- og tertiærstruktur. β-plader er vist med gule pile. A-helix er vist med røde spiraler.

     

    Kvaternærstruktur

    De foldede polypeptidkæder kan interagere med hinanden og danne et proteinkompleks. Komplekset er proteinets kvaternærstruktur, og polypeptidkæderne betegnes som subunits i det færdige protein, se figur 11. Et proteinkompleks kan bestå af mange subunits, der både kan være forskellige og ens. Eksempelvis består et hæmoglobin-molekyle af fire identiske subunits, der hver kan binde et oxygenatom.

    Konserverede domæner

    Som nævnt ovenfor bliver polypeptidkæderne foldet til tertiærtrukturer, som har en specifik biologisk egenskab. En biologisk egenskab er f.eks. regulering af transkription (når et protein binder til DNA’et) eller nedbrydning af sukkermolekyler i fordøjelsessystemet.

    Selvom det er hele proteinet, der har en biologisk egenskab, er det faktisk kun nogle bestemte aminosyrer eller længere peptidsekvenser i proteinet, der er direkte forbundet med funktionen. Den funktionelle del af proteinet er ofte konserveret (bevaret), dvs. den aminosyresammensætning, der er karakteristisk for en funktion, vil kunne findes på tværs af forskellige organismer, der ellers er fjernt beslægtede.

    De aminosyrer, der ikke udgør den funktionelle del af et protein, er ikke så vigtige for proteinets funktion, men kan i stedet medvirke til at stabilisere protienstrukturen og -foldningen. Da aminosyrerne ikke indgår direkte i de biologiske funktioner, vil aminosyrerne til en vis grad kunne ændres eller fjernes uden at proteinet mister sine biologiske funktioner.
    Figur 12 illustrerer, hvor konserverede domæner kan findes. Her er de konserverede domænerne i α-helixen og β-pladen (indikeret med en grå streg), mens de aminosyrer der er i loopet før, efter og mellem dem, er ændrede. Ændringerne har ikke betydning for sekundærstrukturen, og det er dermed den samme tertiærstruktur, der vil dannes fra begge sekvenser.

    Figur 11. Et proteins kvaternærstruktur. Her er hæmoglobin vist, og de fire forskellige subunits kan ses med hver sin farve. Strukturen er fundet gennem PDB og lavet i PyMol. 

     

    Når man laver alignments vil man ofte kunne se konserverede domæner, dvs. aminosyrerne på disse positioner vil være identiske i de sekvenser, der sammenlignes. Endvidere vil aminosyrerne uden for domænet i højere grad variere, men ofte vil aminosyrerne være inden for samme kemiske gruppe som klassificeret i tabel 1. Når aminosyrerne er inden for samme gruppe, vil de have den samme kemiske egenskab og dermed bibeholde proteinet i en korrekt struktur.

    Figur 12. De konserverede domæner i De to viste poteinsekvenser har  der hvor de danner en α-helix og en β-plade. Selvom den primærstruktur ikke er helt identisk mellem de to sekvenser, vil de alligevel have den sammen tertiærstruktur og dermed samme funktion.

     

    Sekvensalignments benyttes til at sammenligne to eller flere DNA- eller proteinsekvenser. Programmet BLAST benytter alignments til at finde sekvenser, der er beslægtede med den sekvens, der benyttes til BLAST.

    Hvis man kender sammensætningen af nukleotider eller aminosyrer for henholdsvis DNA- eller proteinsekvenser, kan man sammenligne to eller flere sekvenser for at se, hvor meget de ligner hinanden. Sammenligningen af sekvenser foretages DNA mod DNA og protein mod protein, da man ser direkte på, hvilke nukelotider eller aminosyrer, som er identiske i sekvenserne. På engelsk betegnes sekvenssammenligninger som alignments, og at sammenligne sekvenser betegnes ataligne to sekvenser. Termerne alignment og at aligne vil blive brugt i denne teoridel.

    Alignments foretages for at se, om to sekvenser er beslægtede. Hvis sekvenserne er beslægtede, er der en sandsynlighed for, at proteinerne har samme funktion, og gennem alignments kan man således bestemme funktionen af ukendte sekvenser. På grund af mutationer i form af indsættelser (eng. insertions) eller fjernelser (eng.deletions) af aminosyrer, kan beslægtede sekvenserne være blevet ændret med tiden, og aminosyrerne kan derfor variere, eller hele dele af sekvensen kan være fjernet.

    Figur 13. To sekvenssammenligninger. Den øverste er den “originale” uden huller og den nederste er der indsat huller. Et “1” indikerer, at aminosyrerne er identiske, og et “0” indikerer, at der er enten et mis-match eller et hul.

     

    På trods af ændringer i sekvensen kan den overordnede funktion stadig være bevaret, da det er specifikke domæner (f.eks. katalyserende domæner i enzymer, der har betydning for proteinets funktion. Således gør det ikke noget, at mindre betydningsfulde positioner i proteinet er muterede.

    På grund af indsættelser eller fjernelser af aminosyrer er de sekvenser, man aligner, ikke altid lige lange. For at tage højde for dette i alignmentet, kan der indsættes huller (eng. gaps) for at indikere, at en eller flere aminosyrer mangler. Ved at indsætte huller kan man opnå et bedre alignment, hvilket fremgår af figur 13.

    I teorien kan alle sekvenser alignes, og hvis man indsætter tilstrækkelig mange huller, vil sekvenserne blive lige lange. For at skelne mellem gode og dårlige alignments, dvs. alignments, hvor proteinerne faktisk er beslægtede og alignments, hvor de ikke er, benytter man et scoringssystem.

    Scoringssystemet er konstrueret således, at hver alignment får tildelt en score (alignment scoren), som på baggrund af antal identiske aminosyrer (match), antal huller og antal næsten identiske aminosyrer (mis-match, f.eks. position 6, L mod V, i nederste del af figur 13) tildeler alignmentet en score.

    Jo højere score, desto bedre sammenligning, da match vil tælle positivt, mens huller/mis-match tæller negativt.
    Hvis det antages, at et match scorer 1, et mis-match scorer -1, og huller scorer -2 vil scoren for de to alignments i figur 13 være.

    Sammenligning uden huller:  1-1-1+1-1-1-1-1-1+1 = -4
    Sammenligning med huller:   1-2+1+1+1-1+1+1+1-2+1 =  3

    Det kan således ses, at selvom der bliver indsat huller, der vægter negativt vil alignmentet alligevel være bedre med end uden huller. Omvendt ville et overtal af huller dominere med en negativ score, og dermed vil et alignment med mange huller ikke være favorabelt.

    Som nævnt kan man lave alignments mellem to eller flere sekvenser. Hvis man aligner mere end to sekvenser, kaldes det et multiple alignment. Når man laver multiple alignments, kan man undersøge, hvor tæt beslægtede et stort antal proteiner er. Man kan bruge disse alignments til at lave fylogenetiske træer, således at slægtskabet mellem proteinerne kan visualiseres.

    Nogle proteiner er mere identiske på tværs af arter end andre. Ofte er disse proteiner essentielle proteiner, og de indgår i vigtige biologiske processer som metabolisme, proteinsyntese og DNA-replikation. Det skal dog påpeges, at bevarede proteiner ikke altid er essentielle, men det kan antages, at hvis bestemte områder i et protein er bevarede, er disse omrdåder essentielle. Ved at lave multiple alignments af et essentielt protein, der stammer fra forskellige organismer, vil man ud over at se slægtskabet over proteinerne også kunne se slægtskabet mellem organismerne. Dette kan lade sig gøre, da det antages, at forskellen mellem proteinerne relativt set er den samme som forskellen mellem organismerne. Således kan man bruge alignments til at undersøge, hvor beslægtede både proteiner og organismer er.

    Bioinformatiske værktøjer

    De følgende undersider beskriver en række af hyppigt anvendte værktøjer og databaser indenfor bioinformatik.

  • Caseopgaver

    En rettevejledning til lærere kan findes her: Retteark til lærer.

    Rigtig god fornøjelse med projektets forskellige opgaver!

    Øvelsesoversigt

    Denne øvelse arbejder med Virtual Ribosome, UniProt, PDB og Pymol.

     

    Introduktion – Aktin, fra mRNA til tredimensionelt protein

    Aktin er et protein, som er findes i et stort antal forskellige arter. Faktisk er der kun en variation på 20 % mellem aktin fra mennesker og det, der er fundet i alger. Aktin er det protein, der danner grundlag for cytoskelettet i cellers cytoplasma, og det er en af byggestenene i muskler, hvor det danner en platform (eng. scaffold) for proteinet myosin. Platformen er det system, der kontrollerer muskelkontraktioner og dermed gør, at musklerne kan trække sig sammen.

    Aktin dannes som et monomerisk molekyle, dvs. at det består af én enkelt subunit. For at aktin bliver funktionelt og derved opnår en struktur med en biologisk virkning, skal det danne en polymer (poly = mange). I muskler består aktin-platformen af mange aktin-molekyler, der er sat sammen til én lang kæde, der danner en funktionel struktur.

    Figur 1 – Aktin og myosin i muskler. Et funktionelt aktin-molekyle er sat sammen af flere subunits (røde og blå cirkler), der holdes sammen ved hjælp af Tropomyosin og Troponin. Myosin-molekylerne bevirker, at aktin-komplekset kan glide frem og tilbage i en kontraherende bevægelse. Dette gøres ved, at myosin-hovederne binder til aktin, skubber det fremad og derefter slipper igen.

    I. Virtual Ribosome

    Formålet med øvelsen er at blive bekendt med læserammer, strict/non-strict startcodon og betydningen af at vælge den rigtige læseramme. Dette er nødvendig viden, når man skal anvende Virtual Ribosome til at translatere DNA-sekvenser korrekt.

    a)

    Hent mRNA-sekvensen for aktin i boksen til højre. Marker og kopier sekvensen. Gå herefter til Virtual Ribosome, der er et online translationsprogram, du kan finde her.

    Translater sekvensen i Virtual Ribosome med standardindstillingerne.
    Dan dig et overblik over outputtet ved at besvare følgende spørgsmål:

    1. Hvad betyder tegnene >>> ))) og *** under sekvensen? 
    2. Hvad er en læseramme, og hvilken er der blevet brugt til denne translation?
    3. <class=normal>Kan det antages, at dette er den rigtige læseramme for at få det korrekte protein? Hvorfor/hvorfor ikke?</class=normal>

    b)

    Prøv at translatere sekvensen med hensyn til den mest almindelige startcodon ATG. Dette vil ikke ændre læserammen, dvs. translationen vil stadig starte på position 1 på den positive DNA-streng.

    >213688374_actin_human_mRNA
    CTCTCCCCGCCCCCGCGGGGCGGCGCGCACTCACCCACCCGCGCCGGAGCGGACCTTTGGCTTGGC
    TTGTCAGGGCTTGTCCAGGAGTTCCGCTCCTCTCTCCAACCGGGGTCCCCCTCCAGCGACCCTAAAGC
    TTCCCAGACTTCCGCTTCAATTCCTGTCCGCACCCCACGCCCACCTCAACGTGGAGCGCAGTGGTCTC
    CGAGGAGCGCCGGAGCTGCCCCGCCTGCCCAGCGGGGTCAGCACTTCGCATCAAGGCCCAAGAAAAG
    CAAGTCCTCCAGCGTTCTGAGCACCCGGGCCTGAGGGAAGGTCCTAACAGCCCCCGGGAGCCAGTCT
    CCAACGCCTCCCGCAGCAGCCCGCCGCTCCCAGGTGCCCGCGTGCGCCGCTGCCGCCGCAATCCCG
    CACGCGTCCCGCGCCCGCCCCACTTTGCCTATCCCCGGGACTAAGACGGGAATCCTGTGAAGCAGCTC
    CAGCTATGTGTGAAGAAGAGGACAGCACTGCCTTGGTGTGTGACAATGGCTCTGGGCTCTGTAAGGCC
    GGCTTTGCTGGGGACGATGCTCCCAGGGCTGTTTTCCCATCCATTGTGGGACGTCCCAGACATCAGGG
    GGTGATGGTGGGAATGGGACAAAAAGACAGCTACGTGGGTGACGAAGCACAGAGCAAAAGAGGAATC
    CTGACCCTGAAGTACCCGATAGAACATGGCATCATCACCAACTGGGACGACATGGAAAAGATCTGGCA
    CCACTCTTTCTACAATGAGCTTCGTGTTGCCCCTGAAGAGCATCCCACCCTGCTCACGGAGGCACCCCT
    GAACCCCAAGGCCAACCGGGAGAAAATGACTCAAATTATGTTTGAGACTTTCAATGTCCCAGCCATGTA
    TGTGGCTATCCAGGCGGTGCTGTCTCTCTATGCCTCTGGACGCACAACTGGCATCGTGCTGGACTCTG
    GAGATGGTGTCACCCACAATGTCCCCATCTATGAGGGCTATGCCTTGCCCCATGCCATCATGCGTCTGG
    ATCTGGCTGGCCGAGATCTCACTGACTACCTCATGAAGATCCTGACTGAGCGTGGCTATTCCTTCGTTA
    CTACTGCTGAGCGTGAGATTGTCCGGGACATCAAGGAGAAACTGTGTTATGTAGCTCTGGACTTTGAAA
    ATGAGATGGCCACTGCCGCATCCTCATCCTCCCTTGAGAAGAGTTACGAGTTGCCTGATGGGCAAGTG
    ATCACCATCGGAAATGAACGTTTCCGCTGCCCAGAGACCCTGTTCCAGCCATCCTTCATCGGGATGGAG
    TCTGCTGGCATCCATGAAACCACCTACAACAGCATCATGAAGTGTGATATTGACATCAGGAAGGACCTC
    TATGCTAACAATGTCCTATCAGGGGGCACCACTATGTACCCTGGCATTGCCGACCGAATGCAGAAGGA
    GATCACGGCCCTAGCACCCAGCACCATGAAGATCAAGATCATTGCCCCTCCGGAGCGCAAATACTCTG
    TCTGGATCGGTGGCTCCATCCTGGCCTCTCTGTCCACCTTCCAGCAGATGTGGATCAGCAAACAGGAAT
    ACGATGAAGCCGGGCCTTCCATTGTCCACCGCAAATGCTTCTAAAACACTTTCCTGCTCCTCTCTGTCTC
    TAGCACACAACTGTGAATGTCCTGTGGAATTATGCCTTCAGTTCTTTTCCAAATCATTCCTAGCCAAAGC
    TCTGACTCGTTACCTATGTGTTTTTTAATAAATCTGAAATAGGCTACTGGTAAAAAAAAAAAAAAAAAAAA
    AAAAAAAAAAAAAAAAAAAAAA

    Derimod vil translationen give det længste protein, der har ATG som startcodon, og ikke translatere hele sekvensen som før. Til denne søgning skal feltet Start codon: Strict ændres, se eventuelt guiden til Virtual Ribosome for program brug.

    1. Hvor langt er dette protein?
      Vil du (stadig) antage, at dette er det korrekte protein?

    c)

    Ved at vælge en strikt startcodon kan man nemt visualisere den længste aminosyresekvens (mellem start- og stopcodon) fra en given læseramme. Som regel vil man således hurtigt kunne danne sig et overblik over, hvorvidt det er en korrekt translation, da en peptidsekvens skal have en vis længde for at udgøre et funktionelt protein. Dog skal det påpeges, at der kan være pro-peptidsekvenser som f.eks. signalpeptider, der bliver kløvet af i det funktionelle protein, men vil være til stede, når DNA-sekvensen bliver translateret.
    Prøv nu at translatere sekvensen med strikt startcodon på alle seks læserammer, se guiden til Virtual Ribosome for hvordan dette gøres.

    Ved at kombinere alle seks læserammer og have en strikt startcodon vil Virtual Ribosome finde den længste translaterede sekvens, der har ATG som startcodon på tværs af alle læserammerne.

    1. Hvor langt er dette protein, og hvilken læseramme er blevet brugt til translationen?
    2. Som nævnt finder Virtual Ribosome den længst translaterede sekvens, men kan det altid antages, at denne translation giver det korrekte protein? Hvorfor/hvorfor ikke?

     

    II. UniProt

    Formålet med denne øvelse er at lære at søge efter og gøre sig bekendt med proteiner ud fra den information, der er tilgængelig i UniProt. Dette gøres ved at benytte almene fritekstsøgekriterier eller accession-numre og derefter undersøge UniProt-siderne for de proteiner, der findes gennem søgningerne.

    a)

    Benyt den generelle guide til søgning i UniProt til at søge efter det ønskede protein, når du ved at:

    1. Det er aktin
    2. Det skal komme fra mennesker
    3. Det skal komme fra glat muskulatur (se infoboks) i en hovedblodåren (Aorta).

    Foretag maksimalt tre søgninger og tilføj et kriterium efter hver søgning (Eksempel: I første søgning, søges der på insulin, i søgning 2 på insulin AND human osv.). Besvar følgende spørgsmål efter hver søgning:

    1. Hvor mange sekvenser svarer til kriteriet?
    2. Hvilket søgekriterie vil du tilføje for at indsnævre resultatet? Vil du benytte et AND-, OR- eller NOT-kriterium, hvorfor/hvorfor ikke?

    Fortag nu søgningen med de nye søgekriterier.
    NB! Benyt eventuelt den udvidede søgning og specificer feltet Field som beskrevet i den generelle guide for UniProt.

    b)

    Hvert protein har et accession-nummer. Benyt nu proteinets accession-nummer, P62736, til at finde UniProt-siden for det givne protein.  Ved at benytte det unikke accession-nummer er det nemt at finde et protein og dermed undgå at skulle gennemse en masse søgeresultater for at finde det korrekte protein.
    Dan dig et overblik over UniProt-siden for proteinet og find ud af, hvilke informationer man kan få om proteinet ved at besvare følgende spørgsmål:

    1. Hvad er proteinets anbefalede navn (eng. recommended name) og dets gennavn (navnet på det gen der koder for proteinet)?
    2. Hvor lang er sekvensen angivet i aminosyrer (fork. AA)?
    3. Hvad er dets funktion, subcellulære lokation (se infoboks), og er der forbundet nogle sygdomme med det? 
    4. Er der nogle pro-peptiddele i den translaterede sekvens (pro-peptider er aminosyresekvenser, der ikke findes i det færdige funktionelle protein)?
      NB! Se afsnittet molecule processing under Sequence annotation domænet.

     

    III. PDB

    Formålet med øvelsen er at lære at finde relevant information om et protein gennem dets PDB-side, så de rette dele af det kan observeres gennem tredimensionelle visualiseringer i PyMol.

    a)
    Gå til PDB databasen og søg efter PDB-siden med id 1M8Q.

    Hvilke molekyler kan man se i PDB-id’et?

    1. Hvor mange kæder (subunits) indeholder id’et, hvor mange af disse er unikke, hvad er navnet på dem (A, B, C…) og hvillke proteiner tilhører de forskellige kæder (Myosin, aktin…)?
    2. Hvor mange aminosyrer indeholder hver af de unikke kæder, og hvilke positioner på kæden er i id’et?
      NB! Dette kan findes ved at trykke show unique chains only.

    Viden om hvilke kæder (subunits) PDB-id’et indeholder, hvilke proteiner der hører til de forskellige kæder, og hvilke dele af selve aminosyresekvensen id’et reelt set indeholder, kan benyttes i PyMol til at undersøge proteinerne i 3D, markere kæderne, markere interessante aminosyrer eller observere interaktioner, når PDB-id’et indeholder mere end et protein.

     

    IV. PyMol

    Formålet med øvelsen er at lære at benytte PyMol til tredimensionel visualisering af proteiner samt at markere relevante kæder og dermed præsentere proteiner på en måde, der er overskuelig.

    a)

    Åben PyMol og hent aktin-myosin komplekset med PDB-id 1M8Q. Benyt herefter den generelle guide til PyMol og kommandosiden for at lære PyMol og relevante kommandoer at kende, så du kan gøre følgende:

    1. Vis alle molekylerne i båndstruktur.
      NB! Det anbefales først at gemme (hide) alting og derefter benytte vis (show) til at gøre dette.

    2. Farv henhodsvis myosin- og aktin-kæderne med hver deres farve og gem et billede af komplekset.
      NB! Du kan gemme ved enten at taget et screen shot eller filer → Save Image As → PNG.
    3. Aktin-myosin-komplekset består af mange kæder, og det kan derfor forstyrre det overordnede billede af komplekset og aktin-myosin-interaktionen, når det vises som pinde-, bånd- eller tegningsstruktur. For at præsentere komplekset på en mere overskuelig måde kan man vælge kun at vise overfladen af proteinerne.
      Vis overfladen af alle proteinerne i komplekset og sammenlign med strukturen fra spørgsmål 2. Synes du, det er blevet nemmere at visualisere proteinerne som en helhed?
    4. I 4.A fandt du ud af, hvilke kæder aktin er kodet på. Benyt denne viden til at finde ud af, hvor mange aktin-proteiner der interagere med et myosin-molekyle, når du ved, at myosin-kæde P interagerer med aktin.
      NB! Start med at lokalisere kæde P ved farvning og zoom. Herefter kan kæde-specifik-farvning anvendes til undersøgelsen.
    5. Udforsk selv PyMol og de forskellige måder molekylerne kan fremstilles på. Eksempelvis kan baggrundsfarven ændres, skyggerne kan justeres, måderne, hvorpå α-helix og β-plader i den sekundære struktur bliver vist, kan ændres og meget andet.

     

    Øvelsesoversigt

    Denne øvelse arbejder med UniProt, PDB, Pymol og FigTree. 

     

    Introduktion – Myostatins proteininteraktioner og organismers slægtsskab

    Myostatin, der også er kendt som Growth/Differentiation factor 8 (GDF8), er et protein fra TGF-β-familien (TGF = Transforming growth factor, se infoboks). Proteinet har en negativ virkning på muskelvækst og inhiberer dermed både muskeldifferentiering og -vækst ved at binde til receptorer på muskelceller.  En mangel på myostatin f.eks. som følge af en mutation i genet eller inhibering af proteinet vil således føre til øget muskelvækst.

    For et “hverdags”-eksempel på myostatin-inhibitor kan følgende artikel læses:

    Follistatin kodes af genet FST, og er et protein, der binder til proteiner fra TGF-β-familien og derved inhiberer dem. Follistatin binder især til proteinet activin, men også til myostatin hvormed det blokerer for myostatins funktion. Follistatin vil således bevirke øget muskelvækst, da inhiberingsproteinet (myostatin) for muskelvækst selv bliver inhiberet.

    Figur 1  Myostatin hæmmer transkription, så der er mindsket muskeldifferentiering. Follistatin inhiberer myostatin og vil dermed bevirke øget genudtrykkelse og dermed øget muskelvækst.

    I. UniProt

    Formålet med denne øvelse er at lære at søge efter og gøre sig bekendt med proteiner ud fra den information, der er tilgængelig gennem UniProt. Dette gøres ved at benyttefritekstsøgekriterier eller accession-numre og derefter undersøge UniProt-siderne for de proteiner, der blev fundet.

    a)

    Benyt den generelle guide til søgning i UniProt til at søge efter de ønskede proteiner. Du kan vælge enten at have to UniProt-sider åbne i hver sit vindue og foretage de to søgninger samtidig, eller du kan lave del 2.A.a og del 2.A.b for først myostatin og derefter gentage dem for follistatin.

    Du skal søge efter:

    1. Myostatin, der skal komme fra mennesker.
    2. Follistatin, der skal komme fra mennesker.

    NB! Husk at proteiner ofte har både et populært navn (f.eks. myostatin) og et videnskabeligt navn (f.eks. GFD8 for myostatin).
    Du kan gå til UniProt-databasen ved at klikke her. Husk eventuelt at åbne to vinduer, da du skal lave to søgninger.

    1. Hvad er accession-nummeret for de to proteiner?

    b)

    Gå til de to proteiners UniProt-side og svar på nedenstående spørgsmål. Dette skal du gøre for at få et overblik over UniProt-siderne samt for at finde ud af, hvilke informationer man kan få om proteiner gennem UniProt.
    De to første spørgsmål kan besvares ved at se øverst på proteinernes UniProt-side.

    1. Hvad er proteinernes anbefalede navn (eng. recommended name) og deres gennavn (navnet på det gen der koder for proteinet)? 
    2. Hvor lange er sekvenserne i aminosyrer (fork. AA)?
    3. Gå til afsnittet “General annotation (Comments)”.
      Hvad er deres funktion og subcellulære lokationer? Follistatin har et bindingsdomæne specifikt for proteiner fra TGF. Hvilken proteinfamilie tilhører myostatin? Peger dette i retning af interaktion mellem follistatin myostatin?
    4. Hvad ville der ske, hvis der kun var myostatin i kroppen? Hvad vil der ske, hvis der både er myostatin og follistatin?
    5. Gå til afsnittet “Sequence annotation (Features)”.
      Follistatin binder som nævnt til proteiner fra TGF-β-familien. Hvad hedder det bindende domæne på proteinsekvensen for follistatin, og på hvilke positioner kan det findes?
      NB! Se afsnittet Molecule processing under Sequence Annotation.

     

    II. PDB

    Formålet med denne øvelse er at lære at finde relevant information om et protein gennem dets PDB-side, så de relevante dele kan observeres gennem tredimensionel visualisering i PyMol.

    a)

    Gå til PDB databasen og søg efter PDB-siden med id 3HH2.

    1. Hvilke molekyler kan man se i PDB-id’et?
    2. Hvor mange kæder indeholder id’et, og hvor mange af disse er identiske? Hvad er navnet på dem (A, B, C…)? Hvad koder de for (myostatin, follistatin…)?
      NB! Dette kan findes under Sequence-fanen.
    3. Hvor mange aminosyrer indeholder hver af kæderne, og hvilken på position i kæden findes henholdsvis den første og den sidste aminosyre? Stemmer dette overens med længden af de færdige proteiner, som du fandt i 2.A.6 (109AA for myostatin og 315AA for follistatin)?
      NB! Dette kan også ses vises gennem Sequence-fanen.

    Viden omkring hvilke kæder PDB-id’et indeholder, hvad disse koder for og hvilke dele af selve aminosyresekvensen id’et indeholder, kan benyttes i PyMol. Denne viden kan bruges til at undersøge proteinerne tredimensionelt, markere kæderne og interessante aminosyrer eller observere interaktioner, når PDB id’et indeholder mere end et protein.

     

    III. PyMol

    Formålet med øvelsen er at lære at benytte PyMol til tredimensionel visualisering af proteiner samt at markere relevante kæder og dermed præsentere proteiner på en overskuelig måde.

    a)

    Åben PyMol og hent aktin-DNAase I-komplekset med PDB-id 1ATN. Benyt herefter den generelle guide til PyMol og kommandosiden for at lære PyMol og relevante kommandoer at kende så du kan gøre følgende:

    1. Vis alle molekylerne i tegningstruktur.
      NB! Det anbefales først at gemme (hide) alt og derefter benytte vis (show).
    2. Farv de fire forskellige kæder med hver deres farve (kæde A+B en nuance f.eks blålige og kæde C+D en anden f.eks. rødlige). 
    3. Visualiser TB-domænet (TGF-β-familiens bindingsdomæne) på follistatin-molekylet (kæde C og D). Det skal vises med både sidekæde og separat farve. Via deløvelse 2.a fandt du ud af, hvor TB-bindingsdomænet på follistatin-molekylet sidder. Hvis ikke denne øvelse er udført, så udgør dette domæne aminosyrerne i intevallet 30-103 på det ikke-færdige protein og dermed aminosyrerne 1-74 på det færdige.
      NB! Vælg først aminosyrerne, vis sidekæder og farv dem til slut.
    4. Visualiser kun én myostatin- og én follistatin-kæde, fx kæde A og C. Med en generel viden om proteininteraktioner, vil du så antage, at det er det korrekte domæne, der på follistatininteragerer med myostatin?
      NB! Vurderingen kan foretages ved at benytte hide og derefter den kæde man ikke vil se.
    5. Udforsk selv PyMol og de forskellige måder, som molekylerne kan vises på. Eksempelvis kan baggrundsfarven ændres, skyggerne kan justeres, måderne og meget andet.

     

    IV. FigTree

    Formålet med øvelsen er at blive bekendt med FigTree og at kunne benytte programmet til at visualisere et evolutionært slægtskab mellem forskellige organismer.

    a)

    Hent filen myostatin_alignment.ph her. Filen, der er lavet ved sekvensalignments (læs mere her) i programmet ClustalX, og det er en træ-fil af formaten Newick. Newick formatet bruges til træ-filer, og i formatet bliver det evolutionære slægtskab mellem træets arter angivet som distancen mellem arterne.

    Marker hele teksten i myostatin_alignment.ph og kopier den over i en teksteditor som f.eks. Notepad på Windows computere eller TextEdit på Apple computere. Gem filen som en almindelig tekstfil som myostatin_alignment.ph. Det er vigtigt, at filen ender på .ph, da dette specificerer, at filen er i et format kaldet phylip. Denne type fil bruges som input i programmet FigTree.

    Åbn FigTree og åbn derefter myostatin_alignment.ph i programmet. Svar herefter på følgende spørgsmål:

    1. Er der en overordnet tendens til en gruppering (dannelse af clades) af de forskellige organismer?
    2. Hvilken organisme adskiller sig mest fra de andre. Se her både på grenlængden, og på hvilken der intuitivt set (på baggrund af din viden om organismerne) adskiller sig mest?

    b)

    For at kunne danne sig et overblik over et kronologisk slægtskab kan man lave en rod på træet. Roden laves ved at specificere ydergruppen (eng. outgroup), som er den organisme, der først divergerede væk fra de andre arter, som samlet kan betegnes som ingroup. Således kan der dannes en evolutionær tidshorisont.

    1. Hvilken organisme vil du vælge som ydergruppe og hvorfor?

    Lav nu træet med rod, dvs. lav en rod således at ydergruppen kommer tættest på roden og dermed længst væk fra de andre arter. Benyt den generelle guide til FigTree for at se, hvorledes det gøres.

    1. Er der sket nogle ændringer i de observerede grupperinger fra spørgsmål 1? Hvorfor/hvorfor ikke? 
    2. Stemmer grupperingerne overens med din logiske viden omkring arterne og det slægtskab omkring dem, som du kender til?
      NB! Benyt eventuelt funktionen Rotate til at vende grenene. Det ændrer ikke på selve slægtskabet, men kun på visualiseringen af træet.

    Hvis der er tid, kan træet sammenlignes med et træ lavet fra den taxonomiske database hos NCBI. Hent først listen med de arter, der indgår i træet her. Gem den i en tekstfil på din computer som myostatin_arter. Gå herefter til den taxoniske database ved at klikke her.

    Benyt filen myostatin_arter i choose file og vælg derefter choose subset. Boksen animals tjekkes af, og choose vælges for at visualisere træet. Arter med fed skrift er dem, der indgår i træet. De latinske navne for arterne skal kendes for at forstå træet. Disse kan ses her.

    Øvelsesoversigt

    Denne øvelse arbejder med BLAST, PDB og Pymol.

     

    Introduktion – Bioinformatisk analyse af antistoffer

    Antistoffer er en del af kroppens forsvar mod fremmede organismer. Antistoffer findes enten opløst i blodet eller på overfladen af B-celler. B-celler er en del af kroppens immunsystem og bekæmper bakterielle infektioner ved brug af antistoffer. Antistoffer kan bekæmpe fremmede organismer, da specifikke dele i antistoffet kan genkende peptidsekvenser som fremmede. Herefter startes en hurtig og effektiv immunrespons ved, at antistoffer binder til den fremmede organisme, så andre immunceller kan nedbryde den eller blokere det bundne proteins funktion.

    Der findes fem forskellige typer af antistoffer. Ved typebestemmelse bruges antistoffernes biokemiske navne immunglobuliner (Ig). De fem forskellige typer er IgA, IgD, IgE, IgG og IgM, hvoraf IgG er den mest udbredte (udgør 75 % af alle kendte typer antistoffer). Alle fem typer antistoffer har den samme “Y” grundstruktur, se figur 1, men varierer i antallet af kæder og mht. deres længde, samt hvor i kroppen antistofferne primært findes. Antistoffer er bygget op af tunge (eng. heavy) og lette (eng. light) kæder, og hver af disse er opdelt i konstante og variable domæner.

    De fem antistoffer har forholdsvis identiske, konstante domæner, dvs. proteinsekvensen er den samme. De variable domæner er placeret i spidsen af antistoffets “Y” og i modsætning til de konstante domæner meget forskellige både mellem hvertf antistof. Grunden til den store diversitet er, at det er de variable domæner, der genkender proteinerne fra fremmede organismer. For at immunforsvaret kan genkende så mange forskellige fremmede organismer som muligt, skal er det fordel agtigt at have mange forskellige antistoffer, der genkender netop én fremmed organisme. Diversiteten i de variable domæner opstår ved mutationer samt genetisk rekombination, hvilke samlet giver de utallige antal af antistoffer, der findnes.

    De fem forskellige antistoftyper er inddelt i forskellige underklasser, der varierer i forhold til deres fleksibilitet. Fleksibiliteten af et antistof har betydning for, hvilke fremmede organismer antistoffet kan binde, da bindingsstederne er forskellige for forskellige fremmede organismer. Jo mere fleksibelt et antistof er, desto mere komplekse strukturer kan det binde til. Fleksibiliteten af et antistof opstår i hængselsregionen, der er det sted i Y’et hvor de konserverede domæner på de tunge kæder knækker over i de konserverede dele på de lette kæder.

    Figur 1 – Opbygningen af et antistof. De lette kæder er vist med rød, og de tunge kæder er vist med blå. Desuden er de konstante domæner for hver kæde vist med en mørkere nuance end de variable domæner. Bindingsstedet for proteiner fra fremmede organismer er vist med trekanter og firkanter, hvilket indikerer at hver variabel del genkender forskellige strukturer. Dog genkender hver kæde, f.eks. de to tunge kæder, i et antistof den samme struktur. Kæderne i et antstof er holdt sammen med svovlsulfidbindinger, hvilket er vist med de grå cirkler. 

    I. BLAST

    Formålet med øvelsen er at blive bekendt og lære om BLAST, at kunne benytte BLAST til at bestemme hvilken superfamilie forskellige makromolekyler hører til, finde ud af hvor mange andre proteiner der ligner din sekvens, samt finde PDB-siden for en given proteinsekvens.

    a)

    Sekvensen for en tunge kæde fra et IgG-antistof kan hentes her. Marker og kopier proteinsekvensen og gå derefter til BLAST-hjemmesiden. Her skal du benytte proteinsekvensen til at lave en protein-BLAST (BLASTp) mod PDB-databasen (denne vælges under Choose search set). Efterfølgende skal du besvare nedenstående spørgsmål. Som hjælp til udførelslen af BLAST samt fortolkning af resultatet, kan du anvende den generelle guide for BLAST.

    1. Hvilken superfamilie hører sekvensen til? 
      NB! Se på Specific Hits og Query sequence.
    2. Hvor mange sekvenser er næsten 100 % identiske (har ubrudte røde linjer) med den anvendte IgG-sekvens?

    b)

    Gå ned til området Descriptions og find de to resultatsekvenser, som du antager, er de bedste match til din IgG sekvens. Du skal tage højde for de elementer, der ifølge BLAST guiden er vigtige for et godt match.

    1. Hvad er de to resultatsekvensers accession-nummer, max score, query coverage og e-værdi?
    2. Hvorfor valgte du disse to sekevenser som de bedste? Argumenter for dit valg.

    Ved at blaste din sekvens har du undersøgt databasen Protein Databankfor proteinsekvenser, der er identiske med den proteinsekvens, du havde til at starte med. Ud fra antallet af resultatsekvenser kunne du se, at der var mange sekvenser, der til en vis grad lignede din sekvens, men ved at se på e-værdier og antal sekvenser med ubrudte røde linjer blev det klart, at kun få sekvenser egentlig matchede din sekvens.
    Du skal nu videre til databasen Protein Databank og undersøge en af de to resultatsekvenser, du har fundet gennem BLAST.

     

    II. PDB

    Formålet med øvelsen er at lære at finde relevante informationer om et protein gennem dets PDB-side. Målet er at finde information, som kan hjælpe til en optimal visualisering af proteinets tredimensionelle struktur. Den tredimensionelle struktur vil kunne visualiseres i programmet PyMol.

    a)

    Gå til PDB-databasen og søg efter PDB-siden for det bedste hit fra 3.a. Hvis denne del ikke er lavet, søg da efter siden med PDB id 1IGY (se infoboks til højre). Som hjælp til søgning samt guide til opbygning af proteiners PDB-side kan du bruge den generelle guide til PDB i denne øvelse. Guiden findes her.

    1. Hvilken type immunoglobulin koder PDB-id’et for (IgA, IgG etc.), og er det en bestemt subtype (1, 2, 3 etc.)?
      NB! Dette kan findes ved at se på PDB-id’ets navn.
    2. Hvor mange kæder har antistoffet, hvor mange af disse er identiske, hvad er navnet på dem (A, B, C …), og hvilken type kæder er det (tunge, lette eller …)? 
      NB! Dette kan findes under Sequence-fanen.
    3. Hvor mange aminosyrer indeholder hver af kæderne, og hvilke domæner er de delt op i (konstante, variable eller …)?
      NB! For hver kæde skal domæne og den aminosyrerpositioner de dækker noteres, eksempelvis:
      Kæde A: position 1-100 er det variable domæne på den lette kæde, position 101-200 er det konstant domæne på den lette kæde.

    Hvis der kigges på længden af den tunge kæde (434 aminosyrer) kan det ses, at længden ikke er den samme som den faktiske længde af kæden (474 aminosyre). Der mangler faktisk 40 aminosyrer. Manglen på aminosyrer kan skyldes fejlkilder forbundet med den eksperimentelle strukturbestemmelse. Fejlen er derfor ikke ensbetydende med, at de 40 aminosyrer mangler i kædens rigtige form. Man skal dog huske, at aminosyrerne mangler, hvis man skal arbejde videre med proteinet i f.eks. PyMol, da man ikke vil kunne visualisere de dele af strukturen, der mangler.

     

    III. PyMol

    Formålet med øvelsen er at lære at benytte PyMol til tredimensionel visualisering af proteiner samt markere interessante kæder og dermed præsentere proteiner på en overskuelig måde.

    a)

    Åbn PyMol og hent strukturen med PDB-id 1IGY. Benyt herefter den generelle guide til PyMol og kommandosiden for at lære PyMol og relevante kommandoer at kende, så du kan gøre følgende:

    1. Vis alle molekylerne i tegningsstruktur.
      NB! Det anbefales først at gemme (hide) alt og derefter benytte vis (show) til at vise tegningsstrukturen.
    2. Farv de fire forskellige kæder hver deres farve (kæde A + C en nuance f.eks. blålige og kæde B + D en anden f.eks. rødlige).
    3. Har antistoffet den rette ”Y”-formede struktur og stemmer placeringen af de tunge og lette kæder overens med den forventede form? 
      NB! Benyt eventuelt figur 1 for at se den ”Y”-formede opbygning af et antistof.
    4. I øvelse 3.A.1 blev de to bedste resultater fra BLAST-søgningen fundet. Det ene var det, der visualiseres i PyMol. Antistoffet fra det andet resultat skal hentes ind i det åbne PyMol-vindue (hvis ikke 3.A.1 er lavet, hent da antistoffet med PDB-id 1IGT). Antistoffet hentes til PyMol på samme måde som tidligere, nemlig ved brug af fetch.
      Rediger nu i det nyhentede antistof så det også kun bliver vist i tegningsstruktur.
      NB! Det anbefales at de to antistoffer farves med hver sin farve, dvs. alle kæderne i et antistof farves med den samme farve.
    5. Prøv nu at sammenligne (eng. align) de to antistoffer med hinanden, og undersøg hvordan sammenligningen ser ud. Er de to antistoffer af samme type, f.eks. begge IgM? Hvis ja, tilhører de samme subklasse?
    6. Udforsk selv PyMol og de forskellige måder antistofferne kan fremstilles på. Eksempelvis kan antistoffernes farve ændres, baggrundsfarven i PyMol-vinduet kan skiftes, skyggerne kan justeres, måderne den sekundærstruktur bliver vist kan ændres og meget andet.

    Øvelsesoversigt

    Denne øvelse arbejder med BLAST, UniProt, PDB og Pymol.

    Introduktion – Identifikation og visualisering af ukendt protein

    En forsker har fået en prøve fra et får, der er blevet sygt efter at have spist affald med en ukendt sammensætning . Det er nu forskerens opgave at finde årsagen til fårets sygdom, hvilket bl.a. indebærer at karakterisere mulige proteiner i prøven, der normalt ikke vil være til stede i et raskt får.
    Forskeren har fundet en samlet DNA-sekvens, der koder for to proteiner, der ikke findes i raske får, og han skal nu finde ud af, hvad de to proteinsekvenser hver især koder for, og hvorvidt de eventuelt skulle stamme fra andre organismer.

    I den følgende øvelse skal du hjælpe forskeren med at bestemme funktion, struktur og oprindelse af de to proteinsekvenser.

    I. BLAST

    Formålet med øvelsen er at blive bekendt med BLAST og at kunne benytte denne metode til at bestemme en ukendt proteinsekvens, samt bestemme hvilken organisme sekevensen stammer fra.

    a)

    Hent den ukendte sekvens her. Marker og kopier sekvensen og gå derefter til BLAST-siden. Benyt nu funktionen protein BLAST (BLASTp) til at bestemme, hvilke proteiner der ikke findes i raske dyr. Da både organisme og funktion er ukendte, anbefales det at lave en bred BLAST, dvs. mod alle genomer og mod standarddatabasen for BLAST (dette kaldes non-redundant protein sequences). Du skal derfor ikke ændre noget i opsætningen, men blot kopiere sekvensen ind og starte BLAST-søgningen.

    Benyt den generelle guide for BLAST som hjælp til udførelsen samt til fortolkningen af outputtet.

    1. Hvilke to superfamilier tilhører proteinsekvensen?
      Er der tale om, at den tilhører én eller flere superfamilier?
    2. Hvor lange (ca.) er de to proteiner?
      NB! Tjek dette under Superfamilies i Graphic Summary domænet.
    3. Vil du på baggrund af e-værdien (der skal være så lav som mulig) og sekvensdækningen (eng. query coverage, skal være så høj som muligt) antage, at BLAST har fundet de korrekte proteiner, der normalt ikke er til stede i raske dyr? Argumenter for din konklusion.
      NB! Se under Descriptions-afsnittet. De to nederste resultatsekvenser matcher det protein, der er kodet i første del af proteinsekvensen. Resten af resultatsekvenserne giver information om proteinet, der er kodet i den sidste del af proteinsekvensen.

    Ved at blaste aminosyresekvensen har du undersøgt alle protein-databaser for at finde ud af, om de indeholder en proteinsekvens, der er identisk med den ukendte sekvens (OBS: en aminosyresekvens er det samme som en proteinsekvens). Bestemmelse af hvilken superfamilie, som sekvensen tilhører, giver en indikation af funktionen af det ukendte protein. Faktisk fandt du ud af, at sekvensen tilhørte to superfamilier, dvs. at den faktisk koder for to forskellige proteiner. Ved at se på e-værdien og sekvensdækningen kunne du desuden  bestemme om BLAST fandt proteinsekvenser, der er identiske med den ukendte sekvens.

    Du skal nu videre til databasen UniProt, hvor du kan undersøge de proteinsekvenser, som blev fundet gennem BLAST.

     

    II. UniProt

    Formålet med denne øvelse er at lære at søge efter og gøre sig bekendt med proteiner ud fra den information, der er tilgængelig gennem UniProt. Dette gøres ved at benytte almene fritekstsøgekriterier eller accession-numre og derefter undersøge UniProt-siderne for de proteiner, der findes.

    a)

    I øvelse 4.A analyserede du en ukendt proteinsekvens gennem BLAST, og du fandt to proteiner, som matchede den ukendte sekvens: GFP og P53.
    Benyt ny UniProt til at tilegne dig information omkring disse to proteiner. Du kan bruge den generelle guide til søgning i UniProt som hjælp.

    Søg først på Green Fluorescent Protein (GFP er en forkortelse for dette) og tryk på det første resultat’s accession-nummer. Herved kommer du ind på proteinets UniProt-side. Besvar nu følgende spørgsmål. Her kan svarene til de tre første spørgsmål findes øverst på UniProt-siden:

    1. Hvad er accession-nummeret for det protein, du undersøger?
    2. Hvad er gennavnet, og hvilken organisme kommer dette GFP fra?
    3. Hvor lang er sekvensen angivet i aminosyrer (fork. AA)?
    4. Under sektionen General annotation (Comments) kan man læse, at proteinet lyser grønt lys, når det bliver udsat for ultraviolet lys.
      Hvordan tror du, at man kan udnytte denne evne i et biologisk regi, når man f.eks. laver gensplejsning og dermed mutanter?
    5. Læs afsnittet Biotechnological use. Stemmer dette overens med dit svar fra spørgsmål 4?

    b)

    Gå tilbage til søgesiden i UniProt. Søg nu på P53 og tryk ligesom før på det første resultat’s accession-nummer, så du kommer ind på proteinets UniProt-side. Besvar følgende spørgsmål:

    1. Hvad er accession-nummeret for det protein, du undersøger?
    2. Hvad er gennavnet, og hvilken organisme kommer dette P53 fra?
    3. Hvor lang er sekvensen angivet i AA?
    4. Hvad er proteinets funktion? 
      NB! Se under sektionen General annotation (Comments).
    5. Hvilke sygdomme tror du, at P53 kan være forbundet med?

     

    III. PDB

    Formålet med denne øvelse er, at lære at finde relevant information om et protein gennem dets PDB-side, så de rette dele kan visualiseres  i PyMol.

    a)

    Gå til Protein Databank (PDB) databasen og søg efter siden med PDB-id 3Q05. Se eventuelt den generelle guide til PDB.

    1. Hvilke molekyler kan man se i PDB-komplekset?
    2. Hvor mange kæder (subunits) indeholder id’et, og hvor mange af disse er identiske? Hvad er navnet på kæderne (A, B, C osv.), hvilke proteiner/molekyler er de forskellige kæder (f.eks. kæde A er P53, kæde B er DNA …)?
      NB! Dette kan findes under Sequence-fanen.
    3. Hvor mange aminosyrer indeholder hver af de kæder, der koder for P53? Stemmer dette overens med længden af de færdige proteiner, som du fandt i 4.B.8 (393AA)?
    4. En metal-ion, nærmere betegnet en zink-ion, er bundet til P53 proteinet.
      Ved hvilke fire positioner og aminosyrer er zinkionen bundet til?

    En zink-ion, der erbundet til et protein, betegnes også en zink finger (eng.zinc finger, se infoboks). Man kan finde zink fingre i en række DNA-bindende-proteiner, da zink ionen er med til at stabilisere interaktionen mellem DNA og protein.

    Viden om de kæder PDB id’et indeholder, hvad disse koder for og hvilke dele af selve aminosyresekvensen id’et reelt set indeholder, kan benyttes i PyMol. Kendskabet kan anvendes til at undersøge proteinerne tredimensionelt, markere kæderne, markere interessante aminosyrer eller observere interaktioner når id’et indeholder mere end ét protein.

     

    IV. PyMol

    Formålet med øvelsen er at lære at benytte PyMol til 3D visualisering af proteiner samt markere relevante kæder og dermed præsentere proteiner på en overskuelig måde.

    a)

    Åbn PyMol og hent P53 i DNA interaktion med PDB-id 3Q05. Benyt herefter den generelle guide til PyMol og kommandosiden for at lære PyMol  og relevante kommandoer at kende, så du kan gøre følgende:

    1. Vis alle molekylerne i tegningsstruktur.
      NB! Det anbefales først at gemme (hide) alt og derefter benytte vis (show)
    2. Farv de seks forskellige kæder hver deres farve (kæde A, B, C og D én nuance fx rødlige, lad DNA strengene (kæde K og L) være som de er).
    3. Visualiser zinkfinger-domænerne på hver af de fire kæder (A, B, C og D). Herved vil du tydeligt kunne se, at der er plads til en ion. Domænerne skal vises med både sidekæde, separat farve og aminosyremærkat. Hvis øvelse 4.c ikke er lavet, er disse positioner 176, 179, 248 og 242.
      NB! Vælg først aminosyrerne, vis sidekæder, farv dem og sæt et mærkat på. Herefter kan der zoomes ind på interaktionen.
    4. Hvor på proteinet findes zinkfingeren (ydersiden, indersiden, tæt på DNA-strengen)? Er dette hvad du ville forvente, når du ved, at zinkfingeren er med til at stabilisere protein-DNA interaktionen?
    5. Udforsk selv PyMol og de forskellige måder, som molekylerne kan fremstilles på. Eksempelvis kan baggrundsfarven ændres, skyggerne kan justeres, måderne den sekundære struktur bliver vist på kan ændres og meget andet.
  • Ordforklaring

    Herunder er en liste over ord og begreber, som er vigtige for forståelsen af dette undervisnignsmateriale. Længere forklaringer kan findes i infoboksene i det materiale, der omhandler emnet, eller hvori ordet indgår.

    Algoritme: En anden betegnelse for en matematisk model med ligninger/formler, der sammen danner et flow og dermed kan løse et givent problem.

    Alignment: Sammenligning af DNA- eller proteinsekvenser. Man kan lave et enkelt alignment, hvor man sammenligner to sekvenser eller et multiple alignment, hvor man sammenligner tre eller flere sekvenser.

    Apoptose: Programmeret celledød eller “celle selvmord”. Cellen nedbrydes ved påvirkning af signalmolekyler (eller ved mangel på samme),.der bliver aktiveret ved eksempelvis stress.

    BLAST: Forkortelse for Basic Local Alignment Search Tool, som er en metode, hvorved man kan sammenligne en DNA- eller proteinsekvens med kendte sekvenser på tværs af databaser.

    CDS: Forkortelse for coding sequence og er den del af DNA-sekvensen, der koder for selve proteinet.

    Codon: Tre nukleotider, der oversættes til en aminosyre af ribosomerne. Der findes fire nukleotider, hvilket er ensbetydende med, at der findes 64 (4³) mulige forskellige codons.

    Det Centrale Dogme: Betegnelse for processen: DNA  → mRNA  → protein. Processen fra DNA til mRNA betegnes transkription, og processen fra mRNA til protein betegnes translation.

    Exon: En eller flere dele af en DNA-sekvens, der indgår i den kodende sekvens, CDS. Exons bliver sat sammen, så de danner det færdige mRNA, der bliver translateret til protein.

    Fylogeni: Læren om organismers slægtskab.

    Fylogenetisk træ: Et slægtskabsstæ, hvor man kan visualisere organismernes evolutionære slægtskab.

    Genbank: Genbank er hoveddatabasen for kendte DNA-sekvenser. Genbank kan findes gennem NCBI’s internetside.

    Genbank sider: Hver kendt DNA-sekvens i Genbank har en tilhørende genbankside, hvor informationer om DNA-sekvensen kan findes.

    Gruppering: Den danske betegnlse for det engelske ord clade, der er en fælles betegnelse for alle de organismer (taxa), der har samme stamfader.

    Intron: En eller flere dele af en DNA-sekvens, der IKKE er en del af den kodende sekvens, CDS, dvs. introner er dele af en DNA-sekvens, der IKKE indgår i det mRNA, der translateres til protein.

    Kvaternærstruktur: I forbindelse med proteinstruktur er dette den færdige form af proteinet. Strukturen består af forskellige subunits, der alle er i deres tertiære form.

    Læseramme:  Der findes i alt tre forskellige læserammer på hver DNA-streng (i alt seks, hvis man medtager begge DNA-strenge). Da tre nukleotider (en codon) koder for en aminosyre, kan man aflæse en DNA-/RNA-sekvens på tre forskellige måder, da aflæsningen kan starte på tre forskellige positioner. De tre forskellige aflæsninger vil give tre forskellige aminosyresekvenser.

    NCBI: Forkortelse for National Center for Biotechnology Information, som er den mest omfangsrige database med biologisk relateret materiale. Den indeholder blandt andet DNA- og proteinsekvenser, forskningsartikler og bioinformatiske værktøjer f.eks. BLAST.

    PDB: Forkortelse for Protein Data Bank, som er en database med proteiner, der har en kendt 3D-struktur.

    PDB-id: Unikt nummer der tildeles alle strukturer i PDB-databasen.

    Primærstruktur: Henviser til aminosyresammensætningen i et protein.

    Query sekvens: Betegnelsen for den sekvens man laver en BLAST-søgning med.

    Sekundærstruktur: Den måde hvorpå et protein er foldet på (α-helix eller β-plader), og henviser således til proteinstrukturen.

    Sekventering: Måden hvorpå nukleotid og aminosyrersammensætningen i DNA- og proteinsekvenser bestemmes.

    Sidekæde: Den varierende del på en aminosyre, og dermed den del af molekylet, der gør det specifikt og giver det dets karakteristiske egenskaber.

    Stamfader: Den taxon på et fylogenetisk træ, hvorfra to nye taxa udvikler sig. Den “ældre” taxon er dermed stamfader til de to nye.

    Startcodon: Specificerer hvor på mRNA-molekylet translationen af mRNA til protein skal starte. Startcodonen er i de fleste tilfælde nukleotid-tripletten ATG.

    Stopcodon: Specificerer hvor translationen af mRNA til protein skal stoppe på mRNA-molekylet. Stopcodonen er en af nukleotid-tripletterne UAA, UGA eller UAG.

    Søstergrupper: I fylogeni betegner dette to taxa, der begge har samme stamfader.

    Taxon: Betegnelse for en spids på et fylogenetisk træ, der repræsenterer en organisme. I flertal betegnes taxon som taxa.

    Tertiære struktur: I en proteinstruktur betegner dette den tredimensionelle foldning af proteinet.

    Transkription: Den proces, og dermed den del af Det Centrale Dogme, hvor DNA bliver oversat til mRNA.

    Transkriptions faktor: Et protein der binder til DNA og påvirker transkriptionen af det. Transkriptionsfaktorer kan opregulere (aktivere)  transkriptionen af DNA’et eller de kan mindske transkriptionen (inhibere) af DNA’et.

    Translation: Den proces, og dermed den del af Det Centrale Dogme, hvor mRNA aflæses til aminosyrer og dermed oversættes til protein.

    Ydergruppe: Betegner den taxon, som er mindst belægtet med alle de andre taxa i det slægtskab, man undersøger. På engelsk kaldes det en outgroup.

    Zinkfinger: Betegnelsen for en proteinfoldning hvor fire aminosyrer interagerer med en zinkion for at give stabilitet til proteinets tertiære struktur (dets foldning).

    Åben læseramme: Den af de forskellige læserammer, der koder for det funktionelle protein, og dermed den del af DNA-/RNA-sekvensen der er mellem start- og stopcodon. På engelsk kaldes den open reading frame (ORF).

Kildehenvisning:
Dette projekt blev udgivet i december 2011. Det er udarbejdet af Biotech Academy og er blevet opdateret løbende.

null

Institut for Systembiologi har Danmarks største samlede biovidenskabelige og bioteknologiske forskning på universitets-niveau. Blandt de bedste inden for bioinformatik og meget andet.

Institut for Systembiologi

null

Danske Science Gymnasier er et netværk af almene og tekniske gymnasier, hvis mål bl.a. er at øge interessen for matematik og naturvidenskabelige fag. DASG har været partner på projektet.

Danske Science Gymnasier

null

Undervisningsministeriet har støttet projektet via Tips- og Lottomidlerne.

Undervisningsministeriet