• Immunologisk Bioinformatik

    Materialet indeholder dels I) en beskrivelse af og en guide til nogle af de bioinformatisk relaterede programmer og databaser, der er tilgænglige online, dels II) fire tilhørende øvelser, der arbejder med brugen og forståelsen af de bioinformatiske værktøjer. Hver øvelse er inddelt i tre til fire deløvelser, der både kan laves enkeltvis eller som en hel øvelse i et samlet forløb.

    Ud over ovenstående er fire biologisk-relaterede emner beskrevet i afsnittet ”Teori”. Disse teoridele er mere dybtgående end programbeskrivelserne, vil bidrage til bedre forståelse af de emner, der indgår i programmerne og de databaser som man arbejder med i øvelserne.

  • Teori

    Teoridelen gennemgår de biologiske områder, som skal kendes for at kunne bruge og forstå de programmer, der arbejdes med i øvelserne.

    I programmet Virtual Ribosome benytter man viden omkring codons og læserammer til at finde det protein, der er kodet af en given DNA-sekvens. Viden omkring om codons og læserammer er derfor vigtig for at kunne bruge programmet og fortolke resultatet.

    Codons

    DNA er et makromolekyle, der indeholder en organismes arvemateriale. En DNA-sekvens indeholder normalt et gen, der koder for et protein. Den samlede proces, hvor DNA oversættes til protein, betegnes Det Centrale Dogme og består blandt andet af to trin, transkription (fra DNA til messenger-RNA, mRNA) og translation (fra mRNA til protein). Læs mere om Det Centrale Dogme fra Biotech Academy projektet, der beskriver det her.

    DNA er sammensat af nukleotider (se infoboks). Under translationen til protein aflæses DNA-sekvensen som codons (se infoboks). Hvert codon aflæses til netop en aminosyre, dvs. tre nukleotider bliver til én aminosyre. Der kan dannes i alt 64 forskellige codons  (4³) som således oversættes til forskellige aminosyrer samt stopcodons. Figur 1 viser en codon-translateringstabel, hvor det kan ses hvilke codons, der koder for hvilken aminosyre. Det ses, at flere codons koder for den samme aminosyre, og at nogle codons også koder for start- og stopsignaler. Start- og stopcodons fortæller, hvor translationen fra mRNA til protein skal henholdsvis starte og stoppe på mRNA-sekvensen.

    Figur 1. Codon-translationstabel. Klik for at se den i stor format.

    Læserammer

    Da DNA-sekvenser aflæses i codons (tre nukleotider) og ikke én nukleotid ad gangen, kan der dannes forskellige aminosyrekæder alt afhængig af, i hvilken position på DNA-sekvensen translationen starter. Man siger, at DNA-sekvensen har forskellige læserammer. Antallet af læserammer (forskellige aminosyresekvenser), der kan dannes pr. DNA-streng er dog begrænset til tre. Grunden til dette er, at en codon som nævnt består af tre nukleotider, og dermed aflæses DNA-sekvensen tre nukleotider ad gangen. Hvis man starter translationen på position 1 eller position 4, vil man således benytte den samme læseramme, og man vil dermed få den samme aminosyresekvens (dog uden den første aminosyre, hvis man starter på position 4). Den samme aminosyrekæde vil fås, hvis man starter på position 7, blot uden de to første aminosyrer etc. Hvis man starter på position 2, 5, 8… vil man få aminosyresekvensen fra læseramme 2. Denne aminosyresekvens vil være en anden end den fra læseramme 1, hvor man startede på position 1, 4, 7… Endelig er det samme princip gældende for læseramme 3, hvor aminosyresekvensen bliver translateret fra position 3, 6, 9…, se figur 2.

    Da DNA-molekyler er sat sammen af to DNA-strenge i en dobbeltbundet DNA-helix, findes der ikke kun tre læserammer, men faktisk seks forskellige læserammer for hvert DNA-molekyle; tre forskellige læserammer på hver DNA-streng.
    Læserammen mellem to stopcodons betegnes den åbne læseramme (eng. Open Reading Frame, ORF) og er den del af DNA’et, der kan kode for et protein.

    Figur 2. Læserammer. Hver DNA-streng har tre forskellige læserammer alt afhængig af startpositionen for aflæsningen. Hver startposition er markeret med en bestemt farve, og det ses, at der dannes forskellige aminosyrekæder alt afhængig af hvilken læserammer der bliver brugt.

    Det er dog ikke alle åbne læserammer, der koder for et funktionelt protein. Faktisk er det som regel kun én åben læseramme ud af de seks mulige, der koder for noget funktionelt. DNA-sekvensen i den åbne læseramme, der koder for det funktionelle protein, kaldes den kodende sekvens (eng. coding sequence, CDS, se infoboks 4) og er dermed det stykke DNA, der translateres til proteinet.

    I programmet FigTree kan man visualisere evolutionære træer. Kendskab til fylogeni og trækonstruktion er derfor vigtig for at kunne benytte programmet og fortolke resultatet.

    Fylogeni er læren om og beskrivelsen af organismers slægtskab. Fylogeni bruges blandt andet til:

    1. Klassificering af fossiler og levende arter, så de kan blive placeret i livets træ sammen med andre kendte organismer.
    2. Kortlægning af konserverede domæner i f.eks. vira og bakterier for at finde sekvenser til brug i vacciner. Du kan læse mere om konserverede domæner her.
    3. At finde sammenhæng mellem kendte og nyopdagede proteiner for at bestemme de nyes funktion.

    I fylogenetiske træer bliver arter og organismer betegnet som taxon (flertal: taxa). Træets spidser indeholder hver mere end én taxon, se figur 1. Hvis man følger en taxon tilbage, ned langs grenene, er hver forgrening ensbetydende med en fælles stamfader. Med andre ord er forgreningspunktet det sted, hvor en taxon udviklede sig til to forskellige taxa. Disse to taxa har hver en gren ud fra forgreningspunktet, og de betegnes derfor som søstergrupper. I figur 1 er taxa A og B søstergrupper, da de begge stammer fra stamfader III.

    Alle taxa , der er udviklet fra en fælles stamfader, kaldes for monofyletiske grupper (eng. clade). I figur 1, hører taxon A, B, C og stamfader III til samme monofyletiske gruppe, da de alle udspringer fra stamfader II. Monofyletiske grupper kan dannes, da medlemmerne i de forskellige grupper vil have en række enskarakteristika, som de alle har arvet fra deres fælles stamfader.

    Et fylogenetisk træ kan både være rodet eller ikke-rodet. Når der her skrives rodet, er det ikke ensbetydende med uorden, men derimod et udtryk for en kronologisk udvikling af træets taxa.

    Et ikke-rodet træ viser, hvorledes træets taxa er beslægtet med hinanden, men giver ikke noget billede af udvikling i forhold til, hvilke taxa der ældst og yngst. Et ikke-rodet træ benyttes derfor, hvis udviklingen er underordnet og man blot ønsker at se, hvorledes træets taxa er grupperet.

    Figur 1. Eksempel på et fylogenetisk træ med taxa, stamfædre og grupperinger.

    Et rodet træ har derimod en rod svarende til den ældste fælles stamfader, hvorfra træets taxa har udviklet sig. For at kunne lave et rodet træ er man nødt til at have et vist kendskab til træets taxa.

    Man kan benytte en såkaldt ydergruppe (eng. outgroup, se infoboks til højre) til at placere roden på et træ, da ydergruppen er den taxon, der først er divergeret væk fra træets andre taxa (eng. ingroup). For at være i stand til at lave et rodet træ er det derfor en god ide at inkludere en taxon, som på forhånd vides at være divergeret væk fra de andre først, dvs. ligge evolutionært langt væk fra de resterende taxa. Ønsker man eksempelvis at undersøge slægtskabet mellem pattedyr, kan man for hver art tage en sekvens, der koder for det samme protein samt inkludere den samme sekvens fra en fugl, da det på forhånd vides, at fugle ikke er evolutionært beslægtet med pattedyr på samme måde, som pattedyrerne er indbyrdes. Fugle-sekvensen kan således benyttes som ydergruppe, og dermed kan man lave et rodet træ, så det kronologiske slægtskabstræ for pattedyrerne kan visualiseres. Et eksempel på et ikke-rodet og et rodet træ kan ses i figur 2.

    Figur 2. Forskel mellem et rodet og ikke-rodet træ. A viser et fylogenetisk træ, der ikke er rodet. B viser et fylogenetisk træ, som er blevet rodet ved at bruge taxon A som ydergruppe. Det ses, at grenlængderne ikke er ændret, så slægtsskabet mellem træets taxa er dermed ikke ændret. Det rodede træ vil derfor “kun” give en kronologisk opbygning af slægsskabet og ikke ændre det. Klik for at se figuren i stort format.

    Begge træer viser det samme slægtsskab, men i træ B er taxon A valgt som ydergruppe og træet er derfor blevet rodet. Hver gren i træet har en tilknytte en såkaldt distance, der er forskellen, givet i antal mutationer, mellem de to taxa grenen separerer. Ved at sammenligne træet i A og B ses det, at distancerne ikke er ændret, hvilket betyder, at det indbyrdes slægtsskab ikke er ændret, men blot den grafiske afbildning.

    Hvis man ønsker at læse mere om fylogeni og evolutionsteori kan følgende læses:

    • Gyldendals Store Danske Encyklopædi om Evolution: Gå til siden
    • Gyldendals Store Danske Encyklopædi om Fylogeni: Gå til siden
    • Engelsk introduktion til emnet udarbejdet af Center for Biologisk Sekvensanalyse på DTU: Download

    Proteiner er polypeptider (poly = mange), som er sammensat afaminosyrer, der er bundet kovalent sammen gennem peptidbindinger (se infoboks 1).

     

    Aminosyrer

    Den generelle grundstruktur for en aminosyre kan ses i figur 1.

    Der findes i alt 20 forskellige standardaminosyrer, der hver er karakteriseret på baggrund af deres sidekæde. Sidekæden definerer, hvilke kemiske egenskaber aminosyren har og dermed hvilke bindinger, den kan lave. De 20 aminosyrer er inddelt i fem kategorier på baggrund af deres kemiske egenskaber. Aminosyreopdelingen kan ses i tabel 1.

    Primærstruktur

    Aminosyrer bliver sat sammen gennem peptidbindinger, hvorved lange rækker af aminosyrer kan dannes. Som nævnt ovenfor kaldes disse rækker polypeptider. Peptidbindingen bliver dannet ved, at det negativt ladede oxygenatom i carboxylgruppen reagerer med et af hydrogenatomerne fra aminogruppen i en anden aminosyre.

    Figur 1. Den generelle struktur af en aminosyre. Den består af et carbonatom bundet til en positivt ladet aminogruppe, en negativt ladet carboxylgruppe, et hydrogenatom og en sidekæde. 

    Ved reaktionen bliver der afgivet et vandmolekyle (reaktionen er en kondensation), og en peptidbinding er dermed skabt, se figur 2.

    Figur 2. Danelsen af peptidbindinger. Det ses, at der frigives ét vandmolekyle for hver binding, der dannes.

     

     Tabel 1. Oversigt over de 20 forskellige aminosyrer, opdelt efter kemiske egenskaber.

    Sekundærstruktur 

    De lange polypeptidkæder kan på grund af sidekædernes kemiske egenskaber foldes i lokale, rumlige strukturer. De mest udbredte strukturer kaldes α-helix og β-plader.

    α-helixen er en spiral med en rygrad af aminosyrer, der er holdt sammen vha. hydrogenbindinger mellem hver femte aminosyre. Spiralen er konstrueret sådan, at aminosyrernes sidekæder stikker ud af spiralen. Sidekæderne kan interagere med hinanden for at skabe stabilitet til spiralen, men de kan også interagere med andre molekyler, se figur 3. α-helix’er er mest udbredt i membranproteiner (proteiner der går gennem cellemembranen) og i DNA-bindende proteiner. I DNA-bindende proteiner findes α-helixen i de domæner, der interagerer med DNA’et, så proteinet kan ændre på transkriptionen af DNA’et.

    β-plader består af to eller flere β-strenge. β-strengene kaldes for β-plader backbones (rygrader) og er peptidkæder, der er sat sammen med hydrogenbindinger (se infoboks 2) mellem hver backbone. β-pladernes struktur bevirker, at sidekæderne stikker vinkelret ud fra pladerne med en variation på hver anden, således at den første sidekæde stikker op ad, den anden stikker nedad, osv., se figur 4. β-plader bruges bl.a. til at danne strukturer, der går gennem cellemembranen, således at små molekyler kan transporteres ind og ud af cellen.

    Figur 3. α-helix med sidekæder, hvor hydrogenbindinger er vist med gule prikkede linjer. 

    Tertiærstruktur

    Polypeptidkæden er en dynamisk struktur, som på grund af de mange forskellige sidekæder kan foldes i forskellige strukturer. Disse strukturer danner proteinets tertiærstruktur, der ofte bliver stabiliseret af α-helix, β-plader, svovlbroer mellem aminosyren cysteins sidekæder samt hydrofobe/-file interaktioner mellem molekylerne. Proteiners tertiærstruktur bestemmer deres funktion. Foldningen bevirker nemlig, at aminosyrerne i proteinet bliver placeret, så de kan interagere i specifikke processer, f.eks. til at katalysere enzymatiske reaktioner.

    Figur 4. β-plade vist med sidekæder. Det kan ses, at sidekæderne er vikelrette på pladen Sidekæderne stikker skiftevis op og ned.  

    Proteiner kan være opdelt i såkaldte domæner, der hver folder uafhængigt af hinanden. Hvert domæne vil have en unik struktur og dermed forskellige egenskaber. I figur 5 er der givet et eksempel på en tertiærstruktur og i figur 6 et eksempel sammenhængen mellem et proteins primær-, sekundær- og tertiærstruktur.

    Figur 5. Et proteins tertiærstruktur. Her kan både β-plader og α-helix ses.

    Figur 6. Sammenhæng mellem et proteins primær-, sekundær- og tertiærstruktur. β-plader er vist med gule pile. A-helix er vist med røde spiraler.

    Kvaternærstruktur

    De foldede polypeptidkæder kan interagere med hinanden og danne et proteinkompleks. Komplekset er proteinets kvaternærstruktur, og polypeptidkæderne betegnes som subunits i det færdige protein, se figur 7. Et proteinkompleks kan bestå af mange subunits, der både kan være forskellige og ens. Eksempelvis består et hæmoglobin-molekyle af fire identiske subunits, der hver kan binde et oxygenatom.

    Konserverede domæner

    Som nævnt ovenfor bliver polypeptidkæderne foldet til tertiærtrukturer, som har en specifik biologisk egenskab. En biologisk egenskab er f.eks. regulering af transkription (når et protein binder til DNA’et) eller nedbrydning af sukkermolekyler i fordøjelsessystemet.

    Selvom det er hele proteinet, der har en biologisk egenskab, er det faktisk kun nogle bestemte aminosyrer eller længere peptidsekvenser i proteinet, der er direkte forbundet med funktionen. Den funktionelle del af proteinet er ofte konserveret (bevaret), dvs. den aminosyresammensætning, der er karakteristisk for en funktion, vil kunne findes på tværs af forskellige organismer, der ellers er fjernt beslægtede.

    De aminosyrer, der ikke udgør den funktionelle del af et protein, er ikke så vigtige for proteinets funktion, men kan i stedet medvirke til at stabilisere protienstrukturen og -foldningen. Da aminosyrerne ikke indgår direkte i de biologiske funktioner, vil aminosyrerne til en vis grad kunne ændres eller fjernes uden at proteinet mister sine biologiske funktioner.
    Figur 8 illustrerer, hvor konserverede domæner kan findes. Her er de konserverede domænerne i α-helixen og β-pladen (indikeret med en grå streg), mens de aminosyrer der er i loopet før, efter og mellem dem, er ændrede. Ændringerne har ikke betydning for sekundærstrukturen, og det er dermed den samme tertiærstruktur, der vil dannes fra begge sekvenser.

    Figur 7. Et proteins kvaternærstruktur. Her er hæmoglobin vist, og de fire forskellige subunits kan ses med hver sin farve. Strukturen er fundet gennem PDB og lavet i PyMol. 

    Når man laver alignments vil man ofte kunne se konserverede domæner, dvs. aminosyrerne på disse positioner vil være identiske i de sekvenser, der sammenlignes. Endvidere vil aminosyrerne uden for domænet i højere grad variere, men ofte vil aminosyrerne være inden for samme kemiske gruppe som klassificeret i tabel 1. Når aminosyrerne er inden for samme gruppe, vil de have den samme kemiske egenskab og dermed bibeholde proteinet i en korrekt struktur.

    Figur 8. De konserverede domæner i De to viste poteinsekvenser har  der hvor de danner en α-helix og en β-plade. Selvom den primærstruktur ikke er helt identisk mellem de to sekvenser, vil de alligevel have den sammen tertiærstruktur og dermed samme funktion.

    Sekvensalignments benyttes til at sammenligne to eller flere DNA- eller proteinsekvenser. Programmet BLAST benytter alignments til at finde sekvenser, der er beslægtede med den sekvens, der benyttes til BLAST.

    Hvis man kender sammensætningen af nukleotider eller aminosyrer for henholdsvis DNA- eller proteinsekvenser, kan man sammenligne to eller flere sekvenser for at se, hvor meget de ligner hinanden. Sammenligningen af sekvenser foretages DNA mod DNA og protein mod protein, da man ser direkte på, hvilke nukelotider eller aminosyrer, som er identiske i sekvenserne. På engelsk betegnes sekvenssammenligninger som alignments, og at sammenligne sekvenser betegnes ataligne to sekvenser. Termerne alignment og at aligne vil blive brugt i denne teoridel.

    Alignments foretages for at se, om to sekvenser er beslægtede. Hvis sekvenserne er beslægtede, er der en sandsynlighed for, at proteinerne har samme funktion, og gennem alignments kan man således bestemme funktionen af ukendte sekvenser. På grund af mutationer i form af indsættelser (eng. insertions) eller fjernelser (eng.deletions) af aminosyrer, kan beslægtede sekvenserne være blevet ændret med tiden, og aminosyrerne kan derfor variere, eller hele dele af sekvensen kan være fjernet.

    Figur 1. To sekvenssammenligninger. Den øverste er den “originale” uden huller og den nederste er der indsat huller. Et “1” indikerer, at aminosyrerne er identiske, og et “0” indikerer, at der er enten et mis-match eller et hul.

    På trods af ændringer i sekvensen kan den overordnede funktion stadig være bevaret, da det er specifikke domæner (f.eks. katalyserende domæner i enzymer, der har betydning for proteinets funktion. Således gør det ikke noget, at mindre betydningsfulde positioner i proteinet er muterede.

    På grund af indsættelser eller fjernelser af aminosyrer er de sekvenser, man aligner, ikke altid lige lange. For at tage højde for dette i alignmentet, kan der indsættes huller (eng. gaps) for at indikere, at en eller flere aminosyrer mangler. Ved at indsætte huller kan man opnå et bedre alignment, hvilket fremgår af figur 1.

    I teorien kan alle sekvenser alignes, og hvis man indsætter tilstrækkelig mange huller, vil sekvenserne blive lige lange. For at skelne mellem gode og dårlige alignments, dvs. alignments, hvor proteinerne faktisk er beslægtede og alignments, hvor de ikke er, benytter man et scoringssystem.

    Scoringssystemet er konstrueret således, at hver alignment får tildelt en score (alignment scoren), som på baggrund af antal identiske aminosyrer (match), antal huller og antal næsten identiske aminosyrer (mis-match, f.eks. position 6, L mod V, i nederste del af figur 1) tildeler alignmentet en score.

    Jo højere score, desto bedre sammenligning, da match vil tælle positivt, mens huller/mis-match tæller negativt.
    Hvis det antages, at et match scorer 1, et mis-match scorer -1, og huller scorer -2 vil scoren for de to alignments i figur 1 være.

    Sammenligning uden huller:  1-1-1+1-1-1-1-1-1+1 = -4
    Sammenligning med huller:   1-2+1+1+1-1+1+1+1-2+1 =  3

    Det kan således ses, at selvom der bliver indsat huller, der vægter negativt vil alignmentet alligevel være bedre med end uden huller. Omvendt ville et overtal af huller dominere med en negativ score, og dermed vil et alignment med mange huller ikke være favorabelt.

    Som nævnt kan man lave alignments mellem to eller flere sekvenser. Hvis man aligner mere end to sekvenser, kaldes det et multiple alignment. Når man laver multiple alignments, kan man undersøge, hvor tæt beslægtede et stort antal proteiner er. Man kan bruge disse alignments til at lave fylogenetiske træer, således at slægtskabet mellem proteinerne kan visualiseres. Du kan læse mere om fylogeni her.

    Nogle proteiner er mere identiske på tværs af arter end andre. Ofte er disse proteiner essentielle proteiner, og de indgår i vigtige biologiske processer som metabolisme, proteinsyntese og DNA-replikation. Det skal dog påpeges, at bevarede proteiner ikke altid er essentielle, men det kan antages, at hvis bestemte områder i et protein er bevarede, er disse omrdåder essentielle. Ved at lave multiple alignments af et essentielt protein, der stammer fra forskellige organismer, vil man ud over at se slægtskabet over proteinerne også kunne se slægtskabet mellem organismerne. Dette kan lade sig gøre, da det antages, at forskellen mellem proteinerne relativt set er den samme som forskellen mellem organismerne. Således kan man bruge alignments til at undersøge, hvor beslægtede både proteiner og organismer er.

  • Bioinformatiske Værktøjer

    Oversigt over brug af værktøjet

    Basic Local Alignment Search Tool (BLAST) er en metode til at sammenligne DNA- eller proteinsekvenser (find det her). I øvelse 3A – Bioinformatisk analyse af antistoffer  og øvelse 4A – Identifikation og visualisering af ukendt protein arbejdes med brugen af BLAST.

    Input

    En query-sekvens (DNA- eller proteinsekvens).

    Output

    Liste over resultatsekvenser der matcher query-sekvensen.

    Beskrivelse

    Når man bruger BLAST, laver man en database-søgning, hvior man undersøger, om der i en database findes DNA- eller proteinsekvenser, der ligner den input-sekvens, man har givet BLAST. Den sekvens, man undersøger, betegnes en query-sekvens (se infoboks) og en undersøgelse i BLAST betegnes at blaste sekvensen (se infoboks). Disse to termer vil være gennemgående i det følgende materiale,  og det er derfor vigtigt at blive bekendt med dem, se figur 1.

    BLAST kan bruges til at finde funktionen af forskellige DNA- og proteinsekvenser. Man antager nemlig, at to sekevenser, der ligner hinanden tilstrækkelig meget i aminosyresammensætning, også har den samme funktion.

    Figur 1 – Illustration af BLAST. Ved at blaste en sekvens mod en database laver man en parvis alignment mellem query-sekvensen og alle andre sekvenser i den pågældende database. Hver alignment får en score og tilslut kan man se om der er nogle sekvenser i databasen der er beslægtede med query-sekvensen.

    BLAST er opbygget omkring en matematisk model, der sammenligner DNA- eller proteinsekvenser ved brug af parvis alignment. Parvis alignment er en metode til at søge efter lokale ligheder (eng. local alignments) mellem query-sekvenser og de DNA- og proteinsekvenser, der findes i den biologiske database, man anvender. Et alignment er illustreret i figur 2. Man kan udregne en score for, hvor godt alignmentet er, ved at finde de positioner hvor sekvenserne er henholdsvis forskellige og identiske. På baggrund af scoren kan man konkludere, hvor tæt beslægtede sekvenserne er.

    Faktaboks 1: Hvad kan værktøjet BLAST bruges til?

    • Hvorvidt en query-sekvens er beslægtet med andre sekvenser i en database.
    • I hvor høj grad sekvenserne er relaterede.
    • Hvad funktionen af query-sekvensen højst sandsynlig er.

    BLAST sorterer søgeresultaterne efter, hvor godt de matcher query-sekvensen. Resultatsekvenserne sorteres efter den føromtalte score, hvor en høj score er ensbetydende med et godt match og dermed en indikation af, at de to sekvenser er beslægtede.

    De sekvenser, der alignes, er ikke altid lige lange. På grund af mutationer i DNA-sekevenserne kan der være fjernet eller indsat nukleotider i sekvensen, hvilket betyder, at der mangler eller er blevet indsat en (eller flere) ekstra aminosyre(r). Der tages højde for mutationer i alignmentet, da man kan indsætte huller (eng. gaps) i alignmentet for at få en bedre score og dermed en bedre sammenligning. Figur 3 viser, hvordan indsættelse af huller i query-sekevensen og i den sekvens man sammenligner med kan forbedre scoren. For at hele alignmentet ikke bliver fyldt med huller, bliver disse scoret med en negativ værdi, som er lavere end den for to forskellige aminosyre, der står over for hinanden. I figur 3 bliver match scoret med 1, et mis-match (to forskellige aminosyrer over for hinanden) bliver scoret med -1, og huller bliver scoret med -2. Ved sammenligning af figur 2 og 3 ses, at sekvenserne matcher bedre, efter at der er indsat huller i begge sekvenser.

    Figur 2 – Sammenligning af to proteinsekvenser. Et grønt 1-tal indikerer, at de to aminosyre er identiske, og et rødt 0 indikerer, at de er forskellige. Til at udregne scoren bliver identiske aminosyrer tillagt værddien 1 og to forskellige aminosyrer får værdien -1.

    Figur 3 – Sammenligning af to proteinsekvenser, hvor der er indsat huller. Et grønt 1 indikerer, at de to aminosyrer er identiske, og et rødt 0 indikerer, at de er forskellige. Til at udregne scoren bliver identiske aminosyrer tilagt værdien 1, får -1, og et hul får -2. Gennem alignmentet kan det ses, at sekvenserne er mere beslægtede end først antaget. 

    Når man laver en BLAST, undersøger man om en query-sekvens er beslægtet med andre DNA- eller proteinsekevenser i en database. Når man skal analysere resultaterne fundet gennem BLAST, er det derfor vigtigt at være kritisk, da man vil finde beslægtede sekvenser. I teorien kan ALLE sekvenser nemlig alignes, men blot fordi de kan det eller får en høj score, er det ikke nødvendigvis ensbetydende med, at resultatsekvensen er beslægtet med query-sekvensen.

    I BLAST-resultatet er der inkluderet metoder, der undersøger, om sekvenserne i alignmentet kan karakteriseres som værende beslægtede. Dette gøres blandt andet ved at finde resultatsekvensernes query-dækning og e-værdi. Nedenfor gennemgås de tre forskellige værdier, som er vigtige at kigge på, når man fortolker et BLAST-resultat.

    • Query-dækning (eng. query coverage) angiver, hvor mange procent af den pågældende resultatsekvens der er med i det parvise alignement, den danner med query-sekvensen. Hvis query-dækningen er høj, indikerer det, at en stor andel af resultatsekvensen matcher query-sekvensen. Det skal dog påpeges, at dækningsgraden ikke fortæller, om der er eventuelle huller i alignmentet (se infoboks 4), eller om alle aminosyrerne er identiske. Desuden kan den procentuelle dækning være misvisende, da en query-sekvens kan være en lille del af en større sekvens og den procentuelle dækning vil således ende med at være lille, da den kun angiver den del af resultatsekvensen, der indgår i det parvise alignment med query-sekvensen.
    • Max+scoren er den score, som hver resultatsekvens får på baggrund af matchet med query-sekvensen. Max+scoren udregnes gennem den føromtalte matematiske model og tager ikke højde for, om sekvenserne egentlig er identiske. Query-sekvensen bliver nemlig sammenlignet med ALLE sekvenser i den pågældende database, og hver sammenligning vil få tildelt en score. I et generelt BLAST-output er det resultatsekvenserne med de højeste scorer, der bliver vist først (jo højere score, desto bedre match), men som nævnt er en høj score ikke ensbetydende med et identisk match. Grunden er, at sekvenser rent tilfældigt kan matche en query-sekvens uden egentlig at være beslægtet med den. Et mål for tilfædigheden er e-værdien, der beskrives nedenfor.
    • E-værdien (eng. e-value eller expected valuee ) angiver den forventede (tilfældige) tilstedeværelse af en resultatsekvens i den database, man søgte mod. Grunden til, at man bruger e-værdier, er, at man af tilfældige årsager kan finde højt scorende resultatsekvenser i en stor database. E-værdien for en given sekvens angiver,  hvor mange resultater med den samme høje score man ville kunne forvente at få af tilfældige årsager.

    Generel Guide

    Når man skal foretage en BLAST skal følgende punkter gennemgås:

    1. Valg af den organisme og/eller database man vil søge mod.
    2. Valg af BLAST-type.
    3. Indtastening af sekvens eller upload fil med sekvens.
    4. Start af BLAST
    5. Fortolkning af resultatet

    De fem punkter vil blive gennemgået nedenfor.

    Punkt 1+2: På startsiden for BLAST, se figur 4, kan man vælge, hvilken organisme man ønsker at blaste query-sekvensen mod. Man vælger organismen under BLAST Assembled RefSeq Genomes.

     

    Hvis der ikke er noget specifikt ønske om organisme, kan man blaste mod alle sekvenser i databasen ved at vælge Basic BLAST. Det skal påpeges, at typen af BLAST (BLAST mod DNA- eller proteinsekvenser) også kan vælges, når man har indtastet sin query-sekvens, se figur 5.

    Punkt 3+4:

    Afhængig af den query-sekvens man ønsker at blaste, og om man vil finde lignende DNA- eller proteinsekvenser, skal BLASTen specificeres. Dette gøres ved at vælge, hvilken type BLAST man vil foretage. Der findes følgende former:

    • BLASTn:   man har en nukleotidsekvens og søger i nukleotiddatabaser.
    • BLASTp:   man har en proteinsekvens og søger i proteindatabaser.
    • BLASTx:   man har en nukleotidsekvens og søger i proteindatabaser.
    • tBLASTn:  man har en proteinsekvens og søger i nukleotiddatabaser.
    • tBLASTx:  man har en nukleotidsekvens og søger i nukleotiddatabaser (denne er mere omfattende end BLASTn).

    De typer af BLAST, der er mest benyttede, er BLASTn og BLASTp. I øvelserne, der omhandler BLAST, arbejdes der med BLASTp.

    I figur 5 kan søgesiden for BLAST ses. Den øverste markering viser felterne, der specificerer hvilken type BLAST, man vil lave, og den midterste markering viser, hvor man kan vælge, hvilken database man vil blaste imod. De mest benyttede databaser er dem, der indeholder flest sekvenser. Disse databaser er følgende:

    • nucleotide collection nr/nt for BLASTn, tBLASTn og tBLASTx .
    • non-redundant protein sequences for BLASTp og BLASTx.

    Man kan begrænse sin søgning ved at vælge databaser, der indeholder et begrænset antal sekvenser.

    Den nederste markering i figur 5 viser, hvor man starter sin BLAST.

    Figur 4 –  BLAST start side.

    Figur 5 -BLAST søge side. 

    Punkt 5: Outputtet af en BLAST er opdelt i tre dele; Graphic SummaryDescriptions og Alignments. De vigtigste områder er forklaret på illustrationen og vil blive gennemgået nedenfor.

    • Graphic Summary
      Øverst kan man se hele query-sekvensen og dens længde i aminosyrer (AA) (sekvensen i figur 4 er 136 AA lang). Under query-sekvensen findes området med superfamilier (eng. superfamilies). Her angives, hvor på query-sekvensen der er, og om disse tilhører en bestemt superfamilie af proteiner. Du kan læse om konserverede domæner her. I den næste del af Graphic Summary kan man se, hvilke områder af resultatsekvenserne der matcher query-sekvensen, samt hvor de matchende områder er. Hver linje er en resultatsekvens, og de er listet i den rækkefølge, som sekvenserne også er listet i i Descriptions. Farverne for hver resultatsekvens (sort, blå, grøn, lilla og rød) indikerer, hvad max-scoren for resultatsekvensen er. Længden af linjerne indikerer, hvilke områder i query- og resultatsekvensen der er identiske.
    • Descriptions
      Her er de bedste resultatsekvenser vist med accession-nummer, beskrivelse af proteinfunktion, hvor det stammer fra, max-score, total-score, procent lighed, e-værdi og links til databaser hvor sekvensen kan findes. Ved at trykke på accession-nummeret kan man komme til proteinets GenBank-side, hvor man kan finde flere informationer omkring proteinet. De vigtigste informationer om resultatsekvensen og matchet med query-sekvensen kan findes ved at se på e-værdien, max-scoren og procent ligheden, da disse tre størrelser beskriver, hvor identiske resultatsekvenserne er med query-sekvensen. En resultatsekvens kan antages at være et korrekt match til query-sekvensen, hvis e-værdien er under 10ˆ-4 – 10ˆ-5 (jo lavere, desto bedre).
    • Alignments 
      Her vises sekvenssammenligningen mellem de enkelte resultatsekvenser og query-sekvensen.
      I hver sekvenssammenligning vises, hvilke steder sekvenserne er både identiske og forskellige. Linjen mellem input sekvensen (query) og hittet (subject) viser sammenligningen (alignment). Et “+” indikerer at aminosyren minder om hinanden mht. fysiske og kemiske egenskaber, f.eks. hvis de begge har sidekæder med carboxylsyrer, og et mellemrum indikerer, at sekvenserne er forskellige på denne position. Det anbefales altid at kigge på sekvenssammeligningerne, da man således kan se, hvor sekvenserne er identiske. En resultatsekvens kan endvidere undersøges nærmere ved at trykke på accession-nummeret, hvilket vil føre til en nærmere beskrivelse af sekvensen NCBI.

    På baggrund af viden om en god e-værdi samt sammenligning af max-score og procentuel lighed, kan det bestemmes, hvilken/hvilke resultatsekvense(r), der matcher query-sekvensen bedst. Hvis man opnår resultater med en e-værdi, der er lavere en grænseværdien på 10ˆ-4 – 10ˆ-5, kan man konkludere, at query-sekvensen har samme funktion som resultatsekvensen med den lave e-værdi. Alle resultatsekvenser vil altid kunne undersøges nærmere ved at trykke på det tilhørende accession-nummer.

     

    Oversigt over brug af værktøjet

    FigTree er et program der benyttes til at visualisere fylogenetiske træer, så man blandt andet kan danne sig et overblik over organismers slægtskab (find det her). Øvelse 2D – Myostatins proteininteraktioner og organismers slægtsskab arbejder med brugen af FigTree.

    Input

    Fil med det fylogenetisk træ i formatet phylip (filen kan kan laves i programmet ClustalX eller Treehugger, hvor bl.a. sekvenssammenligninger bruges til lave træer. Dette ligger dog uden for dette her materiales område).

     

    Output

    Et fylogenetisk træ, hvor man kan visualisere slægtskabet mellem organismerne.

     

     

    Beskrivelse

    FigTree bruges til at visualisere slægtskaber mellem organismer gennem fylogenetiske træer. Fylogenetiske træer (se figur 1) kan konstrueres på forskellige måder. Hver måde benytter en bestemt matematisk model, og valg af denne vil bestemme, hvordan slægtskabet mellem organismerne bliver. Oftest er der ikke variation i det overordnede slægtskab, men det er vigtigt at holde sig for øje, at et evolutionært slægtskab ikke altid er entydigt. I øvelserne er valg af matematisk model underordnet, da FigTree bruges til at visualisere træer, der er lavet på forhånd.

    Generel guide

    Inden man kan benytte FigTree, skal man have lavet et træ og gemt det i phylip-format. Et træ kan laves med programmerne ClustalX eller Treehugger, men i øvelserne der omhandler  FigTree, får du træer, der lavet på forhånd, og du skal derfor ikke selv konstruere dem.

    I et åbnet FigTree-vindue benyttes open til at åbne phylip-filen med det træ, man vil visualisere. Træet, der vises, har en rod, hvilket betyder, at den ældste stamfader er valgt. Roden er dog valgt tilfældigt af FigTree og giver derfor ikke et korrekt billede af det kronologiske slægtskab. For at få et rigtigt billede af slægtskabet bør træet vises uden rod. Et ikke-rodet træ viser nemlig, hvordan træets taxa er relateret til hinanden, men giver ingen indikation om kronologien i slægtskabet, dvs. træet giver ikke nogen informationer om, hvilke taxa der er ældst eller yngst. I figur 2 kan det ses, hvordan man viser et træ uden rod.

    Figur 1 – Fylogenetisk træ. Et fylogenetisk træ viser slægtskabet mellem forskellige taxa (arter).

    Figur 2 – FigTree output.

    For at lave træet med en korrekt rod skal man have kendskab til de forskellige taxa i træet og vide, hvilken der er fjernest beslægtet. Hvis man ved hvilken taxon, der er fjernest beslægtet med de andre, kan en ydergruppe vælges, og træet vil kunne rodes i forhold til den. Ved at vælge en ydergruppe specificerer man, hvilken taxon der er længst fra de andre, og FigTree vil lave et nyt træ, som placerer ydergruppen længst væk fra de andre taxa.

    Træet omrodes ved først at trykke på denne taxon, der skal være ydergruppe og derefter benytte kommandoen Reroot, se figur 2.

    Grenene mellem de forskellige taxa i træet svarer til den evolutionære distance mellem dem, dvs. forskellen målt i f.eks. antal mutationer. Længden er defineret som antal mutationer divideret med længden af sekvenssammenligningen  (alignmentet) inklusiv gaps mellem de to taxa. Det skal påpeges, at grenlængden ikke indikerer, hvor tæt beslægtet de forskellige taxa er med hinanden. I figur 3 ses det, at taxon A og B er tættest beslægtet, selvom grenlængden mellem dem (1+2 = 3) er længere end den mellem A og C (1+0.5+1 = 2.5). Grunden til dette er, at sekvensen for A er tættere på skevensen for C end den er på B. Dette kan f.eks. skyldes, at B har akkumuleret flere mutationer efter den divergerede væk fra A i forhold til antal af mutationer, stamfaderen til A og B fik efter C divergerede væk.

    Målestokken er også vigtig at kigge på, da den angiver antal mutationer pr. afstand. En høj målestok er således ensbetydende med mange mutationer og dermed stor forskel mellem træets taxa.

    Grenlængde og målstok er således vigtige for at kunne fortolke slægtskabet korrekt og ikke drage forhastede konklusioner om et eventuelt tæt slægtskab. I figur 2 er vist, hvor man kan finde målestokken i FigTree. For figur 3 gælder det at: på trods af, at grenlængden mellem A og B er større end mellem A og C, er A og B faktisk tættere beslægtet, dvs. de to taxa divergerede senere væk fra hinanden end C gjorde fra deres stamfader. Grunden til at grenlængden mellem A og C er kortere er, at deres sekvenser er tættere på hinanden end A og B. Dette kan eventuelt skyldes, at B har muteret mere siden den divergerede fra A.

    Figur 3 – Træet viser slægtskabet mellem taxon A, B og C

    Oversigt over brug af værktøjet

    National Center for Biotechnology Information (NCBI) er en af de mest omfattende og benyttede databaser. Hos NCBI kan man finde information om næsten alle kendte DNA- og proteinsekvenser (find den her).

    Beskrivelse

    Internetsiden hos NCBI er bygget op omkring mange forskellige databaser, bl.a. sekvensdatabaser for nukleotider og proteiner. Udover sekvensdatabaser, har NCBI også tilknyttet databaser for hele genomprojekter og litteratur (PubMed) samt forskellige programmer som f.eks. søgemaskinen BLAST.

    Det store antal databaser er med til at gøre søgning på NCBI til en af de mest omfangsrige. NCBI er derfor en god internetside at benytte, når man skal finde informationer om:

    • DNA- og proteinsekvenser ved at søge på enten navn, funktion, organisme, accession-nummer eller lignende.
    • Videnskabelige artikler om en given DNA- eller proteinsekvens.
    • Funktionen af en ukendt DNA- eller proteinsekvens.

    Generel guide

    Ved at benytte NCBI til informationssøgning vil man automatisk søge på tværs af biologisk relaterede databaser. Resultatet af søgningen er omfangsrigt på grund af de store databaser, og det er derfor vigtigt at specificere sin søgning. Specificering kan eksempelvis gøres ved at vælge, hvilken database man vil søge mod. Valg af database afhænger af, om man vil søge efter DNA- eller proteinsekvenser . I figur 1 kan du se hvordan du kan vælge database. Søgning på NCBI giver ofte et resultat med mange sekvenser. Hver sekvens, der er tilgængelig gennem NCBI har sin egen side med information, en GenBank-side. Man kan gå til en sekvens-GenBank-side ved at klikke på sekvensens understregede navn på resultatsiden, se figur 2.

    Figur 1 – Forsiden på NCBI.

    Figur 2 – Resultatet af en søgning efter proteinsekvensen for insulin.

    Oversigt over brug af værktøjet

    GenBank er hoveddatabasen for kendte DNA-sekvenser, og den kan findes gennem NCBI’s internetside.
    Hver DNA-sekvens i GenBank har sin egen GenBank-side. GenBank-siden indeholder informationer om DNA-sekvensen, bl.a. hele nukleotidsekvensen, organismen den stammer fra, links til dens translaterede proteinsekvens m.m.

    Generel guide

    GenBank-sider er alle opbygget på samme måde og består af tre dele, som gennemgås nedenfor.

    • Header
      Denne del indeholder den generelle information omkring sekvensen:
      Accession-nummeret, sekvensens navn, hvilken organisme sekvensen stammer fra, hvilket kromosom den er på, hvilke artikler og publikationer der omtaler den mm..
    • Feature
      Denne del er en slags tabel, der indeholder informationer om selve DNA-sekvensen og funktionen af de forskellige områder i sekvensen. Her beskrives bl.a. hvilke nukleotider, der faktisk koder for proteinet (denne del betegnes CDS, der er en forkortelse af coding sequence) samt positionerne for introns og exons (se infoboksen til højre).
    • Origin
      Denne del indeholder udelukkende selve DNA-sekvensen (nukleotiderne) samt dens positioner.

    Oversigt over brug af værktøjet

    Protein Data Bank (PDB) er en database, der indeholder proteiner og deres kendte tredimensionelle struktur (find den her). I øvelse 1c – Aktin, fra mRNA til tredimensionelt protein, øvelse 2b – Myostatins proteininteraktioner og organismers slægtsskab, øvelse 3b – Bioinformatisk analyse af antistoffer og øvelse 4c – Identifikation og visualisering af ukendt protein arbejder man med brugen af PDB.

    Beskrivelse

    For at et protein kan blive tilgængeligt i PDB, skal det være sekventeret, dvs. man skal kende proteinets aminosyresammensætning og dermed både dets primær-, sekundær- og tertiærstruktur. Proteiner, der er tilgængelige gennem PDB, er ofte i interaktion med andre molekyler, f.eks. metalioner, DNA eller andre proteiner da interaktionerne stabiliserer proteinet.

    En af metoderne, hvorpå den tredimensionelle struktur bliver, fundet er ved røntgenkrystallografi. I denne metoder sender man røntgenstråler ind på atomerne, i en struktur og da røntgenstrålen vil blive afbøjet forskelligt alt afhængig af atomernes placering, kan man ved at måle afbøjningen bestemmer strukturen.

    PDB-databasen er kædet sammen med en række andre databaser og programmer, blandt andet NCBI og PyMol. Ved at søge på et protein på NCBI kan man undersøge, om proteinet har en kendt tredimensionel struktur. En sådan undersøgelse er mulig, fordi hvert protein i PDB har et PDB-id. Et PDB-id’et er et unikt nummer i stil med et accession-nummer.

    PDB id’et er fire karakterer lang og består af både tal og bogstaver f.eks. 1MGY. PDP kan bruges til at:

    • Undersøge om et protein har en kendt tredimensionel struktur.
    • Finde PDB+id’et til proteinet med den kendte struktur.
    • Finde informationer om proteinets struktur der kan bruges til en senere undersøgelse i PyMol
      • Hvordan ser proteinet ud?
      • Hvordan ser det aktive site ud?
      • Hvilke kæder (subunits) består det af?
      • Hvor lang er aminosyresekvensen i hver kæde?
      • Er der konserverede domæner?

    Figur 1 – Sammenhæng mellem proteiners strukturformer. I PDB kan man finde tertiær- og kvaternærstrukturen for proteiner.

    Generel guide

    Den mest simple søgning i PDB-databasen gøres ved at søge på et PDB-id, f.eks. 1JKL. Ved at søge på et PDB-id finder man kun det pågældende protein. En mere kompleks søgning udføres med fritekst, f.eks. ved at søge på “human insulin”. Fritekstsøgning anvendes, hvis man vil undersøge, om PDB indeholder kendte strukturer inden for søgekriteriet, f.eks. om PDB indeholder strukturer af humant insulin.
    En ulempe ved fritekstsøgning er det store antal resultater, der ofte fås. Det anbefales derfor at søge direkte på PDB-id’et, hvis man kender det.

    På figur 2 kan man se hvor søgningsfelterne er placeret i PDB, og figur 3 viser opbygningen af en resultat side efter endt søgning.

    Når den rette struktur er fundet, kan man gå til strukturens PDB-side. Øverst på siden er en række faner (1 på figur 4), der kategoriserer strukturens information. I dette materiale skal fanerne Summary og Sequence benyttes.

    • Summary-siden er startsiden for strukturen (se figur 4). Som navnet antyder, giver Summary-siden en opsummering af strukturens informationer.
      Det mest interessante område på Summary-siden er den molekylære beskrivelse (eng. Molecular Description, 2 på figur 4). I denne del kan man få informationer om:
    • Klassifikationen af søgeresultatet (i eksemplet her er det et hormon)
    • Vægt
    • Antal af kæder (subunits) og deres længde

    I området under Source (dansk: kilde, 3 på figur 4) kan man se hvilke organismer strukturerne stammer fra. I fanen Sequence (se figur 5), er der mere specifikke informationer om strukturen.
    Som nævnt kan et protein bestå af flere kæder (subunits). Kæderne kan være både identiske og forskellige, og på Sequence-siden kan man se, hvilke der er identiske og forskellige. Dette kan findes under 1 i figur 5, hvor der også står, hvor mange kæder der er. Man kan vælge, om man vil se informationerne for alle kæderne i strukturen, eller kun dem der er unikke (dvs. at der kun vises en af hver kæde, og identiske kæder bliver dermed ekskluderet), se 2 på figur 5. For hver kæde kan man endvidere se sekundærstrukturen for forskellige dele af sekvensenen og dermed se ved hvilke aminosyrer, de forskellige sekundærstrukturer starter.

    Hvis man ønsker at arbejde videre med proteinet i f.eks. PyMol, kan man downloade PDB-filen. Dette gøres ved at trykke Download files i det øverste højre hjørne ved siden af PDB-id’et (i figur 5 er det ved siden af 2L1Y). Når man har trykket på Download files, skal punktet PDB file (Text) vælges, og PDB-filen bliver dermed downloaded direktet til din download mappe. PDB filen kan åbnes i programmet PyMol, hvor du kan visualisere proteinet.

    Figur 2 – Startsiden for PDB.

    Figur 3 – Resultatsiden efter en fritekstsøgning i PDB. Det er den øverste del af siden der af vist, og dermed kun det første af mange resultater. Her er det strukturen med PDB ID 2L1Y, der kan ses.

    Figur 4 – Summary siden for en PDB side. 

    Figur 5 – Sequence-siden for et søgeresultat i PDB. Klik for at se figuren i stort format.

    Oversigt over brug af værktøjet

    PyMol er et program, der bruges til at visualisere proteiners tredimensionelle opbygning (find det her). I øvelse 1d – Aktin, fra mRNA til tredimensionelt protein, øvelse 2c – Myostatins proteininteraktioner og organismers slægtsskab, Øvelse 3c – Bioinformatisk analyse af antistoffer og øvelse 4d – Identifikation og visualisering af ukendt protein arbejder man med brugen af PyMol.

    Input

    PDB-id for det protein man ønsker at visualisere, eller en PDB-fil downloadet fra PDB databasen.

    Output

    Det ønskede protein i tredimensionel struktur. Dette kan redigeres og præsenteres efter brugerens ønske.

    Beskrivelse

    PyMol er et værktøj til at undersøge den tredimensionelle opbygning af proteiner. PyMol kan bl.a. bruges til at finde og undersøge bindingsdomæner, katalyserende domæner, interaktioner med f.eks. DNA og meget andet. Et eksempel er visualisering af en transskriptionsfaktor. Her er transkriptionsfaktoren (proteinet) i interaktion med et DNA-molekyle. Ved at visualisere interaktioner kan transkriptionsfaktorens bindingssted på DNA-molekylet bestemmes, og man kan finde de aminosyrer, som er vigtige for bindingen.
    Man kan zoome ind på interessante områder, og derved visualisere både sekundær-, men også primærstrukturen.

    PyMol er et vigtigt redskab for at forstå enkelte proteiners opbygning og deres interaktioner med andre molekyler.

    Figur 1 – En kvartenærstruktur af et protein, der består af fire forskelligekæder, hver farvet forskelligt. Strukturen er fundet gennem PDB og lavet i PyMol.

    Faktaboks: Visualisering af overordnet struktur.

    I PyMol kan man se den overordnede struktur af proteinet på forskellige måder. De mest benyttede er:

    • Ribbon (dansk: bånd), der en simpel struktur hvor molekylet vises som tynde bånd.
    • Sticks (dansk: pinde), der også er en båndstruktur, men her vises sidekæderne også.
    • Cartoon (dansk: tegning), hvor man kan se proteiners sekundærstruktur (se infoboks 1).
    • Surface (dansk: overflade), som viser overfladen af molekylet. Denne form er god hvis man skal undersøge, hvilke aminosyrer der ligger på overfladen af proteinet og dermed kan interagerer med andre molekyler.

    Brugeren af PyMol kan selv bestemme detaljeringsgraden for proteinet. Ønskes få detaljer, kan man gemme forstyrrende elementer, se kommandoen her. Forstyrrende elementer kan f.eks. være sidekæder og hydrogenatomer, da disse er tilstede på hver aminosyre og let kan give et rodet billede.
    Hvis der omvendt er dele som sidekæder, atomer etc. man gerne vil undersøge kan de vælges separat. Herefter kan de farves og præsenteres som ønsket, se her for kommandoerne til dette. Ved at præsentere enkelte dele anderledes end hele proteinet kan de nemmere undersøges af brugeren.

    PyMol-vinduet, som man arbejder i, er opdelt i flere forskellige dele:

    • Historiedelen, hvor kommandoerne der senest er benyttet, vises.
    • Kommandolinjen, hvor manuelt input indtastes. Kommandolinjen starter med PyMOL>
    • Visualiseringsdelen (med sort baggrund i figur 2) er delen hvor proteinet kan ses.
    • Oversigtsdelen, der er ved siden af visualiseringsdelen. Oversigtsdelen viser de molekyler/makromolekyler, som PyMol vinduet indeholder. Hvis brugeren selv vælger dele af molekylet, vil de også fremgå her.
    • Kommandotasterne, A (Action), S (Show), H (Hide), L (Label) og C (Color) (ASHLC-tasterne) benyttes til at redigere proteinet. Kommandoer gennem disse taster kan også indtastes i kommandolinjen, dog er det oftest lettere at benytte ASHLC-tasterne.

    Figur 2 viser et eksempel på et PyMol-vindue, og de forskellige dele PyMol er bygget op af.

    Figur 2 – Eksempel på et PyMol vindue. 

    Som nævnt er PyMol- og PDB-databasen kædet sammen. Hvis den benyttede computer har internetforbindelse, er PyMol i stand til automatisk at downloade det protein, man ønsker at arbejde med. Proteinet downloades direkte fra PDB, hvor man blot skal benytte PDB-id’et til at hente proteinet. Downloading gøres gennem kommandolinjen med kommandoen fetch efterfulgt af proteinets PDB-id.
    En anden måde at hente protener til PyMol er ved at downloade selve PDB-filen for det pågældende protein, og derefter vælge open i filer. Når et protein er blevet hentet ind i et PyMol-vindue, vil dets navn, i form af PDB-id’et, blive vist i oversigtsdelen til højre i skærmen (se figur 2).

    Ved at benytte ASHLC-tasterne ud for proteinets navn specificeres kommandoer for det protein, der er valgt.

    Det er muligt at have flere proteiner i samme PyMol. Det/de proteiner, man ønsker at se, kan markeres ved blot at trykke på proteinets navn i oversigtsdelen.

    For at få den bedste visualisering af proteinet er det en god ide at ændre på presentationen af proteinet. En trinvis guide til at visualisere et protein i PyMol kan ses nedenfor, hvor PyMol-kommandoerne også kan vises:

    1. Hent proteinet:
      • fetch PROTEIN_NAVN
    1. Skjul overflødig data:
      • hide everything
    1. Ændre på strukturfremstillingen:
      • show cartoon
    1. Farv interessante områder (f.eks. bindings domæner etc.):
      • color NAVN_PÅ_OMRÅDE

    Her er en liste med nyttige kommandoer til PyMol.

    Kommandolinje kommandoer:

    Hent protein

    Hent protein:

    fetch PDB ID

    Find kæder/dele:

    show labels

    Visualiserings strukturer

    Vis alt:

    show everything                                                 

    Gem alt:

    hide everything

    Vis båndstruktur:

    show ribbon

    Vis tegningsstruktur:

    show cartoon

    Vis overfladestruktur:

    show surface

    Vælg dele

    Vælg specifikke dele:

    sele NAVN_PÅ_DELEN, DELENS_PYMOL_NAVN

    Eksempler:

    Vælg kæde A:

    sele A, chain A

    Vælg aminosyre 1 til 100:

    sele aminosyre1-100, resi 1-100

    Vaæl aminosyre 1, 3 og 6:

    sele aminosyre1_3_6, resi 1+3+6

    Vælg aminosyre 3 på kæde B:

    sele position3, chain B resi 3

     

    Farvning

    Farv hele proteinet:

    color FARVEN

    Eksempel:

    color red

    Farv en specifik kæde:   color FARVEN, KÆDEN

    Eksempel:

    color red, chain A  

    Farv en specifik del defineret af brugeren:

    color FARVEN, DEL_NAVNET

    Eksempel:

    color red, position3  

    NB! Inde dele farves, kan delen eventuelt først vælges ved at benytte sele kommandoen.

    Sammenligning (eng. aligne)

    Sammenligne to proteiner:

    align PROTEIN 1, PROTEIN2

    Zoom

    Zoom ind på hele proteinet:

    zoom all

    Zoom ind på en specifik del

    zoom NAVN_PÅ_DEL

    Eksempel:

    zoom chain A eller zoom position3

    Zoom ind på en specifik del med en specifik Angstrøm

    zoom NAVN_PÅ_DEL, ANGSTRØM

    Eksempel:

    zoom chain A, 8

     

    ASHLC taster:
    Tasterne kan benyttes til at lave de samme kommandoer som ved brug af kommandolinjen. Dog er der visse kommandoer, der er lettere gøres ved at bruge ASHLC tasterne. Dette er f.eks. generel visning/ikke-visning samt farvning af hele proteinet.
    Nedenfor er visse eksempler.

    Gem vandmolekyler:  H-tast → hydrogens 
    Vis sidekæder:  S-tast → side chain → sticks 
    Farv ift. den sekundære struktur: C-tast → by ss → DEN ØNSKEDE FARVE
    Put mærkater på aminosyre, kæder eller atomer: L-tast →  residue, chain, segment eller atom → name

    Oversigt over brug af værktøjet

    UniProt er en online database, der indeholder informationer omkring proteiner (find det her). UniProt kan anvendes til at indhente viden om et protein, da databasen blandt andet giver et godt overblik over proteinfunktioner. UniProt læres bedst at kende ved at lave søgninger på forskellige proteiner. I øvelse 1b – Aktin, fra mRNA til tredimensionelt protein, øvelse 2a – Myostatins proteininteraktioner og organismers slægtsskab og øvelse 4b – Identifikation og visualisering af ukendt protein arbejder man med UniProt.

    Generel guide

    I UniProt kan man søge efter proteiner ved at anvende enten accession-nummeret  eller ved at søge via fritekst. Hvis man vælger at søge på accession-nummeret, søger man på et specifikt protein og får dermed kun ét resultat. Dette anbefales, hvis man kender accession-nummeret og gerne vil finde informationer om netop det protein. Kender man derimod ikke accession-nummeret, kan man foretage en fritekstsøgning. Hvis man vil søge efter eksempelvis insulin, indtaster man det i søgefeltet (se figur 1) og får dermed en resultatliste med alle de sider fra UniProt, der indeholder tekst, hvori insulin indgår. Da UniProt er koblet sammen med mange af de mest omfangsrige databaser, vil en uspecificeret søgning (som en fritekstsøgning ofte er) i UniProt for det meste give en meget stor mængde af resultater.

    For at mindske antallet af resultater kan man gøre søgningen mere specifik. Søgningen kan foretages ved at angive forskellige parametre, blandt andet proteinnavnet, hvilken organisme detstammer fra, den subcellulære lokation etc. Valget af søgningsparametre afhænger af det protein, man vil finde, og hvor nøjagtigt man ønsker, at resultatet skal være.

    De nævnte parametre kan bestemmes ved at lave en avanceret søgning gennem Advanced Search (se figur 1) Hvis man eksempelvis vil søge efter Immunoglobulin G fra en mus, kan man i første søgefelt skrive IgG (se figur 2), trykke Advanced Search, dernæst vælge AND og så specificere i det fremkomne felt at resultat OGSÅ skal indeholde det næste søgekriterium. I feltet Field kan man vælge organisme og til slut skrive mus musculus (der er det latinske navn for en almindelig husmus) i det andet søgefelt, se figur 2. NB! Husk at søge på engelske navne eller latinske navne.

    Figur 1 – Startsiden i UniProt. 

    Figur 2 – Brugen af en avanceret søgning, Advanced Search.

    Søgning med UniProt giver som nævnt ofte mange resultater, så det anbefales at specificere sin søgning medAdvanced Search. Eksempelvis vil søgning på insulin også give resultater med bl.a. insulinreceptor. For at undgå resultater der er beslægtede med det protein, man vil finde, men ikke er selve proteinet, kan man benytte NOT-kriterier. NOT bruges på samme måde som AND, men vil specificere at søgningen IKKE må give resultater, der indeholder det efterfølgende søgekriterium. På denne måde indsnævrer man antallet af resultater og letter det efterfølgende arbejde, der er fortolkningen af søgeresultaterne.

    Et eksempel på et søgeresultat kan ses i figur 3. Felter, der er vigtige i forhold til at kunne forstå selve resultatlisten, er markeret med en ring. Informationerne i felterne under punktet fortæller om det givne resultat og giver dermed en indikation af, om man er på rette spor i sin søgning. Felterne inkluderer blandt andet proteinnavnet og navnet på den organisme, proteinet stammer fra. Under feltet Accession  findes proteinets accession-nummer, som man kan klikke på for at komme til proteinets UniProt-side.

    For at læse om et protein og få informationer om det, skal man gå til proteinets UniProt-side. Dette gøres ved at klikke på accession-nummeret, der står med blåt (se figur 3).
    UniProt-siden indeholder en beskrivelse af proteinet. Detaljeringsgraden varierer alt afhængig af den viden, der er opnået om  proteinet. UniProt-siden er inddelt i forskellige områder, hvoraf de vigtigste er følgende:

    Names and origin, der indeholder en generel, kort beskrivelse af proteinet.
    General annotation (Comments), der giver en uddybende forklaring af proteinets funktion. I denne sektion giver et overblik over proteinets virkemåde og rolle i organismen.
    Sequence annotation (Features), der beskriver de forskellige domæner i proteinet. Dette kan eksempelvis være signalsekvenser, der giver information om proteinets sidste destination i cellen, aminosyremodifikationer eksempelvis acetylering og glycosylering, eller oplysninger om der er blevet fjernet aminosyrer i det færdige protein.
    Sequence, der giver hele aminosyresekvensen af proteinet.

    Figur 3 – En resultatside efter søgning i UniProt. 

    Oversigt over brug af værktøjet

    Virtual Ribosome er et online program, der benyttes til at translatere (oversætte) DNA-sekvenser til protein (find det her). I øvelse 1a – Aktin, fra mRNA til tredimensionelt protein arbejdes med Virtual Ribosome.

    Input

    DNA-sekvens der skal translateres til et protein.

    Output

    En aminosyresekvens der er dannet på baggrund af den bedste læseramme.

    Beskrivelse

    Virtual Ribosome bruges til at translatere DNA-sekvenser til proteinsekvenser. Ud over den direkte translation bruges Virtual Ribosome også til at analysere de seks mulige læserammer, da programmet kan finde den mest sandsynlige læseramme for DNA-sekvensen. Hvis man har en ukendt DNA-sekvens, er analysen af læserammer en stor fordel, da man ved at undersøge dem for den åbne læseramme kan finde protein-kodende gener i sekvenserne.

    Generel guide

    Når man går til internetsiden for Virtual Ribosome, kommer man direkte ind på den startside, som kan ses i figur 2. Den DNA-sekvens, man ønsker at translatere, indtastes i felt 1 på figur 2, og den kan indtastes både med og uden “header” (se nedenfor).

    En DNA-sekvens med header ser ud som nedenfor. Det er vigtigt at huske at skifte til en ny linje mellem headeren og selve nukleotid-sekvensen, da linjen adskiller dem:

    >protein 1 (header)
    AATGTGGACCTCAGTTGACTAGCAGTTAGGAGCACAGATGACAGTA

    Et eksempel på en DNA-sekvens uden header:
    ACCGGATGCGTAACAGATAGGGCACCCATGATGACGAACGTATAG

    Sekvenser med headere af denne type kaldes for FASTA-filer.

    Figur 2 – Startsiden for Virtual Ribosome.

    Hvis der ikke ændres på parametrene, inden man kører Virtual Ribosome er det standardindstillingerne, der bliver brugt til translationen. Disse er følgende:

    • Læseramme 1 benyttes, dvs. det er position 1 på den viste (positive) DNA-streng, der er det første nukleotid, som aflæses. Valg af læseramme kan ændres i felt 2 i figur 2 til den læse- eller de læserammer, man ønsker at bruge.
    • Der er ingen specificeret startcodon, dvs. at hele DNA-sekvensen oversættes til aminosyrer og ikke kun den åbne læseramme (mellem start- og stopcodon). Valg af den åbne læseramme ændres i felt 3 i figur 2.
      Det anbefales, at der ændres til “Start codon: Strict”. Dette betyder, at man tvinger translationen til at starte ved startcodonen ATG. Det er den mest udbredte startcodon, og derfor også den codon der starter langt de fleste åbne læserammer.

    For at starte translationen skal man trykke på Submit query.

    Et output for Virtual Ribosome kan ses i figur 3. Som det fremgår af figuren kan man se både DNA- og proteinsekvenser, hvor proteinsekvensen er den øverste. I eksemplet i figur 3 er der kun benyttet én læseramme. Hvis der havde været benyttet flere læserammer ville disse være ”stablet” oven på hinanden.De tre læserammer, der tilhører den positive DNA-streng, ville således være over DNA-sekvensen, og de tre, der tilhører den negative DNA-streng, ville være under DNA-sekvensen i baglæns aminosyrerækkefølge.

    Hvis man vil gemme den translaterede proteinsekvens, kan man højreklikke på FASTA og trykke “Gem som”. Proteinsekvensen bliver da gemt i FASTA-format.

    Figur 3 –  Eksempel på et output fra Virtual Ribosome. 

  • Caseopgaver

    En rettevejledning til lærere kan findes her: Retteark til lærer.

    Rigtig god fornøjelse med projektets forskellige opgaver!

    Øvelsesoversigt

    Denne øvelse arbejder med Virtual Ribosome, UniProt, PDB og Pymol.

     

    Introduktion – Aktin, fra mRNA til tredimensionelt protein

    Aktin er et protein, som er findes i et stort antal forskellige arter. Faktisk er der kun en variation på 20 % mellem aktin fra mennesker og det, der er fundet i alger. Aktin er det protein, der danner grundlag for cytoskelettet i cellers cytoplasma, og det er en af byggestenene i muskler, hvor det danner en platform (eng. scaffold) for proteinet myosin. Platformen er det system, der kontrollerer muskelkontraktioner og dermed gør, at musklerne kan trække sig sammen.

    Aktin dannes som et monomerisk molekyle, dvs. at det består af én enkelt subunit. For at aktin bliver funktionelt og derved opnår en struktur med en biologisk virkning, skal det danne en polymer (poly = mange). I muskler består aktin-platformen af mange aktin-molekyler, der er sat sammen til én lang kæde, der danner en funktionel struktur.

    Figur 1 – Aktin og myosin i muskler. Et funktionelt aktin-molekyle er sat sammen af flere subunits (røde og blå cirkler), der holdes sammen ved hjælp af Tropomyosin og Troponin. Myosin-molekylerne bevirker, at aktin-komplekset kan glide frem og tilbage i en kontraherende bevægelse. Dette gøres ved, at myosin-hovederne binder til aktin, skubber det fremad og derefter slipper igen.

    I. Virtual Ribosome

    Formålet med øvelsen er at blive bekendt med læserammer, strict/non-strict startcodon og betydningen af at vælge den rigtige læseramme. Dette er nødvendig viden, når man skal anvende Virtual Ribosome til at translatere DNA-sekvenser korrekt.

    a)

    Hent mRNA-sekvensen for aktin i boksen til højre. Marker og kopier sekvensen. Gå herefter til Virtual Ribosome, der er et online translationsprogram, du kan finde her.

    Translater sekvensen i Virtual Ribosome med standardindstillingerne.
    Dan dig et overblik over outputtet ved at besvare følgende spørgsmål:

    1. Hvad betyder tegnene >>> ))) og *** under sekvensen? 
    2. Hvad er en læseramme, og hvilken er der blevet brugt til denne translation?
    3. <class=normal>Kan det antages, at dette er den rigtige læseramme for at få det korrekte protein? Hvorfor/hvorfor ikke?</class=normal>

    b)

    Prøv at translatere sekvensen med hensyn til den mest almindelige startcodon ATG. Dette vil ikke ændre læserammen, dvs. translationen vil stadig starte på position 1 på den positive DNA-streng.

    >213688374_actin_human_mRNA
    CTCTCCCCGCCCCCGCGGGGCGGCGCGCACTCACCCACCCGCGCCGGAGCGGACCTTTGGCTTGGC
    TTGTCAGGGCTTGTCCAGGAGTTCCGCTCCTCTCTCCAACCGGGGTCCCCCTCCAGCGACCCTAAAGC
    TTCCCAGACTTCCGCTTCAATTCCTGTCCGCACCCCACGCCCACCTCAACGTGGAGCGCAGTGGTCTC
    CGAGGAGCGCCGGAGCTGCCCCGCCTGCCCAGCGGGGTCAGCACTTCGCATCAAGGCCCAAGAAAAG
    CAAGTCCTCCAGCGTTCTGAGCACCCGGGCCTGAGGGAAGGTCCTAACAGCCCCCGGGAGCCAGTCT
    CCAACGCCTCCCGCAGCAGCCCGCCGCTCCCAGGTGCCCGCGTGCGCCGCTGCCGCCGCAATCCCG
    CACGCGTCCCGCGCCCGCCCCACTTTGCCTATCCCCGGGACTAAGACGGGAATCCTGTGAAGCAGCTC
    CAGCTATGTGTGAAGAAGAGGACAGCACTGCCTTGGTGTGTGACAATGGCTCTGGGCTCTGTAAGGCC
    GGCTTTGCTGGGGACGATGCTCCCAGGGCTGTTTTCCCATCCATTGTGGGACGTCCCAGACATCAGGG
    GGTGATGGTGGGAATGGGACAAAAAGACAGCTACGTGGGTGACGAAGCACAGAGCAAAAGAGGAATC
    CTGACCCTGAAGTACCCGATAGAACATGGCATCATCACCAACTGGGACGACATGGAAAAGATCTGGCA
    CCACTCTTTCTACAATGAGCTTCGTGTTGCCCCTGAAGAGCATCCCACCCTGCTCACGGAGGCACCCCT
    GAACCCCAAGGCCAACCGGGAGAAAATGACTCAAATTATGTTTGAGACTTTCAATGTCCCAGCCATGTA
    TGTGGCTATCCAGGCGGTGCTGTCTCTCTATGCCTCTGGACGCACAACTGGCATCGTGCTGGACTCTG
    GAGATGGTGTCACCCACAATGTCCCCATCTATGAGGGCTATGCCTTGCCCCATGCCATCATGCGTCTGG
    ATCTGGCTGGCCGAGATCTCACTGACTACCTCATGAAGATCCTGACTGAGCGTGGCTATTCCTTCGTTA
    CTACTGCTGAGCGTGAGATTGTCCGGGACATCAAGGAGAAACTGTGTTATGTAGCTCTGGACTTTGAAA
    ATGAGATGGCCACTGCCGCATCCTCATCCTCCCTTGAGAAGAGTTACGAGTTGCCTGATGGGCAAGTG
    ATCACCATCGGAAATGAACGTTTCCGCTGCCCAGAGACCCTGTTCCAGCCATCCTTCATCGGGATGGAG
    TCTGCTGGCATCCATGAAACCACCTACAACAGCATCATGAAGTGTGATATTGACATCAGGAAGGACCTC
    TATGCTAACAATGTCCTATCAGGGGGCACCACTATGTACCCTGGCATTGCCGACCGAATGCAGAAGGA
    GATCACGGCCCTAGCACCCAGCACCATGAAGATCAAGATCATTGCCCCTCCGGAGCGCAAATACTCTG
    TCTGGATCGGTGGCTCCATCCTGGCCTCTCTGTCCACCTTCCAGCAGATGTGGATCAGCAAACAGGAAT
    ACGATGAAGCCGGGCCTTCCATTGTCCACCGCAAATGCTTCTAAAACACTTTCCTGCTCCTCTCTGTCTC
    TAGCACACAACTGTGAATGTCCTGTGGAATTATGCCTTCAGTTCTTTTCCAAATCATTCCTAGCCAAAGC
    TCTGACTCGTTACCTATGTGTTTTTTAATAAATCTGAAATAGGCTACTGGTAAAAAAAAAAAAAAAAAAAA
    AAAAAAAAAAAAAAAAAAAAAA

    Derimod vil translationen give det længste protein, der har ATG som startcodon, og ikke translatere hele sekvensen som før. Til denne søgning skal feltet Start codon: Strict ændres, se eventuelt guiden til Virtual Ribosome for program brug.

    1. Hvor langt er dette protein?
      Vil du (stadig) antage, at dette er det korrekte protein?

    c)

    Ved at vælge en strikt startcodon kan man nemt visualisere den længste aminosyresekvens (mellem start- og stopcodon) fra en given læseramme. Som regel vil man således hurtigt kunne danne sig et overblik over, hvorvidt det er en korrekt translation, da en peptidsekvens skal have en vis længde for at udgøre et funktionelt protein. Dog skal det påpeges, at der kan være pro-peptidsekvenser som f.eks. signalpeptider, der bliver kløvet af i det funktionelle protein, men vil være til stede, når DNA-sekvensen bliver translateret.
    Prøv nu at translatere sekvensen med strikt startcodon på alle seks læserammer, se guiden til Virtual Ribosome for hvordan dette gøres.

    Ved at kombinere alle seks læserammer og have en strikt startcodon vil Virtual Ribosome finde den længste translaterede sekvens, der har ATG som startcodon på tværs af alle læserammerne.

    1. Hvor langt er dette protein, og hvilken læseramme er blevet brugt til translationen?
    2. Som nævnt finder Virtual Ribosome den længst translaterede sekvens, men kan det altid antages, at denne translation giver det korrekte protein? Hvorfor/hvorfor ikke?

     

    II. UniProt

    Formålet med denne øvelse er at lære at søge efter og gøre sig bekendt med proteiner ud fra den information, der er tilgængelig i UniProt. Dette gøres ved at benytte almene fritekstsøgekriterier eller accession-numre og derefter undersøge UniProt-siderne for de proteiner, der findes gennem søgningerne.

    a)

    Benyt den generelle guide til søgning i UniProt til at søge efter det ønskede protein, når du ved at:

    1. Det er aktin
    2. Det skal komme fra mennesker
    3. Det skal komme fra glat muskulatur (se infoboks) i en hovedblodåren (Aorta).

    Foretag maksimalt tre søgninger og tilføj et kriterium efter hver søgning (Eksempel: I første søgning, søges der på insulin, i søgning 2 på insulin AND human osv.). Besvar følgende spørgsmål efter hver søgning:

    1. Hvor mange sekvenser svarer til kriteriet?
    2. Hvilket søgekriterie vil du tilføje for at indsnævre resultatet? Vil du benytte et AND-, OR- eller NOT-kriterium, hvorfor/hvorfor ikke?

    Fortag nu søgningen med de nye søgekriterier.
    NB! Benyt eventuelt den udvidede søgning og specificer feltet Field som beskrevet i den generelle guide for UniProt.

    b)

    Hvert protein har et accession-nummer. Benyt nu proteinets accession-nummer, P62736, til at finde UniProt-siden for det givne protein.  Ved at benytte det unikke accession-nummer er det nemt at finde et protein og dermed undgå at skulle gennemse en masse søgeresultater for at finde det korrekte protein.
    Dan dig et overblik over UniProt-siden for proteinet og find ud af, hvilke informationer man kan få om proteinet ved at besvare følgende spørgsmål:

    1. Hvad er proteinets anbefalede navn (eng. recommended name) og dets gennavn (navnet på det gen der koder for proteinet)?
    2. Hvor lang er sekvensen angivet i aminosyrer (fork. AA)?
    3. Hvad er dets funktion, subcellulære lokation (se infoboks), og er der forbundet nogle sygdomme med det? 
    4. Er der nogle pro-peptiddele i den translaterede sekvens (pro-peptider er aminosyresekvenser, der ikke findes i det færdige funktionelle protein)?
      NB! Se afsnittet molecule processing under Sequence annotation domænet.

     

    III. PDB

    Formålet med øvelsen er at lære at finde relevant information om et protein gennem dets PDB-side, så de rette dele af det kan observeres gennem tredimensionelle visualiseringer i PyMol.

    a)
    Gå til PDB databasen og søg efter PDB-siden med id 1M8Q.

    Hvilke molekyler kan man se i PDB-id’et?

    1. Hvor mange kæder (subunits) indeholder id’et, hvor mange af disse er unikke, hvad er navnet på dem (A, B, C…) og hvillke proteiner tilhører de forskellige kæder (Myosin, aktin…)?
    2. Hvor mange aminosyrer indeholder hver af de unikke kæder, og hvilke positioner på kæden er i id’et?
      NB! Dette kan findes ved at trykke show unique chains only.

    Viden om hvilke kæder (subunits) PDB-id’et indeholder, hvilke proteiner der hører til de forskellige kæder, og hvilke dele af selve aminosyresekvensen id’et reelt set indeholder, kan benyttes i PyMol til at undersøge proteinerne i 3D, markere kæderne, markere interessante aminosyrer eller observere interaktioner, når PDB-id’et indeholder mere end et protein.

     

    IV. PyMol

    Formålet med øvelsen er at lære at benytte PyMol til tredimensionel visualisering af proteiner samt at markere relevante kæder og dermed præsentere proteiner på en måde, der er overskuelig.

    a)

    Åben PyMol og hent aktin-myosin komplekset med PDB-id 1M8Q. Benyt herefter den generelle guide til PyMol og kommandosiden for at lære PyMol og relevante kommandoer at kende, så du kan gøre følgende:

    1. Vis alle molekylerne i båndstruktur.
      NB! Det anbefales først at gemme (hide) alting og derefter benytte vis (show) til at gøre dette.

    2. Farv henhodsvis myosin- og aktin-kæderne med hver deres farve og gem et billede af komplekset.
      NB! Du kan gemme ved enten at taget et screen shot eller filer → Save Image As → PNG.
    3. Aktin-myosin-komplekset består af mange kæder, og det kan derfor forstyrre det overordnede billede af komplekset og aktin-myosin-interaktionen, når det vises som pinde-, bånd- eller tegningsstruktur. For at præsentere komplekset på en mere overskuelig måde kan man vælge kun at vise overfladen af proteinerne.
      Vis overfladen af alle proteinerne i komplekset og sammenlign med strukturen fra spørgsmål 2. Synes du, det er blevet nemmere at visualisere proteinerne som en helhed?
    4. I 4.A fandt du ud af, hvilke kæder aktin er kodet på. Benyt denne viden til at finde ud af, hvor mange aktin-proteiner der interagere med et myosin-molekyle, når du ved, at myosin-kæde P interagerer med aktin.
      NB! Start med at lokalisere kæde P ved farvning og zoom. Herefter kan kæde-specifik-farvning anvendes til undersøgelsen.
    5. Udforsk selv PyMol og de forskellige måder molekylerne kan fremstilles på. Eksempelvis kan baggrundsfarven ændres, skyggerne kan justeres, måderne, hvorpå α-helix og β-plader i den sekundære struktur bliver vist, kan ændres og meget andet.

     

    Øvelsesoversigt

    Denne øvelse arbejder med UniProt, PDB, Pymol og FigTree. 

     

    Introduktion – Myostatins proteininteraktioner og organismers slægtsskab

    Myostatin, der også er kendt som Growth/Differentiation factor 8 (GDF8), er et protein fra TGF-β-familien (TGF = Transforming growth factor, se infoboks). Proteinet har en negativ virkning på muskelvækst og inhiberer dermed både muskeldifferentiering og -vækst ved at binde til receptorer på muskelceller.  En mangel på myostatin f.eks. som følge af en mutation i genet eller inhibering af proteinet vil således føre til øget muskelvækst.

    For et “hverdags”-eksempel på myostatin-inhibitor kan følgende artikel læses:

    Follistatin kodes af genet FST, og er et protein, der binder til proteiner fra TGF-β-familien og derved inhiberer dem. Follistatin binder især til proteinet activin, men også til myostatin hvormed det blokerer for myostatins funktion. Follistatin vil således bevirke øget muskelvækst, da inhiberingsproteinet (myostatin) for muskelvækst selv bliver inhiberet.

    Figur 1  Myostatin hæmmer transkription, så der er mindsket muskeldifferentiering. Follistatin inhiberer myostatin og vil dermed bevirke øget genudtrykkelse og dermed øget muskelvækst.

    I. UniProt

    Formålet med denne øvelse er at lære at søge efter og gøre sig bekendt med proteiner ud fra den information, der er tilgængelig gennem UniProt. Dette gøres ved at benyttefritekstsøgekriterier eller accession-numre og derefter undersøge UniProt-siderne for de proteiner, der blev fundet.

    a)

    Benyt den generelle guide til søgning i UniProt til at søge efter de ønskede proteiner. Du kan vælge enten at have to UniProt-sider åbne i hver sit vindue og foretage de to søgninger samtidig, eller du kan lave del 2.A.a og del 2.A.b for først myostatin og derefter gentage dem for follistatin.

    Du skal søge efter:

    1. Myostatin, der skal komme fra mennesker.
    2. Follistatin, der skal komme fra mennesker.

    NB! Husk at proteiner ofte har både et populært navn (f.eks. myostatin) og et videnskabeligt navn (f.eks. GFD8 for myostatin).
    Du kan gå til UniProt-databasen ved at klikke her. Husk eventuelt at åbne to vinduer, da du skal lave to søgninger.

    1. Hvad er accession-nummeret for de to proteiner?

    b)

    Gå til de to proteiners UniProt-side og svar på nedenstående spørgsmål. Dette skal du gøre for at få et overblik over UniProt-siderne samt for at finde ud af, hvilke informationer man kan få om proteiner gennem UniProt.
    De to første spørgsmål kan besvares ved at se øverst på proteinernes UniProt-side.

    1. Hvad er proteinernes anbefalede navn (eng. recommended name) og deres gennavn (navnet på det gen der koder for proteinet)? 
    2. Hvor lange er sekvenserne i aminosyrer (fork. AA)?
    3. Gå til afsnittet “General annotation (Comments)”.
      Hvad er deres funktion og subcellulære lokationer? Follistatin har et bindingsdomæne specifikt for proteiner fra TGF. Hvilken proteinfamilie tilhører myostatin? Peger dette i retning af interaktion mellem follistatin myostatin?
    4. Hvad ville der ske, hvis der kun var myostatin i kroppen? Hvad vil der ske, hvis der både er myostatin og follistatin?
    5. Gå til afsnittet “Sequence annotation (Features)”.
      Follistatin binder som nævnt til proteiner fra TGF-β-familien. Hvad hedder det bindende domæne på proteinsekvensen for follistatin, og på hvilke positioner kan det findes?
      NB! Se afsnittet Molecule processing under Sequence Annotation.

     

    II. PDB

    Formålet med denne øvelse er at lære at finde relevant information om et protein gennem dets PDB-side, så de relevante dele kan observeres gennem tredimensionel visualisering i PyMol.

    a)

    Gå til PDB databasen og søg efter PDB-siden med id 3HH2.

    1. Hvilke molekyler kan man se i PDB-id’et?
    2. Hvor mange kæder indeholder id’et, og hvor mange af disse er identiske? Hvad er navnet på dem (A, B, C…)? Hvad koder de for (myostatin, follistatin…)?
      NB! Dette kan findes under Sequence-fanen.
    3. Hvor mange aminosyrer indeholder hver af kæderne, og hvilken på position i kæden findes henholdsvis den første og den sidste aminosyre? Stemmer dette overens med længden af de færdige proteiner, som du fandt i 2.A.6 (109AA for myostatin og 315AA for follistatin)?
      NB! Dette kan også ses vises gennem Sequence-fanen.

    Viden omkring hvilke kæder PDB-id’et indeholder, hvad disse koder for og hvilke dele af selve aminosyresekvensen id’et indeholder, kan benyttes i PyMol. Denne viden kan bruges til at undersøge proteinerne tredimensionelt, markere kæderne og interessante aminosyrer eller observere interaktioner, når PDB id’et indeholder mere end et protein.

     

    III. PyMol

    Formålet med øvelsen er at lære at benytte PyMol til tredimensionel visualisering af proteiner samt at markere relevante kæder og dermed præsentere proteiner på en overskuelig måde.

    a)

    Åben PyMol og hent aktin-DNAase I-komplekset med PDB-id 1ATN. Benyt herefter den generelle guide til PyMol og kommandosiden for at lære PyMol og relevante kommandoer at kende så du kan gøre følgende:

    1. Vis alle molekylerne i tegningstruktur.
      NB! Det anbefales først at gemme (hide) alt og derefter benytte vis (show).
    2. Farv de fire forskellige kæder med hver deres farve (kæde A+B en nuance f.eks blålige og kæde C+D en anden f.eks. rødlige). 
    3. Visualiser TB-domænet (TGF-β-familiens bindingsdomæne) på follistatin-molekylet (kæde C og D). Det skal vises med både sidekæde og separat farve. Via deløvelse 2.a fandt du ud af, hvor TB-bindingsdomænet på follistatin-molekylet sidder. Hvis ikke denne øvelse er udført, så udgør dette domæne aminosyrerne i intevallet 30-103 på det ikke-færdige protein og dermed aminosyrerne 1-74 på det færdige.
      NB! Vælg først aminosyrerne, vis sidekæder og farv dem til slut.
    4. Visualiser kun én myostatin- og én follistatin-kæde, fx kæde A og C. Med en generel viden om proteininteraktioner, vil du så antage, at det er det korrekte domæne, der på follistatininteragerer med myostatin?
      NB! Vurderingen kan foretages ved at benytte hide og derefter den kæde man ikke vil se.
    5. Udforsk selv PyMol og de forskellige måder, som molekylerne kan vises på. Eksempelvis kan baggrundsfarven ændres, skyggerne kan justeres, måderne og meget andet.

     

    IV. FigTree

    Formålet med øvelsen er at blive bekendt med FigTree og at kunne benytte programmet til at visualisere et evolutionært slægtskab mellem forskellige organismer.

    a)

    Hent filen myostatin_alignment.ph her. Filen, der er lavet ved sekvensalignments (læs mere her) i programmet ClustalX, og det er en træ-fil af formaten Newick. Newick formatet bruges til træ-filer, og i formatet bliver det evolutionære slægtskab mellem træets arter angivet som distancen mellem arterne.

    Marker hele teksten i myostatin_alignment.ph og kopier den over i en teksteditor som f.eks. Notepad på Windows computere eller TextEdit på Apple computere. Gem filen som en almindelig tekstfil som myostatin_alignment.ph. Det er vigtigt, at filen ender på .ph, da dette specificerer, at filen er i et format kaldet phylip. Denne type fil bruges som input i programmet FigTree.

    Åbn FigTree og åbn derefter myostatin_alignment.ph i programmet. Svar herefter på følgende spørgsmål:

    1. Er der en overordnet tendens til en gruppering (dannelse af clades) af de forskellige organismer?
    2. Hvilken organisme adskiller sig mest fra de andre. Se her både på grenlængden, og på hvilken der intuitivt set (på baggrund af din viden om organismerne) adskiller sig mest?

    b)

    For at kunne danne sig et overblik over et kronologisk slægtskab kan man lave en rod på træet. Roden laves ved at specificere ydergruppen (eng. outgroup), som er den organisme, der først divergerede væk fra de andre arter, som samlet kan betegnes som ingroup. Således kan der dannes en evolutionær tidshorisont.

    1. Hvilken organisme vil du vælge som ydergruppe og hvorfor?

    Lav nu træet med rod, dvs. lav en rod således at ydergruppen kommer tættest på roden og dermed længst væk fra de andre arter. Benyt den generelle guide til FigTree for at se, hvorledes det gøres.

    1. Er der sket nogle ændringer i de observerede grupperinger fra spørgsmål 1? Hvorfor/hvorfor ikke? 
    2. Stemmer grupperingerne overens med din logiske viden omkring arterne og det slægtskab omkring dem, som du kender til?
      NB! Benyt eventuelt funktionen Rotate til at vende grenene. Det ændrer ikke på selve slægtskabet, men kun på visualiseringen af træet.

    Hvis der er tid, kan træet sammenlignes med et træ lavet fra den taxonomiske database hos NCBI. Hent først listen med de arter, der indgår i træet her. Gem den i en tekstfil på din computer som myostatin_arter. Gå herefter til den taxoniske database ved at klikke her.

    Benyt filen myostatin_arter i choose file og vælg derefter choose subset. Boksen animals tjekkes af, og choose vælges for at visualisere træet. Arter med fed skrift er dem, der indgår i træet. De latinske navne for arterne skal kendes for at forstå træet. Disse kan ses her.

    Øvelsesoversigt

    Denne øvelse arbejder med BLAST, PDB og Pymol.

     

    Introduktion – Bioinformatisk analyse af antistoffer

    Antistoffer er en del af kroppens forsvar mod fremmede organismer. Antistoffer findes enten opløst i blodet eller på overfladen af B-celler. B-celler er en del af kroppens immunsystem og bekæmper bakterielle infektioner ved brug af antistoffer. Antistoffer kan bekæmpe fremmede organismer, da specifikke dele i antistoffet kan genkende peptidsekvenser som fremmede. Herefter startes en hurtig og effektiv immunrespons ved, at antistoffer binder til den fremmede organisme, så andre immunceller kan nedbryde den eller blokere det bundne proteins funktion.

    Der findes fem forskellige typer af antistoffer. Ved typebestemmelse bruges antistoffernes biokemiske navne immunglobuliner (Ig). De fem forskellige typer er IgA, IgD, IgE, IgG og IgM, hvoraf IgG er den mest udbredte (udgør 75 % af alle kendte typer antistoffer). Alle fem typer antistoffer har den samme “Y” grundstruktur, se figur 1, men varierer i antallet af kæder og mht. deres længde, samt hvor i kroppen antistofferne primært findes. Antistoffer er bygget op af tunge (eng. heavy) og lette (eng. light) kæder, og hver af disse er opdelt i konstante og variable domæner.

    De fem antistoffer har forholdsvis identiske, konstante domæner, dvs. proteinsekvensen er den samme. De variable domæner er placeret i spidsen af antistoffets “Y” og i modsætning til de konstante domæner meget forskellige både mellem hvertf antistof. Grunden til den store diversitet er, at det er de variable domæner, der genkender proteinerne fra fremmede organismer. For at immunforsvaret kan genkende så mange forskellige fremmede organismer som muligt, skal er det fordel agtigt at have mange forskellige antistoffer, der genkender netop én fremmed organisme. Diversiteten i de variable domæner opstår ved mutationer samt genetisk rekombination, hvilke samlet giver de utallige antal af antistoffer, der findnes.

    De fem forskellige antistoftyper er inddelt i forskellige underklasser, der varierer i forhold til deres fleksibilitet. Fleksibiliteten af et antistof har betydning for, hvilke fremmede organismer antistoffet kan binde, da bindingsstederne er forskellige for forskellige fremmede organismer. Jo mere fleksibelt et antistof er, desto mere komplekse strukturer kan det binde til. Fleksibiliteten af et antistof opstår i hængselsregionen, der er det sted i Y’et hvor de konserverede domæner på de tunge kæder knækker over i de konserverede dele på de lette kæder.

    Figur 1 – Opbygningen af et antistof. De lette kæder er vist med rød, og de tunge kæder er vist med blå. Desuden er de konstante domæner for hver kæde vist med en mørkere nuance end de variable domæner. Bindingsstedet for proteiner fra fremmede organismer er vist med trekanter og firkanter, hvilket indikerer at hver variabel del genkender forskellige strukturer. Dog genkender hver kæde, f.eks. de to tunge kæder, i et antistof den samme struktur. Kæderne i et antstof er holdt sammen med svovlsulfidbindinger, hvilket er vist med de grå cirkler. 

    I. BLAST

    Formålet med øvelsen er at blive bekendt og lære om BLAST, at kunne benytte BLAST til at bestemme hvilken superfamilie forskellige makromolekyler hører til, finde ud af hvor mange andre proteiner der ligner din sekvens, samt finde PDB-siden for en given proteinsekvens.

    a)

    Sekvensen for en tunge kæde fra et IgG-antistof kan hentes her. Marker og kopier proteinsekvensen og gå derefter til BLAST-hjemmesiden. Her skal du benytte proteinsekvensen til at lave en protein-BLAST (BLASTp) mod PDB-databasen (denne vælges under Choose search set). Efterfølgende skal du besvare nedenstående spørgsmål. Som hjælp til udførelslen af BLAST samt fortolkning af resultatet, kan du anvende den generelle guide for BLAST, som du kan finde her.

    1. Hvilken superfamilie hører sekvensen til? 
      NB! Se på Specific Hits og Query sequence.
    2. Hvor mange sekvenser er næsten 100 % identiske (har ubrudte røde linjer) med den anvendte IgG-sekvens?

    b)

    Gå ned til området Descriptions og find de to resultatsekvenser, som du antager, er de bedste match til din IgG sekvens. Du skal tage højde for de elementer, der ifølge BLAST guiden er vigtige for et godt match.

    1. Hvad er de to resultatsekvensers accession-nummer, max score, query coverage og e-værdi?
    2. Hvorfor valgte du disse to sekevenser som de bedste? Argumenter for dit valg.

    Ved at blaste din sekvens har du undersøgt databasen Protein Databankfor proteinsekvenser, der er identiske med den proteinsekvens, du havde til at starte med. Ud fra antallet af resultatsekvenser kunne du se, at der var mange sekvenser, der til en vis grad lignede din sekvens, men ved at se på e-værdier og antal sekvenser med ubrudte røde linjer blev det klart, at kun få sekvenser egentlig matchede din sekvens.
    Du skal nu videre til databasen Protein Databank og undersøge en af de to resultatsekvenser, du har fundet gennem BLAST.

     

    II. PDB

    Formålet med øvelsen er at lære at finde relevante informationer om et protein gennem dets PDB-side. Målet er at finde information, som kan hjælpe til en optimal visualisering af proteinets tredimensionelle struktur. Den tredimensionelle struktur vil kunne visualiseres i programmet PyMol.

    a)

    Gå til PDB-databasen og søg efter PDB-siden for det bedste hit fra 3.a. Hvis denne del ikke er lavet, søg da efter siden med PDB id 1IGY (se infoboks til højre). Som hjælp til søgning samt guide til opbygning af proteiners PDB-side kan du bruge den generelle guide til PDB i denne øvelse. Guiden findes her.

    1. Hvilken type immunoglobulin koder PDB-id’et for (IgA, IgG etc.), og er det en bestemt subtype (1, 2, 3 etc.)?
      NB! Dette kan findes ved at se på PDB-id’ets navn.
    2. Hvor mange kæder har antistoffet, hvor mange af disse er identiske, hvad er navnet på dem (A, B, C …), og hvilken type kæder er det (tunge, lette eller …)? 
      NB! Dette kan findes under Sequence-fanen.
    3. Hvor mange aminosyrer indeholder hver af kæderne, og hvilke domæner er de delt op i (konstante, variable eller …)?
      NB! For hver kæde skal domæne og den aminosyrerpositioner de dækker noteres, eksempelvis:
      Kæde A: position 1-100 er det variable domæne på den lette kæde, position 101-200 er det konstant domæne på den lette kæde.

    Hvis der kigges på længden af den tunge kæde (434 aminosyrer) kan det ses, at længden ikke er den samme som den faktiske længde af kæden (474 aminosyre). Der mangler faktisk 40 aminosyrer. Manglen på aminosyrer kan skyldes fejlkilder forbundet med den eksperimentelle strukturbestemmelse. Fejlen er derfor ikke ensbetydende med, at de 40 aminosyrer mangler i kædens rigtige form. Man skal dog huske, at aminosyrerne mangler, hvis man skal arbejde videre med proteinet i f.eks. PyMol, da man ikke vil kunne visualisere de dele af strukturen, der mangler.

     

    III. PyMol

    Formålet med øvelsen er at lære at benytte PyMol til tredimensionel visualisering af proteiner samt markere interessante kæder og dermed præsentere proteiner på en overskuelig måde.

    a)

    Åbn PyMol og hent strukturen med PDB-id 1IGY. Benyt herefter den generelle guide til PyMol og kommandosiden for at lære PyMol og relevante kommandoer at kende, så du kan gøre følgende:

    1. Vis alle molekylerne i tegningsstruktur.
      NB! Det anbefales først at gemme (hide) alt og derefter benytte vis (show) til at vise tegningsstrukturen.
    2. Farv de fire forskellige kæder hver deres farve (kæde A + C en nuance f.eks. blålige og kæde B + D en anden f.eks. rødlige).
    3. Har antistoffet den rette ”Y”-formede struktur og stemmer placeringen af de tunge og lette kæder overens med den forventede form? 
      NB! Benyt eventuelt figur 1 for at se den ”Y”-formede opbygning af et antistof.
    4. I øvelse 3.A.1 blev de to bedste resultater fra BLAST-søgningen fundet. Det ene var det, der visualiseres i PyMol. Antistoffet fra det andet resultat skal hentes ind i det åbne PyMol-vindue (hvis ikke 3.A.1 er lavet, hent da antistoffet med PDB-id 1IGT). Antistoffet hentes til PyMol på samme måde som tidligere, nemlig ved brug af fetch.
      Rediger nu i det nyhentede antistof så det også kun bliver vist i tegningsstruktur.
      NB! Det anbefales at de to antistoffer farves med hver sin farve, dvs. alle kæderne i et antistof farves med den samme farve.
    5. Prøv nu at sammenligne (eng. align) de to antistoffer med hinanden, og undersøg hvordan sammenligningen ser ud. Er de to antistoffer af samme type, f.eks. begge IgM? Hvis ja, tilhører de samme subklasse?
    6. Udforsk selv PyMol og de forskellige måder antistofferne kan fremstilles på. Eksempelvis kan antistoffernes farve ændres, baggrundsfarven i PyMol-vinduet kan skiftes, skyggerne kan justeres, måderne den sekundærstruktur bliver vist kan ændres og meget andet.

    Øvelsesoversigt

    Denne øvelse arbejder med BLAST, UniProt, PDB og Pymol.

    Introduktion – Identifikation og visualisering af ukendt protein

    En forsker har fået en prøve fra et får, der er blevet sygt efter at have spist affald med en ukendt sammensætning . Det er nu forskerens opgave at finde årsagen til fårets sygdom, hvilket bl.a. indebærer at karakterisere mulige proteiner i prøven, der normalt ikke vil være til stede i et raskt får.
    Forskeren har fundet en samlet DNA-sekvens, der koder for to proteiner, der ikke findes i raske får, og han skal nu finde ud af, hvad de to proteinsekvenser hver især koder for, og hvorvidt de eventuelt skulle stamme fra andre organismer.

    I den følgende øvelse skal du hjælpe forskeren med at bestemme funktion, struktur og oprindelse af de to proteinsekvenser.

    I. BLAST

    Formålet med øvelsen er at blive bekendt med BLAST og at kunne benytte denne metode til at bestemme en ukendt proteinsekvens, samt bestemme hvilken organisme sekevensen stammer fra.

    a)

    Hent den ukendte sekvens her. Marker og kopier sekvensen og gå derefter til BLAST-siden. Benyt nu funktionen protein BLAST (BLASTp) til at bestemme, hvilke proteiner der ikke findes i raske dyr. Da både organisme og funktion er ukendte, anbefales det at lave en bred BLAST, dvs. mod alle genomer og mod standarddatabasen for BLAST (dette kaldes non-redundant protein sequences). Du skal derfor ikke ændre noget i opsætningen, men blot kopiere sekvensen ind og starte BLAST-søgningen.

    Benyt den generelle guide for BLAST som hjælp til udførelsen samt til fortolkningen af outputtet.

    1. Hvilke to superfamilier tilhører proteinsekvensen?
      Er der tale om, at den tilhører én eller flere superfamilier?
    2. Hvor lange (ca.) er de to proteiner?
      NB! Tjek dette under Superfamilies i Graphic Summary domænet.
    3. Vil du på baggrund af e-værdien (der skal være så lav som mulig) og sekvensdækningen (eng. query coverage, skal være så høj som muligt) antage, at BLAST har fundet de korrekte proteiner, der normalt ikke er til stede i raske dyr? Argumenter for din konklusion.
      NB! Se under Descriptions-afsnittet. De to nederste resultatsekvenser matcher det protein, der er kodet i første del af proteinsekvensen. Resten af resultatsekvenserne giver information om proteinet, der er kodet i den sidste del af proteinsekvensen.

    Ved at blaste aminosyresekvensen har du undersøgt alle protein-databaser for at finde ud af, om de indeholder en proteinsekvens, der er identisk med den ukendte sekvens (OBS: en aminosyresekvens er det samme som en proteinsekvens). Bestemmelse af hvilken superfamilie, som sekvensen tilhører, giver en indikation af funktionen af det ukendte protein. Faktisk fandt du ud af, at sekvensen tilhørte to superfamilier, dvs. at den faktisk koder for to forskellige proteiner. Ved at se på e-værdien og sekvensdækningen kunne du desuden  bestemme om BLAST fandt proteinsekvenser, der er identiske med den ukendte sekvens.

    Du skal nu videre til databasen UniProt, hvor du kan undersøge de proteinsekvenser, som blev fundet gennem BLAST.

     

    II. UniProt

    Formålet med denne øvelse er at lære at søge efter og gøre sig bekendt med proteiner ud fra den information, der er tilgængelig gennem UniProt. Dette gøres ved at benytte almene fritekstsøgekriterier eller accession-numre og derefter undersøge UniProt-siderne for de proteiner, der findes.

    a)

    I øvelse 4.A analyserede du en ukendt proteinsekvens gennem BLAST, og du fandt to proteiner, som matchede den ukendte sekvens: GFP og P53.
    Benyt ny UniProt til at tilegne dig information omkring disse to proteiner. Du kan bruge den generelle guide til søgning i UniProt som hjælp.

    Søg først på Green Fluorescent Protein (GFP er en forkortelse for dette) og tryk på det første resultat’s accession-nummer. Herved kommer du ind på proteinets UniProt-side. Besvar nu følgende spørgsmål. Her kan svarene til de tre første spørgsmål findes øverst på UniProt-siden:

    1. Hvad er accession-nummeret for det protein, du undersøger?
    2. Hvad er gennavnet, og hvilken organisme kommer dette GFP fra?
    3. Hvor lang er sekvensen angivet i aminosyrer (fork. AA)?
    4. Under sektionen General annotation (Comments) kan man læse, at proteinet lyser grønt lys, når det bliver udsat for ultraviolet lys.
      Hvordan tror du, at man kan udnytte denne evne i et biologisk regi, når man f.eks. laver gensplejsning og dermed mutanter?
    5. Læs afsnittet Biotechnological use. Stemmer dette overens med dit svar fra spørgsmål 4?

    b)

    Gå tilbage til søgesiden i UniProt. Søg nu på P53 og tryk ligesom før på det første resultat’s accession-nummer, så du kommer ind på proteinets UniProt-side. Besvar følgende spørgsmål:

    1. Hvad er accession-nummeret for det protein, du undersøger?
    2. Hvad er gennavnet, og hvilken organisme kommer dette P53 fra?
    3. Hvor lang er sekvensen angivet i AA?
    4. Hvad er proteinets funktion? 
      NB! Se under sektionen General annotation (Comments).
    5. Hvilke sygdomme tror du, at P53 kan være forbundet med?

     

    III. PDB

    Formålet med denne øvelse er, at lære at finde relevant information om et protein gennem dets PDB-side, så de rette dele kan visualiseres  i PyMol.

    a)

    Gå til Protein Databank (PDB) databasen og søg efter siden med PDB-id 3Q05. Se eventuelt den generelle guide til PDB.

    1. Hvilke molekyler kan man se i PDB-komplekset?
    2. Hvor mange kæder (subunits) indeholder id’et, og hvor mange af disse er identiske? Hvad er navnet på kæderne (A, B, C osv.), hvilke proteiner/molekyler er de forskellige kæder (f.eks. kæde A er P53, kæde B er DNA …)?
      NB! Dette kan findes under Sequence-fanen. Se en oversigt over siden her.
    3. Hvor mange aminosyrer indeholder hver af de kæder, der koder for P53? Stemmer dette overens med længden af de færdige proteiner, som du fandt i 4.B.8 (393AA)?
    4. En metal-ion, nærmere betegnet en zink-ion, er bundet til P53 proteinet.
      Ved hvilke fire positioner og aminosyrer er zinkionen bundet til?

    En zink-ion, der erbundet til et protein, betegnes også en zink finger (eng.zinc finger, se infoboks). Man kan finde zink fingre i en række DNA-bindende-proteiner, da zink ionen er med til at stabilisere interaktionen mellem DNA og protein.

    Viden om de kæder PDB id’et indeholder, hvad disse koder for og hvilke dele af selve aminosyresekvensen id’et reelt set indeholder, kan benyttes i PyMol. Kendskabet kan anvendes til at undersøge proteinerne tredimensionelt, markere kæderne, markere interessante aminosyrer eller observere interaktioner når id’et indeholder mere end ét protein.

     

    IV. PyMol

    Formålet med øvelsen er at lære at benytte PyMol til 3D visualisering af proteiner samt markere relevante kæder og dermed præsentere proteiner på en overskuelig måde.

    a)

    Åbn PyMol og hent P53 i DNA interaktion med PDB-id 3Q05. Benyt herefter den generelle guide til PyMol og kommandosiden for at lære PyMol  og relevante kommandoer at kende, så du kan gøre følgende:

    1. Vis alle molekylerne i tegningsstruktur.
      NB! Det anbefales først at gemme (hide) alt og derefter benytte vis (show)
    2. Farv de seks forskellige kæder hver deres farve (kæde A, B, C og D én nuance fx rødlige, lad DNA strengene (kæde K og L) være som de er).
    3. Visualiser zinkfinger-domænerne på hver af de fire kæder (A, B, C og D). Herved vil du tydeligt kunne se, at der er plads til en ion. Domænerne skal vises med både sidekæde, separat farve og aminosyremærkat. Hvis øvelse 4.c ikke er lavet, er disse positioner 176, 179, 248 og 242.
      NB! Vælg først aminosyrerne, vis sidekæder, farv dem og sæt et mærkat på. Herefter kan der zoomes ind på interaktionen.
    4. Hvor på proteinet findes zinkfingeren (ydersiden, indersiden, tæt på DNA-strengen)? Er dette hvad du ville forvente, når du ved, at zinkfingeren er med til at stabilisere protein-DNA interaktionen?
    5. Udforsk selv PyMol og de forskellige måder, som molekylerne kan fremstilles på. Eksempelvis kan baggrundsfarven ændres, skyggerne kan justeres, måderne den sekundære struktur bliver vist på kan ændres og meget andet.
  • Ordforklaring

    Herunder er en liste over ord og begreber, som er vigtige for forståelsen af dette undervisnignsmateriale. Længere forklaringer kan findes i infoboksene i det materiale, der omhandler emnet, eller hvori ordet indgår.

    Algoritme: En anden betegnelse for en matematisk model med ligninger/formler, der sammen danner et flow og dermed kan løse et givent problem.

    Alignment: Sammenligning af DNA- eller proteinsekvenser. Man kan lave et enkelt alignment, hvor man sammenligner to sekvenser eller et multiple alignment, hvor man sammenligner tre eller flere sekvenser.

    ApoptoseProgrammeret celledød eller “celle selvmord”. Cellen nedbrydes ved påvirkning af signalmolekyler (eller ved mangel på samme),.der bliver aktiveret ved eksempelvis stress.

    BLAST: Forkortelse for Basic Local Alignment Search Tool, som er en metode, hvorved man kan sammenligne en DNA- eller proteinsekvens med kendte sekvenser på tværs af databaser.

    CDS: Forkortelse for coding sequence og er den del af DNA-sekvensen, der koder for selve proteinet.

    Codon: Tre nukleotider, der oversættes til en aminosyre af ribosomerne. Der findes fire nukleotider, hvilket er ensbetydende med, at der findes 64 (4³) mulige forskellige codons.

    Det Centrale Dogme: Betegnelse for processen: DNA  → mRNA  → protein. Processen fra DNA til mRNA betegnes transkription, og processen fra mRNA til protein betegnes translation.

    Exon: En eller flere dele af en DNA-sekvens, der indgår i den kodende sekvens, CDS. Exons bliver sat sammen, så de danner det færdige mRNA, der bliver translateret til protein.

    Fylogeni: Læren om organismers slægtskab.

    Fylogenetisk træ: Et slægtskabsstæ, hvor man kan visualisere organismernes evolutionære slægtskab.

    Genbank: Genbank er hoveddatabasen for kendte DNA-sekvenser. Genbank kan findes gennem NCBI’s internetside.

    Genbank sider: Hver kendt DNA-sekvens i Genbank har en tilhørende genbankside, hvor informationer om DNA-sekvensen kan findes.

    Gruppering: Den danske betegnlse for det engelske ord clade, der er en fælles betegnelse for alle de organismer (taxa), der har samme stamfader.

    Intron: En eller flere dele af en DNA-sekvens, der IKKE er en del af den kodende sekvens, CDS, dvs. introner er dele af en DNA-sekvens, der IKKE indgår i det mRNA, der translateres til protein.

    Kvaternærstruktur: I forbindelse med proteinstruktur er dette den færdige form af proteinet. Strukturen består af forskellige subunits, der alle er i deres tertiære form.

    Læseramme:  Der findes i alt tre forskellige læserammer på hver DNA-streng (i alt seks, hvis man medtager begge DNA-strenge). Da tre nukleotider (en codon) koder for en aminosyre, kan man aflæse en DNA-/RNA-sekvens på tre forskellige måder, da aflæsningen kan starte på tre forskellige positioner. De tre forskellige aflæsninger vil give tre forskellige aminosyresekvenser.

    NCBI: Forkortelse for National Center for Biotechnology Information, som er den mest omfangsrige database med biologisk relateret materiale. Den indeholder blandt andet DNA- og proteinsekvenser, forskningsartikler og bioinformatiske værktøjer f.eks. BLAST.

    PDB: Forkortelse for Protein Data Bank, som er en database med proteiner, der har en kendt 3D-struktur.

    PDB-id: Unikt nummer der tildeles alle strukturer i PDB-databasen.

    Primærstruktur: Henviser til aminosyresammensætningen i et protein.

    Query sekvens: Betegnelsen for den sekvens man laver en BLAST-søgning med.

    Sekundærstruktur: Den måde hvorpå et protein er foldet på (α-helix eller β-plader), og henviser således til proteinstrukturen.

    Sekventering: Måden hvorpå nukleotid og aminosyrersammensætningen i DNA- og proteinsekvenser bestemmes.

    Sidekæde: Den varierende del på en aminosyre, og dermed den del af molekylet, der gør det specifikt og giver det dets karakteristiske egenskaber.

    Stamfader: Den taxon på et fylogenetisk træ, hvorfra to nye taxa udvikler sig. Den “ældre” taxon er dermed stamfader til de to nye.

    Startcodon: Specificerer hvor på mRNA-molekylet translationen af mRNA til protein skal starte. Startcodonen er i de fleste tilfælde nukleotid-tripletten ATG.

    Stopcodon: Specificerer hvor translationen af mRNA til protein skal stoppe på mRNA-molekylet. Stopcodonen er en af nukleotid-tripletterne UAA, UGA eller UAG.

    Søstergrupper: I fylogeni betegner dette to taxa, der begge har samme stamfader.

    Taxon: Betegnelse for en spids på et fylogenetisk træ, der repræsenterer en organisme. I flertal betegnes taxon som taxa.

    Tertiære struktur: I en proteinstruktur betegner dette den tredimensionelle foldning af proteinet.

    Transkription: Den proces, og dermed den del af Det Centrale Dogme, hvor DNA bliver oversat til mRNA.

    Transkriptions faktor: Et protein der binder til DNA og påvirker transkriptionen af det. Transkriptionsfaktorer kan opregulere (aktivere)  transkriptionen af DNA’et eller de kan mindske transkriptionen (inhibere) af DNA’et.

    Translation: Den proces, og dermed den del af Det Centrale Dogme, hvor mRNA aflæses til aminosyrer og dermed oversættes til protein.

    Ydergruppe: Betegner den taxon, som er mindst belægtet med alle de andre taxa i det slægtskab, man undersøger. På engelsk kaldes det en outgroup.

    Zinkfinger: Betegnelsen for en proteinfoldning hvor fire aminosyrer interagerer med en zinkion for at give stabilitet til proteinets tertiære struktur (dets foldning).

    Åben læseramme: Den af de forskellige læserammer, der koder for det funktionelle protein, og dermed den del af DNA-/RNA-sekvensen der er mellem start- og stopcodon. På engelsk kaldes den open reading frame (ORF).