Bioinformatik – en introduktion

Introduktion: Materialet indeholder dels I) en beskrivelse af og en guide til nogle af de bioinformatisk relaterede programmer og databaser, der er tilgænglige online, dels II) fire tilhørende øvelser, der arbejder med brugen og forståelsen af de bioinformatiske værktøjer. Hver øvelse er inddelt i tre til fire deløvelser, der både kan laves enkeltvis eller som en hel øvelse i et samlet forløb.

Udover ovenstående er fire biologisk-relaterede emner beskrevet i afsnittet ”Teori”. Disse teoridele er mere dybdegående end programbeskrivelserne, og vil bidrage til bedre forståelse af de emner, der indgår i programmerne og de databaser som man arbejder med i øvelserne.

Teori:

Teoridelen gennemgår de biologiske områder, som skal kendes for at kunne bruge og forstå de programmer, der arbejdes med i øvelserne.

Cases og ordforklaring:

Caseopgaver
Opgavesættet består af fire caseopgaver, der alle indeholder deløvelser som hver inkorporerer et af de beskrevne værktøjer/databaser. Hver deløvelse vil kunne laves for sig, men det anbefales at kronologien der er i de fire hovedøvelser benyttes til at få en god forståelse af de bioinformatiske værktøjer/databasers samspil.

En rettevejledning til lærere kan findes her: Retteark til lærer.

Rigtig god fornøjelse med projektets forskellige opgaver!
Opgave 1
Opgave 2
Opgave 3
Opgave 4

Øvelsesoversigt

Denne øvelse arbejder med Virtual Ribosome, UniProt, PDB og Pymol.

Introduktion – Aktin, fra mRNA til tredimensionelt protein

Aktin er et protein, som er findes i et stort antal forskellige arter. Faktisk er der kun en variation på 20 % mellem aktin fra mennesker og det, der er fundet i alger. Aktin er det protein, der danner grundlag for cytoskelettet i cellers cytoplasma, og det er en af byggestenene i muskler, hvor det danner en platform (eng. scaffold) for proteinet myosin. Platformen er det system, der kontrollerer muskelkontraktioner og dermed gør, at musklerne kan trække sig sammen.

Aktin dannes som et monomerisk molekyle, dvs. at det består af én enkelt subunit. For at aktin bliver funktionelt og derved opnår en struktur med en biologisk virkning, skal det danne en polymer (poly = mange). I muskler består aktin-platformen af mange aktin-molekyler, der er sat sammen til én lang kæde, der danner en funktionel struktur.

Figur 1 – Aktin og myosin i muskler. Et funktionelt aktin-molekyle er sat sammen af flere subunits (røde og blå cirkler), der holdes sammen ved hjælp af Tropomyosin og Troponin. Myosin-molekylerne bevirker, at aktin-komplekset kan glide frem og tilbage i en kontraherende bevægelse. Dette gøres ved, at myosin-hovederne binder til aktin, skubber det fremad og derefter slipper igen.

I. Virtual Ribosome

Formålet med øvelsen er at blive bekendt med læserammer, strict/non-strict startcodon og betydningen af at vælge den rigtige læseramme. Dette er nødvendig viden, når man skal anvende Virtual Ribosome til at translatere DNA-sekvenser korrekt.

a)

Hent mRNA-sekvensen for aktin i boksen til højre. Marker og kopier sekvensen. Gå herefter til Virtual Ribosome, der er et online translationsprogram, du kan finde her.

Translater sekvensen i Virtual Ribosome med standardindstillingerne.
Dan dig et overblik over outputtet ved at besvare følgende spørgsmål:

Hvad betyder tegnene >>> ))) og *** under sekvensen?

Hvad er en læseramme, og hvilken er der blevet brugt til denne translation?

<class=normal>Kan det antages, at dette er den rigtige læseramme for at få det korrekte protein? Hvorfor/hvorfor ikke?</class=normal>

b)

Prøv at translatere sekvensen med hensyn til den mest almindelige startcodon ATG. Dette vil ikke ændre læserammen, dvs. translationen vil stadig starte på position 1 på den positive DNA-streng.

>213688374_actin_human_mRNA
CTCTCCCCGCCCCCGCGGGGCGGCGCGCACTCACCCACCCGCGCCGGAGCGGACCTTTGGCTTGGC
TTGTCAGGGCTTGTCCAGGAGTTCCGCTCCTCTCTCCAACCGGGGTCCCCCTCCAGCGACCCTAAAGC
TTCCCAGACTTCCGCTTCAATTCCTGTCCGCACCCCACGCCCACCTCAACGTGGAGCGCAGTGGTCTC
CGAGGAGCGCCGGAGCTGCCCCGCCTGCCCAGCGGGGTCAGCACTTCGCATCAAGGCCCAAGAAAAG
CAAGTCCTCCAGCGTTCTGAGCACCCGGGCCTGAGGGAAGGTCCTAACAGCCCCCGGGAGCCAGTCT
CCAACGCCTCCCGCAGCAGCCCGCCGCTCCCAGGTGCCCGCGTGCGCCGCTGCCGCCGCAATCCCG
CACGCGTCCCGCGCCCGCCCCACTTTGCCTATCCCCGGGACTAAGACGGGAATCCTGTGAAGCAGCTC
CAGCTATGTGTGAAGAAGAGGACAGCACTGCCTTGGTGTGTGACAATGGCTCTGGGCTCTGTAAGGCC
GGCTTTGCTGGGGACGATGCTCCCAGGGCTGTTTTCCCATCCATTGTGGGACGTCCCAGACATCAGGG
GGTGATGGTGGGAATGGGACAAAAAGACAGCTACGTGGGTGACGAAGCACAGAGCAAAAGAGGAATC
CTGACCCTGAAGTACCCGATAGAACATGGCATCATCACCAACTGGGACGACATGGAAAAGATCTGGCA
CCACTCTTTCTACAATGAGCTTCGTGTTGCCCCTGAAGAGCATCCCACCCTGCTCACGGAGGCACCCCT
GAACCCCAAGGCCAACCGGGAGAAAATGACTCAAATTATGTTTGAGACTTTCAATGTCCCAGCCATGTA
TGTGGCTATCCAGGCGGTGCTGTCTCTCTATGCCTCTGGACGCACAACTGGCATCGTGCTGGACTCTG
GAGATGGTGTCACCCACAATGTCCCCATCTATGAGGGCTATGCCTTGCCCCATGCCATCATGCGTCTGG
ATCTGGCTGGCCGAGATCTCACTGACTACCTCATGAAGATCCTGACTGAGCGTGGCTATTCCTTCGTTA
CTACTGCTGAGCGTGAGATTGTCCGGGACATCAAGGAGAAACTGTGTTATGTAGCTCTGGACTTTGAAA
ATGAGATGGCCACTGCCGCATCCTCATCCTCCCTTGAGAAGAGTTACGAGTTGCCTGATGGGCAAGTG
ATCACCATCGGAAATGAACGTTTCCGCTGCCCAGAGACCCTGTTCCAGCCATCCTTCATCGGGATGGAG
TCTGCTGGCATCCATGAAACCACCTACAACAGCATCATGAAGTGTGATATTGACATCAGGAAGGACCTC
TATGCTAACAATGTCCTATCAGGGGGCACCACTATGTACCCTGGCATTGCCGACCGAATGCAGAAGGA
GATCACGGCCCTAGCACCCAGCACCATGAAGATCAAGATCATTGCCCCTCCGGAGCGCAAATACTCTG
TCTGGATCGGTGGCTCCATCCTGGCCTCTCTGTCCACCTTCCAGCAGATGTGGATCAGCAAACAGGAAT
ACGATGAAGCCGGGCCTTCCATTGTCCACCGCAAATGCTTCTAAAACACTTTCCTGCTCCTCTCTGTCTC
TAGCACACAACTGTGAATGTCCTGTGGAATTATGCCTTCAGTTCTTTTCCAAATCATTCCTAGCCAAAGC
TCTGACTCGTTACCTATGTGTTTTTTAATAAATCTGAAATAGGCTACTGGTAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAA

Derimod vil translationen give det længste protein, der har ATG som startcodon, og ikke translatere hele sekvensen som før. Til denne søgning skal feltet Start codon: Strict ændres, se eventuelt guiden til Virtual Ribosome for program brug.

Hvor langt er dette protein?
Vil du (stadig) antage, at dette er det korrekte protein?

c)

Ved at vælge en strikt startcodon kan man nemt visualisere den længste aminosyresekvens (mellem start- og stopcodon) fra en given læseramme. Som regel vil man således hurtigt kunne danne sig et overblik over, hvorvidt det er en korrekt translation, da en peptidsekvens skal have en vis længde for at udgøre et funktionelt protein. Dog skal det påpeges, at der kan være pro-peptidsekvenser som f.eks. signalpeptider, der bliver kløvet af i det funktionelle protein, men vil være til stede, når DNA-sekvensen bliver translateret.
Prøv nu at translatere sekvensen med strikt startcodon på alle seks læserammer, se guiden til Virtual Ribosome for hvordan dette gøres.

Ved at kombinere alle seks læserammer og have en strikt startcodon vil Virtual Ribosome finde den længste translaterede sekvens, der har ATG som startcodon på tværs af alle læserammerne.

Hvor langt er dette protein, og hvilken læseramme er blevet brugt til translationen?

Som nævnt finder Virtual Ribosome den længst translaterede sekvens, men kan det altid antages, at denne translation giver det korrekte protein? Hvorfor/hvorfor ikke?

II. UniProt

Formålet med denne øvelse er at lære at søge efter og gøre sig bekendt med proteiner ud fra den information, der er tilgængelig i UniProt. Dette gøres ved at benytte almene fritekstsøgekriterier eller accession-numre og derefter undersøge UniProt-siderne for de proteiner, der findes gennem søgningerne.

a)

Benyt den generelle guide til søgning i UniProt til at søge efter det ønskede protein, når du ved at:

Det er aktin

Det skal komme fra mennesker

Det skal komme fra glat muskulatur (se infoboks) i en hovedblodåren (Aorta).

Foretag maksimalt tre søgninger og tilføj et kriterium efter hver søgning (Eksempel: I første søgning, søges der på insulin, i søgning 2 på insulin AND human osv.). Besvar følgende spørgsmål efter hver søgning:

Hvor mange sekvenser svarer til kriteriet?

Hvilket søgekriterie vil du tilføje for at indsnævre resultatet? Vil du benytte et AND-, OR- eller NOT-kriterium, hvorfor/hvorfor ikke?

Fortag nu søgningen med de nye søgekriterier.
NB! Benyt eventuelt den udvidede søgning og specificer feltet Field som beskrevet i den generelle guide for UniProt.

b)

Hvert protein har et accession-nummer. Benyt nu proteinets accession-nummer, P62736, til at finde UniProt-siden for det givne protein. Ved at benytte det unikke accession-nummer er det nemt at finde et protein og dermed undgå at skulle gennemse en masse søgeresultater for at finde det korrekte protein.
Dan dig et overblik over UniProt-siden for proteinet og find ud af, hvilke informationer man kan få om proteinet ved at besvare følgende spørgsmål:

Hvad er proteinets anbefalede navn (eng. recommended name) og dets gennavn (navnet på det gen der koder for proteinet)?

Hvor lang er sekvensen angivet i aminosyrer (fork. AA)?

Hvad er dets funktion, subcellulære lokation (se infoboks), og er der forbundet nogle sygdomme med det?

Er der nogle pro-peptiddele i den translaterede sekvens (pro-peptider er aminosyresekvenser, der ikke findes i det færdige funktionelle protein)?
NB! Se afsnittet molecule processing under Sequence annotation domænet.

III. PDB

Formålet med øvelsen er at lære at finde relevant information om et protein gennem dets PDB-side, så de rette dele af det kan observeres gennem tredimensionelle visualiseringer i PyMol.

a)
Gå til PDB databasen og søg efter PDB-siden med id 1M8Q.

Hvilke molekyler kan man se i PDB-id’et?

Hvor mange kæder (subunits) indeholder id’et, hvor mange af disse er unikke, hvad er navnet på dem (A, B, C…) og hvillke proteiner tilhører de forskellige kæder (Myosin, aktin…)?

Hvor mange aminosyrer indeholder hver af de unikke kæder, og hvilke positioner på kæden er i id’et?
NB! Dette kan findes ved at trykke show unique chains only.

Viden om hvilke kæder (subunits) PDB-id’et indeholder, hvilke proteiner der hører til de forskellige kæder, og hvilke dele af selve aminosyresekvensen id’et reelt set indeholder, kan benyttes i PyMol til at undersøge proteinerne i 3D, markere kæderne, markere interessante aminosyrer eller observere interaktioner, når PDB-id’et indeholder mere end et protein.

IV. PyMol

Formålet med øvelsen er at lære at benytte PyMol til tredimensionel visualisering af proteiner samt at markere relevante kæder og dermed præsentere proteiner på en måde, der er overskuelig.

a)

Åben PyMol og hent aktin-myosin komplekset med PDB-id 1M8Q. Benyt herefter den generelle guide til PyMol og kommandosiden for at lære PyMol og relevante kommandoer at kende, så du kan gøre følgende:

Vis alle molekylerne i båndstruktur.
NB! Det anbefales først at gemme (hide) alting og derefter benytte vis (show) til at gøre dette.

Farv henhodsvis myosin- og aktin-kæderne med hver deres farve og gem et billede af komplekset.
NB! Du kan gemme ved enten at taget et screen shot eller filer → Save Image As → PNG.

Aktin-myosin-komplekset består af mange kæder, og det kan derfor forstyrre det overordnede billede af komplekset og aktin-myosin-interaktionen, når det vises som pinde-, bånd- eller tegningsstruktur. For at præsentere komplekset på en mere overskuelig måde kan man vælge kun at vise overfladen af proteinerne.
Vis overfladen af alle proteinerne i komplekset og sammenlign med strukturen fra spørgsmål 2. Synes du, det er blevet nemmere at visualisere proteinerne som en helhed?

I 4.A fandt du ud af, hvilke kæder aktin er kodet på. Benyt denne viden til at finde ud af, hvor mange aktin-proteiner der interagere med et myosin-molekyle, når du ved, at myosin-kæde P interagerer med aktin.
NB! Start med at lokalisere kæde P ved farvning og zoom. Herefter kan kæde-specifik-farvning anvendes til undersøgelsen.

Udforsk selv PyMol og de forskellige måder molekylerne kan fremstilles på. Eksempelvis kan baggrundsfarven ændres, skyggerne kan justeres, måderne, hvorpå α-helix og β-plader i den sekundære struktur bliver vist, kan ændres og meget andet.

Øvelsesoversigt

Denne øvelse arbejder med UniProt, PDB, Pymol og FigTree.

Introduktion – Myostatins proteininteraktioner og organismers slægtsskab

Myostatin, der også er kendt som Growth/Differentiation factor 8 (GDF8), er et protein fra TGF-β-familien (TGF = Transforming growth factor, se infoboks). Proteinet har en negativ virkning på muskelvækst og inhiberer dermed både muskeldifferentiering og -vækst ved at binde til receptorer på muskelceller. En mangel på myostatin f.eks. som følge af en mutation i genet eller inhibering af proteinet vil således føre til øget muskelvækst.

For et “hverdags”-eksempel på myostatin-inhibitor kan følgende artikel læses:

Super Babies reveal the Key to Strength Gene, engelsk artikel fra singularityhub.com, 2009

Follistatin kodes af genet FST, og er et protein, der binder til proteiner fra TGF-β-familien og derved inhiberer dem. Follistatin binder især til proteinet activin, men også til myostatin hvormed det blokerer for myostatins funktion. Follistatin vil således bevirke øget muskelvækst, da inhiberingsproteinet (myostatin) for muskelvækst selv bliver inhiberet.

Figur 1 – Myostatin hæmmer transkription, så der er mindsket muskeldifferentiering. Follistatin inhiberer myostatin og vil dermed bevirke øget genudtrykkelse og dermed øget muskelvækst.

I. UniProt

Formålet med denne øvelse er at lære at søge efter og gøre sig bekendt med proteiner ud fra den information, der er tilgængelig gennem UniProt. Dette gøres ved at benyttefritekstsøgekriterier eller accession-numre og derefter undersøge UniProt-siderne for de proteiner, der blev fundet.

a)

Benyt den generelle guide til søgning i UniProt til at søge efter de ønskede proteiner. Du kan vælge enten at have to UniProt-sider åbne i hver sit vindue og foretage de to søgninger samtidig, eller du kan lave del 2.A.a og del 2.A.b for først myostatin og derefter gentage dem for follistatin.

Du skal søge efter:

Myostatin, der skal komme fra mennesker.

Follistatin, der skal komme fra mennesker.

NB! Husk at proteiner ofte har både et populært navn (f.eks. myostatin) og et videnskabeligt navn (f.eks. GFD8 for myostatin).
Du kan gå til UniProt-databasen ved at klikke her. Husk eventuelt at åbne to vinduer, da du skal lave to søgninger.

Hvad er accession-nummeret for de to proteiner?

b)

Gå til de to proteiners UniProt-side og svar på nedenstående spørgsmål. Dette skal du gøre for at få et overblik over UniProt-siderne samt for at finde ud af, hvilke informationer man kan få om proteiner gennem UniProt.
De to første spørgsmål kan besvares ved at se øverst på proteinernes UniProt-side.

Hvad er proteinernes anbefalede navn (eng. recommended name) og deres gennavn (navnet på det gen der koder for proteinet)?

Hvor lange er sekvenserne i aminosyrer (fork. AA)?

Gå til afsnittet “General annotation (Comments)”.
Hvad er deres funktion og subcellulære lokationer? Follistatin har et bindingsdomæne specifikt for proteiner fra TGF. Hvilken proteinfamilie tilhører myostatin? Peger dette i retning af interaktion mellem follistatin myostatin?

Hvad ville der ske, hvis der kun var myostatin i kroppen? Hvad vil der ske, hvis der både er myostatin og follistatin?

Gå til afsnittet “Sequence annotation (Features)”.
Follistatin binder som nævnt til proteiner fra TGF-β-familien. Hvad hedder det bindende domæne på proteinsekvensen for follistatin, og på hvilke positioner kan det findes?
NB! Se afsnittet Molecule processing under Sequence Annotation.

II. PDB

Formålet med denne øvelse er at lære at finde relevant information om et protein gennem dets PDB-side, så de relevante dele kan observeres gennem tredimensionel visualisering i PyMol.

a)

Gå til PDB databasen og søg efter PDB-siden med id 3HH2.

Hvilke molekyler kan man se i PDB-id’et?

Hvor mange kæder indeholder id’et, og hvor mange af disse er identiske? Hvad er navnet på dem (A, B, C…)? Hvad koder de for (myostatin, follistatin…)?
NB! Dette kan findes under Sequence-fanen.

Hvor mange aminosyrer indeholder hver af kæderne, og hvilken på position i kæden findes henholdsvis den første og den sidste aminosyre? Stemmer dette overens med længden af de færdige proteiner, som du fandt i 2.A.6 (109AA for myostatin og 315AA for follistatin)?
NB! Dette kan også ses vises gennem Sequence-fanen.

Viden omkring hvilke kæder PDB-id’et indeholder, hvad disse koder for og hvilke dele af selve aminosyresekvensen id’et indeholder, kan benyttes i PyMol. Denne viden kan bruges til at undersøge proteinerne tredimensionelt, markere kæderne og interessante aminosyrer eller observere interaktioner, når PDB id’et indeholder mere end et protein.

III. PyMol

Formålet med øvelsen er at lære at benytte PyMol til tredimensionel visualisering af proteiner samt at markere relevante kæder og dermed præsentere proteiner på en overskuelig måde.

a)

Åben PyMol og hent aktin-DNAase I-komplekset med PDB-id 1ATN. Benyt herefter den generelle guide til PyMol og kommandosiden for at lære PyMol og relevante kommandoer at kende så du kan gøre følgende:

Vis alle molekylerne i tegningstruktur.
NB! Det anbefales først at gemme (hide) alt og derefter benytte vis (show).

Farv de fire forskellige kæder med hver deres farve (kæde A+B en nuance f.eks blålige og kæde C+D en anden f.eks. rødlige).

Visualiser TB-domænet (TGF-β-familiens bindingsdomæne) på follistatin-molekylet (kæde C og D). Det skal vises med både sidekæde og separat farve. Via deløvelse 2.a fandt du ud af, hvor TB-bindingsdomænet på follistatin-molekylet sidder. Hvis ikke denne øvelse er udført, så udgør dette domæne aminosyrerne i intevallet 30-103 på det ikke-færdige protein og dermed aminosyrerne 1-74 på det færdige.
NB! Vælg først aminosyrerne, vis sidekæder og farv dem til slut.

Visualiser kun én myostatin- og én follistatin-kæde, fx kæde A og C. Med en generel viden om proteininteraktioner, vil du så antage, at det er det korrekte domæne, der på follistatininteragerer med myostatin?
NB! Vurderingen kan foretages ved at benytte hide og derefter den kæde man ikke vil se.

Udforsk selv PyMol og de forskellige måder, som molekylerne kan vises på. Eksempelvis kan baggrundsfarven ændres, skyggerne kan justeres, måderne og meget andet.

IV. FigTree

Formålet med øvelsen er at blive bekendt med FigTree og at kunne benytte programmet til at visualisere et evolutionært slægtskab mellem forskellige organismer.

a)

Hent filen myostatin_alignment.ph her. Filen, der er lavet ved sekvensalignments (læs mere her) i programmet ClustalX, og det er en træ-fil af formaten Newick. Newick formatet bruges til træ-filer, og i formatet bliver det evolutionære slægtskab mellem træets arter angivet som distancen mellem arterne.

Marker hele teksten i myostatin_alignment.ph og kopier den over i en teksteditor som f.eks. Notepad på Windows computere eller TextEdit på Apple computere. Gem filen som en almindelig tekstfil som myostatin_alignment.ph. Det er vigtigt, at filen ender på .ph, da dette specificerer, at filen er i et format kaldet phylip. Denne type fil bruges som input i programmet FigTree.

Åbn FigTree og åbn derefter myostatin_alignment.ph i programmet. Svar herefter på følgende spørgsmål:

Er der en overordnet tendens til en gruppering (dannelse af clades) af de forskellige organismer?

Hvilken organisme adskiller sig mest fra de andre. Se her både på grenlængden, og på hvilken der intuitivt set (på baggrund af din viden om organismerne) adskiller sig mest?

b)

For at kunne danne sig et overblik over et kronologisk slægtskab kan man lave en rod på træet. Roden laves ved at specificere ydergruppen (eng. outgroup), som er den organisme, der først divergerede væk fra de andre arter, som samlet kan betegnes som ingroup. Således kan der dannes en evolutionær tidshorisont.

Hvilken organisme vil du vælge som ydergruppe og hvorfor?

Lav nu træet med rod, dvs. lav en rod således at ydergruppen kommer tættest på roden og dermed længst væk fra de andre arter. Benyt den generelle guide til FigTree for at se, hvorledes det gøres.

Er der sket nogle ændringer i de observerede grupperinger fra spørgsmål 1? Hvorfor/hvorfor ikke?

Stemmer grupperingerne overens med din logiske viden omkring arterne og det slægtskab omkring dem, som du kender til?
NB! Benyt eventuelt funktionen Rotate til at vende grenene. Det ændrer ikke på selve slægtskabet, men kun på visualiseringen af træet.

Hvis der er tid, kan træet sammenlignes med et træ lavet fra den taxonomiske database hos NCBI. Hent først listen med de arter, der indgår i træet her. Gem den i en tekstfil på din computer som myostatin_arter. Gå herefter til den taxoniske database ved at klikke her.

Benyt filen myostatin_arter i choose file og vælg derefter choose subset. Boksen animals tjekkes af, og choose vælges for at visualisere træet. Arter med fed skrift er dem, der indgår i træet. De latinske navne for arterne skal kendes for at forstå træet. Disse kan ses her.

Øvelsesoversigt

Denne øvelse arbejder med BLAST, PDB og Pymol.

Introduktion – Bioinformatisk analyse af antistoffer

Antistoffer er en del af kroppens forsvar mod fremmede organismer. Antistoffer findes enten opløst i blodet eller på overfladen af B-celler. B-celler er en del af kroppens immunsystem og bekæmper bakterielle infektioner ved brug af antistoffer. Antistoffer kan bekæmpe fremmede organismer, da specifikke dele i antistoffet kan genkende peptidsekvenser som fremmede. Herefter startes en hurtig og effektiv immunrespons ved, at antistoffer binder til den fremmede organisme, så andre immunceller kan nedbryde den eller blokere det bundne proteins funktion.

Der findes fem forskellige typer af antistoffer. Ved typebestemmelse bruges antistoffernes biokemiske navne immunglobuliner (Ig). De fem forskellige typer er IgA, IgD, IgE, IgG og IgM, hvoraf IgG er den mest udbredte (udgør 75 % af alle kendte typer antistoffer). Alle fem typer antistoffer har den samme “Y” grundstruktur, se figur 1, men varierer i antallet af kæder og mht. deres længde, samt hvor i kroppen antistofferne primært findes. Antistoffer er bygget op af tunge (eng. heavy) og lette (eng. light) kæder, og hver af disse er opdelt i konstante og variable domæner.

De fem antistoffer har forholdsvis identiske, konstante domæner, dvs. proteinsekvensen er den samme. De variable domæner er placeret i spidsen af antistoffets “Y” og i modsætning til de konstante domæner meget forskellige både mellem hvertf antistof. Grunden til den store diversitet er, at det er de variable domæner, der genkender proteinerne fra fremmede organismer. For at immunforsvaret kan genkende så mange forskellige fremmede organismer som muligt, skal er det fordel agtigt at have mange forskellige antistoffer, der genkender netop én fremmed organisme. Diversiteten i de variable domæner opstår ved mutationer samt genetisk rekombination, hvilke samlet giver de utallige antal af antistoffer, der findnes.

De fem forskellige antistoftyper er inddelt i forskellige underklasser, der varierer i forhold til deres fleksibilitet. Fleksibiliteten af et antistof har betydning for, hvilke fremmede organismer antistoffet kan binde, da bindingsstederne er forskellige for forskellige fremmede organismer. Jo mere fleksibelt et antistof er, desto mere komplekse strukturer kan det binde til. Fleksibiliteten af et antistof opstår i hængselsregionen, der er det sted i Y’et hvor de konserverede domæner på de tunge kæder knækker over i de konserverede dele på de lette kæder.

Figur 1 – Opbygningen af et antistof. De lette kæder er vist med rød, og de tunge kæder er vist med blå. Desuden er de konstante domæner for hver kæde vist med en mørkere nuance end de variable domæner. Bindingsstedet for proteiner fra fremmede organismer er vist med trekanter og firkanter, hvilket indikerer at hver variabel del genkender forskellige strukturer. Dog genkender hver kæde, f.eks. de to tunge kæder, i et antistof den samme struktur. Kæderne i et antstof er holdt sammen med svovlsulfidbindinger, hvilket er vist med de grå cirkler.

I. BLAST

Formålet med øvelsen er at blive bekendt og lære om BLAST, at kunne benytte BLAST til at bestemme hvilken superfamilie forskellige makromolekyler hører til, finde ud af hvor mange andre proteiner der ligner din sekvens, samt finde PDB-siden for en given proteinsekvens.

a)

Sekvensen for en tunge kæde fra et IgG-antistof kan hentes her. Marker og kopier proteinsekvensen og gå derefter til BLAST-hjemmesiden. Her skal du benytte proteinsekvensen til at lave en protein-BLAST (BLASTp) mod PDB-databasen (denne vælges under Choose search set). Efterfølgende skal du besvare nedenstående spørgsmål. Som hjælp til udførelslen af BLAST samt fortolkning af resultatet, kan du anvende den generelle guide for BLAST.

Hvilken superfamilie hører sekvensen til?
NB! Se på Specific Hits og Query sequence.

Hvor mange sekvenser er næsten 100 % identiske (har ubrudte røde linjer) med den anvendte IgG-sekvens?

b)

Gå ned til området Descriptions og find de to resultatsekvenser, som du antager, er de bedste match til din IgG sekvens. Du skal tage højde for de elementer, der ifølge BLAST guiden er vigtige for et godt match.

Hvad er de to resultatsekvensers accession-nummer, max score, query coverage og e-værdi?

Hvorfor valgte du disse to sekevenser som de bedste? Argumenter for dit valg.

Ved at blaste din sekvens har du undersøgt databasen Protein Databankfor proteinsekvenser, der er identiske med den proteinsekvens, du havde til at starte med. Ud fra antallet af resultatsekvenser kunne du se, at der var mange sekvenser, der til en vis grad lignede din sekvens, men ved at se på e-værdier og antal sekvenser med ubrudte røde linjer blev det klart, at kun få sekvenser egentlig matchede din sekvens.
Du skal nu videre til databasen Protein Databank og undersøge en af de to resultatsekvenser, du har fundet gennem BLAST.

II. PDB

Formålet med øvelsen er at lære at finde relevante informationer om et protein gennem dets PDB-side. Målet er at finde information, som kan hjælpe til en optimal visualisering af proteinets tredimensionelle struktur. Den tredimensionelle struktur vil kunne visualiseres i programmet PyMol.

a)

Gå til PDB-databasen og søg efter PDB-siden for det bedste hit fra 3.a. Hvis denne del ikke er lavet, søg da efter siden med PDB id 1IGY (se infoboks til højre). Som hjælp til søgning samt guide til opbygning af proteiners PDB-side kan du bruge den generelle guide til PDB i denne øvelse. Guiden findes her.

Hvilken type immunoglobulin koder PDB-id’et for (IgA, IgG etc.), og er det en bestemt subtype (1, 2, 3 etc.)?
NB! Dette kan findes ved at se på PDB-id’ets navn.

Hvor mange kæder har antistoffet, hvor mange af disse er identiske, hvad er navnet på dem (A, B, C …), og hvilken type kæder er det (tunge, lette eller …)?
NB! Dette kan findes under Sequence-fanen.

Hvor mange aminosyrer indeholder hver af kæderne, og hvilke domæner er de delt op i (konstante, variable eller …)?
NB! For hver kæde skal domæne og den aminosyrerpositioner de dækker noteres, eksempelvis:
Kæde A: position 1-100 er det variable domæne på den lette kæde, position 101-200 er det konstant domæne på den lette kæde.

Hvis der kigges på længden af den tunge kæde (434 aminosyrer) kan det ses, at længden ikke er den samme som den faktiske længde af kæden (474 aminosyre). Der mangler faktisk 40 aminosyrer. Manglen på aminosyrer kan skyldes fejlkilder forbundet med den eksperimentelle strukturbestemmelse. Fejlen er derfor ikke ensbetydende med, at de 40 aminosyrer mangler i kædens rigtige form. Man skal dog huske, at aminosyrerne mangler, hvis man skal arbejde videre med proteinet i f.eks. PyMol, da man ikke vil kunne visualisere de dele af strukturen, der mangler.

III. PyMol

Formålet med øvelsen er at lære at benytte PyMol til tredimensionel visualisering af proteiner samt markere interessante kæder og dermed præsentere proteiner på en overskuelig måde.

a)

Åbn PyMol og hent strukturen med PDB-id 1IGY. Benyt herefter den generelle guide til PyMol og kommandosiden for at lære PyMol og relevante kommandoer at kende, så du kan gøre følgende:

Vis alle molekylerne i tegningsstruktur.
NB! Det anbefales først at gemme (hide) alt og derefter benytte vis (show) til at vise tegningsstrukturen.

Farv de fire forskellige kæder hver deres farve (kæde A + C en nuance f.eks. blålige og kæde B + D en anden f.eks. rødlige).

Har antistoffet den rette ”Y”-formede struktur og stemmer placeringen af de tunge og lette kæder overens med den forventede form?
NB! Benyt eventuelt figur 1 for at se den ”Y”-formede opbygning af et antistof.

I øvelse 3.A.1 blev de to bedste resultater fra BLAST-søgningen fundet. Det ene var det, der visualiseres i PyMol. Antistoffet fra det andet resultat skal hentes ind i det åbne PyMol-vindue (hvis ikke 3.A.1 er lavet, hent da antistoffet med PDB-id 1IGT). Antistoffet hentes til PyMol på samme måde som tidligere, nemlig ved brug af fetch.
Rediger nu i det nyhentede antistof så det også kun bliver vist i tegningsstruktur.
NB! Det anbefales at de to antistoffer farves med hver sin farve, dvs. alle kæderne i et antistof farves med den samme farve.

Prøv nu at sammenligne (eng. align) de to antistoffer med hinanden, og undersøg hvordan sammenligningen ser ud. Er de to antistoffer af samme type, f.eks. begge IgM? Hvis ja, tilhører de samme subklasse?

Udforsk selv PyMol og de forskellige måder antistofferne kan fremstilles på. Eksempelvis kan antistoffernes farve ændres, baggrundsfarven i PyMol-vinduet kan skiftes, skyggerne kan justeres, måderne den sekundærstruktur bliver vist kan ændres og meget andet.

Øvelsesoversigt

Denne øvelse arbejder med BLAST, UniProt, PDB og Pymol.

Introduktion – Identifikation og visualisering af ukendt protein

En forsker har fået en prøve fra et får, der er blevet sygt efter at have spist affald med en ukendt sammensætning . Det er nu forskerens opgave at finde årsagen til fårets sygdom, hvilket bl.a. indebærer at karakterisere mulige proteiner i prøven, der normalt ikke vil være til stede i et raskt får.
Forskeren har fundet en samlet DNA-sekvens, der koder for to proteiner, der ikke findes i raske får, og han skal nu finde ud af, hvad de to proteinsekvenser hver især koder for, og hvorvidt de eventuelt skulle stamme fra andre organismer.

I den følgende øvelse skal du hjælpe forskeren med at bestemme funktion, struktur og oprindelse af de to proteinsekvenser.

I. BLAST

Formålet med øvelsen er at blive bekendt med BLAST og at kunne benytte denne metode til at bestemme en ukendt proteinsekvens, samt bestemme hvilken organisme sekevensen stammer fra.

a)

Hent den ukendte sekvens her. Marker og kopier sekvensen og gå derefter til BLAST-siden. Benyt nu funktionen protein BLAST (BLASTp) til at bestemme, hvilke proteiner der ikke findes i raske dyr. Da både organisme og funktion er ukendte, anbefales det at lave en bred BLAST, dvs. mod alle genomer og mod standarddatabasen for BLAST (dette kaldes non-redundant protein sequences). Du skal derfor ikke ændre noget i opsætningen, men blot kopiere sekvensen ind og starte BLAST-søgningen.

Benyt den generelle guide for BLAST som hjælp til udførelsen samt til fortolkningen af outputtet.

Hvilke to superfamilier tilhører proteinsekvensen?
Er der tale om, at den tilhører én eller flere superfamilier?

Hvor lange (ca.) er de to proteiner?
NB! Tjek dette under Superfamilies i Graphic Summary domænet.

Vil du på baggrund af e-værdien (der skal være så lav som mulig) og sekvensdækningen (eng. query coverage, skal være så høj som muligt) antage, at BLAST har fundet de korrekte proteiner, der normalt ikke er til stede i raske dyr? Argumenter for din konklusion.
NB! Se under Descriptions-afsnittet. De to nederste resultatsekvenser matcher det protein, der er kodet i første del af proteinsekvensen. Resten af resultatsekvenserne giver information om proteinet, der er kodet i den sidste del af proteinsekvensen.

Ved at blaste aminosyresekvensen har du undersøgt alle protein-databaser for at finde ud af, om de indeholder en proteinsekvens, der er identisk med den ukendte sekvens (OBS: en aminosyresekvens er det samme som en proteinsekvens). Bestemmelse af hvilken superfamilie, som sekvensen tilhører, giver en indikation af funktionen af det ukendte protein. Faktisk fandt du ud af, at sekvensen tilhørte to superfamilier, dvs. at den faktisk koder for to forskellige proteiner. Ved at se på e-værdien og sekvensdækningen kunne du desuden bestemme om BLAST fandt proteinsekvenser, der er identiske med den ukendte sekvens.

Du skal nu videre til databasen UniProt, hvor du kan undersøge de proteinsekvenser, som blev fundet gennem BLAST.

II. UniProt

Formålet med denne øvelse er at lære at søge efter og gøre sig bekendt med proteiner ud fra den information, der er tilgængelig gennem UniProt. Dette gøres ved at benytte almene fritekstsøgekriterier eller accession-numre og derefter undersøge UniProt-siderne for de proteiner, der findes.

a)

I øvelse 4.A analyserede du en ukendt proteinsekvens gennem BLAST, og du fandt to proteiner, som matchede den ukendte sekvens: GFP og P53.
Benyt ny UniProt til at tilegne dig information omkring disse to proteiner. Du kan bruge den generelle guide til søgning i UniProt som hjælp.

Søg først på Green Fluorescent Protein (GFP er en forkortelse for dette) og tryk på det første resultat’s accession-nummer. Herved kommer du ind på proteinets UniProt-side. Besvar nu følgende spørgsmål. Her kan svarene til de tre første spørgsmål findes øverst på UniProt-siden:

Hvad er accession-nummeret for det protein, du undersøger?

Hvad er gennavnet, og hvilken organisme kommer dette GFP fra?

Hvor lang er sekvensen angivet i aminosyrer (fork. AA)?

Under sektionen General annotation (Comments) kan man læse, at proteinet lyser grønt lys, når det bliver udsat for ultraviolet lys.
Hvordan tror du, at man kan udnytte denne evne i et biologisk regi, når man f.eks. laver gensplejsning og dermed mutanter?

Læs afsnittet Biotechnological use. Stemmer dette overens med dit svar fra spørgsmål 4?

b)

Gå tilbage til søgesiden i UniProt. Søg nu på P53 og tryk ligesom før på det første resultat’s accession-nummer, så du kommer ind på proteinets UniProt-side. Besvar følgende spørgsmål:

Hvad er accession-nummeret for det protein, du undersøger?

Hvad er gennavnet, og hvilken organisme kommer dette P53 fra?

Hvor lang er sekvensen angivet i AA?

Hvad er proteinets funktion?
NB! Se under sektionen General annotation (Comments).

Hvilke sygdomme tror du, at P53 kan være forbundet med?

III. PDB

Formålet med denne øvelse er, at lære at finde relevant information om et protein gennem dets PDB-side, så de rette dele kan visualiseres i PyMol.

a)

Gå til Protein Databank (PDB) databasen og søg efter siden med PDB-id 3Q05. Se eventuelt den generelle guide til PDB.

Hvilke molekyler kan man se i PDB-komplekset?

Hvor mange kæder (subunits) indeholder id’et, og hvor mange af disse er identiske? Hvad er navnet på kæderne (A, B, C osv.), hvilke proteiner/molekyler er de forskellige kæder (f.eks. kæde A er P53, kæde B er DNA …)?
NB! Dette kan findes under Sequence-fanen.

Hvor mange aminosyrer indeholder hver af de kæder, der koder for P53? Stemmer dette overens med længden af de færdige proteiner, som du fandt i 4.B.8 (393AA)?

En metal-ion, nærmere betegnet en zink-ion, er bundet til P53 proteinet.
Ved hvilke fire positioner og aminosyrer er zinkionen bundet til?

En zink-ion, der erbundet til et protein, betegnes også en zink finger (eng.zinc finger, se infoboks). Man kan finde zink fingre i en række DNA-bindende-proteiner, da zink ionen er med til at stabilisere interaktionen mellem DNA og protein.

Viden om de kæder PDB id’et indeholder, hvad disse koder for og hvilke dele af selve aminosyresekvensen id’et reelt set indeholder, kan benyttes i PyMol. Kendskabet kan anvendes til at undersøge proteinerne tredimensionelt, markere kæderne, markere interessante aminosyrer eller observere interaktioner når id’et indeholder mere end ét protein.

IV. PyMol

Formålet med øvelsen er at lære at benytte PyMol til 3D visualisering af proteiner samt markere relevante kæder og dermed præsentere proteiner på en overskuelig måde.

a)

Åbn PyMol og hent P53 i DNA interaktion med PDB-id 3Q05. Benyt herefter den generelle guide til PyMol og kommandosiden for at lære PyMol og relevante kommandoer at kende, så du kan gøre følgende:

Vis alle molekylerne i tegningsstruktur.
NB! Det anbefales først at gemme (hide) alt og derefter benytte vis (show)

Farv de seks forskellige kæder hver deres farve (kæde A, B, C og D én nuance fx rødlige, lad DNA strengene (kæde K og L) være som de er).

Visualiser zinkfinger-domænerne på hver af de fire kæder (A, B, C og D). Herved vil du tydeligt kunne se, at der er plads til en ion. Domænerne skal vises med både sidekæde, separat farve og aminosyremærkat. Hvis øvelse 4.c ikke er lavet, er disse positioner 176, 179, 248 og 242.
NB! Vælg først aminosyrerne, vis sidekæder, farv dem og sæt et mærkat på. Herefter kan der zoomes ind på interaktionen.

Hvor på proteinet findes zinkfingeren (ydersiden, indersiden, tæt på DNA-strengen)? Er dette hvad du ville forvente, når du ved, at zinkfingeren er med til at stabilisere protein-DNA interaktionen?

Udforsk selv PyMol og de forskellige måder, som molekylerne kan fremstilles på. Eksempelvis kan baggrundsfarven ændres, skyggerne kan justeres, måderne den sekundære struktur bliver vist på kan ændres og meget andet.
Ordforklaring

Herunder er en liste over ord og begreber, som er vigtige for forståelsen af dette undervisnignsmateriale. Længere forklaringer kan findes i infoboksene i det materiale, der omhandler emnet, eller hvori ordet indgår.

Algoritme: En anden betegnelse for en matematisk model med ligninger/formler, der sammen danner et flow og dermed kan løse et givent problem.

Alignment: Sammenligning af DNA- eller proteinsekvenser. Man kan lave et enkelt alignment, hvor man sammenligner to sekvenser eller et multiple alignment, hvor man sammenligner tre eller flere sekvenser.

Apoptose: Programmeret celledød eller “celle selvmord”. Cellen nedbrydes ved påvirkning af signalmolekyler (eller ved mangel på samme),.der bliver aktiveret ved eksempelvis stress.

BLAST: Forkortelse for Basic Local Alignment Search Tool, som er en metode, hvorved man kan sammenligne en DNA- eller proteinsekvens med kendte sekvenser på tværs af databaser.

CDS: Forkortelse for coding sequence og er den del af DNA-sekvensen, der koder for selve proteinet.

Codon: Tre nukleotider, der oversættes til en aminosyre af ribosomerne. Der findes fire nukleotider, hvilket er ensbetydende med, at der findes 64 (4³) mulige forskellige codons.

Det Centrale Dogme: Betegnelse for processen: DNA → mRNA → protein. Processen fra DNA til mRNA betegnes transkription, og processen fra mRNA til protein betegnes translation.

Exon: En eller flere dele af en DNA-sekvens, der indgår i den kodende sekvens, CDS. Exons bliver sat sammen, så de danner det færdige mRNA, der bliver translateret til protein.

Fylogeni: Læren om organismers slægtskab.

Fylogenetisk træ: Et slægtskabsstæ, hvor man kan visualisere organismernes evolutionære slægtskab.

Genbank: Genbank er hoveddatabasen for kendte DNA-sekvenser. Genbank kan findes gennem NCBI’s internetside.

Genbank sider: Hver kendt DNA-sekvens i Genbank har en tilhørende genbankside, hvor informationer om DNA-sekvensen kan findes.

Gruppering: Den danske betegnlse for det engelske ord clade, der er en fælles betegnelse for alle de organismer (taxa), der har samme stamfader.

Intron: En eller flere dele af en DNA-sekvens, der IKKE er en del af den kodende sekvens, CDS, dvs. introner er dele af en DNA-sekvens, der IKKE indgår i det mRNA, der translateres til protein.

Kvaternærstruktur: I forbindelse med proteinstruktur er dette den færdige form af proteinet. Strukturen består af forskellige subunits, der alle er i deres tertiære form.

Læseramme: Der findes i alt tre forskellige læserammer på hver DNA-streng (i alt seks, hvis man medtager begge DNA-strenge). Da tre nukleotider (en codon) koder for en aminosyre, kan man aflæse en DNA-/RNA-sekvens på tre forskellige måder, da aflæsningen kan starte på tre forskellige positioner. De tre forskellige aflæsninger vil give tre forskellige aminosyresekvenser.

NCBI: Forkortelse for National Center for Biotechnology Information, som er den mest omfangsrige database med biologisk relateret materiale. Den indeholder blandt andet DNA- og proteinsekvenser, forskningsartikler og bioinformatiske værktøjer f.eks. BLAST.

PDB: Forkortelse for Protein Data Bank, som er en database med proteiner, der har en kendt 3D-struktur.

PDB-id: Unikt nummer der tildeles alle strukturer i PDB-databasen.

Primærstruktur: Henviser til aminosyresammensætningen i et protein.

Query sekvens: Betegnelsen for den sekvens man laver en BLAST-søgning med.

Sekundærstruktur: Den måde hvorpå et protein er foldet på (α-helix eller β-plader), og henviser således til proteinstrukturen.

Sekventering: Måden hvorpå nukleotid og aminosyrersammensætningen i DNA- og proteinsekvenser bestemmes.

Sidekæde: Den varierende del på en aminosyre, og dermed den del af molekylet, der gør det specifikt og giver det dets karakteristiske egenskaber.

Stamfader: Den taxon på et fylogenetisk træ, hvorfra to nye taxa udvikler sig. Den “ældre” taxon er dermed stamfader til de to nye.

Startcodon: Specificerer hvor på mRNA-molekylet translationen af mRNA til protein skal starte. Startcodonen er i de fleste tilfælde nukleotid-tripletten ATG.

Stopcodon: Specificerer hvor translationen af mRNA til protein skal stoppe på mRNA-molekylet. Stopcodonen er en af nukleotid-tripletterne UAA, UGA eller UAG.

Søstergrupper: I fylogeni betegner dette to taxa, der begge har samme stamfader.

Taxon: Betegnelse for en spids på et fylogenetisk træ, der repræsenterer en organisme. I flertal betegnes taxon som taxa.

Tertiære struktur: I en proteinstruktur betegner dette den tredimensionelle foldning af proteinet.

Transkription: Den proces, og dermed den del af Det Centrale Dogme, hvor DNA bliver oversat til mRNA.

Transkriptions faktor: Et protein der binder til DNA og påvirker transkriptionen af det. Transkriptionsfaktorer kan opregulere (aktivere) transkriptionen af DNA’et eller de kan mindske transkriptionen (inhibere) af DNA’et.

Translation: Den proces, og dermed den del af Det Centrale Dogme, hvor mRNA aflæses til aminosyrer og dermed oversættes til protein.

Ydergruppe: Betegner den taxon, som er mindst belægtet med alle de andre taxa i det slægtskab, man undersøger. På engelsk kaldes det en outgroup.

Zinkfinger: Betegnelsen for en proteinfoldning hvor fire aminosyrer interagerer med en zinkion for at give stabilitet til proteinets tertiære struktur (dets foldning).

Åben læseramme: Den af de forskellige læserammer, der koder for det funktionelle protein, og dermed den del af DNA-/RNA-sekvensen der er mellem start- og stopcodon. På engelsk kaldes den open reading frame (ORF).

Kildehenvisning:
Dette projekt blev udgivet i december 2011. Det er udarbejdet af Biotech Academy og er blevet opdateret løbende.

Projektet er udarbejdet af Isa Kirk.
Isa begyndte på DTU Systembiologi i 2007, har en bachelor i Bioteknologi og læste kandidat i Engineering of Systems Biology.

Isa Kirk

Institut for Systembiologi har Danmarks største samlede biovidenskabelige og bioteknologiske forskning på universitets-niveau. Blandt de bedste inden for bioinformatik og meget andet.

Institut for Systembiologi

Danske Science Gymnasier er et netværk af almene og tekniske gymnasier, hvis mål bl.a. er at øge interessen for matematik og naturvidenskabelige fag. DASG har været partner på projektet.

Danske Science Gymnasier

Undervisningsministeriet har støttet projektet via Tips- og Lottomidlerne.

Bioinformatik – en introduktion

Teori:

Cases og ordforklaring:

Caseopgaver

Øvelsesoversigt

Denne øvelse arbejder med Virtual Ribosome, UniProt, PDB og Pymol.

Introduktion – Aktin, fra mRNA til tredimensionelt protein

Øvelsesoversigt

Denne øvelse arbejder med UniProt, PDB, Pymol og FigTree.

Introduktion – Myostatins proteininteraktioner og organismers slægtsskab

Øvelsesoversigt

Denne øvelse arbejder med BLAST, PDB og Pymol.

Introduktion – Bioinformatisk analyse af antistoffer

Øvelsesoversigt

Denne øvelse arbejder med BLAST, UniProt, PDB og Pymol.

Introduktion – Identifikation og visualisering af ukendt protein

Ordforklaring

Isa Kirk

Institut for Systembiologi

Danske Science Gymnasier

Undervisningsministeriet