TestprojekterDTU.dkDTU BioIndeksKontakt
Biotech Academy

4. Identifikation og visualisering af ukendt protein

Introduktion 

En forsker har fået en prøve fra et får, der er blevet syg efter at have spist en ukendt sammensætning af affald. Det er nu forskerens opgave at finde årsagen til fårets sygdom,hvilket bl.a. indebærer at . karakterisere mulige proteiner i prøven, der normalt ikke vil være til stede i et raskt får.
Forskeren har fundet en samlet DNA-sekvens, der koder for to proteiner, der ikke findes i raske får, og han skal nu finde ud af, hvad de to proteinsekvenser hver især koder for, og hvorvidt de eventuelt skulle stamme fra andre organismer. 
I den følgende øvelse skal du hjælpe forskeren med at bestemme funktion, struktur og oprindelse af de to proteinsekvenser. 

 

/upload/institutter/bio/ba/projekter/bioinfo/newdrawing.png
 

Øvelses oversigt 

Øvelse 4 er opbygget af fire deløvelser (A-D). Nedenfor kan du se en grafisk oversigt over de forskellige deløvelser i øvelse 4.  

  

/upload/institutter/bio/ba/projekter/bioinfo/├ÿ4_workflow.png

 

4.A BLAST

Formålet med øvelsen er at blive bekendt med BLAST og at kunne benytte denne metode til at bestemme en ukendt proteinsekvens, samt bestemme hvilken organisme sekevensen stammer fra.

 

a)

Hent den ukendte skevens her. Marker og kopier sekvensen og gå derefter til BLAST siden. Benyt nu funktionen protein BLAST (BLASTp) til at bestemme, hvilke proteiner der ikke findes i raske dyr. Da både organisme og funktion er ukendt, anbefales det at lave en bred BLAST, dvs. mod alle genomer og mod standard databasen for BLAST (dette kaldes non-redundant protein sequences). Du skal derfor ikke ændre noget i opsætningen, men blot kopiere sekvensen ind og starte BLAST søgningen.

Benyt den generelle guide for BLAST som hjælp til udførelsen samt til fortolkning af outputtet.

  1. Hvilke to superfamilier tilhører proteinsekvensen (se infoboks 1)?
    Er der tale om, at den tilhører én eller flere superfamilier?
  2. Hvor lange (ca.) er de to proteiner?
    NB! Tjek dette under Superfamilies i Graphic Summary domænet, se mere her
  3. Vil du på baggrund af e-værdien (som skal være så lav som mulig) og sekvensdækningen (eng. query coverage, skal være så høj som muligt) antage, at BLAST har fundet de korrekte proteiner, der normalt ikke er til stede i raske dyr? Argumentér for din konklusion.
    NB! Se under Descriptions afsnittet. De to nederste resultatsekvenser matcher det protein, der er kodet i første del af proteinsekvensen. Resten af resultatsekvenserne giver information om proteinet, der er kodet i den sidste del af proteinsekvensen.  

Ved at blaste aminosyresekvensen har du undersøgt alle protein databaser for at finde ud af, om de indeholder en proteinsekvens, der er identiske med den ukendte sekvens (OBS: en aminosyresekvens er det samme som en proteinsekvens). Bestemmelse af hvilken superfamilie, som sekvensen tilhører giver en indikation af funktionen af det ukendte protein. Faktisk fandt du ud af, at sekvensen tilhørte to superfamilier, dvs. at den faktisk koder for to forskellige proteiner. Ved at se på e-værdien og sekvensdækningen kunne du desuden  bestemme om BLAST fandt proteinsekvenser, der er identisk med den ukendte sekvens.

Du skal nu videre til databasen UniProt, hvor du kan undersøge de proteinsekvenser, som blev fundet gennem BLAST. 

 

 

4.B UniProt

Formålet med denne øvelse er at lære at søge efter og gøre sig bekendt med proteiner ud fra den information, der er tilgængelig gennem UniProt. Dette gøres ved at benytte almene fritekstsøgekriterier eller accessionnumre (se infoboks 2) og derefter undersøge UniProt-siderne for de proteiner, der findes.  

 

a)

I øvelse 4.A analyserede du en ukendt proteinsekvens gennem BLAST, og du fandt to proteiner som matchede den ukendte sekvens: GFP og P53.
Benyt ny UniProt til at tilegne dig information omkring disse to protein. Du kan bruge den generelle guide til søgning i UniProt som hjælp.

Søg først på Green Flourescent Protein (GFP er en forkortelse for dette) og tryk på det første resultat's accessionnummer. Dermed kommer du ind på proteinets UniProt-side. Besvar nu følgende spørgsmål, her kan svarene til de 3 første spørgsmål findes øverst på UniProt-siden:

  1. Hvad er accession nummeret for det protein, du undersøger?

  2. Hvad er gennavnet, og hvilken organisme kommer dette GFP fra?

  3. Hvor lang er sekvensen i aminosyrer (fork. AA)?

  4. Under sektionen General annotation (Comments) kan man læse, at proteinet udsender grønt lys ved hjælp af energioverførsel.
    Hvordan tror du, at man kan udnytte denne evne i et biologisk regi, når man f.eks. laver gensplejsning og dermed mutanter?

  5. Læs afsnittet Biotechnological use, stemmer dette overens med dit svar fra spørgsmål 4?

b)

Gå tilbage til søgesiden i UniProt. Søg nu på P53 og tryk ligesom før på det første resultat's accessionnummer, så du kommer ind på proteinets UniProt-side. Besvar følgende sørgsmål:

  1. Hvad er accession nummeret for det protein, du undersøger?
  2. Hvad er gennavnet, og hvilken organisme kommer dette P53 fra?
  3. Hvor lang sekvensen i aminosyrer (fork. AA)?
  4. Hvad er proteinets funktion?
    NB! Se under sektionen General annotation (Comments).
  5. Hvilke sygdomme tror du, at P53 kan være forbundet med?

4.C PDB

Formålet med denne øvelse er, at lære at finde relevant information om et protein gennem dets PDB-side, så de rette dele kan visualiseres  i PyMol.

 

a)

Gå til Protein Databank (PDB) databasen og søg efter siden med PDB id 3Q05 (se infoboks 3). Se eventuelt den generelle guide til PDB for brug.

  1. Hvilke molekyler kan man se i PDB komplekset?
  2. Hvor mange kæder (subunits) indeholder id’et, og hvor mange af disse er identiske? Hvad er navnet på kæderne (A, B, C osv.), hvilke proteiner/molekyler er de forskellige kæder (f.eks. kæde A er P53, kæde B er DNA etc.)? 
    NB! Dette kan findes under Sequence fanen, se en oversigt over siden her.
  3. Hvor mange aminosyrer indeholder hver af de kæder, der koder for P53? Stemmer dette overens med længden af de færdige proteiner, som du fandt i 4.B.8 (393AA)?
  4. En metal ion, nærmere betegnet en zink ion, er bundet til P53 proteinet.
    Ved hvilke fire positioner og aminosyrer er dette bundet?

En zink ion, der erbundet til et protein, betegnes også en zink finger (eng. zinc finger, se infoboks 4). Man kan finde zink fingre i en række DNA-bindende-proteiner, da zink ionen er med til at stabilisere interaktionen mellem DNA og protein.

Viden omkring hvilke kæder PDB id’et indeholder, hvad disse koder for og hvilke dele af selve aminosyresekvensen id’et reelt set indeholder, kan benyttes i PyMol. Kendskabet kan anvendes til at undersøge proteinerne tredimensionelt, markere kæderne, markere interessante aminosyrer eller observere interaktioner når id’et indeholder mere end et protein.


 

4.D PyMol

Formålet med øvelsen er at lære at benytte PyMol til 3D visualisering af proteiner samt markere relevante kæder og dermed præsentere proteiner på en overskuelig måde.

 

a)

Åben PyMol og hent P53 i DNA interaktion med PDB id 3Q05. Benyt herefter den generelle guide til PyMol og kommandosiden for at lære PyMol  og relevante kommandoer at kende, så du kan gøre følgende:

  1. Vis alle molekylerne i tegningsstruktur.
    NB! Det anbefales først at gemme (hide) alting og derefter benytte vis (show)
  2. Farv de seks forskellige kæder hver deres farve (kæde A, B, C og D én nuance fx rødlige, lad DNA strengene (kæde K og L) være som den er).
  3. Visualiser zink finger domænerne på hver af de fire kæder (A, B, C og D), således vil du tydeligt kunne se, at der er plads til en ion. De skal vises med både sidekæde, separat farve og aminosyremærkat. Hvis øvelse 4.c ikke er lavet, er disse position 176, 179, 248 og 242. 
    NB! Vælg først aminosyrerne, vis sidekæder, farv dem og sæt et mærkat på, herefter kan der zoomes ind på interaktionen.
  4. Hvor på proteinet er zink fingeren (ydersiden, indersiden, tæt på DNA-strengen)? Er dette hvad du ville forvente når du ved, at zink fingeren er med til at stabilisere protein-DNA interaktionen?
  5. Udforsk selv PyMol og de forskellige måder, som molekylerne kan fremstilles på. Eksempelvis kan baggrundsfarven ændres, skyggerne kan justeres, måderne den sekundære struktur bliver vist kan ændres og meget andet. 
Sidst opdateret 03.05.2012
Top

 

 

 

 

 

 

  

 

 

 

 

 

 

 

 

  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Infoboks 1

 

En superfamilie er den overordende betegnelse for protienfamilier, der er grupper af proteiner, der nedstammer fra en fælles stamfader, og som typisk har ens tredimensionel struktur.
Superfamilier kan videre indeles i familier og sub-grupper, hvor proteinerne i disse grupper er endnu tættere beslægtet.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Infoboks 2

 

Et accession nummer er et unikt nummer, der gives til DNA- eller proteinsekvenser, så disse kan findes på tværs af databaser. Dette betyder, at den samme sekvens i UniProt og NCBI vil have samme unikke nummer tilknyttet, så man ved at søge på det vil få samme resultat i begge databaser.  

 

 

 

 

 

 

 

 

 

 

  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Infoboks 3

 

Et PDB id er et unikt nummer alle strukturer i PDB får tildelt. PDB id'et består af fire karakterer, hvilke oftest er et bogstav efter fulgt af tre tal, f.eks. 1JKL. 

 

 

 

 

 

 

 

 

 

 

 

 

 

Infoboks 4

 

En zink finger er en proteinfoldning, hvor fire aminosyre interagerer med en zink ion for at give stabilitet til proteinets tertiære struktur (dets foldning). Zink fingre findes ofte i proteiner der binder til DNA molekyler, da DNA er negativt ladet og den positive zink ion vil dermed give stabilitet til DNA-protein komplekset.     

 

Søltofts PladsBygning 2212800 Kongens LyngbyTlf. 4525 4933