TestprojekterDTU.dkDTU BioIndeksKontakt
Biotech Academy

Basic Local Alignment Search Tool (BLAST)

Gå til BLAST her.

Gå tilbage til program/database oversigt her

 

Basic Local Alignment Search Tool (BLAST) er en metode til at sammenligne DNA- eller proteinsekvenser.

 /upload/institutter/bio/ba/projekter/bioinfo/newblast.png

Figur 1. Illustration på BLAST. Ved at blaste en sekvens mod en database laver man en parvis alignment mellem query-sekvensen og alle andre sekvenser i den pågældende database. Hver alignment får en score og tilslut kan man se om der er nogle sekvenser i databasen der er beslægtede med query-sekvensen.

 

Beskrivelse

BLAST er et værktøj, der bruges til at sammenligne DNA- eller proteinsekvenser.

Når man bruger BLAST, laver man database-søgning, da man undersøger, om der i en database findes DNA- eller proteinsekvenser, der ligner den input-sekvens, man har givet BLAST. Den sekvens, man undersøger, betegnes en query-sekvens (se infoboks 1) og undersøgelse i BLAST betegnes at blaste sekvensen (se infoboks 2). Disse to termer vil være gennemgående i det følgende materiale,  og det er derfor vigtigt at blive bekendt med dem.

BLAST kan bruges til at finde funktionen af forskellige DNA- og proteinsekvenser. Man antager nemlig, at to sekevenser, der ligner hinanden tilstrækkelig meget i aminosyresammensætning, også har den samme funktion.
Overordnet set er BLAST et værktøj, der giver et hurtigt overblik over

  1. hvorvidt en query-sekvens er beslægtet med andre sekvenser i en database.
  2. i hvor høj grad sekvenserne er relaterede.
  3. hvad funktionen af query-sekvensen højst sandsynlig er.

BLAST er opbygget omkring en matematisk model, der sammenligner DNA- eller proteinsekvenser ved brug af parvis alignment. Parvis alignment er en metode til at søge efter lokale ligheder (eng. local alignments, se infoboks 3) mellem query-sekvenser og de DNA- og proteinsekvenser, der findes i de biologiske databaser, man anvender. Et alignment er illustreret i figur 2. Man kan udregne en score for, hvor godt alignmentet er ved at finde de positioner, hvor sekvenserne er henholdsvis forskellige og identiske. På baggrund af scoren kan man konkludere, hvor tæt beslægtede sekvenserne er. Du kan læse mere om alignments her.

 

 /upload/institutter/bio/ba/projekter/bioinfo/sekvens alignment_blast.png

Figur 2. Sammenligning af to proteinsekvenser. Et grønt 1-tal indikerer, at de to aminosyre er identiske, og et rødt 0 indikerer, at de er forskellige. Til at udregne scoren bliver identiske aminosyrer scoret med værdien 1 og to forskellige aminosyrer bliver scoret med værdien -1.

 

BLAST sorterer søgeresultaterne efter, hvor godt de matcher query-sekvensen. Resultatsekvenserne sorteres efter den føromtalte score, hvor en høj score er ensbetydende med et godt match og dermed en indikation af, at de to sekvenser er beslægtede.
 
De sekvenser, der alignes, er ikke altid lige lange. På grund af mutationer i DNA-sekevenserne kan der være fjernet eller indsat nukleotider i sekvensen, hvilket betyder, at der mangler eller er blevet indsat en (eller flere) ekstra aminosyre(r). Der tages højde for mutationer i alignmentet, da man kan indsætte huller (eng. gaps, se infoboks 4) i alignmentet for at få en bedre score og dermed en bedre sammenligning. Figur 3 viser, hvordan indsættelse af huller i query-sekevensen og i den sekevns man sammenligner med? kan forbedre scoren. For at hele alignmentet ikke bliver fyldt med huller, bliver disse scoret med en negativ værdi, som er lavere end den for to forskellige aminosyre, der står over for hinanden. I figur 3 bliver match scoret med 1, et mis-match (to forskellige aminosyrer over for hinanden) bliver scoret med -1, og huller bliver scoret med -2. Du kan læse mere om brugen af huller i sekvenssammenligninger her.

 

 

  /upload/institutter/bio/ba/projekter/bioinfo/sekvens alignment_huller.png

Figur 3. Sammenligning af to proteinsekvenser, hvor der er indsat huller. Et grønt 1 indikerer, at de to aminosyrer er identiske, og et rødt 0 indikerer, at de er forskellige. Til at udregne scoren bliver identiske aminosyrer scoret med  1, to forskellige aminosyrer bliver scoret -1, og et hul bliver scoret med -2. Gennem alignmentet kan det ses, at sekvenserne er mere beslægtede end først antaget.

 

Hvis der sammenlignes med alignmentet fra figur 2, er det tydligt, at sekvenserne matcher bedre efter, at der er indsat huller i begge sekvenser.


Når man laver en BLAST, undersøger man om en query-sekvens er beslægtet med andre DNA- eller proteinsekevenser i en database. Når man skal analysere resultaterne fundet gennem BLAST, er det derfor vigtigt at være kritisk, da man vil finde beslægtede sekvenser. I teorien kan ALLE sekvenser nemlig alignes, men blot fordi de kan det eller får en høj score, er det ikke nødvendigvis ensbetydende med, at resultatsekvensen er beslægtet med query-sekvensen.
I BLAST resultatet er der inkluderet metoder, der undersøger om sekvenserne i alignmentet kan karakteriseres som værende beslægtet. Dette gøres blandt andet ved at finde resultatsekvensernes query-dækning og e-værdi. Nedenfor gennemgås de tre forskellige værdier, som der er vigtige at kigge på, når man fortolker et BLAST resultat.  

  • Query dækning (eng. query coverage) angiver, hvor mange procent af den pågældende resultatsekvens der er med i det parvise alignement, den danner med query-sekvensen. Hvis query dækningen er høj indikerer det, at en stor andel af resultatsekvensen matcher query-sekvensen. Det skal dog påpeges, at dækningsgraden ikke fortæller om der er eventuelle huller i alignmentet (se infoboks 4) eller om alle aminosyrerne er identiske. Desuden kan den procentuelle dækning være misvisende, da en query-sekvens kan være en lille del af en større sekvens og den procentuelle dækning vil således ende med at være lille, da den kun angiver den del af resultatsekvensen, der indgår i det parvise alignment med query-sekvvensen.

  • Max scoren er den score, som hver resultatsekvens får på baggrund af matchet med query-sekvensen. Max scoren udregnes gennem den før omtalte matematiske model og tager ikke højde for om sekvenserne egentlig er identiske. Query-sekvensen bliver nemlig sammenlignet med ALLE sekvenser i den pågældende database, og hver sammenligning vil få tildelt en score. I et generelt BLAST-output er det resultatsekvenserne med de højeste scorer, der bliver vist først (desto højere score, desto bedre match), men som nævnt er en høj score ikke ensbetydende med et identisk match. Grunden er, at sekvenser rent tilfældigt kan matche en query-sekvens uden egentlig at være beslægtet med den. Et mål for tilfædigheden er e-værdien, hvilke beskrives nedenfor.

  • E-værdien (eng. e-value eller expected valuee ) angiver den forventede (tilfældige) tilstedeværelse af en resultatsekvens i den database man søgte imod. Grunden til, at man bruger e-værdier, er, at man af tilfædlige årsager kan finde højt scorende resultatsekvenser i en stor database. E-værdien for en given sekvens angiver,  hvor mange resultater med den samme? høje score man ville kunne forvente at få af tilfældige årsager. 

Input:  En query-sekvens (DNA- eller proteinsekvens). 
Output:  Liste over resultatsekvenser der matcher query-sekvensen.

 

Generel guide

Når man skal foretage en BLAST skal følgende punkter gennemgåes:

  1. Valg af den organisme og/eller database man vil søge mod.
  2. Valg af BLAST typen.
  3. Indtastening af sekvens eller upload fil med sekvens.
  4. Påbegyndelse af BLAST
  5. Fortolkning af resultatet

De 5 punkter vil blive gennemgået nedenfor.

 

Punkt 1+2

På startsiden for BLAST, se figur 4, kan man vælge hvilken organisme man ønsker at blaste query-sekvensen mod. Man vælger organismen under BLAST Assembled RefSeq Genomes. Hvis der ikke er noget specifikt ønske om organisme, kan man blaste mod alle sekvenser i databasen ved at vælge Basic BLAST. Det skal påpeges, at typen af BLAST (BLAST mod DNA- eller proteinsekvenser) også kan vælges, når man har indtastet sin query-sekvens, se figur 5

 

/upload/institutter/bio/ba/projekter/blast_startpage.png

 Figur 4. BLAST start side, klik for at se figuren i stor format.

 

/upload/institutter/bio/ba/projekter/bioinfo/blast_begin.png

Figur 5. BLAST søge side. Klik for at se figuren i stor format.

 

Punkt

Afhængig af den query-sekvens man ønsker at blaste, og om man vil finde lignende DNA- eller proteinsekvenser, skal BLASTen specificeres. Dette gøres ved at vælge, hvilken type BLAST man vil foretage. Der findes følgende former:

  • BLASTn:   man har en nukleotidsekvens og søger i nukleotiddatabaser.
  • BLASTp:   man har en proteinsekvens og søger i proteindatabaser.
  • BLASTx:   man har en nukleotidsekvens og søger i proteindatabaser.
  • tBLASTn:  man har en proteinsekvens og søger i nukleotiddatabaser.
  • tBLASTx:  man har en nukleotidsekvens og søger i nukleotiddatabaser (denne er mere omfattende end BLASTn).

De typer af BLAST, der er mest benyttede, er BLASTn og BLASTp. I øvelserne, der omhandler BLAST, arbejdes der med BLASTp.

 

I figur 5 kan søgesiden for BLAST ses. Den øverste markering viser felterne, der specificerer hvilken type BLAST, man vil lave, og den midterste markering viser, hvor man kan vælge, hvilken database man vil blaste imod. De mest benyttede databaser er dem, der indeholder flest sekvenser. Disse er følgende:

  • nucleotide collection nr/nt for BLASTn, tBLASTn og tBLASTx .
  • non-redundant protein sequences for BLASTp og BLASTx.  

Man kan begrænse sin søgning ved at vælge databaser, der indeholder et begrænset antal sekvenser. Eksempelvis benyttes databasen Protein Data Bank (PDB, læs mere her), hvis man kun ønsker resultater, hvor proteinet har en kendt tredimensionel struktur.

 

Punkt 4

Den nederste markering i figur 5 viser, hvor man starter sin BLAST.

 

Punkt 5

Outputtet af en BLAST er opdelt i tre dele; Graphic Summary, Descriptions og Alignments. De to første dele kan ses i figur 6 og den sidste i figur 7. De vigtigste områder er forklaret på illustrationen og vil blive gennemgået nedenfor.

 

/upload/institutter/bio/ba/projekter/bioinfo/blast_output_i.png

 Figur 6. Den øverste del af BLAST outputtet. Klik for at se figuren i stor format.

 

  • Graphic Summary 
    Øverst kan man se hele query-sekvensen og dens længde i aminosyrer (AA) (sekvensen i figur 4 er 136 AA lang).
    Under query-sekvensen findes området med superfamilier (eng. superfamilies, se infoboks 5). Her angives, hvor på query-sekvensen der er konserverede domæner (se infoboks 6), og om disse tilhører en bestemt superfamilie af proteiner. Du kan læse om konserverede domæner her
    I den næste del af Graphic Summary kan man se, hvilke områder af resultatsekvenserne der match query-sekvensen, samt hvor de matchende områder er. Hver linje er en resultatsekvens, og de er listet i den rækkefølge, som sekvenserne også er listet i i Descriptions. Farverne for hver resultatsekvens (sort, blå, grøn, lilla og rød) indikerer, hvad max-scoren for resultatsekvensen er, og længden af linjerne indikerer, hvilke områder i query- og resultatsekvensen der er identiske. 
  • Descriptions 
    Her er de bedste resultatsekvenser vist med accession nummer, beskrivelse af proteinfunktion, hvor det stammer fra, max score, total score, procent lighed, e-værdi og links til databaser hvor sekvensen kan findes.
    Ved at trykke på accession nummeret kan man komme til proteinets GenBank-side, hvor man kan finde flere informationer omkring proteinet (se infoboks 7 for information og se opbygningen af en GenBank-side her).
    De vigtigste informationer omkring resultatsekvensen og matchet med query-sekvensen kan findes ved at se på e-værdien, max scoren og procent ligheden, da disse tre beskriver hvor identisk resultatsekvenserne er med query-sekvensen.
    En resultatsekvens kan antages at være et korrekt match til query-sekvensen, hvis e-værdien er under 10ˆ-4 - 10ˆ-5 (desto lavere, desto bedre).

 

/upload/institutter/bio/ba/projekter/bioinfo/blast_output_ii.png

Figur 7. Den nederste del af BLAST outputtet. Klik for at se figuren i stor format.

 

  • Alignments 
    Her vises sekvenssammenligningen mellem de enkelte resultatsekvenser og query-sekvensen.
    I hver sekvenssammenligning vises, hvilke steder sekvenserne er både identiske og forskellige. Den midterste sekvens på figur 7 er sammenligningen, hvor en aminosyre indikerer at aminosyreren på den position er identiske, et "+" indikerer at aminosyrerne minder om hinanden mht. fysiske og kemiske egenskaber, f.eks. hvis de begge har sidekæder med carboxylsyrer, og et mellemrum indikerer, at sekvenserne er vidt forskellige på den position.
    Det anbefales altid at kigge på sekvenssammeligningerne, da man således kan se, hvor sekvenserne er identiske. En resultatsekvens kan endvidere undersøges nærmere ved at trykke på accession nummeret, hvilket vil føre til dens beskrivelse på NCBI. 

På baggrund af viden omkring en god e-værdi samt sammenligning af max score og procentuel lighed, kan det bestemmes hvilken/hvilke resultatsekvense(r), der matcher query-sekvensen bedst. Hvis man opnår resultater med en e-værdi, der er laver en grænseværdien på 10ˆ-4 - 10ˆ-5 kan man konkludere, at query-sekvensen har samme funktion som resultatsekvensen med den lave e-værdi. Alle resultatsekvenser vil altid kunne undersøges nærmere ved at trykke på det tilhørende accession nummer, hvorved man kan gå til dens GenBank- eller NCBI-side. 

 

I øvelse 3. Bioinformatisk analyse af antistoffer (3.A) og øvelse 4. Identifikation og visualisering af ukendt protein (4.A) arbejder man med brugen af BLAST.

 

 

Sidst opdateret 04.05.2012
Top

 

 

 

   

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Infoboks 1

 

En query sekvens er betegnelsen for den DNA- eller proteinsekvens man laver en BLAST-søgning på. 

 

Infoboks 2

 

At lave en BLAST undersøgelse på en given DNA- eller proteinsekvens betegnes at blaste sekvensen. 

 

Infoboks 3

 

Når man lave et alignment vil det sige, at man sammenligner DNA- eller proteinsekvener for at undersøge, om der er steder på sekvensen, hvor de er ens. Hvis sekvenserne er ens, kan det antages, at proteinerne har samme funktion. 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Infoboks 4

 

Huller(gaps) kan observeres i sekvenssammenligninger, og er er de steder, hvor en deletion eller insertion har fundet sted i en af sekvenserne. En deletion er ensbetydende, med at en eller flere nukleotider eller aminosyrer er blevet slettet. Huller kan ses som "-" i den sekvens, der mangler de pågældende nukleotider/aminosyrer.  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  

 

 

 

Infoboks 5

 

En superfamilie er den overordende betegnelse for protienfamilier, der er grupper af proteiner, der nedstammer fra en fælles stamfader, og som typisk har ens tredimensionel struktur.

    

Infoboks 6

 

Konserverede domæner er specifkke områder af en eller flere aminosyrers længde i et protein, som IKKE er muteret mellem forskellige organismer. Konserverede domæner er ofte det sted på proteinet, der koder for den biologiske funktion, som proteinet har. Hvis to proteiner har de samme konserverede domæner, kan det antages at, de udfører samme funktion og dermed er beslægtede. Klik her for et eksempel på konserverede domæner.

  

Infoboks 7

 

Genbank er hoved databasen for DNA sekvenser, og indeholder dermed flest sekvenser. En sekvens genbank side er en internet side i Genbank der indeholder informationer om netop den DNA-sekvens. 

Søltofts PladsBygning 2212800 Kongens LyngbyTlf. 4525 4933