BLAST para proteínas
Vamos fazer a busca no banco de dados usando uma sequência de proteína e queremos buscar a sequência de proteína mais similar, para isso vamos usar o programa blastp.
O tamanho do wordsize padrão no programa blastp é 3 e a matrix de substuição de aminoácidos é a BLOSUM62. Podemos aumentar o tamanho da wordsize se desejarmos fazer uma busca mais sensível, retornando somente sequências com maior similaridade, enquato que as seqûencias que não forem similares a wordsize serão excluidas. Podemos também alterar a matriz de substuição afetando a sensibilidade. Vejam que é importante também deixar o filtro de baixa complexidade ligado para remover regiões de proteínas com repetições para nao termos resultados onde duas proteínas são similares somente na região repetitiva, mas o restante da proteínas sem similaridade.
Outro ponto importante a busca usando o programa blastp é a seleção do banco de dados para realizar a busca. Podemos trabalhar com dois bancos curados com proteínas anotadas que são os RefSeq ou Swissprot.
A busca realizada pelo programa blastp também realiza buscas no Conserved Domain Database (CDD).
Vamos usar uma proteína que não sabemos nada a respeito para fazer a nossa busca.
>protein1
MSQICKRGLLISNRLAPAALRCKSTWFSEVQMGPPDAILGVTEAFKKDTNPKKINLGAGAYRDDNTQPFVLPSVREAEKRVVSRSLDKEYATIIGIPEFYNKAIELALGKGSKRLAAKHNVTAQSISGTGALRIGAAFLAKFWQGNREIYIPSPSWGNHVAIFEHAGLPVNRYRYYDKDTCALDFGGLIEDLKKIPEKSIVLLHACAHNPTGVDPTLEQWREISALVKKRNLYPFIDMAYQGFATGDIDRDAQAVRTFEADGHDFCLAQSFAKNMGLYGERAGAFTVLCSDEEEAARVMSQVKILIRGLYSNPPVHGARIAAEILNNEDLRAQWLKDVKLMADRIIDVRTKLKDNLIKLGSSQNWDHIVNQIGMFCFTGLKPEQVQKLIKDHSVYLTNDGRVSMAGVTSKNVEYLAESIHKVTK
Figura 1. Resultado gráfico da busca blastp.
Figura 2.
Proteína similar: aspartate amino transferases
Domínio presente: AAT_like; AAT_I superfamily; Aminotran_1_2
Número de apresentados Hits: 100
Evalue do hit mais similar: 0.0
Query cover: 94%
Valores de e-value muito baixos junto com cobertura alta provam que as duas sequencias são homologas?
Um sonorico não! O BLAST não mede homologia entre sequências, entretanto podemos inferir que duas sequências são homologas quando apresentarem grande identidade/similaridade quando temos e-value muito baixos junto com cobertura alta.
Figura 3. Alinhamento de um hit do resultado da busca blastp.
Figura 4. Grafico do alinhamento da query com a subject
Agora faça a busca usando o programa blastp usando a sequência abaixo e usando os seguintes parametros:
database: Swissprot
Low complexity regions: ligado
>protein2
MSLTVEIVATKPYEGQKPGTSGLRKKVKVFTQPNYTENFVQAILEANGAALAGSTLVVGGDGRFYCKEAAELIVRLSAANGVSKLLVGQNGILSTPAVSSLIRHNKALGGIVLTASHNPGGPENDFGIKFNCENGGPAPDAFTNHIYKITTEIKEYKLVRNLQIDISKVGVTSFDIAGKPFTVEVIDSVANYVRHMEEIFDFAKLKDFVSGKATGKPLKMRIDAMNGVTGSYVREIFLNRLGATESSVVHTTPLPDFGGLHPDPNLTYAKDLVDTVAQGDYDIGAAFDGDGDRNMIIGSKAFFVTPSDSLAVIAHYLEAIPYFQKNGVQGFARSMPTASAVDLVGRKLGKEVFEVPTGWKYFGNLMDAGRLCLCGEESFGTGSNHIREKDGIWAVLAWISVMQHTGKGIEDILKQHWSVYGRNYFTRYDYEECASDPCNEMVATMEKTITAPEFVGKSYSSGGKTYKVKEADNFSYTDPVDKSVATKQGLRIVFEDGSRIVVRLSGTGSSGATVRLYIDSYEKENVLGQASVMLKPLIDIALEISQLPKFTGRNAPTVIT
Descreva os resultados para a terceira proteína mais similar.
Qual a provável função dessa proteína pesquisada? Quais argumentos você apresenta para justificar a função dessa proteína?
Qual domínio está presente nessa proteína?
Agora vamos usar uma seque6encia curta de aminoácidos.
>pep1
EINSTEIN
Primeiro vamos olhar o “Search Summary”
Figura 5. Parâmetros da busca usando sequência curta de aminoácidos.
Observamos que os parametros foram ajustados e são diferentes dos paramentros o blastp comum.
Obeservem o
Word size
E-value
Matrix
Filtering string
Vejam o resultado do alinhamento.
Figura 6. Alinhamento do melhor hit com a query.
Vejam a quantidade de aminoácidos Identicos/Simimilares.
Podemos atribuir uma função para essa proteína?
Façam a mesma busca usando a sequência abaixo.
>pep2
valentine
Vejam os parametros ajustados no “Search Summary”.
Vejam a pretína mais similar. Qual a sequência mais similar ao seu peptideo query?
>prot_x
MATLEKLMKAFESLKSFQQQQQQQQQQQQQQQQQQQQQPPPPPPPPPPPQLPQPPPQAQP LLPQPQPPPPPPPPPPGPAVAEEPLHRPKKELSATKKDRVNHCLTICENIVAQSVRNSPE FQKLLGIAMELFLLCSDDAESDVRMVADECLNKVIKALMDSNLPRLQLELYKEIKKNGAP RSLRAALWRFAELAHLVRPQKCRPYLVNLLPCLTRTSKRPEESVQETLAAAVPKIMASFG NFANDNEIKVLLKAFIANLKSSSPTIRRTAAGSAVSICQHSRRTQYFYSWLLNVLLGLLV PVEDEHSTLLILGVLLTLRYLVPLLQQQVKDTSLKGSFGVTRKEMEVSPSAEQLVQVYEL TLHHTQHQDHNVVTGALELLQQLFRTPPPELLQTLTAVGGIGQLTAAKEESGGRSRSGSI VELIAGGGSSCSPVLSRKQKGKVLLGEEEALEDDSESRSDVSSSALTASVKDEISGELAA SSGVSTPGSAGHDIITEQPRSQHTLQADSVDLASCDLTSSATDGDEEDILSHSSSQVSAV PSDPAMDLNDGTQASSPISDSSQTTTEGPDSAVTPSDSSEIVLDGTDNQYLGLQIGQPQD EDEEATGILPDEASEAFRNSSMALQQAHLLKNMSHCRQPSDSSVDKFVLRDEATEPGDQE NKPCRIKGDIGQSTDDDSAPLVHCVRLLSASFLLTGGKNVLVPDRDVRVSVKALALSCVG AAVALHPESFFSKLYKVPLDTTEYPEEQYVSDILNYIDHGDPQVRGATAILCGTLICSIL SRSRFHVGDWMGTIRTLTGNTFSLADCIPLLRKTLKDESSVTCKLACTAVRNCVMSLCSS SYSELGLQLIIDVLTLRNSSYWLVRTELLETLAEIDFRLVSFLEAKAENLHRGAHHYTGL LKLQERVLNNVVIHLLGDEDPRVRHVAAASLIRLVPKLFYKCDQGQADPVVAVARDQSSV YLKLLMHETQPPSHFSVSTITRIYRGYNLLPSITDVTMENNLSRVIAAVSHELITSTTRA LTFGCCEALCLLSTAFPVCIWSLGWHCGVPPLSASDESRKSCTVGMATMILTLLSSAWFP LDLSAHQDALILAGNLLAASAPKSLRSSWASEEEANPAATKQEEVWPALGDRALVPMVEQ LFSHLLKVINICAHVLDDVAPGPAIKAALPSLTNPPSLSPIRRKGKEKEPGEQASVPLSP KKGSEASAASRQSDTSGPVTTSKSSSLGSFYHLPSYLKLHDVLKATHANYKVTLDLQNST EKFGGFLRSALDVLSQILELATLQDIGKCVEEILGYLKSCFSREPMMATVCVQQLLKTLF GTNLASQFDGLSSNPSKSQGRAQRLGSSSVRPGLYHYCFMAPYTHFTQALADASLRNMVQ AEQENDTSGWFDVLQKVSTQLKTNLTSVTKNRADKNAIHNHIRLFEPLVIKALKQYTTTT CVQLQKQVLDLLAQLVQLRVNYCLLDSDQVFIGFVLKQFEYIEVGQFRESEAIIPNIFFF LVLLSYERYHSKQIIGIPKIIQLCDGIMASGRKAVTHAIPALQPIVHDLFVLRGTNKADA GKELETQKEVVVSMLLRLIQYHQVLEMFILVLQQCHKENEDKWKRLSRQIADIILPMLAK QQMHIDSHEALGVLNTLFEILAPSSLRPVDMLLRSMFVTPNTMASVSTVQLWISGILAIL RVLISQSTEDIVLSRIQELSFSPYLISCTVINRLRDGDSTSTLEEHSEGKQIKNLPEETF SRFLLQLVGILLEDIVTKQLKVEMSEQQHTFYCQELGTLLMCLIHIFKSGMFRRITAAAT RLFRSDGCGGSFYTLDSLNLRARSMITTHPALVLLWCQILLLVNHTDYRWWAEVQQTPKR HSLSSTKLLSPQMSGEEEDSDLAAKLGMCNREIVRRGALILFCDYVCQNLHDSEHLTWLI VNHIQDLISLSHEPPVQDFISAVHRNSAASGLFIQAIQSRCENLSTPTMLKKTLQCLEGI HLSQSGAVLTLYVDRLLCTPFRVLARMVDILACRRVEMLLAANLQSSMAQLPMEELNRIQ EYLQSSGLAQRHQRLYSLLDRFRLSTMQDSLSPSPPVSSHPLDGDGHVSLETVSPDKDWY VHLVKSQCWTRSDSALLEGAELVNRIPAEDMNAFMMNSEFNLSLLAPCLSLGMSEISGGQ KSALFEAAREVTLARVSGTVQQLPAVHHVFQPELPAEPAAYWSKLNDLFGDAALYQSLPT LARALAQYLVVVSKLPSHLHLPPEKEKDIVKFVVATLEALSWHLIHEQIPLSLDLQAGLD CCCLALQLPGLWSVVSSTEFVTHACSLIYCVHFILEAVAVQPGEQLLSPERRTNTPKAIS EEEEEVDPNTQNPKYITAACEMVAEMVESLQSVLALGHKRNSGVPAFLTPLLRNIIISLA RLPLVNSYTRVPPLVWKLGWSPKPGGDFGTAFPEIPVEFLQEKEVFKEFIYRINTLGWTS RTQFEETWATLLGVLVTQPLVMEQEESPPEEDTERTQINVLAVQAITSLVLSAMTVPVAG NPAVSCLEQQPRNKPLKALDTRFGRKLSIIRGIVEQEIQAMVSKRENIATHHLYQAWDPV PSLSPATTGALISHEKLLLQINPERELGSMSYKLGQVSIHSVWLGNSITPLREEEWDEEE EEEADAPAPSSPPTSPVNSRKHRAGVDIHSCSQFLLELYSRWILPSSSARRTPAILISEV VRSLLVVSDLFTERNQFELMYVTLTELRRVHPSEDEILAQYLVPATCKAAAVLGMDKAVA EPVSRLLESTLRSSHLPSRVGALHGVLYVLECDLLDDTAKQLIPVISDYLLSNLKGIAHC VNIHSQQHVLVMCATAFYLIENYPLDVGPEFSASIIQMCGVMLSGSEESTPSIIYHCALR GLERLLLSEQLSRLDAESLVKLSVDRVNVHSPHRAMAALGLMLTCMYTGKEKVSPGRTSD PNPAAPDSESVIVAMERVSVLFDRIRKGFPCEARVVARILPQFLDDFFPPQDIMNKVIGE FLSNQQPYPQFMATVVYKVFQTLHSTGQSSMVRDWVMLSLSNFTQRAPVAMATWSLSCFF VSASTSPWVAAILPHVISRMGKLEQVDVNLFCLVATDFYRHQIEEELDRRAFQSVLEVVA APGSPYHRLLTCLRNVHKVTTC
>gi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP FLFLIKHNPTNTIVYFGRYWSP