El teu blog de Linux en català

ExPASy és el Sistema Expert d’Anàlisi de Proteïnes (Expert Protein Analysis System). ExPASy és el servidor de proteòmica de l’Institut Suís de Bioinformàtica que analitza seqüències i estructures de proteïnes. El servidor consta bàsicament de quatre seccions: eines i programari per treballar amb proteïnes, bases de dades, educació i serveis, i documentació.

Potser la característica més important que ens ofereix ExPASy són les seves eines de treball sobre qualsevol aspecte de les proteïnes. Aquest servidor web és un referent en el món de les proteïnes.

http://www.expasy.ch/people/personal/nguex/c24_700x875.jpeg

Si accedim a la secció d’eines veurem la dimensió del projecte. En aquesta secció hi ha classificades totes les eines que es poden utilitzar lliurement. Podem identificar i caracteritzar una proteïna seguint diferents models, podem obtenir la proteïna resultant d’una seqüència de ADN, podem fer cerques per alineament, cerques per perfil i patró, predicció de modificacions post-traduccionals i predicció de la topologia de les proteïnes.

A més a més, podem fer anàlisis sobre els diversos nivells estructurals de les proteïnes: anàlisi d’estructura primària, predicció d’estructura secundària, anàlisi i predicció d’estructura terciària, anàlisi d’estructura quaternària i visualització de proteïnes.

Però la llarga llista d’eines no s’acaba aquí perquè encara podem trobar més eines per fer alineaments de seqüències simples i múltiples, anàlisis filogenètics i anàlisi de característiques molt precises de les proteïnes.

Secció d'eines per treballar sobre proteïnes que trobem a ExPASy

Secció d'eines a ExPASy, on es pot treballar sobre qualsevol aspecte de les proteïnes

La secció de bases de dades ens permet accedir a una gran quantitat de bases de dades de seqüències de proteïnes com UniProt Knowledgebase (Swiss-Prot i Trmbl) i Enzime, un repositori d’informació relativa a la nomenclatura d’enzims, que descriu cada tipus d’enzim caracteritzat per el que s’ha assignat un número EC (Enzyme Commission). També trobem altres bases de dades com ProSite, Swiss-2DPAGE, Swiss-Model Repository, ViralZone i altres. Els servidors web sempre trobem molta informació en bases de dades que estàn interconnectades, cosa que permet globalitzar la informació i tenir-ne un ràpid i fàcil accés. També és important remarcar que el servidor funciona en col·laboració amb l’Institut Europeu de Bioinformàtica des de l’1 d’agost de 1993.

En la secció d’educació i serveis hi podem trobar diverses eines d’obtenció de seqüències, divulgació de ciència popular, un portal d’aprenentatge de bioinformàtica i proteòmica (e-Proxemis) i fins i tot un joc, Swiss-Quiz. Per últim, en la secció de doumentació trobem una gran quantitat de documents on hi trobem informació de caracter general, sobre nomenclatura i sobre característiques específiques d’algunes espècies.

Jmol és una miniaplicació que ens permet visualitzar models i estructures  moleculars en pàgines web, a partir d’arxius de coordenades moleculars inclosos en aquestes mateixes pàgines. El gran avantage de Jmol és que no cal instal·lar-lo a l’ordinador (només cal tenir instal·lat Java), ja que les pàgines web on hi ha emmagatzemades les estructures de proteïnes ja l’acostumen a portar incorporat.

El programa ens permet visualitzar i explorar proteïnes interactivament. Ens mostra la proteïna que nosaltres vulguem en tres dimensions, i ens permet fer-la girar i poder-la veure des de totes les perspectives possibles.http://scripts.iucr.org/java/jmol-11.2.0/src/org/openscience/jmol/images/Jmol_logo.jpg

Hi ha tres maneres diferents de controlar el programa. Amb el ratolí, on només hi trobarem les opcions més bàsiques com ara canviar l’angle de visió, fer el zoom i determinar les posicions dels àtoms que formen part de la proteïna. Amb un menú desplegable, on hi trobarem la gran majoria de les possibilitats que ens ofereix el programa. I finalment amb una consola, on podrem escriure les comandes que siguin del nostre interès seguint el mateix llenguatge que s’utilitza en el programa RasMol.

El menú desplegable és molt complet i és la principal eina que es fa servir. Des d’aquest menú podem dur a terme moltes accions. Per començar, hi podem llegir una breu descripció de la proteïna. Després, hi trobem les opcions d’Estil (on hi podem escollir la manera de representar la proteïna), de Color (es poden remarcar diverses estructures segons el color), de Superfícies (es poden visualitzar àtoms i enllaços que actuen sobre la superfície de la proteïna), d’Animació (permet veure els moviments que fa la proteïna quan es mostra activa) i de Mesures (es poden calcular distàncies entre dos punts de la proteïna).

Visualització de l'estructura de la proteïna insulina a través de Jmol

Visualització de l'estructura de la proteïna insulina a través de Jmol

Per altra banda, en el menú desplegable també trobem altres opcions com són la de carregar arxius, desar imatges, canviar la llengua, obrir la consola, posar eixos en la imatge i moltes altres. Un altre avantatge que ens ofereix aquest programa és que està traduït al català.

Per tal que pugueu manejar en primera persona el programa, us presento la entrada de la famosa proteïna insulina a la Base de Dades de Proteïnes. Si cliqueu a l’enllaç, entrareu directament a la pàgina de la insulina on hi ha Jmol, i hi  podreu visualitzar la proteïna i observar totes les prestacions que el programa ens ofereix.

Si us ha agradat el programa, en podeu obtenir més informació a la Wiki del projecte. En aquest enllaç trobareu una guia que ensenyar a fer servir el programa d’una manera fàcil i didàctica. I ja per acabar, en aquest altre link trobareu un llistat de les pàgines web que utilitzen aquesta miniaplicació.

Jmol és de lliure distribució i codi obert. Es troba sota llicència GNU-LGPL. Jmol corre amb diversos sistemes operatius i en qualsevol navegador que reconeixi Java.

RasMol és un programa d’ordinador escrit per poder visualitzar i explorar estructures macromoleculars biològiques, tals com les proteïnes que trobem a la Base de Dades de Proteïnes (Protein Data Bank, PDB).

Bàsicament, el procés per poder representar una proteïna s’inicia amb la descàrrega del seu fitxer PDB. Una vegada ja tenim el fitxer, el podem obrir des del programa RasMol. Aquest programa té principalment dos menús desplegables importants. El primer (Display) fa referència a la manera de Visualitzar la proteïna. Des d’aquest menú podem seleccionar diverses opcions, com són l’esquelet de la proteïna, l’espai ocupat pels àtoms, el dibuix de l’estructura secundària i la superfície molecular, entre d’altres. El segon (Colours) ens permet triar els colors que vulguem per representar diverses característiques de la molècula. Podem acolorir-la segons la temperatura, l’estructura secundària, tota d’un sol color, per dominis, etc.

Visualització de la superfície molecular d'una proteïna amb RasMol

Un cop ja tenim la proteïna representada segons el nostre interès, podem fer-la girar i visualitzar-la des de diferents angles per tal de veure’n les característiques estructurals des de tots els punts de vista.

Per últim, RasMol inclou un llenguatge propi que permet escollir múltiples opcions de representació. Es poden seleccionar certes cadenes proteiques, es poden canviar els colors, i es poden fer zooms sobre punts concrets. Hi ha una llista molt llarga de comandes, que podeu trobar en el manual de RasMol.

Actualment, us podeu instal·lar directament la versió 2.7.4.2 des del Gestor de Paquets Synaptic, o bé podeu executar la següent ordre a la terminal:

sudo apt-get install rasmol

Si voleu provar de visualtizar una proteïna de la mateixa manera que ho faria un investigador científic, ara és el moment! Ara que ja teniu el programa instal·lat, només us heu de baixar un fitxer PDB, com per exemple el de la mioglobina. Podeu accedir a la entrada de la mioglobina (per tenir informació de la proteïna escrita a la Base de Dades de Proteïnes) i al fixer PDB de la mioglobina (que us haureu de desacarregar). Un cop descarregat el fitxer PDB de la mioglobina, entreu al programa, obriu el fitxer de la proteïna i ja la podreu visualitzar. Podeu donar un cop d’ull als menús que he explicat abans i anar jugant amb les diverses opcions que ens ofereix. Una combinació molt bonica és la de Cartoon (dins del desplegable Display) i acolorir-la amb Temperature o Structure (dins del desplegable Colours). Espero que us agradi aquesta petita aventura dins del món de les proteïnes!

Representació tridimensional de la mioglobina amb el programa RasMol

Representació tridimensional de la mioglobina amb el programa RasMol

Aquest programa va ser originalment desenvolupat per Roger Sayle. Històricament, va ser una eina important per als biòlegs moleculars ja que el programa, extremament optimitzat, permetia a l’usuari fer-lo córrer en ordinadors personals modestos. Abans, els programes visualitzadors de macromolècules només funcionaven en estacions gràfiques de treball, en les quals els estudiants tenien difícil accés. RasMol ha esdevingut una eina educacional i de recerca important en el camp de biologia estructural.

RasMol és un programa multiplataforma i sota llicència GNU General Public License . Aquest fet encara el fa ser més especial, ja que altres programes de representació d’estructures tridimensionals de proteïnes no tenen una llicència oberta (encara que siguin gratuïts).

El conjunt de programes Staden Package és un grup d’eines de bioinformàtica de programari lliure que serveixen per treballar sobre el muntatge de seqüències de ADN, editar-les i analitzar-les. Staden Package està format per quatre programes diferents entre sí. Els seus components són: trev, pregap4, gap4 i spin. Avui explicarem concretament els dos primers programes, deixant per una altre dia els dos darrers.

El fet de poder conèixer quin és l’ordre dels nuclèotids (subunitats de ADN, representades per les lletres A, T, C i G) dins del genoma humà és molt important. De fet, l’objectiu final del Projecte Genoma Humà consistia en trobar quin era l’ordre dels nucleòtids que formen el material genètic de l’home. El procés de buscar aquest ordre al complet i traduir-lo en una successió de lletres s’anomena seqüenciar el genoma.

Actualment, el mètode de seqüenciació més utilitzat és el Métode de Finalització de Cadena, en el qual mitjançant uns marcadors específics de radioactivitat o fluorescència es pot arribar a obtenir un gràfic anomenat cromatograma, que ens dóna informació més o menys exacta de quin és l’ordre dels nucleòtids en el genoma humà. Aquest gràfic consta de diverses línes en les quals cada color representa un tipus de nucleòtid. Els punts on la línia té més alçada (els pics) indiquen que en aquella posició hi ha aquell mateix tipus de nucleòtid. Si es van llegint tots aquests pics, un a un, es pot arribar a obtenir tota la seqüència ordenada de nucleòtids.

File:Mutation Surveyor Trace.jpg

Cromatograma on s'aprecia l'ordre (d'equerra a dreta) dels nucleòtids a dalt de cada pic.

El problema més gran que hi ha és que el genoma humà té aproximadament 3000 milions de nucleòtids. Per tant, necessitem programes informàtics que siguin capaços d’interpretar els cromatogrames i de construir ells sols les seqüències de lletres que representen el genoma humà, ja que realitzar aquesta tasca manualment és del tot impossible. Un altre problema rau en el fet que els cromatogrames poden contenir com a màxim la informació sobre 700 nucleòtids, perquè si n’augmentem el número disminueix molt la fiabilitat i la qualitat de l’experiment. Per tant, la seqüenciació del genoma humà s’ha d’anar fent de cromatograma en cormatograma (de 700 en 700) fins arribar a la totalitat del genoma (3000 milions). Per poder fer aquestes particions, cal identificar en quin lloc comença el tros de seqüència que estem analitzant i en quin lloc acaba. Amb l’objectiu de solucionar aquests problemes us presentem els dos programes següents.

Trev es pot resumir com un visualitzador i editor de cromatogrames, és a dir, un programa que desenvolupa una interfase per a l’ensamblatge del ADN. Trev és una eina que serveix per processar fitxers resultants de cromatografies de seqüenciació (com els que són produïts per instruments ABI). El programa carrega en memòria el gràfic que se li ordena, i ens mostra com a sortida la seqüència de nucleòtids corresponent. A més, aquest programa ens assessora de la fiabilitat que té l’experiment de seqüènciació mitjançant un análisi de qualitat, a través de la puntuació qualitativa Phred. El problema de Trev és que no ens marca per defecte l’inici i el final de la seqüencia, de manera que ho haurem de fer manualment.

[picture]

Pregap4 ens permet fer un examen més complet dels cromatogrames. Aquest programa té les mateixes prestacions bàsiques que el programa Trev, però a més a més, Pregap4 ens ajuda a fer la identificació de vectors (trossos de seqüencia que s’han d’eliminar ja que ens aporten informació redundant i externa al genoma humà) i la  detecció de contaminació i repeticions errònies. Però el més important és que és un programa que ens prepara de manera automàtica les seqüències de ADN a partir del gràfic, i que determina el lloc de tall inicial i final de les seqüències mitjançant l’análisi qualitatiu.

http://staden.sourceforge.net/manual/pregap4_config.unix.gif

El conjunt de programes Staden va ser desenvolupat pel grup de Roger Staden a la MRC-LMB de Cambridge a Anglaterra des de 1977. En un principi, el Staden Package era disponible gratuïtament pels estudiants, amb més de 2500 llicències durant el 2003 i aproximadament unes 10000 durant del 2004. Però aquell mateix any, els diners destinats a la investigació del grup van ser tallats. Llavors, el Staden Package es va convertir en programari lliure (sota llicència BSD) i algunes noves versions van aparèixer el 2004, el 2005 i el 2009. Si es desitja, el paquet de programes es pot descarregar de la pàgina web que manté el projecte. Durant els anys de desenvolupament actiu, el grup de Staden també va publicar alguns formats de fitxers. Els formats, que serveixen per contenir la informació dels cromatogrames, van ser el SCF i el ZRT. Aquests dos formats van esdevenir formats lliures.

Probablement, l’eina més coneguda de la bioinformàtica entre els biòlegs és el BLAST. El BLAST (Basic Local Alignment Search Tool) és un programa informàtic d’alineament de seqüències de tipus local ja sigui de ADN o de proteïnes. Però, què volen dir tot aquest munt de paraules tan complicades? Intentarem explicar-ho amb la màxima claredat possible, anant pam a pam.

Hem de començar explicant per què ens interessa conèixer el genoma humà, i crec que la millor manera de fer-ho consisteix en fer un paral·lelisme entre el cos humà i un programa informàtic. Vosaltres sabeu que per saber realment com funciona un programa hem de conèixer quin és el seu codi font. Per tant, per saber com funciona el cos humà també hem de conèixer el seu codi font, que en aquest cas seria el material genètic: una combinació de 3000 milions de nucleòtids (subunitats de ADN). Informàticament, tots aquests nucleòtids es poden representar per una seqüència de lletres (hi ha quatre tipus diferents de nucleòtids i cada un es representa per una lletra diferent: A, T, C o G). En determinats punts d’aquesta seqüència es troben els anomenats gens, que segons tinguin una seqüència de lletres o una altra formaran una proteïna o una altra amb la seva respectiva funció.

http://www.abiertohastaelamanecer.ws/fp-content/images/genome.jpg

Els gens contenen la informació per crear les proteïnes

El genoma humà és un dels més estudiats i va ser descobert en la seva totalitat l’any 2003. Quan es busca el codi genètic d’altres organismes, sempre s’obtenen seqüències de nucleòtids que en un principi no se sap què volen dir. Gràcies a les investigacions, ja es coneixen quines són les seqüències dels gens humans i quines funcions tenen. Per tant, si comparem les seqüències de l’organisme que estem investigant amb les seqüències de ADN humà podem trobar regions locals que s’assemblin molt, i per tant, podrem descobrir els gens (i les seves funcions) del nou organisme.

Una vegada fets aquests aclariments, podem continuar amb la descripció del programa. El  BLAST és capaç de comparar una seqüència problema (comunament anomenada query, i que en l’exemple anterior seria una seqüència de l’organisme que s’està investigant) amb una gran quantitat de seqüències d’informació coneguda que es trobin en una base de dades. L’algorisme troba les seqüències de la base de dades que tenen major semblança a la seqüència query.

Volem saber quina funció té aquest gen

Volem saber quina funció té aquest gen del moniato

Normalment el BLAST és fa servir per a trobar probables gens homòlegs. En general, quan és obtinguda una nova seqüència, es fa servir el BLAST per a comparar-la amb altres seqüències que han estat prèviament caracteritzades i d’aquesta manera, poder trobar la seva funció de la nova seqüència. El BLAST és l’eina més usada per a l’anotació i predicció funcional de gens o seqüències proteiques. S’han creat moltes variants per a resoldre alguns problemes específics de recerca.

Després de fer un alineament amb el BLAST, descobrim que es tracta del gen beta-amilasa del moniato!

Després de fer un alineament amb el BLAST, descobrim que es tracta del gen que expressarà la proteïna beta-amilasa!

El BLAST és un programa de llicència lliure i es pot usar gratuïtament des del servidor de l’NCBI (National Center for Biotechnology Information, EE.UU.). Si es desitja també està disponible per a ser instal·lat localment. L’avantatge del servidor de l’NCBI és que l’usuari no ha de mantenir ni actualitzar les bases de dades i que la recerca es fa en un cluster d’ordinadors, que atorga molta rapidesa.

Qui no ha sentit a parlar mai de la Biotecnologia, dels Biocombustibles, o potser de la Bioinformàtica? Hem de reconèixer que el prefix Bio està de moda. En aquests temps moderns que corren, sembla que col·locar aquesta petita paraula davant d’una altra la fa convertir en una de més especial. Però la veritat és que Bio només indica que una cosa té a veure amb la Biologia, la ciència que estudia les lleis de la vida.

Per tant, fent una ràpida deducció podem arribar a la conclusió que la Bioinformàtica consisteix en l’aplicació de les eines informàtiques per tal de resoldre problemes que es plantegen en el món de la Biologia. Generalment, dins d’aquest sector sempre es treballa amb programari lliure, i és per això que m’interessa introduir aquest concepte i explicar-ne bàsicament les seves utilitats.

La Bioinformàtica està estretament relacionada amb les tècniques d’anàlisi que inclouen la informàtica, la programació, la matemàtica aplicada, l’estadística, la bioquímica i la genètica molecular. La fusió de totes aquestes eines, enfocades cap al món de la Biologia, permet solucionar problemes diversos, analitzar dades i simular sistemes o mecanismes.

representació_proteïna_2

Representació d'una proteïna 1

El finalitat principal d’aquestes tècniques es troba en la utilització de recursos computacionals per tal de solucionar o investigar problemes sobre escales de tal magnitud que sobrepassen la capacitat humana de discernir. S’han d’utilitzar eines informàtiques a fi d’extreure informació útil de dades produïdes per tècniques biològiques d’alta productivitat. Per exemple, una vegada es seqüencia el genoma d’una persona es tenen aproximadament 3 ×109 nucleòtids (subunitat de ADN). Cada nucleòtid es pot representar amb una lletra (A, T, C o G). Per tant, és impossible tractar una seqüència de 3 ×109 lletres seguides si no es fa per ordinador.

Bàsicament, en la Bioinformàtica es treballa amb fitxers de text. La mida d’aquests fitxer pot ser tan gran com la xifra que us he donat abans. Però això no acaba aquí, perquè no només hi ha seqüenciat el genoma d’una persona sinó que també en tenim d’altres persones, animals i organismes vius. Això ens porta cap a la formació de bases de dades i recursos compartits entre els centres d’investigació a internet. La informació s’ha de compartir ja que la investigació costa molts diners, és molt lenta i necessita contrastar hipòtesis. Seria molt absurd i no sortiria a compte repetir experiments a diferents llocs una vegada i una altra! Així doncs, com ja us podeu imaginar, sempre es treballa amb programari lliure i es comparteix la informació, de manera que si un científic (o qualsevol persona del món) vol accedir a la informació sobre uns gens determinats descoberts per algú altre, ho pot fer sense cap mena de problema.

seqüencia_genètica

Els gens MCA1 i YOR205C dels llevats.

Els principals esforços d’investigació en aquests camps inclouen l’alineament de seqüències, la predicció de gens, muntatge de genomes, alineament estructural de proteïnes, predicció d’estructura de proteïnes, suport de la teoria de l’evolució i altres aplicacions.

El món de la Bioinformàtica és molt interessant i extens, així que de mica en mica aniré escrivint sobre les eines informàtiques que es fan servir, que poden anar des de senzilles línies de comandes interpretades per la terminal, fins a programes gràfics més complexes i serveis web.

Representació d'una altra proteïna

Representació d'una proteïna 2