El teu blog de Linux en català

Seqüenciar el genoma humà amb Staden Package

El conjunt de programes Staden Package és un grup d’eines de bioinformàtica de programari lliure que serveixen per treballar sobre el muntatge de seqüències de ADN, editar-les i analitzar-les. Staden Package està format per quatre programes diferents entre sí. Els seus components són: trev, pregap4, gap4 i spin. Avui explicarem concretament els dos primers programes, deixant per una altre dia els dos darrers.

El fet de poder conèixer quin és l’ordre dels nuclèotids (subunitats de ADN, representades per les lletres A, T, C i G) dins del genoma humà és molt important. De fet, l’objectiu final del Projecte Genoma Humà consistia en trobar quin era l’ordre dels nucleòtids que formen el material genètic de l’home. El procés de buscar aquest ordre al complet i traduir-lo en una successió de lletres s’anomena seqüenciar el genoma.

Actualment, el mètode de seqüenciació més utilitzat és el Métode de Finalització de Cadena, en el qual mitjançant uns marcadors específics de radioactivitat o fluorescència es pot arribar a obtenir un gràfic anomenat cromatograma, que ens dóna informació més o menys exacta de quin és l’ordre dels nucleòtids en el genoma humà. Aquest gràfic consta de diverses línes en les quals cada color representa un tipus de nucleòtid. Els punts on la línia té més alçada (els pics) indiquen que en aquella posició hi ha aquell mateix tipus de nucleòtid. Si es van llegint tots aquests pics, un a un, es pot arribar a obtenir tota la seqüència ordenada de nucleòtids.

File:Mutation Surveyor Trace.jpg

Cromatograma on s'aprecia l'ordre (d'equerra a dreta) dels nucleòtids a dalt de cada pic.

El problema més gran que hi ha és que el genoma humà té aproximadament 3000 milions de nucleòtids. Per tant, necessitem programes informàtics que siguin capaços d’interpretar els cromatogrames i de construir ells sols les seqüències de lletres que representen el genoma humà, ja que realitzar aquesta tasca manualment és del tot impossible. Un altre problema rau en el fet que els cromatogrames poden contenir com a màxim la informació sobre 700 nucleòtids, perquè si n’augmentem el número disminueix molt la fiabilitat i la qualitat de l’experiment. Per tant, la seqüenciació del genoma humà s’ha d’anar fent de cromatograma en cormatograma (de 700 en 700) fins arribar a la totalitat del genoma (3000 milions). Per poder fer aquestes particions, cal identificar en quin lloc comença el tros de seqüència que estem analitzant i en quin lloc acaba. Amb l’objectiu de solucionar aquests problemes us presentem els dos programes següents.

Trev es pot resumir com un visualitzador i editor de cromatogrames, és a dir, un programa que desenvolupa una interfase per a l’ensamblatge del ADN. Trev és una eina que serveix per processar fitxers resultants de cromatografies de seqüenciació (com els que són produïts per instruments ABI). El programa carrega en memòria el gràfic que se li ordena, i ens mostra com a sortida la seqüència de nucleòtids corresponent. A més, aquest programa ens assessora de la fiabilitat que té l’experiment de seqüènciació mitjançant un análisi de qualitat, a través de la puntuació qualitativa Phred. El problema de Trev és que no ens marca per defecte l’inici i el final de la seqüencia, de manera que ho haurem de fer manualment.

[picture]

Pregap4 ens permet fer un examen més complet dels cromatogrames. Aquest programa té les mateixes prestacions bàsiques que el programa Trev, però a més a més, Pregap4 ens ajuda a fer la identificació de vectors (trossos de seqüencia que s’han d’eliminar ja que ens aporten informació redundant i externa al genoma humà) i la  detecció de contaminació i repeticions errònies. Però el més important és que és un programa que ens prepara de manera automàtica les seqüències de ADN a partir del gràfic, i que determina el lloc de tall inicial i final de les seqüències mitjançant l’análisi qualitatiu.

http://staden.sourceforge.net/manual/pregap4_config.unix.gif

El conjunt de programes Staden va ser desenvolupat pel grup de Roger Staden a la MRC-LMB de Cambridge a Anglaterra des de 1977. En un principi, el Staden Package era disponible gratuïtament pels estudiants, amb més de 2500 llicències durant el 2003 i aproximadament unes 10000 durant del 2004. Però aquell mateix any, els diners destinats a la investigació del grup van ser tallats. Llavors, el Staden Package es va convertir en programari lliure (sota llicència BSD) i algunes noves versions van aparèixer el 2004, el 2005 i el 2009. Si es desitja, el paquet de programes es pot descarregar de la pàgina web que manté el projecte. Durant els anys de desenvolupament actiu, el grup de Staden també va publicar alguns formats de fitxers. Els formats, que serveixen per contenir la informació dels cromatogrames, van ser el SCF i el ZRT. Aquests dos formats van esdevenir formats lliures.

Deixa un comentari

Your email address will not be published.