El teu blog de Linux en català

Enginyeria

Començant a escriure

Finalment ha arribat el moment de passar a la pràctica. I per a fer-ho què millor que un exemple anotat (LaTeX_project.tar) que podeu reutilitzar quan us convingui. Abans que res, però, un parell d’apunts sobre com compilar el document:

$ cd LaTeX_project
$ pdflatex template.tex
$ bibtex template
$ pdflatex template.tex
$ pdflatex template.tex

El resultat és l’arxiu template.pdf. Us animo a experimentar amb el codi i canviar instruccions per veure’n l’efecte.

Instal·lant el LaTeX

Com que no es tracta de repetir contingut dins del propi blog, us redirigeixo a una de les entrades publicades on s’explica això mateix:
/instal%C2%B7lar-latex/

Només un comentari al respecte. Us hi heu fixat que els paquets que instal·lem tots comencen per texlive? TeX Live és una de les moltes distribucions que faciliten la instal·lació del LaTeX. Més concretament és la distribució per defecte a diverses distribucions de GNU/Linux, incloent Ubuntu.

Per què utilitzar LaTeX?

A banda de l’aparença professional del resultat final, hi ha molts motius per a utilitzar LaTeX:

  • * Funciona, és estable i multiplataforma
  • * Permet l’edició d’expressions matemàtiques amb una elevada qualitat
  • * Té una elevada qualitat en l’edició d’equacions
  • * Permet redactar fàcilment documents estructurats
  • * És fàcil construir noves macros i ordres
  • * És gratuït!

Tot i això també té els seus inconvenients:

  • * Requereix aprenentatge
  • * No es veuen els resultats fins que es compila l’arxiu

Probablement us haureu trobat alguna vegada amb un document com aquest:

Potser es tractava d’un llibre, un manual, un article o una tesis doctoral d’on intentaveu copiar informació per a algun treball i que mai va arribar a aparèixer citada a l’apartat de bibliografia. Sigui quin sigui el motiu de la troballa, no us heu parat mai a admirar l’aparença d’aquest tipus de documents? (Si no ho heu fet, sou lliures de dedicar un temps a admirar el de la imatge.)

Doncs bé, com molts de vosaltres ja sabreu, el secret a aquesta presentació impecable resideix en una sola paraula: TeX. TeX? No era LaTeX? – us estareu preguntant. Doncs anem a veure-ho.

TeX vs LaTeX

TeX és un sistema de composició de textos d’elevada qualitat que va ser creat per Donald E. Knuth a finals de la dècada de 1970 i que està especialment dirigit a textos amb moltes expressions matemàtiques. Va resultar però, que el fet d’escriure amb TeX requeria més temps que el que la majoria de gent està diposada a dedicar (és extremadament complicat), i és per aquest motiu que va néixer el LaTeX.

Dit de manera formal, el LaTeX és un paquet de macros per a TeX que va ser escrit per Leslie Lamport per a proporionar un sistema de processament de documents més fàcil d’utilitzar que TeX, però que mantingués tota la seva potència.

Així doncs, el fet que l’extensió de l’arxiu principal a l’hora d’escriure un document amb LaTeX sigui .tex no és fortuït. Bàsicament, un arxiu .tex és un arxiu ASCII que conté diverses ordres que permeten descriure l’estructura del document. Aquest arxiu és processat per un compilador (el LaTeX en si), i finalment s’obté un document com el que hem admirat abans.

Per celebrar l’1 de maig, m’agradaria presentar-vos un programa molt útil per convertir unitats, el ConvertAll. Aquest programa ens permet, d’una manera senzilla, convertir diferents unitats, per exemple, de polzades a mil·límetres. El seu funcionament és d’allò més intuïtiu.

Per instal·lar-lo només cal que escriviu en una terminal:

sudo aptitude install convertall

Planner és l’eina de gestió de projectes de la GNOME Office, el paquet ofimàtic lliure desenvolupat per l’entorn d’escriptori GNOME. El seu objectiu consisteix en ser un programa fàcil d’usar, capaç de gestionar qualsevol projecte mitjançant la construcció d’un diagrama de Gantt, i d’indicar-ne d’una manera visual les seves característiques.

La funció principal de Planner consisteix doncs en la construcció del diagrama de Gantt, que és una popular eina gràfica que serveix per mostrar el temps de dedicació previst per a diferents tasques o activitats al llarg d’un temps total determinat. Els diagrames de Gantt són una un recurs bàsic en la gestió de projectes de tot tipus, i tenen la finalitat de representar les diferents fases, tasques i activitats programades com a part d’un projecte al llarg del temps.

Exemple de planificació d'un projecte d'investigació mitjançant Planner

Exemple de planificació d'un projecte d'investigació mitjançant Planner

El diagrama és útil per poder avaluar la relació entre temps i càrrega de treball, i està compost per un eix vertical on s’estableixen les nostres illes que constitueix el treball que es va a executar, i un eix horitzontal que mostra en un calendari la durada de cadascuna d’elles.

Planner està compost per quatre seccions. La primera permet dibuixar el diagrama de Gantt, la segona permet descriure minusciosament cada tasca afegida, la tercera  serveix per definir els recursos dels quals disposa el projecte, i la quarta permet indicar de quina manera s’hauran d’utilitzar aquests recursos. Les quatres seccions del programa es troben disponibles en el menú lateral del programa.

Planner és una aplicació GTK+ escrita en C i sota la llicència GPLv2. És capaç d’emmagatzemar les seves dades en qualsevol dels fitxers XML o en una base de dades PostgreSQL. Els projectes també es poden imprimir a PDF o exportats al format HTML per a una fàcil visualització des de qualsevol navegador web. Es pot instal·lar des del gestor de paquets Synaptic on actualment hi trobarem la versió 0.14.3.

ExPASy és el Sistema Expert d’Anàlisi de Proteïnes (Expert Protein Analysis System). ExPASy és el servidor de proteòmica de l’Institut Suís de Bioinformàtica que analitza seqüències i estructures de proteïnes. El servidor consta bàsicament de quatre seccions: eines i programari per treballar amb proteïnes, bases de dades, educació i serveis, i documentació.

Potser la característica més important que ens ofereix ExPASy són les seves eines de treball sobre qualsevol aspecte de les proteïnes. Aquest servidor web és un referent en el món de les proteïnes.

http://www.expasy.ch/people/personal/nguex/c24_700x875.jpeg

Si accedim a la secció d’eines veurem la dimensió del projecte. En aquesta secció hi ha classificades totes les eines que es poden utilitzar lliurement. Podem identificar i caracteritzar una proteïna seguint diferents models, podem obtenir la proteïna resultant d’una seqüència de ADN, podem fer cerques per alineament, cerques per perfil i patró, predicció de modificacions post-traduccionals i predicció de la topologia de les proteïnes.

A més a més, podem fer anàlisis sobre els diversos nivells estructurals de les proteïnes: anàlisi d’estructura primària, predicció d’estructura secundària, anàlisi i predicció d’estructura terciària, anàlisi d’estructura quaternària i visualització de proteïnes.

Però la llarga llista d’eines no s’acaba aquí perquè encara podem trobar més eines per fer alineaments de seqüències simples i múltiples, anàlisis filogenètics i anàlisi de característiques molt precises de les proteïnes.

Secció d'eines per treballar sobre proteïnes que trobem a ExPASy

Secció d'eines a ExPASy, on es pot treballar sobre qualsevol aspecte de les proteïnes

La secció de bases de dades ens permet accedir a una gran quantitat de bases de dades de seqüències de proteïnes com UniProt Knowledgebase (Swiss-Prot i Trmbl) i Enzime, un repositori d’informació relativa a la nomenclatura d’enzims, que descriu cada tipus d’enzim caracteritzat per el que s’ha assignat un número EC (Enzyme Commission). També trobem altres bases de dades com ProSite, Swiss-2DPAGE, Swiss-Model Repository, ViralZone i altres. Els servidors web sempre trobem molta informació en bases de dades que estàn interconnectades, cosa que permet globalitzar la informació i tenir-ne un ràpid i fàcil accés. També és important remarcar que el servidor funciona en col·laboració amb l’Institut Europeu de Bioinformàtica des de l’1 d’agost de 1993.

En la secció d’educació i serveis hi podem trobar diverses eines d’obtenció de seqüències, divulgació de ciència popular, un portal d’aprenentatge de bioinformàtica i proteòmica (e-Proxemis) i fins i tot un joc, Swiss-Quiz. Per últim, en la secció de doumentació trobem una gran quantitat de documents on hi trobem informació de caracter general, sobre nomenclatura i sobre característiques específiques d’algunes espècies.

Jmol és una miniaplicació que ens permet visualitzar models i estructures  moleculars en pàgines web, a partir d’arxius de coordenades moleculars inclosos en aquestes mateixes pàgines. El gran avantage de Jmol és que no cal instal·lar-lo a l’ordinador (només cal tenir instal·lat Java), ja que les pàgines web on hi ha emmagatzemades les estructures de proteïnes ja l’acostumen a portar incorporat.

El programa ens permet visualitzar i explorar proteïnes interactivament. Ens mostra la proteïna que nosaltres vulguem en tres dimensions, i ens permet fer-la girar i poder-la veure des de totes les perspectives possibles.http://scripts.iucr.org/java/jmol-11.2.0/src/org/openscience/jmol/images/Jmol_logo.jpg

Hi ha tres maneres diferents de controlar el programa. Amb el ratolí, on només hi trobarem les opcions més bàsiques com ara canviar l’angle de visió, fer el zoom i determinar les posicions dels àtoms que formen part de la proteïna. Amb un menú desplegable, on hi trobarem la gran majoria de les possibilitats que ens ofereix el programa. I finalment amb una consola, on podrem escriure les comandes que siguin del nostre interès seguint el mateix llenguatge que s’utilitza en el programa RasMol.

El menú desplegable és molt complet i és la principal eina que es fa servir. Des d’aquest menú podem dur a terme moltes accions. Per començar, hi podem llegir una breu descripció de la proteïna. Després, hi trobem les opcions d’Estil (on hi podem escollir la manera de representar la proteïna), de Color (es poden remarcar diverses estructures segons el color), de Superfícies (es poden visualitzar àtoms i enllaços que actuen sobre la superfície de la proteïna), d’Animació (permet veure els moviments que fa la proteïna quan es mostra activa) i de Mesures (es poden calcular distàncies entre dos punts de la proteïna).

Visualització de l'estructura de la proteïna insulina a través de Jmol

Visualització de l'estructura de la proteïna insulina a través de Jmol

Per altra banda, en el menú desplegable també trobem altres opcions com són la de carregar arxius, desar imatges, canviar la llengua, obrir la consola, posar eixos en la imatge i moltes altres. Un altre avantatge que ens ofereix aquest programa és que està traduït al català.

Per tal que pugueu manejar en primera persona el programa, us presento la entrada de la famosa proteïna insulina a la Base de Dades de Proteïnes. Si cliqueu a l’enllaç, entrareu directament a la pàgina de la insulina on hi ha Jmol, i hi  podreu visualitzar la proteïna i observar totes les prestacions que el programa ens ofereix.

Si us ha agradat el programa, en podeu obtenir més informació a la Wiki del projecte. En aquest enllaç trobareu una guia que ensenyar a fer servir el programa d’una manera fàcil i didàctica. I ja per acabar, en aquest altre link trobareu un llistat de les pàgines web que utilitzen aquesta miniaplicació.

Jmol és de lliure distribució i codi obert. Es troba sota llicència GNU-LGPL. Jmol corre amb diversos sistemes operatius i en qualsevol navegador que reconeixi Java.

RasMol és un programa d’ordinador escrit per poder visualitzar i explorar estructures macromoleculars biològiques, tals com les proteïnes que trobem a la Base de Dades de Proteïnes (Protein Data Bank, PDB).

Bàsicament, el procés per poder representar una proteïna s’inicia amb la descàrrega del seu fitxer PDB. Una vegada ja tenim el fitxer, el podem obrir des del programa RasMol. Aquest programa té principalment dos menús desplegables importants. El primer (Display) fa referència a la manera de Visualitzar la proteïna. Des d’aquest menú podem seleccionar diverses opcions, com són l’esquelet de la proteïna, l’espai ocupat pels àtoms, el dibuix de l’estructura secundària i la superfície molecular, entre d’altres. El segon (Colours) ens permet triar els colors que vulguem per representar diverses característiques de la molècula. Podem acolorir-la segons la temperatura, l’estructura secundària, tota d’un sol color, per dominis, etc.

Visualització de la superfície molecular d'una proteïna amb RasMol

Un cop ja tenim la proteïna representada segons el nostre interès, podem fer-la girar i visualitzar-la des de diferents angles per tal de veure’n les característiques estructurals des de tots els punts de vista.

Per últim, RasMol inclou un llenguatge propi que permet escollir múltiples opcions de representació. Es poden seleccionar certes cadenes proteiques, es poden canviar els colors, i es poden fer zooms sobre punts concrets. Hi ha una llista molt llarga de comandes, que podeu trobar en el manual de RasMol.

Actualment, us podeu instal·lar directament la versió 2.7.4.2 des del Gestor de Paquets Synaptic, o bé podeu executar la següent ordre a la terminal:

sudo apt-get install rasmol

Si voleu provar de visualtizar una proteïna de la mateixa manera que ho faria un investigador científic, ara és el moment! Ara que ja teniu el programa instal·lat, només us heu de baixar un fitxer PDB, com per exemple el de la mioglobina. Podeu accedir a la entrada de la mioglobina (per tenir informació de la proteïna escrita a la Base de Dades de Proteïnes) i al fixer PDB de la mioglobina (que us haureu de desacarregar). Un cop descarregat el fitxer PDB de la mioglobina, entreu al programa, obriu el fitxer de la proteïna i ja la podreu visualitzar. Podeu donar un cop d’ull als menús que he explicat abans i anar jugant amb les diverses opcions que ens ofereix. Una combinació molt bonica és la de Cartoon (dins del desplegable Display) i acolorir-la amb Temperature o Structure (dins del desplegable Colours). Espero que us agradi aquesta petita aventura dins del món de les proteïnes!

Representació tridimensional de la mioglobina amb el programa RasMol

Representació tridimensional de la mioglobina amb el programa RasMol

Aquest programa va ser originalment desenvolupat per Roger Sayle. Històricament, va ser una eina important per als biòlegs moleculars ja que el programa, extremament optimitzat, permetia a l’usuari fer-lo córrer en ordinadors personals modestos. Abans, els programes visualitzadors de macromolècules només funcionaven en estacions gràfiques de treball, en les quals els estudiants tenien difícil accés. RasMol ha esdevingut una eina educacional i de recerca important en el camp de biologia estructural.

RasMol és un programa multiplataforma i sota llicència GNU General Public License . Aquest fet encara el fa ser més especial, ja que altres programes de representació d’estructures tridimensionals de proteïnes no tenen una llicència oberta (encara que siguin gratuïts).

El Banc de Dades de Proteïnes (Protein Data Bank, PDB) és el repositori central internacional de totes les estructures de proteïnes (i àcids nucleics) que s’han caracteritzat experimentalment.

Les dades de les estructures es guarden en un format específic estàndard per representacions d’estructures de macromolècules determinades bàsicament mitjançant dos mètodes: per Difracció de Rajos X i per Ressonància Magnètica Nuclear.
http://www.iucr.org/__data/assets/image/0004/17158/PDB-logo.jpg

Aquestes dades sobre les característiques i les estructures de les proteïnes són enviades pels científics i els centres d’investigació de tot el món. Cada dia es rep la informació d’unes quantes proteïnes recentment descobertes o estudiades, i la base de dades és actualitzada cada setmana. Actualment, PDB conté la informació de prop de 60.000 proteïnes.

La pàgina web de PDB també ens proporciona una àmplia varietat d’eines i recursos. Els usuaris poden realitzar cerques  simples o avançades, basades en anotacions relacionades amb la seqüència, estructura i funció de les proteïnes. També es pot buscar segons el codi de cada proteïna, atorgat per la base de dades de PDB, o per altres paràmetres.

Fitxa PDB de la Hemoblobina humana adulata

Fitxa PDB de la Hemoglobina humana adulata

Un cop trobada la proteïna que ens interessa, podem visualitzar-la i analitzar-la. Cada proteïna té una fitxa pròpia molt completa on apareix en primer lloc un resum sobre totes les seves característiques. Si es vol, es pot aprofundir en cadascun dels apartats que són: una intensiva descripció molecular de la proteïna, sistema de classificació segons diversos mètodes, la seva representació en tres dimensions, informació sobre la seqüència d’aminoàcids, semblança amb altres proteïnes, informació química i bioquímica, geometria de la macromolècula, mètodes d’obtenció de la informació, literatura en la qual apareix la proteïna i diversos links on podem trobar la mateixa proteïna.

A més a més, la informació de cada proteïna es pot visualitzar i descarregar en diversos formats d’estructura de proteïnes. Els dos formats més habituals són el format .PDB (no confondre amb la base de dades de proteïnes) i el .FASTA (no confondre amb el programa d’alineament de proteïnes). Un cop descarregada la informació de la proteïna que ens interessi, la podem visualitzar amb més precisió gràcies a programes com el RasMol o el JMol.

Tota la informació que hi ha en aquesta base de dades està sota domini públic i pot ser utilitzada lliurement pels usuaris.