jueves, 4 de abril de 2013

¿Qué es la secuenciación de ADN?


Por secuenciación de ADN entendemos el conjunto de métodos y técnicas bioquímicas diseñadas para determinar el orden de los nucleótidos en un fragmento de ADN. Es indudable la relevancia de determinar la secuencia del ADN en la investigación básica de los procesos biológicos principales y en campos aplicados. Actualmente, existen técnicas que permiten llevar a cabo la secuenciación a una gran velocidad, lo que ha permitido la realización de proyectos como el Proyecto Genoma Humano.

A continuación, se proporcionarán distintos enlaces que nos mostrarán cómo es factible realizar por nosotros mismos la secuenciación de ADN. 

1. Empresa capaz de secuenciar el ADN de forma convencional: 

2. Video que muestra como aislar ADN de algún tejido (en este caso, se trata de una extracción de ADN de fresas):

3. Un kit comercial que se vende para el aislamiento del ADN de algún tipo de tejido. Se adjunta con un documento en formato PDF a modo de manual que detalla las instrucciones a seguir para llevar a cabo el aislamiento:

Si hacéis click en el siguiente enlace accederéis a la página principal de una empresa que proporciona kits de extracción de DNA.

miércoles, 3 de abril de 2013

Comparamos NCBI y DDBJ

Esta entrada va a tratar sobre aspectos interesantes que podemos encontrar en las principales Bases de Datos en cuanto a Biociencia se refiere: el NCBI (National Center for Biotechnology Information) de EE.UU. y en el DDBJ (DNA Data Bank of Japan). 

Comenzaremos con el NCBI, base de datos que ya hemos manejado en entradas anteriores. En la página principal, nos aparece un listado con distintas categorías (en las que se engloban las diferentes bases de datos).
  • Chemicals & Bioassays
  • Data & Software
  • DNA & RNA
  • Domains & Structures
  • Genes & Expression
  • Genetics & Medicine
  • Genomes & maps
  • Homology
  • Literature
  • Proteins
  • Sequence Analysis
  • Taxonomy
  • Training & Tutorial
Una de las opciones más interesantes que podemos encontrar es BLAST. BLAST (Basic Local Algnment Search Tool) es una herramienta informática de alineamiento de secuencias de tipo local (ADN, ARN o proteínas), es decir, compara una secuencia problema frente al resto de secuencias que se encuentran en la base de datos. Para ello, emplea un algoritmo heurístico.

Dentro de Proteins podemos encontrar Protein Clusters, una base de datos que incluye secuencias proteicas relacionadas (clusters) entre sí, codificadas por genomas completos.

Otra opción interesante la encontramos dentro de la categoría Gene & expresión: Genes & Disease. Esta base de datos reúne información de determinados trastornos genéticos, acompañada de discusiones sobre las respectivas mutaciones y características clínicas, así como enlaces de bases de datos y organización relacionadas.

En Homology encontramos Conserved Domain Database (CDD). Esta base de datos colecciona alineamientos entre secuencias y los perfiles que representan los distintos dominios de proteínas conservadas en la evolución molecular.

Por último mencionaremos Taxonomy, base de datos que contiene los nombres y linajes filogenéticos de más de 160.000 organismos con datos moleculares en el resto de bases de datos del NCBI.

Sobre el DDBJ cabe mencionar que se trata de la única base de datos de secuencias de nucleótidos en Asia certificada oficialmente. DDBJ recopila datos de secuencias principalmente por investigadores japonenes, pero por supuesto, acepta datos y emite números de acceso de investigadores de cualquier otro país. 

En la página principal, encontramos diversas pestañas que nos dirigen a distintas opciones (Inicio, guía de funcionamiento, búsqueda, estadísticas, contacto...). 

Si hacemos click en Search Analysis accedermos a una colección de Bases de Datos clasificadas en distintas categorías (análisis de genoma, filogenética...). Para obtener más información sobre cada una de ellas basta con hacer acceder a su respectivo enlace. 

Por supuesto y como podéis comprobar, sólo hemos seleccionado una pequeña parte de la enorme cantidad de subcategorías que componen ambas Bases de Datos. Desde aquí os animo a que investiguéis por vosotros mismos, ya que toda la información necesaria para manejarlas la podréis encontrar en sus respectivas guías.

¡Ánimo y hasta la próxima entrada!

Búsqueda SRS

En esta entrada se proporcionará alguna información básica sobre el Sequence Retrieval System (SRS), en primer lugar, y nos centraremos en su manejo después. SRS es un servicio de búsquedas en bases de datos (similar a Entrez del NCBI), que pertenece al Laboratorio Europeo de Biología Molecular (EMBL), una importante institución de investigación en Biología Molecular, financiada por 18 países europeos. 


En primer lugar accederemos  a la página principal del buscador, que nos muestra una clasificación de las bases de datos (SRS reúne unas 400), entre las que podemos distinguir unas más generales (Taxonomy, OMIM, EDAM, etc.)  de otras más específicas (como por ejemplo, específicas para secuencias: Patent DNA, EMBL MGA, Uniprot, etc). 

Para conocer cuántas y cuáles son las bases de datos que nos proporciona el servicio, seleccionamos la pestaña databanks, donde obtendremos un listado de las mismas clasificadas en distintos grupos (según el tipo de información que albergan) y con algunos datos interesantes, como el número de entradas que contienen o su posible disponibilidad. 

A simple vista, en la columna Nº of entries observamos que la base de datos que más datos contiene es Livelists.

La columna  Indexing date, nos proporciona la fecha de las últimas actualizaciones que se han llevado a cabo. Por ejemplo, observamos que la más reciente (con fecha de este mismo día, 3 de abril de 2013) se corresponde con Taxonomy (base de datos que recoge el nombre de todos los organismos que están representados en las bases de datos de secuencias con, al menos, una secuencia nucleotídica o proteica). Accediendo a su correspondiente enlace, obtenemos la última actualización realizada y el número total de entradas hasta la fecha. 

Ahora veremos qué tipo de información podemos extraer de una de las herramientas de SRS. Como ejemplo hemos elegido el  IPD-MHC

IPD-MHC es un subgrupo dentro de la base de datos de inmuno polimorfismos (IPD), un conjunto de bases de datos especializadas en el estudio de genes polimórficos en el sistema inmune. El resto de bases de datos que la componen son : IPD-KIR, IPD-HPA, IPD-ESTAB. En particular, IPD-MHC es una base de datos que contiene secuencias pertenecientes al complejo mayor de histocompatibilidad de diferentes especies. 
En la misma página, nos indica que la versión actual (1.8.0) cuenta con 3.884 entradas en su última actualización (20 de noviembre de 2012). 

Si tenéis alguna duda sobre el funcionamiento de SRS o simplemente queréis profundizar en el resto de servicios que proporciona, entrando en el menú Help de la página principal (o haciendo click aquí) accederéis a un tutorial que detalla los distintos aspectos que recoge esta Base de Datos. 

Para finalizar con esta entrada, haremos una búsqueda en EMBLNEW. Tendremos la opción de hacer la búsqueda en dos modos: Standard search y Extended search. Clickamos en la pestaña databanks y buscamos EMBLNEW, desde donde accederemos por defecto a un modo de búsqueda standard. En la misma página se nos ofrece el modo extended, que será el que finalmente empleemos, pues se trata de un modo de búsqueda más avanzada.

Como podemos comprobar, este modo de búsqueda ofrece muchos campos, entre otros:  topología, tipo de molécula, división, longitud de la secuencia, número de accesión, fecha de entrada, de publicación y de actualización, palabras clave, proyecto genómico, taxón, etc. 

Una prueba de la alta especificidad que permite este servicio, se encuentra en la variedad de divisiones que presenta. Éstas se muestran a continuación, con sus respectivos códigos: env (muestras ambientales) , fun (hongos), hum (humanos), inv (invertebrados), mam (otros mamíferos), mus (Mus musculus), phg (bacteriófago), pln (plantas), pro (procariotas), rod (roedores), syn (sintéticos), tgn (transgénicos), unc (sin clasificar), vrl (virus), vrt (otros vertebrados). 

Como muchas otras bases de datos, podemos enlazar términos en nuestra búsqueda, sin más que utilizar los comandos: & (AND), | (OR); ! (BUTNOT).

Como ejemplo de esta última explicación, vamos a buscar bibliografía científica referida a la enzima acetolactato sintasa en procariotas. Una vez realizada la búsqueda, hemos obtenido 67 resultados. Haciendo click, por ejemplo,  sobre el primero de ellos aparecerá una nueva página, desde la que podremos acceder a las referencias bibliográficas y a partir de ahí todo tipo de información al respecto. 




martes, 2 de abril de 2013

Modelado por homología

Uno de los principales problemas actuales de la investigación en Biología Molecular es la asignación de función y estructura a la gran cantidad de productos génicos sin caracterizar descubiertos por secuenciación genómica.  Se han desarrollado en los últimos años herramientas informáticas y experimentales para comparar estas secuencias con otras proteínas de estructura y función conocidas y así poder hacer una predicción sobre la estructura y función de la proteína problema.

En este caso, nuestro objetivo será encontrar una proteína homóloga a la acetolactato sintasa de Amaranthus (para lo que utilizaremos la base de datos del Protein Data Bank (PDB) y buscaremos una proteína de secuencia similar de la que se conozca su estructura tridimensional. Para observar dicha estructura, haremos uso del programa Swiss PDB viewer.

Comenzamos haciendo una búsqueda general en el NCBI en la que, además de la proteína, introduciremos el organismo del que queremos extraer dicha secuencia. Para ello seleccionamos la opción Protein y escribimos acetolactate synthase AND Amaranthus en la barra de búsqueda.

Nos aparecen 27 resultados distintos, correspondientes a distintas especies del género Amaranthus. Seleccionamos, por ejemplo, el primero de ellos (Amaranthus powellii) y hacemos click en FASTA para obtener la secuencia de la proteína en este formato.


Copiamos únicamente la secuencia aminoacídica, y nos dirigimos a la página del PDB. Seleccionamos la opción sequence e introducimos la secuencia en la barra de búsqueda. Finalmente obtendremos un listado (100 resultados) con las secuencias más similares a nuestra proteína problema.



Seleccionamos la primera de ellas (código PDB: 1YBH), y descargamos el fichero PDB en formato texto. Ya sólo tenemos que cargarlo en el programa Swiss PDB viewer y observar su estructura tridimensional. Por último, se adjunta una imagen de dicha proteína, en modo de cintas por sucesión de estructura secundaria:



Más sobre NCBI: Genome

Seguimos profundizando en el NCBI. En este caso, buscamos algún  servicio que nos permita determinar cuántos genomas completos de bacterias y eucariotas se han secuenciado hasta el momento, e investigaremos sobre qué información podemos extraer de los mismos. 

Las principales bases de datos que encontraremos a este respecto son dos: 
  • Genome: contiene datos de secuencias y mapa de datos de genomas de más de 1000 especies o cepas. Aquí se representan tanto genomas ya completados como genomas en proceso de secuenciación. Los tres dominios principales (bacterias, arqueas y eukaryota) están representados, así como muchos virus, fagos, viroides, plásmidos y orgánulos. 
  • Genome project: recoge información completa y en fase de desarrollo a gran escala de proyectos de secuenciación, así como el montaje, anotaciones, etc. La base de datos está organizada como una visión en conjunto (información general) de organismos específicos, que permite la navegación y recuperación de proyectos para un organismo determinado.
En este caso, haremos uso de Genome. Podremos acceder bien a través de la página principal de NCBI o haciendo click aquí). Para ejemplificar una búsqueda, introduciremos "bacteria" en el buscador. De esta forma, accederemos a una página con todos los resultados de organismos cuyo genoma se encuentra completamente secuenciado o está en proceso (4114 en nuestro caso particular), acompañados de una breve descripción, el reino al que pertenecen, su número de cromosomas y plásmidos, así como un número de identificación. 

Vamos a tomar como ejemplo el organismo modelo Echerichia coli para profundizar en la información que nos ofrece esta herramienta. 


Clickando en su correspondiente enlace, nos aparecerá una nueva página mucho más específica, donde encontraremos mayor  información sobre el organismo incluído su linaje completo. El aspecto que quizá pueda parecer más interesante es el esquema del genoma de la bacteria (basado un alineamiento local tipo BLAST). Este esquema incluye las distintas cepas empleadas en su secuenciación (de las que podremos obtener información más específica haciendo click en su código de accesión). También incluye otros bioproyectos en los que se encuentra implicados el organismo, una herramienta (BLAST genome), que nos permite comparar su genoma con el de otras especies mediante un alineamiento tipo BLAST así como un gran número de publicaciones y fuentes externas. 



Este mismo procedimiento de búsqueda se seguirá para obtener este tipo de información de cualquier organismo que precisemos. Si tenéis alguna duda en el manejo de esta herramienta, siempre podéis acceder al menú help del NCBI, así como diversos tutoriales que se encuentran en su canal de youtube, ya mencionado en entradas anteriores. 

Con esta entrada damos por terminada la introducción a la enorme variabilidad de información que podemos encontrar en la base de datos preteneciente al NCBI. Esta herramienta cuenta además con una guía explicativa de todas las Bases de datos accesibles desde el mismo, un excelente complemento a su canal de Youtube que merece la pena curiosear si no tenéis muy claro donde encontrar una información en concreto. ¡Buena suerte y seguir investigando!