lunes, 17 de junio de 2013

Análisis de secuencia

En esta entrada seleccionaremos y analizaremos una secuencia nucleotídica, teniendo en cuenta los parámetros y herramientas que hemos estudiado a lo largo de toda la asignatura práctica de Biosíntesis de Macromoléculas. La secuencia problema así como las cuestiones que nos proponemos determinar se encuentran accesibles en el siguiente enlace.

En primer lugar, utilizaremos el programa Chromas Lite® que nos proporciona un cromatograma de la secuencia problema, del que se adjunta un fragmento a continuación:




Posteriormente, exportamos la secuencia en formato FASTA. De esta forma, podremos trabajar con la secuencia en cualquiera de las herramientas bioinformáticas para obtener información de las macromoléculas, en general, y los ácidos nucleicos, en particular.

1. Análisis de secuencias con EMBOSS:
A continuación vamos a adentrarnos en la información que podemos obtener de la secuencia problema haciendo uso de JEMBOSS, una interfaz gráfica del paquete de programas EMBOSS (European Molecular Biology Open Software Suite). 

Valoración de CDS con Plotorf
En primer lugar, accedemos al paquete informático JEMBOSS, que está disponible online.
Buscamos en el menú de la izquierda la opción Plotorf, que nos permitirá identificar los CDS de nuestra secuencia problema. Los resultados obtenidos se muestran a continuación: 

Se nos proporcionan las seis posibles fases de lectura para la secuencia nucleotídica y, resaltado en color, los fragmentos de dicha secuencia que codifican para una proteína, de donde podemos deducir que, con mayor probabilidad, la fase de lectura para la secuencia problema es la número cuatro. 

Obtención de marcos abiertos de lectura con Sixpack
A continuación, nos disponemos a traducir la secuencia a sus seis posibles fases de lectura. Para ello, haremos uso de una herramienta también de EMBOSS: EMBOSS Sixpack. Encontraréis el correspondiente enlace para acceder a ella en el menú de la izquierda de la página principal de JEMBOSS online.

Tras lanzar el Sixpack nos aparecerá una interfaz que esquematiza las secuencias peptídicas (en código de una letra) de las seis posibles fases de lectura de nuestra secuencia nucleotídica (en la siguiente imagen se muestra un fragmento de la misma). Se adjunta además, un recuento del total de ORF's (marcos de lectura abiertos) para cada una de dichas fases. 


Puntuación de posibles regiones codificantes: Tcode
Para finalizar con EMBOSS vamos a emplear la herramienta Tcode. Haciendo uso de una serie de algoritmos, Tcode es capaz de identificar regiones codificantes de proteínas en una secuencia dada. Para acceder a esta herramienta basta con seguir el procedimiento llevado a cabo para el resto de programas de EMBOSS

Tcode hace una lista de los posibles CDS de nuestra secuencia problema (que muestra finalmente en un gráfico), dándoles una puntuación (Testcode value) que le permite clasificarlos en coding (codificante, por encima de la línea verde), non- coding (no codificante, por debajo de la línea roja) o no opinion (puede tratarse de un fragmento codificante o no codificante, entre las líneas verde y roja).


2. Comparación de secuencias: 
Anotaciones: 
Como hemos podido comprobar en entradas anteriores, una de las herramientas más útiles para la comparación de secuencias es BLAST (Basic Local Alignment Search Tool), un programa bioinformático de alineamiento de secuencias de tipo local (ADN, ARN, proteínas).

Podemos distinguir entre varias modalidades de BLAST. En este caso realizaremos BlastN (Nucleotide Blast), que compara una secuencia nucleotídica con bases de datos que contengan también secuencias nucleotídicas.


Se nos muestra, en un diagrama de barras con código de colores (representativo de la puntuación de alineamiento), las secuencias más similares como una distribución de alineamientos: cada barra representa una secuencia, ordenadas por porcentaje decreciente de similitud.


La primera de las barras (máxima similitud) se corresponde con el CDS completo de la proteína ROS1 de Arabidopsis thaliana, por lo que deducimos que nuestra secuencia problema se corresponde con el gen que codifica dicha proteína.


3. Información sobre la proteína:
Clickamos en el número de accesión correspondiente a dicha proteína  (NM_129207.4) y accedemos a una interfaz que nos proporciona mayor información (locus del gen, clasificación del organismo, artículo y publicación...), además se muestra la secuencia proteínica (en código de una letra) deducible a partir de nuestra secuencia nucleotídica problema, y que se adjunta a continuación:

Entre los aspectos más relevantes que podemos encontrar en las anotaciones, se encuentra la información relativa a la funcionalidad de la proteína. En este caso en particular, encontramos que nuestra proteína se trata de un represor transcripcional que actúa en procesos de silenciameiento génico, mediante la desmetilación de regiones del promotor diana. Interacciona físicamente con otras proteínas, como RPA2/ROR1. Se ha encontrado en mutantes de Ros1 un aumento de la metilación en varios promotores. 
Entre los loci afectados por ros1, algunos se ven afectados en la metilación de citosinas aunque la mayor parte de ellos se afectan en otros nucleótidos. 

En la interfaz de las anotaciones aparece un menú a la derecha con enlaces a varias bases de datos donde podremos completar la búsqueda y ampliar la información. Una de las opciones es Map viewer, que de una forma gráfica sitúa nuestro gen en su correspondiente cromosoma (en este caso, cromosoma 2), junto con el resto de loci de  dicho cromosoma, pudiendo saber qué genes se encuentran más cerca de ros1 y, por tanto, con una alta probabilidad segregarán juntos. 

 InterPro:
A continuación, vamos a hacer uso de Interpro (en concreto, Interproscan) para identificar dominios de interés en la proteína ROS1. 
Para ello accedemos en primer lugar a la página web de Interpro, haciendo click en el enlace, y buscamos la herramienta InterproScan y copiamos la secuencia peptídica que obtuvimos al realizar el Blast en el recuadro de inserción, clickamos en submit  y ya sólo queda esperar los resultados. 



Encontramos esquematizadas las distintas regiones con dominios, mostradas bajo un código de colores (según la base de datos de procedencia). Observamos algunos dominios HHH (varias hélices alfa) y HTH (hélice-giro-hélice) que se relacionan con una DNA glicosilasa (acción de reparación del daño en el ADN) que podemos inferir que pertenece a la familia de endonucleasas III. 
Haciendo click en los recuadros al comienzo de cada representación, obtendremos información más detallada, así como los números de accesión GO.

BlastX y BlastP
Para finalizar esta práctica resumen vamos a realizar dos útlimos Blast

- Blastx: este programa usa como entrada una secuencia nucleotídica que traduce en sus seis posibles marcos de lectura, y compara estas secuencias con proteínas recogidas en bases de de datos (suele utilizarse cuando se sospecha que la secuencia de entrada codifica para una proteína, pero no se sabe exactamente cuál es su producto). 

Los resultados que obtenemos tras lanzar el Blastx se esquematizan a continuación: 
Obtenemos que la secuencia con mayor porcentaje de similitud se corresponde con la proteína Ros1 de Arabidpsis thaliana, como era de esperar. El resto de líneas que aparacen en el Blast hacen referencia a proteínas hipotéticas con secuencia recogida en las bases de datos. 

- BlastP: este programa compara una secuencia de aminoácidos con otras secuencias, también de aminoácidos, recogidas en bases de datos, para realizar alineamientos introduciendo gaps (huecos) según matrices de sustitución BLOSUM o PAM. 

Tras realizar el BlastP obtenemos los siguientes resultados: 

En este caso, obtenemos un mayor número de coincidencias. Las dos primeras secuencias se corresponden con secuencias de la proteína ROS1 de Arabidopsis, almacenadas en distintas bases de datos. Del mismo modo que cuando llevamos a cabo el BlastX, el resto de coincidencias (con menor porcentaje de similitud) se corresponde con secuencias catalogadas como proteínas hipotéticas. 

jueves, 4 de abril de 2013

¿Qué es la secuenciación de ADN?


Por secuenciación de ADN entendemos el conjunto de métodos y técnicas bioquímicas diseñadas para determinar el orden de los nucleótidos en un fragmento de ADN. Es indudable la relevancia de determinar la secuencia del ADN en la investigación básica de los procesos biológicos principales y en campos aplicados. Actualmente, existen técnicas que permiten llevar a cabo la secuenciación a una gran velocidad, lo que ha permitido la realización de proyectos como el Proyecto Genoma Humano.

A continuación, se proporcionarán distintos enlaces que nos mostrarán cómo es factible realizar por nosotros mismos la secuenciación de ADN. 

1. Empresa capaz de secuenciar el ADN de forma convencional: 

2. Video que muestra como aislar ADN de algún tejido (en este caso, se trata de una extracción de ADN de fresas):

3. Un kit comercial que se vende para el aislamiento del ADN de algún tipo de tejido. Se adjunta con un documento en formato PDF a modo de manual que detalla las instrucciones a seguir para llevar a cabo el aislamiento:

Si hacéis click en el siguiente enlace accederéis a la página principal de una empresa que proporciona kits de extracción de DNA.

miércoles, 3 de abril de 2013

Comparamos NCBI y DDBJ

Esta entrada va a tratar sobre aspectos interesantes que podemos encontrar en las principales Bases de Datos en cuanto a Biociencia se refiere: el NCBI (National Center for Biotechnology Information) de EE.UU. y en el DDBJ (DNA Data Bank of Japan). 

Comenzaremos con el NCBI, base de datos que ya hemos manejado en entradas anteriores. En la página principal, nos aparece un listado con distintas categorías (en las que se engloban las diferentes bases de datos).
  • Chemicals & Bioassays
  • Data & Software
  • DNA & RNA
  • Domains & Structures
  • Genes & Expression
  • Genetics & Medicine
  • Genomes & maps
  • Homology
  • Literature
  • Proteins
  • Sequence Analysis
  • Taxonomy
  • Training & Tutorial
Una de las opciones más interesantes que podemos encontrar es BLAST. BLAST (Basic Local Algnment Search Tool) es una herramienta informática de alineamiento de secuencias de tipo local (ADN, ARN o proteínas), es decir, compara una secuencia problema frente al resto de secuencias que se encuentran en la base de datos. Para ello, emplea un algoritmo heurístico.

Dentro de Proteins podemos encontrar Protein Clusters, una base de datos que incluye secuencias proteicas relacionadas (clusters) entre sí, codificadas por genomas completos.

Otra opción interesante la encontramos dentro de la categoría Gene & expresión: Genes & Disease. Esta base de datos reúne información de determinados trastornos genéticos, acompañada de discusiones sobre las respectivas mutaciones y características clínicas, así como enlaces de bases de datos y organización relacionadas.

En Homology encontramos Conserved Domain Database (CDD). Esta base de datos colecciona alineamientos entre secuencias y los perfiles que representan los distintos dominios de proteínas conservadas en la evolución molecular.

Por último mencionaremos Taxonomy, base de datos que contiene los nombres y linajes filogenéticos de más de 160.000 organismos con datos moleculares en el resto de bases de datos del NCBI.

Sobre el DDBJ cabe mencionar que se trata de la única base de datos de secuencias de nucleótidos en Asia certificada oficialmente. DDBJ recopila datos de secuencias principalmente por investigadores japonenes, pero por supuesto, acepta datos y emite números de acceso de investigadores de cualquier otro país. 

En la página principal, encontramos diversas pestañas que nos dirigen a distintas opciones (Inicio, guía de funcionamiento, búsqueda, estadísticas, contacto...). 

Si hacemos click en Search Analysis accedermos a una colección de Bases de Datos clasificadas en distintas categorías (análisis de genoma, filogenética...). Para obtener más información sobre cada una de ellas basta con hacer acceder a su respectivo enlace. 

Por supuesto y como podéis comprobar, sólo hemos seleccionado una pequeña parte de la enorme cantidad de subcategorías que componen ambas Bases de Datos. Desde aquí os animo a que investiguéis por vosotros mismos, ya que toda la información necesaria para manejarlas la podréis encontrar en sus respectivas guías.

¡Ánimo y hasta la próxima entrada!

Búsqueda SRS

En esta entrada se proporcionará alguna información básica sobre el Sequence Retrieval System (SRS), en primer lugar, y nos centraremos en su manejo después. SRS es un servicio de búsquedas en bases de datos (similar a Entrez del NCBI), que pertenece al Laboratorio Europeo de Biología Molecular (EMBL), una importante institución de investigación en Biología Molecular, financiada por 18 países europeos. 


En primer lugar accederemos  a la página principal del buscador, que nos muestra una clasificación de las bases de datos (SRS reúne unas 400), entre las que podemos distinguir unas más generales (Taxonomy, OMIM, EDAM, etc.)  de otras más específicas (como por ejemplo, específicas para secuencias: Patent DNA, EMBL MGA, Uniprot, etc). 

Para conocer cuántas y cuáles son las bases de datos que nos proporciona el servicio, seleccionamos la pestaña databanks, donde obtendremos un listado de las mismas clasificadas en distintos grupos (según el tipo de información que albergan) y con algunos datos interesantes, como el número de entradas que contienen o su posible disponibilidad. 

A simple vista, en la columna Nº of entries observamos que la base de datos que más datos contiene es Livelists.

La columna  Indexing date, nos proporciona la fecha de las últimas actualizaciones que se han llevado a cabo. Por ejemplo, observamos que la más reciente (con fecha de este mismo día, 3 de abril de 2013) se corresponde con Taxonomy (base de datos que recoge el nombre de todos los organismos que están representados en las bases de datos de secuencias con, al menos, una secuencia nucleotídica o proteica). Accediendo a su correspondiente enlace, obtenemos la última actualización realizada y el número total de entradas hasta la fecha. 

Ahora veremos qué tipo de información podemos extraer de una de las herramientas de SRS. Como ejemplo hemos elegido el  IPD-MHC

IPD-MHC es un subgrupo dentro de la base de datos de inmuno polimorfismos (IPD), un conjunto de bases de datos especializadas en el estudio de genes polimórficos en el sistema inmune. El resto de bases de datos que la componen son : IPD-KIR, IPD-HPA, IPD-ESTAB. En particular, IPD-MHC es una base de datos que contiene secuencias pertenecientes al complejo mayor de histocompatibilidad de diferentes especies. 
En la misma página, nos indica que la versión actual (1.8.0) cuenta con 3.884 entradas en su última actualización (20 de noviembre de 2012). 

Si tenéis alguna duda sobre el funcionamiento de SRS o simplemente queréis profundizar en el resto de servicios que proporciona, entrando en el menú Help de la página principal (o haciendo click aquí) accederéis a un tutorial que detalla los distintos aspectos que recoge esta Base de Datos. 

Para finalizar con esta entrada, haremos una búsqueda en EMBLNEW. Tendremos la opción de hacer la búsqueda en dos modos: Standard search y Extended search. Clickamos en la pestaña databanks y buscamos EMBLNEW, desde donde accederemos por defecto a un modo de búsqueda standard. En la misma página se nos ofrece el modo extended, que será el que finalmente empleemos, pues se trata de un modo de búsqueda más avanzada.

Como podemos comprobar, este modo de búsqueda ofrece muchos campos, entre otros:  topología, tipo de molécula, división, longitud de la secuencia, número de accesión, fecha de entrada, de publicación y de actualización, palabras clave, proyecto genómico, taxón, etc. 

Una prueba de la alta especificidad que permite este servicio, se encuentra en la variedad de divisiones que presenta. Éstas se muestran a continuación, con sus respectivos códigos: env (muestras ambientales) , fun (hongos), hum (humanos), inv (invertebrados), mam (otros mamíferos), mus (Mus musculus), phg (bacteriófago), pln (plantas), pro (procariotas), rod (roedores), syn (sintéticos), tgn (transgénicos), unc (sin clasificar), vrl (virus), vrt (otros vertebrados). 

Como muchas otras bases de datos, podemos enlazar términos en nuestra búsqueda, sin más que utilizar los comandos: & (AND), | (OR); ! (BUTNOT).

Como ejemplo de esta última explicación, vamos a buscar bibliografía científica referida a la enzima acetolactato sintasa en procariotas. Una vez realizada la búsqueda, hemos obtenido 67 resultados. Haciendo click, por ejemplo,  sobre el primero de ellos aparecerá una nueva página, desde la que podremos acceder a las referencias bibliográficas y a partir de ahí todo tipo de información al respecto. 




martes, 2 de abril de 2013

Modelado por homología

Uno de los principales problemas actuales de la investigación en Biología Molecular es la asignación de función y estructura a la gran cantidad de productos génicos sin caracterizar descubiertos por secuenciación genómica.  Se han desarrollado en los últimos años herramientas informáticas y experimentales para comparar estas secuencias con otras proteínas de estructura y función conocidas y así poder hacer una predicción sobre la estructura y función de la proteína problema.

En este caso, nuestro objetivo será encontrar una proteína homóloga a la acetolactato sintasa de Amaranthus (para lo que utilizaremos la base de datos del Protein Data Bank (PDB) y buscaremos una proteína de secuencia similar de la que se conozca su estructura tridimensional. Para observar dicha estructura, haremos uso del programa Swiss PDB viewer.

Comenzamos haciendo una búsqueda general en el NCBI en la que, además de la proteína, introduciremos el organismo del que queremos extraer dicha secuencia. Para ello seleccionamos la opción Protein y escribimos acetolactate synthase AND Amaranthus en la barra de búsqueda.

Nos aparecen 27 resultados distintos, correspondientes a distintas especies del género Amaranthus. Seleccionamos, por ejemplo, el primero de ellos (Amaranthus powellii) y hacemos click en FASTA para obtener la secuencia de la proteína en este formato.


Copiamos únicamente la secuencia aminoacídica, y nos dirigimos a la página del PDB. Seleccionamos la opción sequence e introducimos la secuencia en la barra de búsqueda. Finalmente obtendremos un listado (100 resultados) con las secuencias más similares a nuestra proteína problema.



Seleccionamos la primera de ellas (código PDB: 1YBH), y descargamos el fichero PDB en formato texto. Ya sólo tenemos que cargarlo en el programa Swiss PDB viewer y observar su estructura tridimensional. Por último, se adjunta una imagen de dicha proteína, en modo de cintas por sucesión de estructura secundaria:



Más sobre NCBI: Genome

Seguimos profundizando en el NCBI. En este caso, buscamos algún  servicio que nos permita determinar cuántos genomas completos de bacterias y eucariotas se han secuenciado hasta el momento, e investigaremos sobre qué información podemos extraer de los mismos. 

Las principales bases de datos que encontraremos a este respecto son dos: 
  • Genome: contiene datos de secuencias y mapa de datos de genomas de más de 1000 especies o cepas. Aquí se representan tanto genomas ya completados como genomas en proceso de secuenciación. Los tres dominios principales (bacterias, arqueas y eukaryota) están representados, así como muchos virus, fagos, viroides, plásmidos y orgánulos. 
  • Genome project: recoge información completa y en fase de desarrollo a gran escala de proyectos de secuenciación, así como el montaje, anotaciones, etc. La base de datos está organizada como una visión en conjunto (información general) de organismos específicos, que permite la navegación y recuperación de proyectos para un organismo determinado.
En este caso, haremos uso de Genome. Podremos acceder bien a través de la página principal de NCBI o haciendo click aquí). Para ejemplificar una búsqueda, introduciremos "bacteria" en el buscador. De esta forma, accederemos a una página con todos los resultados de organismos cuyo genoma se encuentra completamente secuenciado o está en proceso (4114 en nuestro caso particular), acompañados de una breve descripción, el reino al que pertenecen, su número de cromosomas y plásmidos, así como un número de identificación. 

Vamos a tomar como ejemplo el organismo modelo Echerichia coli para profundizar en la información que nos ofrece esta herramienta. 


Clickando en su correspondiente enlace, nos aparecerá una nueva página mucho más específica, donde encontraremos mayor  información sobre el organismo incluído su linaje completo. El aspecto que quizá pueda parecer más interesante es el esquema del genoma de la bacteria (basado un alineamiento local tipo BLAST). Este esquema incluye las distintas cepas empleadas en su secuenciación (de las que podremos obtener información más específica haciendo click en su código de accesión). También incluye otros bioproyectos en los que se encuentra implicados el organismo, una herramienta (BLAST genome), que nos permite comparar su genoma con el de otras especies mediante un alineamiento tipo BLAST así como un gran número de publicaciones y fuentes externas. 



Este mismo procedimiento de búsqueda se seguirá para obtener este tipo de información de cualquier organismo que precisemos. Si tenéis alguna duda en el manejo de esta herramienta, siempre podéis acceder al menú help del NCBI, así como diversos tutoriales que se encuentran en su canal de youtube, ya mencionado en entradas anteriores. 

Con esta entrada damos por terminada la introducción a la enorme variabilidad de información que podemos encontrar en la base de datos preteneciente al NCBI. Esta herramienta cuenta además con una guía explicativa de todas las Bases de datos accesibles desde el mismo, un excelente complemento a su canal de Youtube que merece la pena curiosear si no tenéis muy claro donde encontrar una información en concreto. ¡Buena suerte y seguir investigando!


domingo, 31 de marzo de 2013

Búsqueda en OMIM


En esta segunda entrada vamos a centrar nuestra atención en una base de datos de gran importancia en el ámbito biomédico. Se trata de Online Mendelian Inheritance in Man (OMIM)una herramienta que agrupa y cataloga todas las enfermedades humanas conocidas que incluyen algún factor genético, y que se encuentra disponible en el National Center for Biotechnology Information (NCBI).

Para ejemplificar una búsqueda en OMIM, hemos elegido la enfermedad de Alzheimer, un conocido y devastador trastorno neurodegenerativo que, desde hace unos años, no ha hecho más que incrementar su incidencia en la pobalción y, en consecuencia, la atención de la comunidad científica. 

En primer lugar, vamos a buscar en OMIM algunos genes que puedan estar relacionados con dicha enfermedad. Para ello, accedemos a OMIM e introducimos el nombre de la enfermedad en la barra de búsqueda. Nos aparecerá una interfaz, de la que caben destacar dos herramientas básicas, muy útiles si buscamos una información en concreto.
  • Con Search OMIM accedemos a un menú de búsqueda avanzada, donde podemos restringir nuestra búsqueda estableciendo una serie de filtros:



  • La opción Search Gene Map agrupa y lista los distintos genes implicados según su localización citogenética.
Si buscamos información general, basta con introducir el nombre de la enfermedad en la barra de búsqueda. Nos aparecerá una lista de genes, de los cuales podremos acceder a mayor información haciendo click en ellos. Tomaremos como ejemplo el primer gen que aparece en la lista:

En primer lugar se nos muestra su número de accesión precedido de un asterisco (*), indicativo de que la entrada corresponde a un gen. A continuación, aparece el nombre de la proteína que codifica dicho gen (presenilina 1) y el del propio gen (PSEN1). Seguidamente, se muestra el código de su localización citogénica, en este caso 14q24.2 (cromosoma 14, brazo largo, posición 24) y un cuadro que incluye las relaciones gen-fenotipo (entre las cuales podemos diferenciar las relacionadas con la enfermedad de Alzheimer) cada una acompañada de su correspondiente número de accesión (Phenotype MIM number). Se detalla que este primer gen está implicado en la aparición temprana del Alzheimer de tipo 3. Para obtener más información sobre estas entradas en particular, basta con hacer click en sus respectivos números de accesión. 

Tras el cuadro de relación gen-fenotipo descrito, se nos muestra información (texto) del gen seleccionado, estructurada en tres secciones principales.


1) Clonación: se recogen y detallan las técnicas que se han llevado a cabo para la clonación del gen, así como la información más relevante que se ha podido extraer de las mismas.

Si comenzamos a leer, observamos que en los primeros datos que se recogen (Sherrington et al., 1995) se descubrió, mediante la técnica linking mapping, una región que contenía el supuesto gen responsable de la aparición temprana del Alzheimer de tipo 3, ligada al cromosoma 14q24.3. En el mismo año, el Alzheimer's Disease Collaborative Group aisló clones completos, en forma de cDNA, de lo que denominaron PS1, que adquiriría una gran relevancia en las futuras investigaciones.

2) Estructura del gen: en esta sección se recogen los datos obtenidos referidos a aspectos estructurales del gen seleccionado.
En nuestro caso, el Alzheimer's Disease Collaborative Group concluyó que el marco de lectura abierto (ORF) de este gen estaba codificado por 10 exones. Asimismo, determianron que el gen PS2 (PSEN2; 600759), localizado en el cromosoma 1, presentaba una estructura muy similar a aquél.

Dos años más tarde, Rogaev et al., demostraron que el gen PSEN1 contaba con una longitud de, al menos, 60 kb y presentaba 13 exones, de los cuales los cuatro primeros contenía una secuencia no traducida, y los dos primeros representaban zonas alternativas de iniciación de la transcripción.

3) Función del gen: en esta última sección, quizá la mas interesante y esclarecedora, se detallan las técnicas y los resultados obtenidos, referidos al estudio de la función del gen.En nuestro caso particular, se incluye además información referente al PSEN2, por su alta similitud con PSEN1, en cuanto al papel que juega en el desarrollo de esta enfermedad. Algunos de los datos que podemos extraer de la vasta información que en esta sección se nos muestra es la siguiente:

Mediante hibridaciones in situ y análisis inmunoquímicos, entre otras técnicas, se determinó la localización intracelular preferente de PS1 y PS2, respectivos productos de expresión de los genes, y se dedujo su posible interacción en la organización de los cromosomas y la segregación.

Otros datos relevantes que se obtuvieron en investigaciones posteriores mostraban la relevancia del complejo que la PS1 formaba con la beta-catenina. La beta-catenina se reducía notablemente en los cerebros de pacientes con Alzheimer, con mutaciones en PS1. La pérdida de beta-catenina aumentaba la vulverabilidad a la apoptosis.

Para mayor información sobre esta base de datos, podéis acceder a la sección help que se encuentra en la página principal de OMIM, donde encontrareis manuales de ayuda (como FAQs) o acceder al canal de youtube del NCBI, que cuenta con tutoriales como éste para facilitar el manejo de bases de datos como la que acabamos de ver.

lunes, 25 de marzo de 2013

Bienvenida y comienzo

¡Bienvenidos a Bioscience Me!

Este blog surge para acercar al lector al ámbito de la Biociencia, con especial interés por la Bioinformática, una de las ramas que má relevancia está adquiriendo en los últimos años. Así pues, las primeras entradas de este blog estarán dirigidas al manejo de diferentes bases de datos, lo que nos permitirá extraer una gran cantidad de información sobre nuestra diana biológica de interés. Para ello, nuestro objetivo será resolver las tareas propuestas en clase de Biosíntesis de Macromoléculas. 

Sin nada más que añadir (por el momento)... ¡Comencemos!

En esta primera entrada nos vamos a introducir en el manejo del National Center for Biotechnology Information (NCBI), una de las más importantes Bases de Datos del ámbito Científico. Analizaremos algunas secuencias de ácido nucleico pertenecientes al fragmento 17 del cromosoma 4 de Arabidopsis thaliana (número de accesión AL161505.2) y las representaremos en un esquema gráfico. 

El número de accesión nos dirigirá directamente a las anotaciones de la secuencia correspondiente. Llegados a este punto, buscaremos los CDS (coding sequence).
Podremos encontrarnos dos casos distintos, que se ejemplifican a continuación:
  • Primer caso. CDS: join(21183..21320, 21398..21662, 21795..21897, 21973..22195)
El término join indica que el RNA maduro será resultado de la unión de los distintos exones que se incluyen a continuación en la secuencia, entre paréntesis y separados por comas.



Haciendo en click en gene, podremos visualizar la secuencia del gen completa: 


A continuación se muestra una forma esquemática de representar el proceso de transcripción de este gen:


  • Segundo caso. CDS: complement(join(29065..29454, 29519..29703, 30603..30969, 31062..31307, 31359..31484))
En este caso, el término complement nos indica que la cadena sentido es la complementaria a la que nos muestra la base de datos. Del mismo modo que en el ejemplo anterior, join indica que el RNA maduro será el resultado de la unión de los exones del gen, que se muestran entre paréntesis y separados por comas.


De nuevo, hacemos click en gene para visualizar la secuencia completa del gen:


Para finalizar, se esquematiza el proceso de transcripción de este gen: