En esta entrada llevaremos a cabo el ensamblado de un genoma de novo y comparemos posteriormente el resultado con un genoma de referencia. Para realizar el ensamblado haremos uso de la herramienta Velvet, que se basa en las gráficas de Brujin y en una serie de algoritmos para realizar el ensamblado. Posteriormente, la comparación con el genoma de referencia se realizará con Mauve, una herramienta de alineamiento múltiple de genomas desarrollada por la Universidad de Wisconsin-Madison.
Los pasos que hemos seguido para llevar a cabo esta práctica quedan detallados en la página web de la asignatura, al que podéis acceder en este enlace.
Los pasos que hemos seguido para llevar a cabo esta práctica quedan detallados en la página web de la asignatura, al que podéis acceder en este enlace.
Primera parte: Ensamblado con Velvet
Para realizar el ensamblado nos hemos basado en unas secuencias pareadas, obtenidas con un equipo Illumina HiSeq2000 a partir de una estirpe de E. Coli TY-2482.
Tras descargar las secuencias, el primer paso es realizar un análisis preliminar de las secuencias para comprobar la calidad de las mismas. Como ya se ha explicado en entradas anteriores, el control de la calidad de la secuenciación podrá realizarse con el programa FastQC.
Hemos comprobado que la calidad de las secuencias es óptima. Podemos empezar entonces el ensamblado. Velvet es una de tantas herramientas del ámbito de las Biociencias que sólo es accesible en Linux, por lo que tendremos que trabajar en este sistema operativo.
Tras descargar el software y compilarlo (los detalles de este proceso los podéis encontrar en el enlace a la práctica de la página web de la asignatura) tenemos los dos comandos que necesitaremos para el ensamblado: Velveth y Velvetg. El primero de ellos se encarga de la construcción del perfil de datos que empleará posteriormente Velvetg, incluyendo archivos con información sobre cada una de las secuencias. Velvetg se encarga de construir las gráficas de Brujin a partir del k-mer especificado anteriormente a Velveth.
Como acabamos de mencionar, el ensamblador Velvet hace uso de las gráficas de Brujin. Este método surge para superar los inconvenientes que emplea el método basado en los solapamientos, ya que realiza una fragmentación más amplia del genoma y tiene en cuenta todas las posibilidades de ensamblaje de los nodos. Es decir, a diferencia del método de solapamiento, las gráficas de Brujin nos proporcionan muchas más opciones de posibles secuencias y de todas las propuestas selecciona aquella que es más larga y coherente con la hipótesis.
Sin embargo, a pesar del claro avance que supone, no está libre de ambigüedades, puesto que el ensamblaje de nodos puede resolverse por distintos caminos. Por ello, se aconseja realizar varios ensamblajes con distintos valores de k. En nuestro caso particular, hemos partido de los siguientes valores de k: 27, 29, 33, 35 y 37.
En este punto, es importante destacar que programas como Velvet únicamente trabajan bien con valores impares de k mer, puesto que de esta forma se evita que un fragmento sea el reverso complementario de sí mismo y porque entre secuencias palindrómicas, el nucleótido central es distinto.
Actualmente se han descrito alrededor de diez parámetros que evalúan la calidad del ensamblado. Uno de los más sonados es el valor de N50, que se define como "el tamaño del último contig que, sumado a las respectivas longitudes de los contigs de tamaño superior, se obtiene una longitud igual o superior a la mitad del genoma en estudio". Así pues, podemos suponer que cuanto mayor es el N50 de nuestro ensamblado mayor es la calidad del mismo, puesto que mayor es la longitud de los contigs y menor número de huecos quedará.
Sin embargo, esta correlación no es siempre acertada ya que puede tratarse de que estemos realizando un ensamblado incorrecto y los fragmentos que se están uniendo no se corresponda con el orden real del genoma que estamos analizando. Esto lo corroboraremos comparando nuestro ensamblado con un genoma de confianza (para lo que usaremos Mauve).
Así pues, hemos obtenido los siguientes datos tras lanzar Velvet con nuestra secuenciación:
Mauve es un sistema ideado para construir eficientemente múltiples alineamientos de un genoma, teniendo en cuenta eventos evolutivos a gran escala como reordenaciones o inversiones. En esta práctica nos centraremos en la interfaz básica del programa.
En primer lugar y siguiendo los pasos descritos en la página web de la asignatura, introducimos el genoma de referencia y seguidamente el resultado de el ensamblado realizado por Velvet, ambos en extensión ".fa". El programa irá realizando sucesivos alineamientos, de los cuales el último es el resultado final y el alineamiento válido.
El alineamiento entre las secuencias seleccionadas se nos muestra como un panel horizontal junto con una escala que coordenadas del genoma. Cada bloque de colores representa una región de la secuencia del nuestro genoma alineado con parte del otro genoma, siendo presumiblemente homóloga al mismo y libre de reordenamiento.
Cuando uno de los bloques de nuestro genoma problema se localiza por encima de la línea central del esquema, indica que se orienta hacia delante con respecto a la secuencia del genoma de referencia. En contraposición, los bloques que se localizan por debajo de la línea central representan regiones que se localizan en orientación inversa con respecto a la secuencia de referencia. Por último, las regiones que no forman parte de ningún bloque constituyen secuencias que no presentan homología con el genoma de referencia.
Además, dentro de cada bloque de color, Mauve dibuja un perfil de similitud de la secuencia del genoma, donde cuanto mayor es la altura del perfil mayor es la conservación en esa región.
A continuación se expondrán los cinco alineamientos realizados en función de los contigs obtenidos con las k mer indicadas en la primera parte, por orden desde k= 27 hasta k=37:
De todos los alineamientos realizados podemos observar como claramente el que más homología comparte con el genoma de referencia es el alineamiento k = 27, en contraposición con lo que auguraba el N50 de los respectivos ensamblados realizados con velvet. Esto nos demuestra cómo dicho parámetro debe ser secundario a la hora de establecer el alineamiento más óptimo pues, como en este caso, se puede tratar de un alineamiento "ficticio" en el que los distintos segmentos se han ensamblado erróneamente.
Tras descargar las secuencias, el primer paso es realizar un análisis preliminar de las secuencias para comprobar la calidad de las mismas. Como ya se ha explicado en entradas anteriores, el control de la calidad de la secuenciación podrá realizarse con el programa FastQC.
Hemos comprobado que la calidad de las secuencias es óptima. Podemos empezar entonces el ensamblado. Velvet es una de tantas herramientas del ámbito de las Biociencias que sólo es accesible en Linux, por lo que tendremos que trabajar en este sistema operativo.
Tras descargar el software y compilarlo (los detalles de este proceso los podéis encontrar en el enlace a la práctica de la página web de la asignatura) tenemos los dos comandos que necesitaremos para el ensamblado: Velveth y Velvetg. El primero de ellos se encarga de la construcción del perfil de datos que empleará posteriormente Velvetg, incluyendo archivos con información sobre cada una de las secuencias. Velvetg se encarga de construir las gráficas de Brujin a partir del k-mer especificado anteriormente a Velveth.
Como acabamos de mencionar, el ensamblador Velvet hace uso de las gráficas de Brujin. Este método surge para superar los inconvenientes que emplea el método basado en los solapamientos, ya que realiza una fragmentación más amplia del genoma y tiene en cuenta todas las posibilidades de ensamblaje de los nodos. Es decir, a diferencia del método de solapamiento, las gráficas de Brujin nos proporcionan muchas más opciones de posibles secuencias y de todas las propuestas selecciona aquella que es más larga y coherente con la hipótesis.
Sin embargo, a pesar del claro avance que supone, no está libre de ambigüedades, puesto que el ensamblaje de nodos puede resolverse por distintos caminos. Por ello, se aconseja realizar varios ensamblajes con distintos valores de k. En nuestro caso particular, hemos partido de los siguientes valores de k: 27, 29, 33, 35 y 37.
En este punto, es importante destacar que programas como Velvet únicamente trabajan bien con valores impares de k mer, puesto que de esta forma se evita que un fragmento sea el reverso complementario de sí mismo y porque entre secuencias palindrómicas, el nucleótido central es distinto.
Actualmente se han descrito alrededor de diez parámetros que evalúan la calidad del ensamblado. Uno de los más sonados es el valor de N50, que se define como "el tamaño del último contig que, sumado a las respectivas longitudes de los contigs de tamaño superior, se obtiene una longitud igual o superior a la mitad del genoma en estudio". Así pues, podemos suponer que cuanto mayor es el N50 de nuestro ensamblado mayor es la calidad del mismo, puesto que mayor es la longitud de los contigs y menor número de huecos quedará.
Sin embargo, esta correlación no es siempre acertada ya que puede tratarse de que estemos realizando un ensamblado incorrecto y los fragmentos que se están uniendo no se corresponda con el orden real del genoma que estamos analizando. Esto lo corroboraremos comparando nuestro ensamblado con un genoma de confianza (para lo que usaremos Mauve).
Así pues, hemos obtenido los siguientes datos tras lanzar Velvet con nuestra secuenciación:
Segunda parte: Ordenando los Scaffolds con Mauve
En primer lugar y siguiendo los pasos descritos en la página web de la asignatura, introducimos el genoma de referencia y seguidamente el resultado de el ensamblado realizado por Velvet, ambos en extensión ".fa". El programa irá realizando sucesivos alineamientos, de los cuales el último es el resultado final y el alineamiento válido.
El alineamiento entre las secuencias seleccionadas se nos muestra como un panel horizontal junto con una escala que coordenadas del genoma. Cada bloque de colores representa una región de la secuencia del nuestro genoma alineado con parte del otro genoma, siendo presumiblemente homóloga al mismo y libre de reordenamiento.
Cuando uno de los bloques de nuestro genoma problema se localiza por encima de la línea central del esquema, indica que se orienta hacia delante con respecto a la secuencia del genoma de referencia. En contraposición, los bloques que se localizan por debajo de la línea central representan regiones que se localizan en orientación inversa con respecto a la secuencia de referencia. Por último, las regiones que no forman parte de ningún bloque constituyen secuencias que no presentan homología con el genoma de referencia.
Además, dentro de cada bloque de color, Mauve dibuja un perfil de similitud de la secuencia del genoma, donde cuanto mayor es la altura del perfil mayor es la conservación en esa región.
A continuación se expondrán los cinco alineamientos realizados en función de los contigs obtenidos con las k mer indicadas en la primera parte, por orden desde k= 27 hasta k=37:
De todos los alineamientos realizados podemos observar como claramente el que más homología comparte con el genoma de referencia es el alineamiento k = 27, en contraposición con lo que auguraba el N50 de los respectivos ensamblados realizados con velvet. Esto nos demuestra cómo dicho parámetro debe ser secundario a la hora de establecer el alineamiento más óptimo pues, como en este caso, se puede tratar de un alineamiento "ficticio" en el que los distintos segmentos se han ensamblado erróneamente.