¡Bienvenidos de nuevo!
Volvemos después de este largo parón para iniciarnos en la asignatura de Biología de Sistemas.
El primer problema con el que nos encontramos es que muchos de los software que vamos a utilizar únicamente están disponibles para Linux. La opción más recomendable para los usuarios de Mac o Windows, es instalar VirtualBox, un software que me permitirá instalar un sistema operativo Linux dentro de vuestro propio sistema operativo, y así trabajar con estas herramientas. Si tenéis alguna dificultad con la instalación, aquí os dejo un tutorial que me ha sido muy útil para instalarlo.
Dicho esto, la primera tarea que vamos a realizar será un Control de calidad de la secuenciación con FastQC, una de las principales herramientas que tenemos actualmente para realizar controles de la calidad de secuenciación. Podéis descargar dicho programa en el siguiente enlace. También descargaremos FastX-Toolkit, un software que incluye diversas herramientas para el pre-procesamiento de los archivos fasta y fastq y que podéis descargar en este enlace.
En las próximas entradas del blog valoraremos la calidad de la secuenciación obtenida por dos plataformas distintas: Illumina (que trataremos en este y el siguiente post) y SOLiD (que trataremos en los dos siguientes).
Comenzamos pues, por Illumina. Una vez hemos descargado nuestra secuencia problema en formato '.fastq' (un formato que incluye tanto la secuencia como sus correspondientes puntuaciones de calidad, en código ASCII) nos disponemos a lanzar un FastQC, que nos proporciona la siguiente información relativa a la calidad de secuenciación de nuestra secuencia problema:
Junto a la denominación de la pestaña podemos encontrar hasta tres símbolos: el tic verde nos indica que el análisis se corresponde con el de una correcta secuenciación. Mientras que el warning (símbolo ámbar, no mostrado en la imagen anterior) es una "alarma" que indica que en ese aspecto en concreto la secuenciación no es correcta. En el extremo final tenemos el símbolo rojo de failure (mala secuenciación). hsd
1. Basic Statistics:
En este apartado se presentan simplemente las características básicas de nuestra secuencia problema: shd
- Nombre del archivo: nombre original de la secuencia problema.
- Tipo del archivo: base calls o colorspace. En este caso -base calls- indica que el código empleado para correlacionar los picos del cromatograma se compone de las distintas bases nucelotídicas del ADN.
- Codificación: indica el rango de caracteres ASCII empleado para especificar la calidad de la secuenciación. En este caso, se corresponde con Illumina 1.5 (desde "C=3" hasta "h=40").
- Secuencias totales: hace referencia al total de secuencias procesadas en el análisis (25.000).
- Secuencias filtradas: incluye el total de secuencias que han sido eliminadas atendiendo a las condiciones de cribado ("0", puesto que aún no se han establecido condiciones de trimming).
- Longitud de la secuencia: proporciona el rango de longitud de las secuencias (desde las más cortas a las más largas). En este caso, aparece únicamente el valor "38" lo que indica que todas las secuencias son de esa misma longitud.
- Contenido de GC (%): indica el contenido total de citosina y guanina en las secuencias. En este caso es de un 45%.
2. Per base sequence quality:
Este apartado proporciona una visión general de la de calidad de secuenciación para las distintas bases localizadas en cada una de las 38 posiciones (eje X), teniendo en cuenta todas las secuencias procesadas. El gráfico informa sobre muchos parámetros (mediana, rango intercuartil para cada posición, etc.) pero lo que más nos interesa en este caso es el valor de quality score (eje Y) relativo a cada posición. Observamos como dicho valor desciende a medida que avanzamos en las posiciones de la secuencia, algo lógico dada la naturaleza de los sistemas de secuenciación que se emplean actualmente, caracterizados por una alta eficiencia en las bases iniciales y una progresiva pérdida de ésta a medida que avanza en la secuencia.En nuestro caso particular, el programa nos proporciona un failure, que aparece cuando el cuartil inferior para cualquier base es menor de 5 o si el valor de la mediana para cualquier base es menor de 20. En definitiva, a partir de la posición 34 podemos afirmar que la calidad de la secuenciación es muy baja, por lo que deberíamos o suprimir las secuencias cuyas últimas bases presenten un valor de Q inferior a 20 o, más apropiado, acortar la longitud de las secuencias con baja calidad en las últimas posiciones y conservar las que, tras este procesamiento, superen un valor de Q de 20.
3. Per tile sequence quality:
En este caso, un alto contenido en colores fríos indica una alta calidad de la secuenciación, tal como se cumple en nuestro caso particular. En caso de que encontráramos teselas de distintas tonalidades, supondríamos que esos "descensos" en la calidad de secuenciación se deben a incidencias de carácter físico en dicho proceso (burbujas en el equipo, etc.).4. Per sequence quality scores:
En este apartado se incluye un gráfico que representan las puntuaciones medias de calidad (eje X) frente al total de lecturas. En definitiva, nos permite visualizar rápidamente si un conjunto de nuestras lecturas presenta de forma significativa un bajo valor de calidad. En nuestro caso, la mayor parte de las secuencias presenta un aceptable valor de calidad (alrededor de Q=30) y muy pocas secuencias se encuentran en un bajo rango de calidad, lo que se corresponde a lo deducido en el apartado anterior.
En este análisis, dado que no existen diferencias significativas en la secuenciación en función del origen de los distintos genomas, bajos niveles de calidad se correlacionan con problemas físicos (sistemáticos) del método de secuenciación (burbujas en el equipo, final de la célula de flujo, etc.). Las secuencias con baja calidad pueden eliminarse, siempre que constituyen un bajo porcentaje del total. En caso de que dicho porcentaje sea representativo, debería repetirse de nuevo la secuenciación completa.
5. Per base sequence content:
Proporciona un gráfico que representa la proporción de cada una de las bases de DNA en las distintas posiciones (1-38) de todas las secuencias. Esperaríamos encontrar un porcentaje aproximadamente similar entre bases complementarias (A con T y C con G) puesto que los cebadores deberían unirse a ambas cadenas con la misma afinidad. En este análisis, marcado con el símbolo de failure la diferencia de correspondencia entre las bases complementarias en ambas cadenas es superior al 20%.
Entre los posibles motivos más probables se encuentra la preferencia diferencial de amplificación de las dos cadenas. Asimismo, si este gráfico nos muestra un porcentaje de CG distinto al característico de nuestra muestra en particular, supondremos que se trata de una interferencia por ADN contaminante.
6. Per base sequence GC content:
Se trata de un análisis complementario al anterior, ya que presenta la distribución de contenido en GC a lo largo de todas las secuencias, obtenida a partir de la secuenciación experimental, frente a la misma distribución teórica.
En nuestro caso, encontramos importantes diferencias que, como se ha expuesto anteriormente, atribuimos a una contaminación de ADN con distinto contenido en GC respecto a nuestra muestra problema. De hecho, el programa FastQC nos proporciona el símbolo de failure junto al análisis, que aparece cuando la suma de las desviaciones de la distribución normal representan más del 30% del total de las lecturas.
En nuestro caso, encontramos importantes diferencias que, como se ha expuesto anteriormente, atribuimos a una contaminación de ADN con distinto contenido en GC respecto a nuestra muestra problema. De hecho, el programa FastQC nos proporciona el símbolo de failure junto al análisis, que aparece cuando la suma de las desviaciones de la distribución normal representan más del 30% del total de las lecturas.
7. Per base N content:
8. Sequence Length Distribution:
Esta pestaña presenta una distribución que relaciona el total de lecturas de la secuenciación con su respectiva longitud. Así pues, observamos que en nuestro caso se obtiene un único pico, ya que todas las lecturas originadas (alrededor de 25.000) son de la misma longitud (38 pb).
9. Sequence Duplication Levels:
En este caso, comparamos el contenido de secuencias repetidas en relación con el total de secuencias procesadas. Teóricamente, dado que en el proceso de secuenciación la rotura de la secuencia es aleatoria, no esperaríamos encontrar duplicidad en las secuencias. Es decir, aún centrándonos en una región determinada, no obtendríamos fragmentos idénticos, sino solapantes entre sí. En la práctica, un pequeño porcentaje de duplicidad suele correlacionarse con una alta cobertura en la secuenciación, mientras que un elevado porcentaje de esta duplicidad hace referencia a problemas en la secuenciación.
En el análisis de nuestra secuencia hemos obtenido de nuevo un failure, debido a que las secuencias repetidas representan más del 50% del total de lecturas. La causa más probable para este error es la inclusión de ADN contaminante tras el proceso de rotura de nuestra secuencia original, de forma que dicha secuencia contaminante es preferente para la amplificación por PCR y de esta forma da como resultado un significativo porcentaje de secuencias repetidas.
En el análisis de nuestra secuencia hemos obtenido de nuevo un failure, debido a que las secuencias repetidas representan más del 50% del total de lecturas. La causa más probable para este error es la inclusión de ADN contaminante tras el proceso de rotura de nuestra secuencia original, de forma que dicha secuencia contaminante es preferente para la amplificación por PCR y de esta forma da como resultado un significativo porcentaje de secuencias repetidas.
10. Overrepresented sequences:
En este módulo se presentan un listado de todas las secuencias que representan más del 0.1% del total. En general, estas librerías de secuencias no deberían contener un gran número de secuencias sobrerepresentadas, siendo el motivo más probable de aparición la contaminación con ADN exógeno aunque también puede tratarse de una secuencia biológicamente significativa.
En el análisis de nuestra secuencia (marcado con el símbolo de error) estas secuencias sobrerepresentadas suponen más del 1% del total. El programa hace además un alineamiento de estas secuencias en distintas bases de datos y nos proporciona el origen más probable de dichas secuencias.
11. Kmer content
El módulo Kmer content surge bajo la asunción de que ningún pequeño fragmento se encuentre posicionado en las distintas lecturas de forma sesgada. Por ello, este análisis mide el total de subsecuencias de k bases (7 en este caso) dentro de cada lectura y aplica un test binomial para determinar desviaciones significativas de lo que sería una cobertura uniforme para todas las posiciones. Como podemos observar en la correspondiente gráfica, estos kmer aparecen como picos discretos de enriquecimiento en determinadas posiciones.