martes, 2 de diciembre de 2014

Control de calidad de secuenciación con Illumina (II): tras el cribado

Un vez hemos entendido y descrito los diferentes parámetros que nos proporciona FastQC en  relación a una secuenciación problema, podemos utilizar FastX-Toolkit que, como avanzamos en el anterior post, nos permitirá procesar el archivo de secuenciación antes de lanzar un FastQC. En este caso nos centraremos en la herramienta de trimming. En total hemos realizado cuatro cribados, a saber: 
  1. Selección de secuencias con una calidad igual o superior a Q= 20. 
  2. Selección de secuencias con una calidad igual o superior a Q= 28.
  3. Selección de secuencias con una calidad igual o superior a Q= 28 pero eliminando las lecturas de menos de 30 bases. 
  4. Selección de secuencias con una calidad igual o superior a Q= 28 pero eliminando las lecturas de menos de 35 bases. 
A continuación, se muestra un esquema con la evolución en la "aceptabilidad" de los distintos análisis en función del cribado realizado, y se comentará para cada uno de ellos los aspectos más significativos. 





1.  Selección de secuencias con una calidad igual o superior a Q = 20

Tal como mencionamos en el anterior post, se produce una progresiva caída en la calidad de la secuenciación a medida que se avanza en las posiciones de las lecturas. Por ello, con este cribado se pretende eliminar aquellas lecturas que presentan una calidad menor de Q= 20. 

Así, si atendemos al apartado basic statistics comprobaremos que el total de secuencias procesadas se ha reducido de las 25.000 iniciales a 24.890, por lo que se han eliminado un total de 110 secuencias que no cumplían con los requisitos establecidos de calidad. Podemos advertir este aumento de la calidad global (superior a Q= 20 en todas las posiciones) en el apartado Per base sequency quality:




También se ha visto modificado el módulo Sequence length distribution que aparece ahora con el símbolo warning, debido a que no todas las secuencias son de la misma longitud. Esto se debe precisamente a lo que ya comentamos en el post anterior: el programa ha acortado la longitud de las secuencias con baja calidad, eliminando las últimas posiciones y ha conservado aquellas que tras el procesamiento superaban el valor mínimo de Q requerido. 




2.  Selección de secuencias con una calidad igual o superior a Q = 28.

Tras este procesamiento (eliminación de secuencias con una calidad inferior a Q= 20), se registraron un total de 24.865 (se eliminaron 135 lecturas). En cuanto al resto de parámetros no se producen cambios significativos respecto al primer cribado. 


3.  Selección de secuencias con una calidad igual o superior a Q = 28 y una longitud igual o superior a 30 pb. 

Estableciendo estas condiciones sí encontramos algunas diferencias importantes con respecto al análisis de la secuencia original y a los dos cribados anteriores, en concreto, un aumento en la aceptabilidad de los módulos contenido en GC  y contenido de Kmer.

En cuanto al contenido en GC observamos que las diferencias entre nuestra secuenciación y la de referencia del organismos están menos marcadas que en los anteriores análisis. 




Para el caso del contenido de Kmer, el símbolo de warning nos informa de que ha tenido lugar un aumento del p-value del test binomial respecto a los anteriores análisis, pero que éste es aún menor del 0.01.

Una de las causas principales de la aparición de Kmer al inicio de la biblioteca se debe al empleo de primers aleatorios, lo que deriva de un muestreo previo incompleto de los posibles cebadores aleatorios. 




4.  Selección de secuencias con una calidad igual o superior a Q = 28 y una longitud igual o superior a 35 pb. 

Por último, tras el procesamiento realizado bajo estas condiciones se produjo una pérdida de la mejora obtenida para los parámetros contenido en GC  y contenido de Kmer que se obtuvo en el análisis anterior, donde se permitían secuencias de una longitud a partir de 30 pb. 

No hay comentarios:

Publicar un comentario