En este caso llevamos a cabo tres cribados en el control de la secuenciación y un filtrado, para la que utilizamos las herramientas de trimming y filtering de FastX-Toolkit, respectivamente:
- Selección de secuencias con una calidad igual o superior a Q= 20.
- Selección de secuencias con una calidad igual o superior a Q= 28.
- Selección de secuencias con una calidad igual o superior a Q= 28 pero eliminando las lecturas de menos de 47 bases.
- Filtrado de lecturas que tengan menos del 90% de bases con una calidad superior a Q= 20.
A continuación se muestra la evolución en la aceptabilidad en la relación de módulos proporcionada por FastQC y se comentarán los aspectos más interesantes.
1. Selección de secuencias con una calidad igual o superior a Q = 20
En la primera pestaña de este análisis comprobamos que se han tenido que eliminar 9.233 para conseguir las condiciones de calidad establecidas. Las secuencias que se han mantenido presentan distintas longitudes (1-50) como veremos más adelante.
El módulo Per base sequence content observamos notables diferencias con respecto al respectivo análisis en la secuencia original, de forma que al eliminar las secuencias "erróneas" se ha conseguido disminuir la diferencia en el contenido de A y T o G y C (ahora las diferencias son superiores al 10% pero inferiores al 20%).
Otro aspecto que se ha visto modificado significativamente es el contenido en GC de la secuencia, que se ve claramente disminuido, alejándose más de lo que marca la secuencia de referencia. Una posible explicación puede ser a la aparición en este análisis de secuencias de distintos tamaños lo que haga que no coincida el contenido GC de estas nuevas lecturas con el de referencia, en las mismas posiciones. Cabe destacar además que el porcentaje del contenido en GC con respecto al total de secuencias no se ve alterado con respecto al análisis original (en ambos casos es de 55%).
Por último, merece la pena destacar el módulo Sequence length distribution, en cuyo gráfico podemos observar (como ya comentamos anteriormente) la distribución diferencial de la longitud de las lecturas entre la secuencia original (izquierda) y tras el cribado (derecha):
2. Selección de secuencias con una calidad igual o superior a Q = 28
En este análisis se han visto significativamente modificados, con respecto al cribado anterior, los parámetros: per sequence quality scores, overepresented sequences y Kmer content.
En cuando a los valores de calidad de secuencia, éstos se ven muy superados con respecto tanto al análisis anterior como a la secuencia original. Con estas nuevas condiciones de Q, se consigue que el valor de calidad media más frecuente sea superior a 27.
Curiosamente, las secuencias sobrerepresentadas se ven aumentadas. Una posible explicación es que la eliminación de las secuencias que no alcanzaban una Q= 28 haya dado lugar a una modificación en la relación secuencias sobrerepresentadas/secuencias totales de tal forma que se haya alcanzado el límite para el que el programa lanza el aviso (warning) en este parámetro.
Finalmente se produce un importante aumento de las secuencias Kmer, lo que se corresponde también con el aumento del porcentaje de secuencias sobrerepresentadas y que podrían también deberse a un aumento en la relación de posible ADN contaminante o de preferencia en la PCR frente al conjunto de secuencias totales. Es decir, que secuencias ajenas a nuestro ADN de interés presentaran la suficiente calidad en la secuenciación para no ser eliminadas del procesamiento, por lo que su representación respecto al total de lecturas se haya visto aumentada.
Curiosamente, las secuencias sobrerepresentadas se ven aumentadas. Una posible explicación es que la eliminación de las secuencias que no alcanzaban una Q= 28 haya dado lugar a una modificación en la relación secuencias sobrerepresentadas/secuencias totales de tal forma que se haya alcanzado el límite para el que el programa lanza el aviso (warning) en este parámetro.
Finalmente se produce un importante aumento de las secuencias Kmer, lo que se corresponde también con el aumento del porcentaje de secuencias sobrerepresentadas y que podrían también deberse a un aumento en la relación de posible ADN contaminante o de preferencia en la PCR frente al conjunto de secuencias totales. Es decir, que secuencias ajenas a nuestro ADN de interés presentaran la suficiente calidad en la secuenciación para no ser eliminadas del procesamiento, por lo que su representación respecto al total de lecturas se haya visto aumentada.
3. Selección de secuencias con una calidad igual o superior a Q = 28 y de longitud superior a 47 bases
En este cribado cabe mencionar la notable disminución en el total de secuencias (ahora un total de 44.119) que ha obligado las nuevas condiciones de cribado establecidas.
Con respecto al análisis anterior, los apartados que se han visto modificados -ambos favorablemente- ha sido per sequence GC content y overepresented sequences, por lo que podemos suponer que se debe a la eliminación de secuencias de longitud inferior a 47 bases, de ADN contaminante o preferentes para la PCR, que provocaban las alteraciones comentadas.
Con respecto al análisis anterior, los apartados que se han visto modificados -ambos favorablemente- ha sido per sequence GC content y overepresented sequences, por lo que podemos suponer que se debe a la eliminación de secuencias de longitud inferior a 47 bases, de ADN contaminante o preferentes para la PCR, que provocaban las alteraciones comentadas.
4. Filtrado de lecturas que tengan menos del 90% de bases con una calidad superior a Q= 20.
Podemos comprobar como este análisis es el que mejores parámetros (más acercados a una correcta secuenciación) proporciona (menor número de módulos marcados como warning o failure). Es especialmente llamativo el gráfico de contenido en GC, que se asemeja increíblemente con el propio de la secuencia de referencia:
Sin embargo, es necesario remarcar que el total de secuencias procesadas ha disminuido hasta 25.686 (casi una quinta parte del total de lecturas en la secuencia original), debido a las estrictas condiciones de calidad que hemos establecido.
Esto nos lleva a una conclusión general en cuanto a los controles de calidad de la secuenciación: a la hora de realizar un control de calidad de secuenciación tenemos que llegar a un compromiso entre las condiciones de calidad establecidas y el número de lecturas a ser procesadas, puesto que una notable disminución del total de secuencias analizadas conducirá a un control de calidad poco significativo o representativo de la secuenciación problema origina.
No hay comentarios:
Publicar un comentario