Como ya hicimos anteriormente para Illumina, comenzaremos con la descripción de los parámetros que proporciona FastQC a partir del análisis de una secuenciación SOLiD (a la que podéis acceder clickando en este enlace). El análisis de la secuencia original (previa a la aplicación de los cribados) nos dejó la siguiente relación de parámetros.
1. Basic Statistics
De este apartado, los aspectos que nos interesan destacar son el tipo de archivo y la codificación (al igual que con la secuencia de Illumina, es una archivo de base calls y de código Illumina 1.5), el total de secuencias y su longitud (125.000 secuencias de 50 bases) y el contenido en GC (55%).
2. Per base sequence quality
Este módulo viene marcado como un failure, lógico ya que si atendemos al gráfico adjunto, una gran cantidad de lecturas presentan niveles de calidad realmente bajos (en contadas ocasiones superan el umbral de Q= 20).
3. Per sequence quality scores
Podemos observar como, a diferencia de lo que encontramos en el análisis inicial de Illumina, en este caso existe un subconjunto de alrededor de 4.500 lecturas que presentan bajos niveles de calidad (valor de 5 en una escala de 1-33).
En nuestro caso, el análisis está marcado como warning, debido a que, como podemos observar en el gráfico, el valor de calidad media más frecuente se encuentra por debajo de 27.
4. Per base sequence content
Este módulo viene acompañado del símbolo de failure, lo que como ya hemos visto en post anteriores, indica que las diferencias en contenido entre A y T o entre G y C son superiores al 20%. Los principales motivos suelen ser secuencias sobrerepresentadas (adaptadores o secuencias de ARN), fragmentación y/o composición de la librería sesgada, etc.
5. Per sequence GC content
Podemos comprobar como el contenido en GC de nuestra secuenciación se corresponde casi perfectamente con la distribución de referencia.
6. Per base N content
En este caso, el análisis viene marcado como failure, lo que se debe a que en alguna posición el contenido de Ns proporcionadas por el método de secuenciación es superior al 10%. Podemos comprobar, observando el gráfico, como únicamente se cumple para la posición 48 de las lecturas, por lo que podemos atribuirlo a un error del método de secuenciación (error físico).
7. Kmer content
Este módulo viene acompañado del símbolo warning. Cabe destacar en este caso cómo la mayor parte de secuencias kmer se localizan al comienzo de las lecturas, lo que se debe probablemente -como ya se explicó en pos anteriores- al empleo de cebadores aleatorios.
El resto de parámetros (distribución de la longitud de las secuencias, nivel de duplicaciones, secuencias sobrerepresentadas y contenido de adaptadores) se corresponde con una correcta secuenciación por lo que no se incidirá sobre ellos en este post.
No hay comentarios:
Publicar un comentario