IM MEDICO #67

85 En los últimos años, las tecnologías NGS han logrado grandes avances tanto en investigación básica como en clínica, proporcionando conocimientos cada vez más profundos sobre la base genética de muchas enfermedades. Para poder comprender mejor lo que estas tecnologías nos ofrecen es importante tener una visión global de todo el proceso, desde la obtención de las muestras biológicas hasta los resultados finales que serán interpretados por los genetistas. Dicho proceso puede ser dividido en tres etapas: análisis primario, secundario y terciario. Análisis primario Consiste en la extracción del ADN, secuenciación y obtención del archivo FASTQ. El ADN se obtiene a partir de muestras biológicas, las cuales pueden ser de distintos orígenes, como por ejemplo sangre, saliva, tejido fresco o parafinas. Una vez extraído el ADN, se procede a la secuenciación. Generalmente consiste en un primer paso en el que se fragmenta el ADN en segmentos de 100-200 pares de bases. A continuación, a cada fragmento de ADN se le unirá un primer o adaptador que indica el punto de partida para la replicación. Posteriormente, cada fragmento se amplificará por PCR y, finalmente, se procederá a la lectura de cada uno de los fragmentos amplificados. Como resultado, se obtendrán millones de lecturas de fragmentos de ADN, recogidas en unos archivos llamado FASTQs, junto con el valor de calidad asignado por el secuenciador a cada base. Análisis secundario En esta segunda etapa tiene lugar el procesamiento bioinformático de los archivos FASTQs para obtener un archivo VCF (Variant Call Format) que recogerá las variantes genéticas detectadas en la muestra. Generalmente, esta etapa puede dividirse a su vez en los siguientes pasos: • Preprocesamiento. Consiste en la eliminación de los adaptadores y otras secuencias de baja calidad, y un control de calidad de los FASTQs para garantizar lo máximo posible la integridad y calidad de los datos. Algunos de los algoritmos más utilizados son Fastp o Fastqc. • Alineamiento. Las lecturas contenidas en los ficheros FASTQs se mapean frente al genoma humano de referencia. El archivo obtenido recibe el nombre de BAM (Binary Aligned Mapped), y contiene cada una de las lecturas ordenadas y mapeadas, es decir, con información de su localización dentro de la referencia utilizada. Uno de los algoritmos más utilizados es BWA-mem. Dependiendo de las características del experimento, será recomendable eliminar lecturas duplicadas del archivo BAM. • Llamada de variantes. Identificación de variaciones genómicas presentes en el genoma del paciente con respecto al genoma humano de referencia. Las variantes pueden ser, por ejemplo, cambios en un solo nucleótido (SNVs, o Single Nucleotide Variation), o inserciones y deleciones de varios nucleótidos (llamadas conjuntamente INDELs). Las variantes identificadas se recogerán en un fichero VCF, donde se indica la coordenada genómica y el cambio concreto, junto con algunos valores estadísticos que permitirán al genetista interpretar la veracidad de la variante desde un punto de vista más técnico. Algunos de los algoritmos más utilizados son Haplotypecaller, BCFtools o VarScan2. Análisis terciario Este último paso es el que va a dotar de importancia biológica a los datos obtenidos. Una vez que tenemos las variantes detectadas en el fichero VCF, se realiza la anotación, que consiste en consultar en bases de datos cada una de las variantes detectadas y añadir la información al VCF. Estas bases de datos pueden ser: • Funcionales (ej. RefSeq, Pfam). • Poblacionales (ej. 1000 Genomes, dbSNP, ESP6500, ExAC, gnomAD). • De predicción de impacto funcional in silico (ej. dbNSFP, dbscSNV). • Clínicas (ej. ClinVar, HPO).

RkJQdWJsaXNoZXIy NTI5ODA=