El primer genoma completo se secuenció hace una década, debido a la amplia variación genética de los siete mil millones de personas en el mundo y las diferencias en la distribución, incluso entre parientes cercanos, la cuestión de la secuencia exacta del genoma individual sigue siendo un reto para los científicos.
Con las empresas que afirman que pueden secuenciar un genoma por 1.000 dólares muy por debajo de los 25.000 dólares que pedían unos pocos años atrás y los esfuerzos para desarrollar medicamentos personalizados, este asunto está adquiriendo mayor importancia en el mercado actual. Estos esfuerzos se basan en el abaratamiento de las nuevas tecnologías, que suponen que los científicos pueden seguir utilizando el enfoque estándar cortando el genoma, al azar, en pedazos más pequeños, y montándolo, luego, algorítmicamente.
En concreto, un menor costo se logra mediante la ruptura del ADN en pedazos aún más pequeños, leyendo, de forma rápida y barata, una gran cantidad de ellos. Sin embargo, no está claro cómo evaluar la exactitud de los algoritmos de montaje, sobre todo si la exactitud de los datos genómicos anteriores es cuestionable. Uno de los desafíos específicos es confirmar si la exactitud de la secuencia del genoma de un individuo es coincidente con el fenotipo de esa persona, con un rasgo físico, con el genotipo que le afecte, o con su estructura genética.
Para ello, en el trabajo los investigadores emplearon procedimientos que tienen como objetivo identificar las características principales del genoma, así como la forma en que cada una de estas características se relaciona con las demás. La mayoría de las tecnologías actuales, en el montaje de un genoma, cometen varios tipos de errores cuando se encuentran con la repetición de una región, donde una subcadena de las letras que forman las hebras de ADN re-ocurre en muchos lugares en el genoma, comenta el Dr. Bud Mishra, profesor de Ciencias de la Computación y Matemáticas y autor principal del estudio, quien añade que la entrada de lecturas aleatorias tiende a acumularse en uno de estos centros, mostrando discrepancias.
Para probar la viabilidad de estos procedimientos, los investigadores se basaron en el conjunto de características de un software de código abierto, AMOS, desarrollado por un consorcio público de genomicistas y bioinformáticos. Si un método ha secuenciado, exactamente, el genoma completo de un individuo, según la hipótesis de los investigadores, los componentes de la creación de ese método deben encajar y ser consistentes con otros datos auxiliares como los pares de parejas, los mapas ópticos o las secuencias estroboscópicas, todo lo cual constituye, a largo plazo, la información del genoma. En la actualidad, el uso de pares de parejas es muy común en la secuencia de montaje y validación de los algoritmos.
Mientras se buscaban deficiencias en todos los métodos examinados para la secuenciación del genoma de un individuo, algunos ensamblajes se mostraron prometedores. Las conclusiones de los investigadores de Universidad de Nueva York se derivan de un procedimiento llamado Feature-Response Curve, que muestra una imagen global de cómo diferentes ensamblajes son capaces de hacer frente a diferentes regiones y estructuras en un genoma grande y complejo.