El método reduce los tiempos de indexación de semanas a horas, los tiempos de búsqueda de horas a minutos – ScienceDaily

0 12


Los informáticos de la Universidad de Rice están enviando RAMBO para rescatar a los investigadores de genómica que a veces esperan días o semanas para obtener resultados de búsqueda de enormes bases de datos de ADN.

La secuenciación de ADN es tan popular, los conjuntos de datos genómicos duplican su tamaño cada dos años y las herramientas para buscar los datos no se han mantenido al día. Los investigadores que comparan ADN entre genomas o estudian la evolución de organismos como el virus que causa COVID-19 a menudo esperan semanas para que el software indexe grandes bases de datos “metagenómicas”, que crecen cada mes y ahora se miden en petabytes.

RAMBO, que es la abreviatura de “filtro de floración repetida y combinada”, es un nuevo método que puede reducir los tiempos de indexación para dichas bases de datos de semanas a horas y los tiempos de búsqueda de horas a segundos. Los informáticos de la Universidad de Rice presentaron RAMBO la semana pasada en la conferencia de ciencia de datos SIGMOD 2021 de la Asociación de Maquinaria de Computación.

“Consultar millones de secuencias de ADN en una gran base de datos con enfoques tradicionales puede llevar varias horas en un gran clúster informático y varias semanas en un solo servidor”, dijo el co-creador de RAMBO Todd Treangen, un científico informático de Rice cuyo laboratorio se especializa en metagenómica. . “Reducir los tiempos de indexación de bases de datos, además de los tiempos de consulta, es de vital importancia, ya que el tamaño de las bases de datos genómicas sigue creciendo a un ritmo increíble”.

Para resolver el problema, Treangen se asoció con el científico informático de Rice, Anshumali Shrivastava, que se especializa en crear algoritmos que hacen que el big data y el aprendizaje automático sean más rápidos y escalables, y los estudiantes graduados Gaurav Gupta y Minghao Yan, coautor de la conferencia revisada por pares. artículo sobre RAMBO.

RAMBO utiliza una estructura de datos que tiene un tiempo de consulta significativamente más rápido que los métodos de indexación del genoma de última generación, así como otros beneficios como la facilidad de paralelización, una tasa de falsos negativos cero y una tasa baja de falsos positivos.

“El tiempo de investigación de RAMBO es hasta 35 veces más rápido que los métodos existentes”, dijo Gupta, estudiante de doctorado en ingeniería eléctrica e informática. En experimentos que utilizaron un conjunto de datos de 170 terabytes de genomas microbianos, Gupta dijo que RAMBO redujo el tiempo de indexación de “seis semanas en un grupo sofisticado y dedicado a nueve horas en un grupo de productos básicos compartidos”.

Yan, un estudiante de doctorado en ciencias de la computación, dijo: “En este enorme archivo, RAMBO puede buscar una secuencia de genes en un par de milisegundos, incluso submilisegundos usando un servidor estándar de 100 máquinas”.

RAMBO mejora el rendimiento de los filtros Bloom, una técnica de investigación de medio siglo que se ha aplicado a la búsqueda de secuencias genómicas en varios estudios previos. RAMBO mejora los métodos de filtrado de Bloom anteriores para la investigación genómica al emplear una estructura de datos probabilística conocida como el esquema de conteo mínimo que “conduce a un mejor compromiso entre el tiempo de consulta y la memoria” que los métodos anteriores y “supera las líneas de base actuales. estructura de datos de indexación ultrarrápida y de baja memoria ”, escribieron los autores en el estudio.

Gupta y Yan dijeron que RAMBO tiene el potencial de democratizar la investigación genómica al hacer posible que casi cualquier laboratorio busque de forma rápida y económica enormes archivos genómicos con computadoras estándar.

“RAMBO podría reducir los tiempos de espera para toneladas de investigaciones bioinformáticas, como buscar la presencia de SARS-CoV-2 en metagenomas de aguas residuales en todo el mundo”, dijo Yan. “RAMBO podría ser fundamental en el estudio de la genómica del cáncer y la evolución del genoma bacteriano, por ejemplo”.

Shrivastava es profesor asociado de informática y Treangen es profesor asistente de informática.

Otros coautores del estudio incluyen a Benjamin Coleman, Bryce Kille, Leo Elworth y Tharun Medini.

La investigación fue financiada por la National Science Foundation, la Oficina de Investigación Científica de la Fuerza Aérea y la Oficina de Investigación Naval.

Fuente de la historia:

Materiales proporcionados por Universidad de Rice. Original escrito por Jade Boyd. Nota: El contenido se puede cambiar por estilo y longitud.

También podría gustarte
Deja una respuesta

Su dirección de correo electrónico no será publicada.

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More