La otra cara de los macrodatos en salud: riesgos de una ciencia automatizada y sin contexto

La creciente disponibilidad de bases de datos masivas y abiertas, como la Encuesta Nacional de Examen de Salud y Nutrición de los Estados Unidos (NHANES), ha transformado radicalmente el panorama de la investigación biomédica. 

Gracias al avance de la inteligencia artificial y al auge del análisis automatizado, se ha facilitado la producción de estudios basados en estos datos, ofreciendo oportunidades invaluables para el descubrimiento científico. Sin embargo, como advierte un reciente artículo publicado en PLOS Biology por Suchak y colaboradores, esta misma accesibilidad está generando una proliferación alarmante de investigaciones de baja calidad, muchas de ellas producto de rutinas automatizadas y prácticas cuestionables.

El estudio identifica una explosión en la publicación de artículos que utilizan la base de datos NHANES para realizar análisis estadísticos simplificados, en los que se vincula un único predictor (como un marcador biológico o un hábito de vida) con una condición de salud determinada. A pesar de que muchos de estos estudios son formalmente correctos en cuanto al uso de datos, presentan un diseño metodológico inapropiado al ignorar la complejidad multifactorial inherente a la salud humana. Este tipo de análisis reduccionista, que omite interacciones entre variables y no aplica correcciones por descubrimientos falsos, es fácilmente replicable mediante algoritmos y constituye terreno fértil para las llamadas paper mills o fábricas de artículos científicos.

La magnitud del fenómeno es preocupante. Los autores identificaron 341 publicaciones en la última década con este patrón de análisis. Mientras entre 2014 y 2021 se publicaban en promedio 4 estudios anuales de este tipo, en lo que va de 2024 (hasta octubre), ya se habían contabilizado 190. Esta avalancha no solo implica un sesgo cuantitativo, sino también cualitativo: muchos de estos trabajos seleccionan arbitrariamente subconjuntos de datos, recortando los rangos temporales o poblacionales sin justificación metodológica clara. Esta práctica, conocida como data dredging, facilita la generación de hipótesis post hoc, sin base teórica previa, orientadas exclusivamente a producir asociaciones estadísticamente significativas —aunque espurias—, con el fin de engrosar el número de publicaciones.

Inteligencia artificial y el riesgo de automatizar la mediocridad científica

El uso de IA en la investigación biomédica no es en sí problemático. De hecho, bien empleada, puede permitir detectar patrones complejos e impulsar nuevos descubrimientos. Pero, como señala el artículo, cuando se utiliza de manera mecánica y sin supervisión rigurosa, se convierte en una herramienta para propagar investigaciones irrelevantes, repetitivas y sin impacto real. La preocupación central no es solo técnica, sino epistemológica: se está perdiendo de vista la lógica de la investigación científica en favor de una producción industrial de papers.

El trabajo de Suchak y su equipo propone, como respuesta, un conjunto de buenas prácticas dirigidas a investigadores, revisores, editores y responsables de datos. Estas incluyen la justificación clara de los métodos empleados, el uso de modelos multivariados, la consideración de interacciones entre variables, y la obligación de especificar las razones para elegir subconjuntos de datos. Además, se insta a los revisores y editores a estar atentos a señales de automatización excesiva, redundancia temática o falta de novedad conceptual.

Este caso ilustra cómo la ciencia abierta y los macrodatos, lejos de ser garantía de calidad por sí mismos, requieren mecanismos de supervisión más sofisticados y una formación más sólida en epistemología y estadística por parte de los investigadores. Si no se corrige esta tendencia, podríamos enfrentarnos a un escenario en el que la abundancia de publicaciones no sea sinónimo de conocimiento, sino de ruido. Y en un entorno saturado de resultados falsos o triviales, los hallazgos verdaderamente valiosos corren el riesgo de pasar desapercibidos.

La revolución digital en la investigación científica debe ser también una revolución ética y metodológica. De lo contrario, corremos el riesgo de automatizar la mediocridad y convertir la ciencia en una maquinaria que produce más de lo mismo, pero con menor sentido.

Comentarios

Entradas más populares de este blog

Los 30 neurocientíficos vivos más influyentes de hoy en día

Psicólogo ciego ayuda a otros a ver soluciones

Proyecto Abecedarian: un ensayo controlado aleatorio de educación temprana que ha seguido a niños desde 1971