¿Pueden los Modelos de Lenguaje como GPT-4 Superar a los Psiquiatras? Un Estudio Revelador
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están revolucionando múltiples campos, y la psiquiatría no es la excepción. Un reciente estudio publicado en The British Journal of Psychiatry (abril de 2025) evaluó si estas inteligencias artificiales pueden diagnosticar trastornos mentales con mayor precisión que los médicos en formación. Los resultados son asombrosos, pero también plantean importantes interrogantes sobre el futuro de la práctica clínica.
LLMs en Psiquiatría: ¿Mejores que los Residentes?
Aunque los modelos de lenguaje de gran tamaño (LLMs) almacenan conocimiento clínico comparable al de los profesionales de la salud —incluso sin entrenamiento especializado—, su implementación segura en psiquiatría sigue siendo un área poco explorada. Estos sistemas, basados en redes neuronales con miles de millones de parámetros preentrenados en vastos corpus lingüísticos, desarrollan capacidades emergentes al escalar su tamaño y datos de entrenamiento. Un ejemplo clave es el razonamiento zero-shot, que les permite ejecutar tareas solo con instrucciones textuales, sin ejemplos ni ajustes previos.
El estudio citado comparó el desempeño de cinco modelos avanzados (GPT-4, LLaMA2-70B, Mixtral-45B, Vicuna-13B y Gemma-7B) con el de 11 residentes de psiquiatría de un hospital terciario. Las pruebas consistieron en:
Diagnóstico de 21 casos clínicos extraídos del *DSM-5-TR® Clinical Cases*.
95 preguntas de opción múltiple basadas en el *DSM-5-TR® Self-Exam Questions*.
Los modelos utilizaron un enfoque zero-shot, es decir, no recibieron ejemplos previos ni ajustes especializados. Sorprendentemente, GPT-4 superó ampliamente a los residentes:
En diagnósticos, obtuvo una puntuación F1 del 63.41% frente al 47.43% de los médicos (*p = 0.005*).
En conocimiento teórico, alcanzó una precisión del 85.05%, comparado con el 62.01% de los residentes (*p = 0.002*).
Más aún, cuando los psiquiatras en formación recibieron retroalimentación basada en las respuestas de GPT-4, su desempeño mejoró significativamente:
Diagnósticos: subió a 60.15% (p < 0.001).
Conocimiento: aumentó a 81.63% (p < 0.001).
Esto sugiere que los LLMs podrían actuar como herramientas de apoyo en la formación médica, mejorando la precisión diagnóstica sin aumentar errores críticos.
Las Limitaciones de GPT-4: ¿Falta de "Intuición Clínica"?
A pesar de su alto rendimiento, GPT-4 mostró un problema clave: un mayor índice de "errores de comorbilidad". Es decir, tendía a diagnosticar simultáneamente trastornos que son mutuamente excluyentes (como depresión mayor y trastorno bipolar I), algo que los residentes casi nunca hicieron (30.48% vs. 0.87%, p < 0.001).
¿Por qué ocurre esto? La psiquiatría no es solo seguir un manual como el DSM-5. Los diagnósticos dependen de:
Experiencias personales del médico.
Contexto sociocultural del paciente.
Influencias filosóficas, religiosas y psicoterapéuticas.
GPT-4, al carecer de estas vivencias, puede sobrestimar diagnósticos como "trastorno de adaptación" junto con otros cuadros, perdiendo matices clínicos esenciales.
¿Deben los Psiquiatras Confiar en la IA?
El estudio revela un dilema: aunque los LLMs mejoran el desempeño de los médicos, su integración debe ser cautelosa. Algunas consideraciones clave:
Riesgo de dependencia: El uso excesivo podría afectar el pensamiento crítico de los profesionales.
Falta de contextualización: La IA aún no captura la complejidad humana detrás de cada caso.
Necesidad de más estudios: Comparar LLMs con psiquiatras certificados (no solo residentes) y evaluar su uso en escenarios reales.
Conclusión: Un Futuro de Colaboración, No de Reemplazo
Los modelos como GPT-4 son herramientas poderosas, pero no sustituyen la intuición clínica ni la relación médico-paciente. Su verdadero valor radica en:
✔ Apoyar diagnósticos rápidos.
✔ Mejorar la formación de residentes.
✔ Reducir errores en la práctica clínica.
El desafío ahora es integrarlos de manera ética y equilibrada, preservando lo que hace única a la psiquiatría: la comprensión profunda de la mente humana.
Referencia
Bang CB, Jung YC, You SC, Kim K, Kim BH. Promises and pitfalls of large language models in psychiatric diagnosis and knowledge tasks. Br J Psychiatry. 2025 Apr;226(4):243-244. doi: 10.1192/bjp.2024.207. Epub 2025 Apr 29. PMID: 40296459.
#Psiquiatría #IA #SaludMental #InnovaciónMédica #GPT4
Comentarios