La inteligencia artificial (IA) es ampliamente reconocida por su capacidad para analizar y sintetizar información a partir de multitud de materiales tanto literarios como visuales. Si bien su potencial de creación es enorme, el contenido generado por IA ha causado frustración en los humanos, ya que a menudo contiene rarezas e imprecisiones (que en algunos casos son cómicas). ¿Quién no se ha reído ante una imagen con demasiadas manos o un rostro vagamente humano pero inquietantemente incorrecto?
Ahora parece que las capacidades predictivas de la IA están aumentando y quizás superando la intuición humana, al menos en la predicción de los resultados de la investigación en neurociencia. Ésa fue la conclusión de un estudio publicado la semana pasada en Naturaleza Comportamiento Humano en el cual Ken Luo, PhD, y su equipo del University College London (UCL), investigaron las capacidades predictivas de los modelos de lenguaje grande (LLM). Su informe se titula: “Los grandes modelos de lenguaje superan a los expertos humanos en la predicción de resultados de neurociencia.”
El equipo de la UCL desarrolló una herramienta llamada BrainBench para evaluar la capacidad de los LLM para predecir resultados de neurociencia. Los autores presentaron a BrainBench pares de resúmenes de neurociencia que incluían antecedentes, métodos y resultados. En cada par, un resumen era real, mientras que el otro tenía plausibles.–pero en definitiva falso–resultados. BrainBench evaluó a 15 LLM y 171 neurocientíficos humanos a quienes se les asignó la tarea de identificar el resumen correcto en cada par.
“Desde la llegada de la IA generativa como ChatGPT, muchas investigaciones se han centrado en las capacidades de respuesta de preguntas de los LLM, mostrando su notable habilidad para resumir conocimientos a partir de extensos datos de capacitación. Sin embargo, en lugar de enfatizar su capacidad retrospectiva para recuperar información pasada, exploramos si los LLM podrían sintetizar conocimientos para predecir resultados futuros”, dijo Luo.
«Nuestro trabajo investiga si los LLM pueden identificar patrones en extensos textos científicos y pronosticar los resultados de los experimentos», explicó Luo. “El progreso científico a menudo se basa en prueba y error, pero cada experimento meticuloso exige tiempo y recursos. Incluso los investigadores más hábiles pueden pasar por alto ideas críticas de la literatura”.
En la contienda entre la IA y los humanos, la IA fue la ganador. Los LLM promediaron un 81% de precisión en comparación con el 63% de los expertos humanos. Cuando el grupo humano se limitó al mayor grado de experiencia autoinformada por dominio, la precisión aumentó a sólo el 66%. Los LLM informaron más confianza en sus decisiones, que tenían más probabilidades de ser correctas que los participantes humanos en el estudio.
“Lo que es notable es lo bien que los LLM pueden predecir la literatura de neurociencia. Este éxito sugiere que gran parte de la ciencia no es verdaderamente novedosa sino que se ajusta a patrones de resultados existentes en la literatura. Nos preguntamos si los científicos están siendo lo suficientemente innovadores y exploratorios”, comentó el autor principal del estudio, Bradley Love, PhD, profesor de la UCL.
Los investigadores adaptaron y entrenaron una versión de un LLM de código abierto, Mistral, sobre literatura de neurociencia, llamado BrainGPT. Cuando se le presentaron las mismas pruebas que BrainBench, BrainGPT predijo resultados abstractos correctos con un 86% de precisión, en comparación con un 83% de precisión en la versión no entrenada de Mistral.
El futuro de la investigación y, de hecho, de la vida cotidiana de la humanidad parece implicar una integración de la IA. Este estudio muestra la utilidad de la IA para predecir los resultados del estudio, pero no es infalible y debe usarse como una herramienta para ayudar a los investigadores, no como un reemplazo de los investigadores humanos.
«Vislumbramos un futuro en el que los investigadores puedan introducir sus diseños de experimentos propuestos y los hallazgos anticipados, con la IA ofreciendo predicciones sobre la probabilidad de diversos resultados», dijo Luo. «Esto permitiría una iteración más rápida y una toma de decisiones más informada en el diseño de experimentos».