En un experimento reciente, unos investigadores utilizaron grandes modelos de lenguaje para traducir la actividad cerebral en palabras. El lunes, científicos de la Universidad de Texas, Austin, dieron otro paso en esa dirección. En un estudio publicado en la revista Nature Neuroscience , los investigadores describieron una IA que podría traducir los pensamientos privados de sujetos humanos mediante el análisis de resonancias magnéticas funcionales, que miden el flujo de sangre a diferentes regiones del cerebro.
Los investigadores ya han desarrollado métodos de decodificación del lenguaje para detectar el intento de hablar de las personas que han perdido la capacidad de hablar y para permitir que las personas paralizadas escriban mientras solo piensan en escribir. Pero el nuevo decodificador de lenguaje es uno de los primeros en no depender de implantes. En el estudio, fue capaz de convertir el discurso imaginario de una persona en un discurso real y, cuando a los sujetos se les mostraban películas mudas, podía generar descripciones relativamente precisas de lo que estaba sucediendo en la pantalla.
“Esto no es solo un estímulo del lenguaje”, dijo Alexander Huth, neurocientífico de la universidad que ayudó a dirigir la investigación. “Estamos llegando al significado, algo sobre la idea de lo que está sucediendo. Y el hecho de que eso sea posible es muy emocionante”.
El estudio se centró en tres participantes, que acudieron al laboratorio del Dr. Huth durante 16 horas durante varios días para escuchar “The Moth” y otros podcasts narrativos. Mientras escuchaban, un escáner fMRI registró los niveles de oxigenación de la sangre en partes de sus cerebros. Luego, los investigadores utilizaron un modelo de lenguaje grande para hacer coincidir los patrones en la actividad cerebral con las palabras y frases que los participantes habían escuchado.
Los grandes modelos de lenguaje como GPT-4 de OpenAI y Bard de Google están entrenados en grandes cantidades de escritura para predecir la siguiente palabra en una oración o frase. En el proceso, los modelos crean mapas que indican cómo se relacionan las palabras entre sí. Hace algunos años, el Dr. Huth notó que partes particulares de estos mapas, las llamadas incrustaciones de contexto, que capturan las características semánticas o los significados de las frases, podrían usarse para predecir cómo se enciende el cerebro en respuesta al lenguaje.
En un sentido básico, dijo Shinji Nishimoto, neurocientífico de la Universidad de Osaka que no participó en la investigación, “la actividad cerebral es una especie de señal encriptada y los modelos de lenguaje brindan formas de descifrarla”.
En su estudio, el Dr. Huth y sus colegas revirtieron efectivamente el proceso, utilizando otra IA para traducir las imágenes de resonancia magnética funcional del participante en palabras y frases. Los investigadores probaron el decodificador haciendo que los participantes escucharan nuevas grabaciones y luego observando en qué medida la traducción coincidía con la transcripción real.
Casi todas las palabras estaban fuera de lugar en la escritura decodificada, pero el significado del pasaje se conservó con regularidad. Esencialmente, los decodificadores estaban parafraseando.
Transcripción original : “Me levanté del colchón de aire y presioné mi cara contra el vidrio de la ventana del dormitorio esperando ver ojos que me miraran fijamente, pero en cambio solo encontré oscuridad”.
Descifrado a partir de la actividad cerebral: “Simplemente continué caminando hacia la ventana y abrí el vidrio. Me puse de puntillas y miré hacia afuera. No vi nada y volví a mirar hacia arriba. No vi nada”.
Mientras estaban bajo la resonancia magnética funcional, también se les pidió a los participantes que imaginaran en silencio contar una historia; después, repitieron la historia en voz alta, como referencia. Aquí, también, el modelo de decodificación capturó la esencia de la versión tácita.
Versión del participante : “Busque un mensaje de mi esposa diciendo que había cambiado de opinión y que iba a volver”.
Versión decodificada : “Al verla por alguna razón, pensé que vendría a mí y me diría que me extraña”.
Finalmente, los sujetos vieron una breve película animada muda, nuevamente mientras se sometían a una resonancia magnética funcional. Al analizar su actividad cerebral, el modelo de lenguaje podría decodificar una sinopsis aproximada de lo que estaban viendo, tal vez su descripción interna de lo que estaban viendo.
El resultado sugiere que el decodificador AI estaba capturando no solo palabras sino también significado. “La percepción del lenguaje es un proceso impulsado externamente, mientras que la imaginación es un proceso interno activo”, dijo el Dr. Nishimoto. “Y los autores demostraron que el cerebro usa representaciones comunes en todos estos procesos”.
Greta Tuckute, neurocientífica del Instituto Tecnológico de Massachusetts que no participó en la investigación, dijo que esa era “una pregunta de alto nivel”.
“¿Podemos decodificar el significado del cerebro?” ella continuó. “De alguna manera, muestran que sí podemos”.
Este método de decodificación del lenguaje tenía limitaciones, señalaron el Dr. Huth y sus colegas. Por un lado, los escáneres fMRI son voluminosos y caros. Además, entrenar el modelo es un proceso largo y tedioso, y para que sea efectivo debe hacerse en individuos. Cuando los investigadores intentaron usar un decodificador entrenado en una persona para leer la actividad cerebral de otra, falló, lo que sugiere que cada cerebro tiene formas únicas de representar el significado.