La actual generación de Grandes Modelos de Lenguaje (LLMs) ha demostrado una impresionante capacidad para generar texto coherente, responder preguntas de manera sofisticada y hasta escribir código. Sin embargo, como señala Kaiser en el video de Inteligencia Artificial, existe una distinción fundamental entre la ‘habilidad’ de los LLMs para manipular el lenguaje y una ‘verdadera comprensión’ o ‘agencia’. La comprensión real implica un modelo del mundo subyacente, la capacidad de razonar sobre él, de inferir relaciones causales y de actuar con intención. La agencia, por su parte, se refiere a la capacidad de un sistema de IA para tomar decisiones, formular objetivos a largo plazo y ejecutar acciones de manera autónoma, adaptándose a circunstancias cambiantes.
Actualmente, muchos LLMs son excelentes ‘papagayos estocásticos’ o ‘motores de autocompletado avanzados’, prediciendo la siguiente palabra basándose en patrones estadísticos masivos que han aprendido de vastos corpus de datos. La pregunta crucial es: ¿están realmente entendiendo el significado profundo detrás de esas palabras y conceptos, o simplemente imitando las estructuras lingüísticas y las asociaciones que han visto en su entrenamiento? Łukasz Kaiser y OpenAI están activamente investigando cómo trascender esta limitación, buscando mecanismos que permitan a la IA no solo hablar o generar texto, sino ‘pensar’, ‘razonar’ y ‘actuar’ con propósito en el mundo real, moviéndose de la imitación a la verdadera cognición.
La Evolución de los Grandes Modelos de Lenguaje (LLMs)
Desde los primeros modelos basados en RNNs y LSTMs que procesaban palabras una a una, la evolución hacia el Transformer y los subsiguientes LLMs ha sido exponencial. Hemos pasado de modelos con millones a cientos de miles de millones de parámetros, capaces de generar ensayos complejos, código funcional, e interactuar de manera conversacional que a menudo resulta indistinguible de la humana. Esta escala y el acceso a volúmenes masivos de datos han desbloqueado capacidades emergentes que no estaban presentes en modelos más pequeños, como la capacidad de traducir idiomas con alta fluidez o resumir textos extensos. Sin embargo, esta evolución también ha expuesto las limitaciones intrínsecas del paradigma actual, donde la ‘inteligencia’ se manifiesta predominantemente en el ámbito lingüístico. La capacidad de un LLM para ‘razonar’ es a menudo una simulación sofisticada de razonamiento basada en la exposición a innumerables ejemplos de razonamiento humano durante el entrenamiento, más que una capacidad intrínseca para deducir o inferir por sí mismo. En este sentido, como subraya Kaiser, la necesidad es ir más allá de la mera capacidad lingüística para lograr una comprensión más profunda y generalizada.
El Desafío de la “Agencia” en Sistemas de IA
La agencia en IA es uno de los horizontes más complejos y ambiciosos que la comunidad científica busca alcanzar. Implica que un sistema de IA pueda percibir su entorno de manera holística (no solo textual), formular objetivos a largo plazo, planificar secuencias de acciones óptimas para alcanzar esos objetivos y ejecutarlas, ajustándose dinámicamente a nuevas informaciones o imprevistos. Un agente de IA con verdadera agencia no solo respondería a preguntas específicas, sino que podría, por ejemplo, investigar un problema científico complejo, diseñar un experimento, ejecutarlo (virtual o físicamente) y analizar los resultados para iterar una solución, todo ello con una mínima intervención humana. Este es el salto cualitativo que se busca en OpenAI y en el ámbito de la investigación avanzada en IA, como bien se destaca en la conversación con Łukasz Kaiser, para crear sistemas no solo ‘inteligentes’ en la manipulación de información, sino verdaderamente ‘autónomos’, ‘proactivos’ y capaces de operar con un propósito definido en el mundo real, similar a cómo un ser humano interactúa con su entorno.