Google DeepMind han cogido AlphaEvolve (su sistema de IA que "evoluciona" código como si fuese selección natural) y lo han puesto a diseñar algoritmos de teoría de juegos. No a ejecutarlos. No a optimizar parámetros. A inventar algoritmos nuevos desde cero
Y los algoritmos que ha descubierto funcionan mejor que los que los investigadores humanos llevan años perfeccionando.
Much of the advancement of Multi-Agent Reinforcement Learning (MARL) in imperfect-information games has historically depended on manual iterative refinement of baselines. While foundational families like Counterfactual Regret Minimization (CFR) and Policy Space Response Oracles (PSRO) rest on solid theoretical ground, the design of their most effective variants often relies on human intuition to navigate a vast algorithmic design space. In this work, we propose the use of AlphaEvolve, an evolutionary coding agent powered by large language models, to automatically discover new multiagent learning algorithms. We demonstrate the generality of this framework by evolving novel variants for two distinct paradigms of game-theoretic learning. First, in the domain of iterative regret minimization, we evolve the logic governing regret accumulation and policy derivation, discovering a new algorithm, Volatility-Adaptive Discounted (VAD-)CFR. VAD-CFR employs novel, non-intuitive mechanisms-including volatility-sensitive discounting, consistency-enforced optimism, and a hard warm-start policy accumulation schedule-to outperform state-of-the-art baselines like Discounted Predictive CFR+. Second, in the regime of population based training algorithms, we evolve training-time and evaluation-time meta strategy solvers for PSRO, discovering a new variant, Smoothed Hybrid Optimistic Regret (SHOR-)PSRO. SHOR-PSRO introduces a hybrid meta-solver that linearly blends Optimistic Regret Matching with a smoothed, temperature-controlled distribution over best pure strategies. By dynamically annealing this blending factor and diversity bonuses during training, the algorithm automates the transition from population diversity to rigorous equilibrium finding, yielding superior empirical convergence compared to standard static meta-solvers.
https://arxiv.org/abs/2602.16928
. En teoría de juegos hay dos grandes familias de algoritmos para resolver juegos de información imperfecta (como el póker): CFR y PSRO. Llevan décadas siendo la base de todo. Los investigadores los mejoran publicando variantes — ajustando pesos, cambiando fórmulas de descuento, probando combinaciones. Es un trabajo lento, basado en intuición y papers de conferencias.
Lo que ha hecho DeepMind es tratar el diseño de esos algoritmos como un problema de búsqueda. En vez de que un investigador piense "¿y si ajusto este parámetro?", AlphaEvolve trata el código fuente del algoritmo como un genoma que puede mutar, recombinar y seleccionar. No ajusta números. Reescribe lógica. Puede inventar operaciones nuevas que no existían.
¿El resultado? Dos algoritmos nuevos.
El primero, VAD-CFR, introduce algo que ningún investigador humano habría probado: un mecanismo de "calentamiento" que filtra el ruido de las primeras iteraciones y pesos que se adaptan a la volatilidad de cada momento del entrenamiento. Lo probaron en 11 juegos distintos. Lo entrenaron solo en 4. Y los mecanismos funcionaron en los 7 que no había visto nunca. Es decir, no son trucos específicos para un juego — la lógica se generaliza.
El segundo, SHOR-PSRO, descubrió por su cuenta algo que a un humano le costaría plantear: que el algoritmo que usas para entrenar y el que usas para evaluar deberían ser diferentes. Arranca explorando de forma agresiva y gradualmente va apretando hacia el equilibrio exacto. Esa asimetría es contraintuitiva (normalmente usas el mismo algoritmo en ambas fases) y sin embargo funciona mejor.
Ahora bien, seamos realistas sobre el alcance.
Estamos hablando de juegos relativamente pequeños. Variantes de póker, dados, Goofspiel. No es StarCraft. No son sistemas multiagente a gran escala del mundo real.
Los algoritmos descubiertos no tienen garantías teóricas de convergencia — funcionan empíricamente, pero no están formalmente demostrados. Y ya había trabajo previo (DDCFR, 2023) que intentaba aprender parámetros de descuento con reinforcement learning.
La diferencia es que esos enfoques anteriores ajustaban botones que ya existían. AlphaEvolve puede inventar botones nuevos. Esa distinción es clave: optimizar parámetros encuentra mejores ajustes. Evolucionar código encuentra mejores algoritmos.
Y creo que ahí está la idea de fondo que merece la pena retener.
El diseño de algoritmos siempre ha sido un proceso artesanal. Un investigador tiene una intuición, la formaliza, la prueba, publica un paper y otro investigador construye encima. Es lento. Es brillante. Y ha funcionado durante décadas.
Lo que DeepMind está proponiendo (y demostrando) es que ese espacio de posibles algoritmos es tan enorme que la exploración humana solo araña la superficie. AlphaEvolve no entiende teoría de juegos. No tiene intuición. Pero explora ese espacio a una velocidad y con una amplitud que ningún equipo humano puede igualar. Y ya está encontrando cosas que los humanos no habían visto.
Me recuerda a algo que llevo diciendo desde hace tiempo: la IA no va a sustituir al investigador.
Pero el investigador que use IA va a dejar atrás al que no la use. Esto no es "la IA reemplaza a los diseñadores de algoritmos."
Es que diseñar algoritmos acaba de convertirse en un problema que la IA puede ayudar a resolver. Y eso lo cambia todo... aunque suene menos llamativo que un titular sobre la singularidad.
Estoy convencido de que vamos a ver esto en muchos más campos. La IA como herramienta de exploración de espacios de diseño que los humanos no podemos recorrer solos.
Fármacos, materiales, arquitectura de redes, logística. El patrón es el mismo: hay un espacio enorme de posibilidades, la intuición humana explora un rincón, y la IA puede explorar el resto.
La pregunta es si estamos preparados para aceptar que un algoritmo diseñado por una máquina (que no "entiende" lo que hace) puede ser mejor que el nuestro.
No hay comentarios:
Publicar un comentario