Nested Learning: The Illusion of Deep Learning Architectures
https://abehrouz.github.io/files/NL.pdf
Over the last decades, developing more powerful neural architectures and simultaneously designing optimization algorithms to effectively train them have been the core of research efforts to enhance the capability of machine learning models. Despite the recent progresses, particularly in developing Language Models (LMs), there are fundamental challenges and unanswered questions about how such models can continually learn/memorize, self-improved, and find “effective solutions,”. In this paper, we present a new learning paradigm, called Nested Learning (NL), that coherently represents a model with a set of nested, multi-level, and/or parallel optimization problems, each of which with its own “context flow”. NL reveals that existing deep learning methods learns from data through compressing their own context flow, and explain how in-context learning emerges in large models. NL suggests a path (a new dimension to deep learning) to design more expressive learning algorithms with more “levels”, resulting in higher-order in-context learning abilities. In addition to its neuroscientifically plausible and mathematically white-box nature, we advocate for its importance by presenting three core contributions: (1) Deep Optimizers: Based on NL, we show that well-known gradient-based optimizers (e.g., Adam, SGD with Momentum, etc.) are in fact associative memory modules that aim to compress the gradients with gradient descent. Building on this insight, we present a set of more expressive optimizers with deep memory and/or more powerful learning rules; (2) Self-Modifying Titans: Taking advantage of NL’s insights on learning algorithms, we present a novel sequence model that learns how to modify itself by learning its own update algorithm; and (3) Continuum Memory System: We present a new formulation for memory system that generalizes the traditional viewpoint of “long-term/short-term memory”. Combining our self-modifying sequence model with the continuum memory system, we present a learning module, called HOPE, showing promising results in language modeling, continual learning, and long-context reasoning tasks.
Ingenieria mas neurociencia-neuropsicologia....evolución de la IA
La respuesta estaba en la neurociencia, y vaya respuesta!
Google Research podría haber encontrado la clave para que los modelos de IA, y con ellos los robots, puedan aprender en tiempo real. La idea sorprende, porque la solución siempre estuvo delante de nuestras narices, pero no la veíamos porque pensamos como ingenieros, no como neurocientíficos. Por eso es tan importante que la neuropsicología entre de lleno en la IA. Hasta ahora, los robots que usan modelos de lenguaje tenían dos fuentes de información, lo que aprendían en su pre-training y lo que podían mantener en su ventana de contexto. Nada más. Esto significa que un robot no puede incorporar conocimiento nuevo en el momento, ni ajustar sus pesos, ni consolidar una habilidad descubierta durante su interacción con el entorno. En términos neuropsicológicos, funcionaban como alguien con amnesia anterógrada, recordaban su pasado, entendían el presente (con un recuerdo inmediato dependiente de su ventana de contexto enorme), pero no podían aprender nada nuevo. Los autores del trabajo reinterpretan los Transformers desde una perspectiva neurocientífica y proponen el paradigma de Nested Learning (NL). Según NL, un modelo de deep learning no es realmente una pila de capas como siempre nos han enseñado, sino un sistema de memorias que operan a distintas velocidades o frecuencias. Cada componente del modelo (la atención, las capas MLP e incluso los optimizadores) funciona como una memoria asociativa que almacena, resume y reutiliza información del pasado para producir mejores resultados. No son simples “capas”, son niveles de memoria que se actualizan a ritmos diferentes. Esta idea conecta de forma directa con el cerebro humano, donde existen ritmos rápidos para reaccionar al instante y ritmos lentos para consolidar recuerdos. Los autores incluso comparan estas frecuencias de actualización con las ondas cerebrales. Esta reinterpretación conduce a una idea poderosa, y es que entrenar un modelo equivale a guardar asociaciones entre lo que recibe y la corrección que debería haber hecho (tendencias vectoriales). Si el modelo ve un círculo y lo clasifica como cuadrado, la señal de error que recibe es, en realidad, una instrucción de memoria: “cuando veas algo así, ajusta tus parámetros en esta dirección”. Esa asociación se guarda, y la próxima vez el error es menor. Esto recuerda mucho al predictive coding de Karl Friston.
Esta reinterpretación conduce a una idea poderosa, y es que entrenar un modelo equivale a guardar asociaciones entre lo que recibe y la corrección que debería haber hecho (tendencias vectoriales). Si el modelo ve un círculo y lo clasifica como cuadrado, la señal de error que recibe es, en realidad, una instrucción de memoria: “cuando veas algo así, ajusta tus parámetros en esta dirección”. Esa asociación se guarda, y la próxima vez el error es menor. Esto recuerda mucho al predictive coding de Karl Friston. En este mismo marco, los optimizadores dejan de ser herramientas puramente matemáticas y pasan a verse como memorias internas especializadas. Estos mecanismos pueden interpretarse como sistemas que almacenan representaciones del historial de gradientes, pequeñas memorias internas que permiten al modelo refinar cómo debe actualizarse. Y entonces aparece HOPE, que es posiblemente el avance más relevante del trabajo. HOPE es un módulo de aprendizaje auto-referencial (capacidad de ajustar sus parámetros) que incorpora un sistema de memoria continua llamado Continuum Memory System (CMS) y, sobre todo, estos dos elementos permiten que el modelo aprenda a modificar sus propios parámetros mientras funciona. Ya no existe solo memoria a corto y largo plazo, sino que el CMS propone memorias jerárquicas organizadas como por frecuencia. Algunas memorias se actualizan cada token, otras cada cientos o miles de tokens. Es un sistema de múltiples memorias en funcionamiento simultáneo, cada una especializándose en una escala temporal distinta. Así, HOPE permite que los pesos vuelvan a actualizarse incluso después del entrenamiento. Y aquí es donde entra la robótica. Este enfoque permitiría, por primera vez, que un robot ajuste sus pesos en tiempo real, igual que un organismo biológico. Un robot podría corregir su fuerza de agarre después de fallar varias veces, adaptarse a un nuevo tipo de terreno, mejorar una habilidad sobre la marcha o aprender la preferencia particular de un usuario sin necesidad de volver a entrenar un modelo entero. Es decir, un robot que realmente acumula experiencia y mejora con ella. Un robot que no solo ejecuta, sino que aprende. Un robot que no solo se comporta, sino que evoluciona (no olvidemos que DeepMind acaba de fichar al CTO de Boston Dynamics!!!) Si esta línea de investigación se consolida, podríamos estar ante un cambio de paradigma, y pasar de modelos congelados a sistemas de memoria vivos, capaces de adaptar su comportamiento en tiempo real. Puede que esta sea un avance más de la IA, o que de verdad estemos antes el nacimiento de la in-home setting robotics... solo el tiempo lo dirá!
https://x.com/umbertoleon/status/1993115764354592832
No hay comentarios:
Publicar un comentario