Este modelo se considera un paso hacia la creación de una IA más parecida a la inteligencia humana
Meta, la empresa anteriormente conocida como Facebook, ha presentado su primer modelo de inteligencia artificial basado en la visión de su científico jefe de esta tecnología, Yann LeCun. El modelo se llama I-JEPA, que significa Image Joint Embedding Predictive Architecture, y tiene como objetivo crear máquinas que puedan aprender modelos internos de cómo funciona el mundo, para que puedan aprender más rápido, planificar cómo realizar tareas complejas y adaptarse fácilmente a situaciones desconocidas.
¿Qué es I-JEPA y cómo funciona?
I-JEPA es un modelo de creación de imágenes que aprende creando un modelo interno del mundo exterior, comparando representaciones abstractas de imágenes (en lugar de comparar los píxeles en sí mismos). Estas representaciones abstractas capturan el significado y el contexto de los objetos y sus partes, en lugar de centrarse en cada detalle minúsculo. Esto hace que I-JEPA sea más eficiente y adecuado para diversas aplicaciones sin necesidad de un ajuste extenso.
El modelo se basa en un proceso llamado aprendizaje auto-supervisado, que consiste en aprender del mundo que nos rodea sin necesidad de etiquetas o instrucciones manuales. Esto permite al modelo capturar el conocimiento del sentido común que puede ser utilizado para el comportamiento inteligente, como aprender nuevos conceptos o planificar.
A diferencia de otros modelos de IA que intentan predecir los detalles que faltan en las imágenes o el texto rellenando los huecos (conocidos como arquitecturas generativas), I-JEPA predice la representación de toda la entrada. Esto ayuda a evitar los sesgos y problemas a los que se enfrentan otros modelos de IA.
¿Qué resultados ha obtenido I-JEPA?
I-JEPA puede ser entrenado con menos recursos y en menos tiempo que otros modelos, y aún así ofrece un rendimiento de primera categoría. Funciona muy bien para la clasificación con pocos ejemplos, una tarea en la que se clasifican las imágenes en categorías.
Por ejemplo, el equipo entrenó un modelo visual transformador de 632M parámetros usando 16 GPUs A100 en menos de 72 horas, y logró el estado del arte para la clasificación con pocos ejemplos en ImageNet, con sólo 12 ejemplos etiquetados por clase. Otros métodos suelen tardar entre dos y 10 veces más horas-GPU y obtener peores tasas de error cuando se entrenan con la misma cantidad de datos.
El papel sobre I-JEPA será presentado en la conferencia CVPR 2023 la próxima semana, y también se ha publicado el código fuente y los puntos de control del modelo.
¿Qué futuro tiene I-JEPA?
Este modelo se considera un paso hacia la creación de una IA más parecida a la inteligencia humana. El equipo está entusiasmado por extender este enfoque a otras áreas, como los datos emparejados de imagen-texto y los datos de vídeo, y prevé posibles aplicaciones en tareas como la comprensión de vídeos.