Overseer Presentamos Genie, un modelo de mundo básico formado a partir de vídeos de Internet que puede generar una variedad infinita de mundos jugables (controlables por acción) a partir de imágenes sintéticas, fotografías e incluso bocetos. Un modelo básico para mundos jugables En los últimos años se ha visto el surgimiento de la IA generativa, con modelos capaces de generar contenido novedoso y creativo a través del lenguaje, imágenes e incluso vídeos. Hoy, presentamos un nuevo paradigma para la IA generativa, los entornos interactivos generativos (Genie), mediante el cual se pueden generar entornos interactivos y jugables a partir de una única imagen. A Genie se le pueden solicitar imágenes que nunca antes había visto, como fotografías o bocetos del mundo real, lo que permite a las personas interactuar con sus mundos virtuales imaginados, actuando esencialmente como un modelo de mundo básico. Esto es posible a pesar del entrenamiento sin etiquetas de acción . En cambio, Genie se entrena a partir de un gran conjunto de datos de videos de Internet disponibles públicamente. Nos centramos en vídeos de juegos de plataformas 2D y robótica, pero nuestro método es general y debería funcionar para cualquier tipo de dominio, y es escalable a conjuntos de datos de Internet cada vez más grandes. https://sites.google.com/view/genie-2024/home