La maldición de la recursividad: El entrenamiento con datos generados hace olvidar a los modelos
Stable Diffusion revolucionó la creación de imágenes a partir de texto descriptivo. GPT-2, GPT-3(.5) y GPT-4 demostraron un rendimiento asombroso en diversas tareas lingüísticas. ChatGPT introdujo estos modelos lingüísticos al gran público. Ahora está claro que los grandes modelos lingüísticos (LLM) han llegado para quedarse y provocarán un cambio drástico en todo el ecosistema del texto y las imágenes en línea. En este artículo nos planteamos qué nos deparará el futuro. ¿Qué ocurrirá con GPT-{n} una vez que los LLM contribuyan a gran parte del lenguaje que se encuentra en línea? Descubrimos que el uso de contenidos generados por modelos en el entrenamiento provoca defectos irreversibles en los modelos resultantes, en los que desaparecen las colas de la distribución original de contenidos. Denominamos a este efecto "colapso del modelo" y demostramos que puede producirse en autocodificadores variacionales, modelos de mezclas gaussianas y LLM. Construimos una intuición teórica detrás del fenómeno y retratamos su ubicuidad entre todos los modelos generativos aprendidos. Demostramos que hay que tomárselo en serio si queremos mantener los beneficios del entrenamiento a partir de datos a gran escala extraídos de la web. De hecho, el valor de los datos recopilados sobre interacciones humanas genuinas con sistemas será cada vez más valioso en presencia de contenidos generados por LLM en datos rastreados de Internet.
https://arxiv.org/abs/2305.17493v2
GPT4All: Cómo usar LLMs en tu propia máquina sin compartir tus datos
Si valoras tu privacidad pero aún así quieres usar LLMs, puede que quieras probar GPT4All, un nuevo ecosistema que te permite usar grandes modelos lingüísticos (LLMs) en tu ordenador sin depender de un servicio en la nube.
GPT4All es un proyecto gratuito y de código abierto cuyo objetivo es hacer que los LLM sean accesibles y personalizables para todo el mundo. Puedes elegir entre una gran variedad de modelos de código abierto, cada uno con sus propias capacidades y limitaciones. Algunos modelos pueden utilizarse comercialmente, mientras que otros son sólo para uso personal o educativo. No necesitas una GPU ni conexión a Internet para utilizar GPT4All. Todo lo que necesitas es un ordenador de sobremesa con Windows, OSX o Ubuntu. GPT4All proporciona instaladores fáciles de usar para cada plataforma. La última versión ha aumentado el rendimiento en los Mac M1/M2 de Apple y ha añadido un modelo perfeccionado para la codificación por Replit, una plataforma de desarrollo colaborativo de software, que puede utilizarse comercialmente.
Con GPT4All, puedes disfrutar de las ventajas de los LLM sin compartir tus datos. Sin embargo, debe tener en cuenta que la calidad de las respuestas no suele estar al mismo nivel al que está acostumbrado con ChatGPT. Pero usted controla sus datos. Éste es sólo el punto de partida, y estoy convencido de que pronto habrá más modelos locales potentes.
https://gpt4all.io/index.html