Para los que no sepan mucho del movimiento Open Source respecto a la IA estamos viviendo tiempos altamente competitivos y muy moviditos (hace nada sacaron Llama 3.1 que es un pepinazo).
En el mundo de la generación de imágenes teníamos Dall-E o Midjourney como los representantes de los modelos cerrados, y únicamente a Stable Diffusión y algunos otros como modelos abiertos.
Stability sacó hace no mucho su nuevo modelo Stable Diffusion 3 Medium en el cual había puestas muchas esperanzas, pero el jarro de agua fría fue terrible, un modelo censurado, muy limitado, de calidad cuestionable, y con unas condiciones de uso en su licencia que eran una tomadura de pelo (y que luego rectificaron)... En ese punto parecía que el modelo Open Source estaba condenado... Pero llegó Black Forest Labs.

¿Quién puñetas son estos tipos de Black Forest Labs?...
Pues hace un tiempo un pequeño grupo de ingenieros (siete si mal no recuerdo) descontentos con el rumbo de Stability abandonaron el barco y fundaron Black Forest Labs, y como resultado de aquella espantada tenemos el tema principal de este mismo hilo... El modelo Flux.
Flux está al mismo nivel o es incluso mejor que modelos como Midjourney o Dall-E, entiende instrucciones complejas, maneja texto, diferentes estilos (anime, realista, artísticos, cinematográficos, etc, etc) y además ofrece una calidad de imagen estupenda...

Eso sí, es un modelo exigente que requiere de un hardware decente para correr de manera optima, pero por suerte también es altamente flexible así que se puede adaptar a especificaciones más bajas (aunque no será tan rápido).
De momento hay 3 modelos:
Flux.1 Pro (modelo comercial que solo funciona en línea).
Flux Dev (el modelo medio con el que hice las imágenes del hilo).
Flux Schnell (modelo rápido, pero puedo asegurar que mantiene una gran calidad de imagen).
Como el modelo es nuevo aún no tiene plugins específicos (como controlnet y otros) pero en cuanto la comunidad se ponga manos a la obra FLUX pasará a ser un modelo de posibilidades ilimitadas (y de altísima calidad).
El problema (de momento) es que aún no se sabe si se podrá entrenar, ya que quizá el hardware necesario sea demasiado elevado para el usuario medio (aunque quizá la comunidad con algo de optimización y paciencia logren hacerle finetuning al modelo).
Tras Llama y Flux estaría genial que alguien sacase un modelo para vídeo y otro para música que sean Open Source y tan buenos como los modelos cerrados...
Hay cosas como Stable Vídeo Diffusion o MAGNeT, pero no están al nivel, de hecho están lejísimos de ofrecer algo de buena calidad (supongo que la cosa debe ser complicada por las limitaciones que tiene el hardware de un PC doméstico medio).