Algunos trucos, extensiones, e interfaces para aprovechar la generación de imágenes con IA de Stable Diffusion (ejemplos dentro).

QuentinTarantiros

Dejo un pequeño hilo dedicado a la IA Stable Diffusion y alguna de sus mejores herramientas y extensiones para sacarle partido.

Lo primero son las interfaces de las cuales hay varias, las más conocidas son Automatic 1111 e InvokeAI, la primera es la mejor para generar imágenes de la nada debido a su facilidad de uso y la enorme cantidad de extensiones que se le pueden añadir, y la segunda está especializada en el impaiting (crear o modificar elementos de la imagen) y el outpainting (crear nueva imagen exterior para agrandar la imagen) aunque también sirve para generar imágenes de la nada (como Automatic 1111).

Como ejemplo voy a utilizar Automatic 1111 para generar la imagen de Ayuso con un modelo que entrené yo (se puede entrenar la IA para añadirle nuevas personas).

Ese es el resultado, y se pueden ver los famosos prompts (las palabras para generar la imagen) que están divididos en prompts positivos (que son lo que queréis en la imagen) y los negativos que son lo que queréis evitar (lo mejor es tener algunas platillas ya hechas en un .txt para cortar y pegar cuando las necesitéis).

Como se puede ver la calidad no es muy buena (aunque parece aceptable) pero se puede mejorar muy fácilmente. Como no me convencía mucho la cara (esto es habitual sobre todo en imágenes lejanas en las que se deforman más las cosas). Así que mandé la imagen a "Extras" y mejoré la resolución con el upscaler más simple de todos (lanczos).

Tras eso pasé la imagen a "Inpaint", lo te permite enmascarar una zona y reinterpretarla a más resolución, aunque al final le puse menos que la que hizo lanczos ya que era demasiado bestia. En general las imágenes iniciales siempre se pueden mejorar muchísimo, solo con un par de trucos (como trabajar en una imagen de más resolución) y en apenas un minuto o dos.

Y aquí está el nuevo resultado el cual me convence más que la anterior.

Resulta que el fondo me gusta, pero es insuficiente y me da la sensación de que hay poca panorámica del ambiente que la rodea, así que me paso a InvokeAi que está especializado en el impaiting y outpainting, y me dedico a hacer outpainting para lograr tener una escena más abierta.

Listo, aunque no me gusta mucho el montículo que sale de fondo a la derecha, lo podría solucionar con el mismo InvokeAI, pero aprovecho y enseño otra herramienta llamada "Lama Cleaner" que está especializada en borrar (aunque tiene otras cosas curiosas para poder modificar la imagen, y poder añadir elementos o sustituirlos).

Selecciono lo que quiero eliminar...

Y listo...

Pero las posibilidades van mucho más allá si queréis...

Ahora volvemos a Automatic1111 para utilizar un modelo y extensión muy especiales, y es especial porque en vez de utilizar prompts utiliza ChatGPT para modificar las imágenes, lo que permite modificarlas con un lenguaje mucho más fluido y natural, además de sin cambios en la composición de la imagen.

Generamos un deportivo por la calle de una ciudad...

Ahora pasamos a la Extensión Instruct Pix2Pix y le pedimos que nos convierta la imagen, una en un ambiente nevado, otra al atardecer, y una con todo humo, fuego, y llamas por todos lados...

Molan los ejemplos ¿No? Pues sirve para ese tipo de cosas ¿Quieres cambiar el color de pelo de un personaje? Pues se lo pides y te lo hace.

Ahora hablemos de las posturas, como vemos hasta ahora pedimos a la IA que nos genere una imagen y Stable Diffusion se la inventa, pero imaginad que queremos un estilo de fondo y una postura concretas.

Pues en ese caso tenemos las extensiones Controlnet y Open Pose Editor, las posibilidades de la extensión Controlnet son inmensas y es una herramienta muy potente para controlar nuestros resultados, y hablar de ellas llevaría bastante tiempo, pero basta con saber que permite mantener coherencia entre las imágenes y modificarlas al mismo tiempo. Podrías generar al mismo personaje en diferentes posturas por ejemplo (entre otras tantas cosas) y eso lo puedes hacer tanto con imágenes existentes como con nuevas imágenes.

En este caso solo la voy a utilizar para elegir postura, voy a utilizar sus posibilidades para generar a nuestra musa en un bar, posicionada en donde elija, y en la postura que yo elija.

Generamos el bar, y lo mando a Img2Img...

Voy a la pestaña "Open Pose Editor" y le añado el fondo que generé, y también elijo la postura en la que quiero a mi personaje y donde lo quiero situar, finalmente mando la postura a Img2Img...

Generamos la imagen con controlnet y las opciones de posturas activada y...

Listo, nuestro personaje donde queremos y en la postura que queremos, si se quiere se puede hacer a más resolución, o hacerle unas pocas mejoras como en el ejemplo del principio (y estaría listo).

Y hasta aquí el pequeño recorrido por algunas extensiones e interfaces de Stable Diffusion. Se quedan en el tintero muchísimas cosas, como los los diferentes modelos, añadir embeddings, como crear escenarios y ambientes de diversos estilos, como mezclar prompts y conceptos para generar algo en un remix (Ayuso estilo Funko por ejemplo), aplicar estilos artísticos (Ayuso estilo Studio ghibli o Vincent Van Gogh), como añadir prompts eligiendo en que porcentaje afecta cada uno en la imagen, los diferentes tipos de entrenamientos, los estilos, las redes adicionales, como crear animaciones (aunque aquí entrarían más cosas si queréis mejor coherencia entre imágenes, algunas fuera de Stable Diffusion como EbSynth)... En fin, un largo etc.

Sencillamente es imposible ponerlo todo, hay demasiado que abarcar, y cada día que pasa surgen nuevas herramientas y posibilidades, probablemente para dentro de unos meses las herramientas de arriba estén ya mucho más actualizadas, sustituidas por otras mejores, o vaya usted a saber.

Dios

Lo de controlnet y pix2pix es impresionante.
Ahora tengo el Stable Diffusion un poco aparcado, a ver si me pongo otra vez a ello.

QuentinTarantiros

Dios Ahora tengo el Stable Diffusion un poco aparcado, a ver si me pongo otra vez a ello.

Esto va increíblemente rápido, si lo dejas aparcado unas semanas la próxima vez que lo pongas ya habrá 15 cosas nuevas, algunas inútiles y otras maravillosas... Pero habrá cosas nuevas seguro (es increíble lo rápido que avanza).

A mi me flipa, empezó haciendo zurullos de los que la gente se reía y ahora te hace prácticamente lo que quieras (ahora hay herramientas para manos que puedes añadir a openpose y controlnet que te las deja perfectas y en la posición que quieras).

Favonius

¡¡¡ Acojonante !!!

Laolama

Me lo guardo para hacer pruebas ahora que el PC podrá con ello.

Skein

Estoy usando Invoke ai, llevo toda la tarde trasteando con prompts, dejo algunas que me han gustado: