Achotoni ya me preguntó, se hacen desde la siguiente página (tienes pocos tokens diarios, pero suficientes para hacer un par de canciones al día).
https://app.suno.ai/
Te genera un audio de un minuto y poco, el cual puedes continuar en las opciones del tema para alargarlo lo que necesites.
Los modelos de lenguaje se utilizan solo para generar la letra, pero la composición musical se basa en el inteligencia artificial generativa, la IA realiza el aprendizaje de las estructuras de miles de temas musicales (como pasa con los generadores de imágenes pero con audio), y ninguno de los temas genere tras el aprendizaje existirá, será nuevo o una reinterpretación de lo que le pidas, son composiciones completamente nuevas basadas en el aprendizaje musical.
Para entendernos, si yo le dijese que quiero que aprenda un solo tema en concreto y le dijese después que me hiciese ese mismo tema no lo podría hacer igual al 100%, porque no es que grabe el tema y lo reproduzca, es que aprende y luego lo interpreta a su manera. Por lo tanto aparecerán pequeñas diferencias en su interpretación (es como si le pidieses a un grupo que tocase una canción de otro grupo, la van a tocar, pero habrá pequeñas diferencias).
Con las imágenes pasa igual, le puedo pedir que me haga la Mona Lisa, pero aunque la imagen aparentemente sea la misma va a tener diferencias porque la IA no tiene una copia almacenada en su interior que luego te pone en la pantalla, es que aprende los patrones de la obra y luego con lo que aprende la intenta reproducir.
Por eso se dice que las IA generativas "aprenden", y por eso luego pueden ser creativas y generar temas completamente nuevos.