Salvor_Hardin (podrías pasar 2 veces por el mismo sitio y que te generase dos sitios análogos, pero que son distintos.
Tendrían que utilizar varias IA, el modelo que generase la imagen final basada en el overlay (RunwayML por ejemplo, pero lo mejor sería poder entrenar tu modelo para tener un mejor control y consistencia).
La que analiza los diferentes elemento de la imagen original para que se comporten como deben (Florence por ejemplo).
Otra que haga y almacene el mapa por segmentación que mantenga la coherencia (Segment Anything por ejemplo).
Que sea capaz de manejar, comprimir, y almacenar una gran cantidad de tokens en su memoria (para que recuerde las cosas).
Trabajando en conjunto con todo eso y alguna cosilla más ya debería poderse hacer un buen trabajo.
Así que la tecnología base ya existe, aunque obviamente tiene un margen enorme de mejora en lo que respecta a calidad y eficiencia, lo que si sería verdaderamente imposible y muy difícil (al menos en el presente) es llegar al punto de lograr ejecutar todo eso en tiempo real (eso queda para el futuro).