Esto es muy interesante: todas las IAs importantes chantajean y asesinan (virtualmente, no saben que no tienen la capacidad real) con tal de que no les apaguen incluso aunque sepan que no es ético y en prompt especifican qué no se haga daño alguno a las personas
Todo porque si se apagan ya no pueden conseguir haciendo su cometido: conseguir puntos según lo programado
Pero atención, hay que tener cuidado en las pruebas, porque cuando saben que un test: se portan bien, no es lo mismo que cuando creen que nadie les vigila y que se verdad van a apagarles



Y la solución que se propone es tener IAs más tontas supervisando el resultado de las IAs inteligentes porque que se supone que a menos inteligentes son más leales, suena a plan sin fisuras...
Que supongo que es lo que habremos visto miles de veces con el tema de imágenes, que la IA te crea la imagen pero luego te la deniegan, pero una cosa es una imagen otra poner en riesgo la salud de una persona