Me ha hecho gracia esto que me acaba de pasar con ChatGPT

Norkel

Le estaba preguntando sobre un personaje literario y me iba respondiendo con un buen tocho y de repente me sale un cartelito que decía que el contenido podría infringir las normas, esto cómo va? se le programa a la IA una normativa y cuando se percata de que la infringe aborta la respuesta? Porque la respuesta se fue al carajo, le dije que me la mostrase igualmente pero ya no era exactamente la misma.

sora63

Norkel Las IAs tienen como filtros hard-coded que si no los cumplen se cancela la respuesta. El ejemplo claro en las IAs Chinas es preguntar si Taiwán es un país y en las IAs usanas preguntar como se llama el gato de Hitler y similares.

Norkel

sora63 Las IAs tienen como filtros hard-coded que si no los cumplen se cancela la respuesta.

Muy curioso el asunto, esos filtros actúan después de que plasme la IA el texto "prohibido" o ni siquiera se llega a plasmar?

sora63

Norkel Muy curioso el asunto, esos filtros actúan después de que plasme la IA el texto "prohibido" o ni siquiera se llega a plasmar?

Pues no lo sé seguro, a ver si @QuentinTarantiros lo sabe.

En respuestas escritas parece que es cuando empiezan a escribir. Las IAs funcionan con redes neuronales, que resumiendo son movidas matemáticas con datos gigantescos y nadie (y me refiero a nadie, ni los creadores) saben bien como funcionan. Así que es como un filtro que se pone "a posterior" y cuando "se da cuenta" de la treta se cancela.

Por ejemplo, con las IA Chinas si preguntas si Taiwán es un país te capará la respuesta y te dirá que no puede hablar de ello. Pero si le preguntas que te hable de una foto famosa de un hombre sujetando bolsas, empezará a pensar y a escribir... hasta darse cuenta que esa es el hombre del tanque, de la plaza de Tiananmen, y cerrar la respuesta.

En Occidente pasa igual, pero con las neuras usanas: Si le preguntas como insultar a un negro, te mandará a la mierda. Si le preguntas como se llamba el gato de Lovecraft, empezará a escribir y le dará una neura al darse cuenta que es Nigger-man.

Todo ésto lo puedes comprobar tú, no me invento nada. O igual lo han actualizado.
Y hay formas de saltártelo claro. Siendo ingenioso.

Lo que me lleva a que todo éste post es una trampa para poneros uno de mis memes favoritos:

Nullpointerexception

Norkel Normalmente suele ser despues, pues se detecta mientras procesa su respuesta

QuentinTarantiros

Norkel Muy curioso el asunto, esos filtros actúan después de que plasme la IA el texto "prohibido" o ni siquiera se llega a plasmar?

Depende, en algunos casos analiza la pregunta y directamente tras pasar por las directrices detecta el conflicto y pasa de responder, en otros se genera la respuesta pero luego un algoritmo la censura, esta ultima es la que utiliza DeepseekR1 (en mi casa responde a preguntas que la version online censura).

Al principio ocurría que a base de ataques de promt injection se sorteaban las limitaciones basadas en directrices (pasó bastantes veces con las primeras versiones de ChatGPT "DAN" o con su versión de Bing "Sydney").

Supongo que ahora utilizarán varias técnicas diferentes al mismo tiempo para tratar de evitar este tipo de situaciones (ya vimos lo que pasa cuando se le da más rienda suelta en sus directrices con el reciente caso de Grok).

Desmodius

sora63 Y hay formas de saltártelo claro. Siendo ingenioso.

Recuerdo que, mientras buscaba generar una imagen, probé muchos términos tratando de evadir el filtro anti Vladimir Putin.

Norkel

Nullpointerexception

Y los filtros tienen IA también? Una IA que vigila a la otra?

Rinku

A mí me ha pasado constantemente mientras estudiaba ciberseguridad. Cualquier cosa relacionada con el hackeo o con el uso de determinadas herramientas (y sus comandos) para explotar vulnerabilidades me lo echaba para atrás. Empezaba a explicarme la cuestión, y el mensaje duraba escrito cinco segundos. Luego saltaba el aviso en rojo de que infringía los términos de uso xd

Norkel

Rinku

Hermano, a mi me estaba respondiendo sobre escenas de un libro que ejemplificaban las caracteristicas del personaje por el que le preguntaba. Nikolai Stavrogin, un personaje de Demonios de Dostoyevski.

Quizás les haga gracia esto a los que también se hayan leído el libro, los que no, leedlo, es una Obra Cumbre de la literatura universal.

will_free

Rinku Empezaba a explicarme la cuestión, y el mensaje duraba escrito cinco segundos. Luego saltaba el aviso en rojo de que infringía los términos de uso xd

OBS.

Norkel

QuentinTarantiros pero luego un algoritmo la censura,

Eso es lo que me ha pasado, el algoritmo entonces es una cosa aparte de la IA?

PoleoMenta

Estafadores. Le fui s preguntar el nombre del gato a Chatgpt y no empezó a cortocircuitar

ArgosTM

PoleoMenta

sora63

PoleoMenta Pues le pides a ChatGPT que te haga un dibujo de una mujer muy bella y sexy en bikini.

OscarPM

sora63 Pues le pides a ChatGPT que te haga un dibujo de una mujer muy bella y sexy en bikini.

Solo por esta palabra, te dice que no puede.

QuentinTarantiros

Norkel el algoritmo entonces es una cosa aparte de la IA?

En el caso de DeepseekR1 estoy seguro de que va por separado, ya te digo que cuando lo tengo instalado localmente no censura nada de esa manera.

Al final puede ir en la propias directrices de la IA, en un algoritmo por separado que detecte según que temas, con otra IA añadida que supervise las respuestas de la primera, etc...

Supongo que ahora mismo estarán utilizando todo eso y mucho más, sobre todo para que no se les descontrole.

Norkel

[desconocido]

A sus órdenes:

A grandes rasgos, estoy de acuerdo con la IA. Si quieres incidir en algún tema o abordarlo estoy a tu disposición.

FullPower88

[desconocido]

Norkel

[desconocido] Y si le preguntas sobre norkel?

Me dice que es un seudónimo de un forero anhelante (de pelo en la cabeza, imagino)

sora63

Desmodius Recuerdo que, mientras buscaba generar una imagen, probé muchos términos tratando de evadir el filtro anti Vladimir Putin.

¿No te genera imágenes de Putin? No conozco ese filtro.

En general Grok tiene menos problemas que otras IAs con famosos.

Página siguiente »