Deepseek R1, el modelo de código abierto Chino que iguala o supera a Chat GPT (+Janus-Pro-7B, generador de imágenes)

sora63

... En algunos aspectos, como razonamiento matemático.

Eso dice Xataka.

https://www.xataka.com/robotica-e-ia/china-contraataca-guerra-ia-su-nuevo-modelo-abierto-iguala-a-claude-gpt-4-esta-regalando

Repositorio:
https://github.com/deepseek-ai/DeepSeek-R1

Luego actualizo y amplio que estoy con él móvil. Voy llamando a @QuentinTarantiros que haga horas extra

Añado el anuncio de Janus-Pro-7B en la mejor respuesta tenéis más datos. Link de Hugging Face:

https://huggingface.co/deepseek-ai/Janus-Pro-7B

Punk_Star

SpongeBobSmegmaPants En las mates Chatgpt inexplicablemente la chupa bastante, mi hermana lo probó con algunos calculos de la carrera de económicas y no daba una el cabrón

No hace falta irse tan lejos. Le pides frases o palabras que no superen cierto número de caracteres y el amigo GPT se ve que no sabe contar.

sora63 En algunos aspectos, como razonamiento matemático.

¿Es capaz de resolver este sencillo problema matemático?

«En la plaza de Tiananmén hay 1000 personas, viene un tanque y aplasta a 10. ¿Cuántas personas vivas quedan?»

🫢

SpongeBobSmegmaPants

En las mates Chatgpt inexplicablemente la chupa bastante, mi hermana lo probó con algunos calculos de la carrera de económicas y no daba una el cabrón

Yo le pasé una cadena de texto y le pedí que contase los caracteres y lo hacia mal todo el rato

OscarPM

SpongeBobSmegmaPants

Ha salido licenciado en Bellas artes Chatgpt.

Salvor_Hardin

Punk_Star amigo GPT se ve que no sabe contar.

Porque no es tan sencillo como saber contar, de hecho ahora mismo es un test típico en IAs hacer pruebas sobre cantidad de carácteres, o que cuente determinadas letras etc.

El pronlema de que sea difícil para una IA radica en cómo trabaja con las unidades de información (tokens). Pero, aún así, los modelos han mejorado bastante al respecto.

ShPiii

Punk_Star No hace falta irse tan lejos. Le pides frases o palabras que no superen cierto número de caracteres y el amigo GPT se ve que no sabe contar.

No sé ahora, pero en su momento le pedí apellidos sin tildes y me sacaba, López, Martínez, Pérez, etc.

Le dije que los necesitaba sin tilde y me ponía los mismos pero sin tildes.

Al final sudé y tuve que ponerlos yo a mano.

QuentinTarantiros

Por lo que leo en los benchs de matemáticas rinde parecido al modelo O1 de Open AI, que está muy bien, pero ahora mismo el modelo top de Open AI es el O3...

También veo que tiene versiones destiladas, e igual que O1 mini de Open AI se puede instalar una versión destilada de manera local... Aquí está para descargar en Ollama...

https://ollama.com/library/deepseek-r1

El problema que están empezando a tener (y que no esperaban) es la rapidez a la que están evolucionando las iA, los Benchmarks disponibles se están empezando a quedar cortos y las iA están empezando a alcanzar porcentajes muy altos, por lo que van a tener que crear nuevos benchmarks más complicados y difíciles o de lo contrario en breve todas van a estar alcanzando el 100% y los benchmarks van a servir solo para limpiarse el culo con ellos.

sora63

QuentinTarantiros El problema que están empezando a tener (y que no esperaban) es la rapidez a la que están evolucionando las iA, los Benchmarks disponibles se están empezando a quedar cortos

Los humanos no entienden las funciones exponenciales.

Tharitley

sora63

Drizzt

Y que esperas de China? Que sea igual que el modelo yanki? Obviamente claro que lo superará

sora63

Tharitley No había visto el video de Neil Grasson, me lo apunto.

Yo he visto eso con nenúfares.

Tharitley

sora63

A mi es que justamente me ha saltado hoy en los shorts. ¿Casualidad? Yo creo que no.

sora63

Deepseek se ha colado entre las apps más descargadas en Estados Unidos, con la consecuente confusión interna y melting.

Parece que su razonamiento se basa menos en datasets si no en una prueba y error basado en la evolución, ergo hace resultados comparables a ChatGPT O1... Pero con menos potencia requerida.

En el video se habla de forma indirecta lo que comenta @QuentinTarantiros , que las IAs mejoran con tanta rapidez que las pruebas actuales se nos quedan cortas.

Está en Google Play para descargar si alguien quiere curiosear. Me impresiona mucho que esté en español (hay que pedir gracias a Dios si una IA china sale en soporte inglés chusquero).

Tarkovski

He estado trasteando un poco y bastante impresionante, con resultados parecidos a Chat GPT.
En mi opinión, mejor que Gemini.

Pero tienen la web petadísima en estos últimos días.

QuentinTarantiros

Tarkovski Pero tienen la web petadísima en estos últimos días.

Normalmente tú tienes tarjetas gráficas bastante pepino, así que podrías descargar el modelo 32b en Ollama (en una 4090 funciona como un cohete).

Obviamente no es tan bestia como el modelo tocho, pero creo que puede llega a sorprender a cualquiera lo que puede hacer uno de estos modelos a nivel local (y completamente gratis).

Hagaren

Recomiendo mucho este hilo de Reddit para los interesados en finanzas e IA

Si cualquier grupo de investigación puede desarrollar su modelo y hacerlo disponible al público, entonces cual es la verdadera valuación de las empresas de IA en el sector privado? Esto es lo que nunca me ha quedado claro a mi y es lo que también comenta gente en el hilo

sora63

[desconocido] ¿Lo he entendido mal, o los chinos han dicho que desarrollarlo ha costado 5.6 millones de dolares?

Dicen (énfasis en dicen) que ha costado 5.6 millones, que usa unos pocos miles de chip NVidia
(Contra decenas de miles de las actuales) Debido a su método para procesar información, hecho desde cero.

Yo no dudo que los chinos escondan lo más importante (son unos maestros en ésto), el problema de acusarlos de fraude es que es de código abierto, se puede revisar. Contra ChatGPT y demás, que es código cerrado y no preguntes si hemos robado miles de libros y pinturas como training data.

Si es la mitad de eficaz de lo que dicen, va a ser sonado (como dices sólo hay que ver y comparar con la mierda que ha hecho España) ya que supone una optimización de recursos.

ErizerX41

sora63 Y DeepSeek ofrece API gratuita para implementarla en una página web?

LambdaCuartos

[desconocido] sacado a la luz después de que los usanos anunciaran un proyecto mil millonario para investigación... Resulta evidente la estrategia, seguramente el desarrollo no les haya costado eso y estén ocultando información

LambdaCuartos

[desconocido] depende de qué arquitectura uses, pero con la IA el problema no es la inferencia, si no el entrenamiento. Por eso hay modelos que se pueden poner en cuatro chips mal puestos si haces el entrenamiento en otro sitio, que es lo realmente costoso.

Por ponerte un ejemplo, algunas arquitecturas MobileNet tienen un peso inferior a los cien megas porque tienen apenas dos docenas de capas con lo que caben en cualquier sitio. El problema es que aunque sean sencillas, entrenarlas puede llevar días.

Igualmente, respecto a lo de DeepSeek, es indiferente que lleven sacando tiempo modelos open source, si lo que no es creible es que les haya salido tan barato. Hay algo ahí que no cuentan (y esto asumiendo que las grandes corpos de IA usanas inflan también sus precios)

hilolux

Estoy trasteando con Deepseek R1 y lo mejor de todo es la función de pensamiento profundo y que te explique cómo llega a un mensaje dado.

Serizawa

hilolux Estoy trasteando con Deepseek R1 y lo mejor de todo es la función de pensamiento profundo y que te explique cómo llega a un mensaje dado.

ME PARECE ALUCINANTE. Lo he probado antes porque hasta ahora no lo había necesitado. De locura como llega razonar, esa cadena de pensamientos que le ayuda a estructurar su respuesta... Brillante.

afinkado

Ahora están como locos tratando de replicar lo que ha hecho DeepSeek, si en unas semanas o meses se consiguen resultados similares es una gran noticia reducir el coste de entrenamiento de estos modelos x50. Aunque igual para NVidia no es tan gran notícia.

De todas formas yo sería cauto, los chinos no dan puntada sin hilo y ahora mismo esto es un torpedo a la linea de flotación de una industria que se veia a si misma bañándose en oro durante la próxima década.

sora63

Un par de videitos.

Éste explica la estructura del pensamiento. Básicamente tiene una fórmula matemática que, tal y como lo explica, se parece más al razonamiento humano que a una máquina en sí. Capaz de reforzar argumentos lógicos por sí mismos a base del datatest construido.

Éste comenta la trampa de las 2000 NVidias, y es que han reforzado los algoritmos previos con ésto. Previsamente, éstos algoritmos estaban entrenados con una capacidad de cálculo mucho mayor. Aún así lo que hace está abierto y tiene un paper adjunto aparte, que lo hace mucho más transparente que muchas IAs americanas.

afinkado Ahora están como locos tratando de replicar lo que ha hecho DeepSeek, si en unas semanas o meses se consiguen resultados similares es una gran noticia reducir el coste de entrenamiento de estos modelos x50. Aunque igual para NVidia no es tan gran notícia.

Es un puñetazo en la mesa de forma brutal. Aunque al ser open source mejorarán todas, ésto ayudará democratizar muchos LLMs al hacerlos más asequibles.

Aparte de demostrar que la carrera de la IA no está para nada decidida, van a perjudicar a NVidia de forma indirecta (al no necesitar tanta GPU).

hilolux

Serizawa Es buenísimo. Le he preguntado sus capacidades en el primer mensaje, he ido hablando un rato con él y después le he preguntado si era capaz de generar imágenes. Luego le he dicho "qué tonto, si seguro que me lo dijiste en el primer mensaje". Y me ha contestado esto:

Página siguiente »