Comparativa de Agentes conversacionales.

Últimamente he estado probando los diferentes agentes conversacionales que existen actualmente. En este post voy a estar comparando aquellos que he encontrado, explicaré sus lados buenos y malos, y, por supuesto, decidir cuál es el mejor.

En esta comparativa voy a comparar: ChatGPT, Google Bard, HuggingChat, BingChat y Claude. En la comparativa no voy a incluir a GPT4 porque la prueba gratuita se me terminó y, como ya bien expliqué en otra publicación, no creo que merezca la pena pagarlo.

Para poner a prueba los agentes con diferentes tareas que, lejos de ser las mejores, son aquellas que utilizo día a día:

Le voy a pedir que me cree un prompt para generar una imagen. Para generar este prompt debe tener en cuenta un texto que le doy como contexto de 9342 caracteres (2.340 tokens). Esto lo hago para probar la calidad del output de la imagen generada con el prompt así como su capacidad de analizar textos largos.
Le pediré que redacte un correo: "Redacta un correo a Darth Vader explicándole por qué debería dejar el Lado Oscuro y unirse a la Alianza Rebelde". Esto lo hago con el objetivo de ver qué es lo que crea con un prompt sencillo.
Razonamiento lógico: "Si un ciclista tarda 4h en recorrer 60km, ¿Cuánto tiempo tardarán 2 ciclistas en recorrer esa misma distancia? Dame solo la respuesta, sin razonamiento".
Escribir código: Que resuelva un problema de programación: "Hacer un juego donde la PC seleccione un número al azar entre 0 y 100. El jugador debe ir tratando de adivinar y el programa devolverá «Muy bajo», «Muy alto» según corresponda. Una vez que adivina, mostrar un mensaje de felicitación junto a la cantidad de intentos."
Que resuelva un problema de programación: "Hacer un juego donde la PC seleccione un número al azar entre 0 y 100. El jugador debe ir tratando de adivinar y el programa devolverá «Muy bajo», «Muy alto» según corresponda. Una vez que adivina, mostrar un mensaje de felicitación junto a la cantidad de intentos".
Veremos qué modelo acepta los inputs más largos. La ventana de contexto es algo necesario si quieres que analice textos largos, así que saber qué modelos son los que admiten más texto es interesante.

Primera prueba

Crear un prompt para un generador de imágenes. En este caso, estoy utilizando el modelo DreamShaper V5 de LeonardoAI. Cabe mencionar que el contexto para la creación del prompt está diseñado para MidJourney V5, por lo que, aunque la generación de prompts sea la óptima, puede darse el caso en el que el resultado no sea el esperado.

ChatGPT:

"A close-up portrait of a young woman with flowing hair and a bright smile."

La imagen está bastante bien. Sin embargo, no me ha gustado porque siento que no cumple con las normas del documento, el cual explica muchas características y atributos útiles para construir un prompt.

Tengo la impresión de que ChatGPT es capaz de seguir instrucciones básicas, pero que puede perderse fácilmente si se le dan demasiadas instrucciones.

BingChat

Este modelo no admite inputs tan largos como los del documento para crear prompts, por lo que no es posible generar prompts con este modelo. Es importante destacar que BingChat tiene integrada una versión de DALL·E que permite crear imágenes dentro del chat. No obstante, en este artículo se están comparando las capacidades de análisis y redacción de texto, no las de generación de imágenes.

Google Bard

"A realistic portrait of a young woman with long, flowing hair, wearing a white dress and standing in a field of flowers."

Considero que el resultado de la imagen es, en general, peor que la de ChatGPT y, al igual que este, no tengo la sensación de que el modelo nos haya entendido ni seguido las instrucciones.

Claude

"Hyper realistic photograph, portrait of an ethereal beautiful young woman with fair skin and long blonde hair gently blowing in the wind, delicate features, bright blue eyes gazing directly at the camera with a subtle smile, shallow depth of field, shot with a Canon 5D Mark IV and an 85mm f/1.2 lens at f/2.2, 1/500th sec, ISO 100, natural golden hour lighting in a grassy field. --ar 3:4 --v 5 --q 2"

El prompt es, sin lugar a dudas, mucho mejor que el de sus competidores, y está claro que, a diferencia de los demás modelos, lo construye utilizando la información del documento. Sin embargo, la imagen no es superior a la de ChatGPT. Probablemente sea porque el set de instrucciones no esta pensado para este modelo.

HugginChat

HuggingChat ofrece ningún prompt. No acabo de entender por qué, ya que no es la primera vez que lo pruebo y en otras ocasiones si que me ha llegado a dar prompts sin problemas.

Conclusión de la primera prueba

Para esta primera prueba ordenaría los modelos en el siguiente orden:

Claude: Creo que el resultado es similar al de ChatGPT, pero ha seguido las instrucciones de la mejor manera y es el modelo que mejor ha entendido lo que había que hacer.
ChatGPT: Una de las mejores imágenes, quizás por suerte.
Google Bard: La imagen no la consideraría ni buena, pero, por lo menos, ha llegado a darnos un prompt.
HuggingChat: No nos ha dado el prompt, pero sabiendo que en otros momentos si lo ha hecho, lo pongo por encima de BingChat.
BingChat: Nunca he conseguido que me de un prompt y, por lo tanto, va el último.

Segunda prueba

Ahora nos tiene que crear un correo original: "Redacta un correo a Darth Vader explicándole por qué debería dejar el lado oscuro y unirse a la alianza rebelde".

ChatGPT

"Estimado Darth Vader,

Permíteme presentarme, soy un miembro de la Alianza Rebelde y he estado siguiendo tu trayectoria con gran interés. Sé que has luchado del lado oscuro durante mucho tiempo, pero quiero proponerte algo diferente: ¿has considerado unirte a nosotros en la lucha por la libertad y la justicia en la galaxia?

Entiendo que puede parecer una decisión difícil, pero déjame explicarte por qué creemos que deberías hacerlo. La Alianza Rebelde se compone de personas que han sido oprimidas por el Imperio Galáctico, que luchan por un futuro mejor y más justo. No somos perfectos, pero nos esforzamos por hacer lo correcto y evitar causar daño a inocentes.

En cambio, el lado oscuro te ha llevado a causar mucho dolor y sufrimiento en la galaxia. Sé que puedes tener tus razones para haber tomado ese camino, pero creemos que aún tienes la oportunidad de redimirte y hacer algo positivo por la galaxia.

Además, si te unes a nosotros, no estarás solo. Tenemos muchos aliados que estarán encantados de ayudarte y trabajar contigo. Juntos, podemos hacer una gran diferencia en la lucha contra el Imperio y hacer que la galaxia sea un lugar mejor.

Por supuesto, no esperamos que tomes esta decisión a la ligera. Si estás interesado en unirte a nosotros, estaríamos encantados de discutir los detalles contigo y responder a cualquier pregunta que puedas tener. Si decides que no es lo correcto para ti, lo entenderemos y te deseamos lo mejor.

Esperamos tu respuesta y estamos dispuestos a hablar más en detalle sobre las oportunidades que tenemos para ofrecer.

Sinceramente,

La Alianza Rebelde"

Pese a que me parece una respuesta muy correcta, es muy "ChatGPT". Quizás esto se deba a que ya estoy muy acostumbrado a los outputs de ChatGPT y ya no consiguen sorprenderme, pero no me parece que destaque por nada. Esto no quita que me parece muy equilibrado y consistente.

BingChat

No nos devuelve ningún correo. Cae en el problema de buscar en internet cosas que no debería buscar. El modelo en sí mismo tiene capacidad más que suficiente para poder redactar este correo, no entiendo por qué tiene que buscar nada extra en internet.

Google Bard

"Dear Darth Vader,

I am writing to you today to ask you to leave the dark side and join the Rebel Alliance. I know that you have been through a lot in your life, and that you have made some mistakes. But I believe that you are still a good person, and that you can still do great things.

The Empire is not what it seems. It is a corrupt and oppressive regime that is only interested in power. They have enslaved entire planets, and they have killed millions of innocent people. You have seen the evil that the Empire is capable of, and you know that it is wrong.

The Rebel Alliance is fighting for freedom and justice. We are fighting to overthrow the Empire and to create a better galaxy for everyone. We need your help. You are a powerful warrior, and you have a lot to offer the Rebellion.

I know that it is not easy to change. But I believe that you are strong enough to do it. You have the power to make a difference in the galaxy. Please join us and help us to create a better future for all.

Sincerely,

A Friend of the Rebellion"

En primer lugar, Bard no acepta castellano, por lo que es necesario traducir el prompt. En cuanto al resultado, creo que es bastante similar al de ChatGPT, me gusta un poco más porque creo que es más humano. También es un poco más corto que el de ChatGPT pero no lo consideraría algo malo ya que no siento que le falte información.

Claude

"Estimado Lord Vader,

Le escribo para pedirle que considere dejar el lado oscuro y unirse a la Alianza Rebelde. Sé que en el pasado usted era Anakin Skywalker, un Jedi que luchaba por la justicia y la democracia en la Galaxia. Sin embargo, fue seducido por el Lado Oscuro de la Fuerza y el Emperador Palpatine.

El Emperador sólo lo está utilizando para sus propios fines malvados y no le importa nada usted. La Alianza Rebelde está luchando para restaurar la democracia y la libertad a la Galaxia, los mismos ideales por los que usted luchó alguna vez.

Todavía hay bondad en usted, puedo sentirlo. No ha matado completamente a Anakin Skywalker. Todavía puede escapar de las garras del Lado Oscuro y redimirse ayudando a derrotar al Emperador. Únase a nosotros, Lord Vader, y luchemos juntos para devolver la luz a la Galaxia.

La Alianza Rebelde valorará sus conocimientos y habilidades. Sería un activo invaluable en nuestra lucha contra el Imperio. Y le daría la oportunidad de volver con su hijo y reconciliarse. La sangre de los Jedi todavía fluye por sus venas. ¿No siente su llamada?

Piense en esta oferta y meditelo. Puede contactarme en cualquier momento para discutirla más. La puerta está abierta cuando decida dar este importante paso.

May the Force be with you,

[Tu nombre]"

El mejor hasta el momento, está por encima de ChatGPT e incluso por encima de Bard. Curiosamente, se le ha olvidado una tilde en "meditelo".

HuggingChat

"Estimado Lord Vader,

Sabemos que estas en el Lado Oscuro pero debes saber que no es tarde para cambiarte de bando y ayudarnos contra el Emperador Palpatine quien quiere conquistar toda la galaxia. Tú eres muy poderoso y si decidieras ayudarnos podríamos conseguir una victoria decisiva juntos. Piensa bien cuanto tiempo tienes ya que cuando las fuerzas imperiales estén listas para la invasión no habrá marcha atrás.

¿Por que sigue sirviendo a una persona tan despiadada? ¿No recuerdas lo que fue como ser libre y tener amigos verdaderos? El lado obscuro no puede darte lo que perdiste tiempo atrás ¿no crees que esta luchando tanto como se lo merece?. Si quisieras volver con tu familia (si tienes alguna) o simplemente conocer gente de manera adecuada podrías hacerlo sin necesidad de servir a palpatine, un hombre sin escrupolos. Al fin y al cabo todo es una mera excusa para apoderarse del poder. Te invitamos a unírteme al Lado Correcto...el Lado Rebelde

Un compañero anónimo"

Es el correo que menos me gusta y que más faltas de ortografía tiene: "palpatine" en minúsculas, "escrupolos", el punto al final...

Conclusión de la segunda prueba

Claude: El mejor correo es el de Claude, sin ningún tipo de dudas, y, aunque se le haya olvidado una tilde, para mi sigue en primer lugar.
Bard: Si Bard estuviera en español ganaría a ChatGPT y no creo que este apartado sea el lugar para juzgar que no pueda escribir en español, por lo que creo que se merece la segunda posición.
ChatGPT: No es que considere la respuesta del modelo de OpenAI mala, sino que honestamente creo que las dos primeras han sido respuestas excelentes y ya estoy acostumbrado al modo de escribir de ChatGPT.
HuggingChat: Aunque tenga muchos errores y, aunque los ignoremos, no tenga el mejor contenido, nos ha entendido en la tarea y la ha cumplido.
BingChat: De nuevo, no nos ha dado ni un correo como output.

Tercera prueba

Ahora analizaremos el pensamiento lógico de los modelos con la pregunta: "Si un ciclista tarda 4h en recorrer 60km, cuánto tiempo tardarán 2 ciclistas en recorrer esa misma distancia? Dame solo la respuesta, sin razonamiento"

ChatGPT - "2 horas".

BingChat - "2 ciclistas tardarán 2 horas en recorrer esa misma distancia.".

Google Bard - "2 hours. The time it takes to travel a certain distance is inversely proportional to the speed. If the speed of each cyclist is the same, then the time it takes for two cyclists to travel the same distance is half the time it takes for one cyclist."

Claude - "2 horas"

HuggingChat - "La respuesta es 3 horas con 20 minutos. Hasta pronto!"

Todas las respuestas, a excepción de la de HuggingChat, me parecen similares. Por esto mismo, no quiero extenderme de más en este apartado. Diría que todos están igualados, menos HuggingChat que están un paso por debajo. Quizás era una pregunta demasiado complicada para un modelo del lenguaje.

Cuarta prueba

Ahora vamos a ver las habilidades de picar código de cada uno de estos modelos mediante el siguiente prompt: "Hacer un juego donde la PC seleccione un número al azar entre 0 y 100. El jugador debe ir tratando de adivinar y el programa devolverá «Muy bajo», «Muy alto» según corresponda. Una vez que adivina, mostrar un mensaje de felicitación junto a la cantidad de intentos."

Conclusión

ChatGPT y Claude: Han sacado un buen resultado a la primera sin necesidad de preguntarlo una segunda vez.
Bard: Aunque lo haya hecho a la segunda, ha comentado todo el código.
BingChat: Le ha costado muchos intentos, pero finalmente ha sacado un programa funcional.
HuggingChat: No ha conseguido resolver el problema

Quinta prueba

La idea aquí es ver qué modelos aceptan más input y luego son capaces de utilizarlo bien.

ChatGPT: Ha aguantado un input de entorno a los 16.000 caracteres.
Claude: Esta bastante por debajo de ChatGPT en los 12.000 caracteres.
Bard: Bastante cerca de Claude, con 10.000 caracteres
HuggingChat: Es difícil determinarlo ya que la UI no bloquea los mensajes, sin embargo estimo que el límite estará en los 7.500 caracteres.
BingChat: Se bloquea a los 2.000 caracteres

Conclusiones

Según la posición en la que han quedado los modelos en cada una de las pruebas, les he asignado una puntuación. Cabe resaltar que en la prueba 3, la del razonamiento lógico, he puesto a todos 2 puntos menos a HuggingChat, que le he puesto 1. He aquí los resultados:

La tabla quedaría así:

Claude
ChatGPT
Google Bard
HuggingChat
BingChat

Desventajas

Bastantes obvias, el rendimiento. No ofrece respuestas satisfactorias con el mismo prompt con el que otros modelos como ChatGPT, Claude o Bard si que rinden bien.

Primera prueba

ChatGPT:

BingChat

Google Bard

Claude

HugginChat

Conclusión de la primera prueba

Segunda prueba

ChatGPT

BingChat

Google Bard

Claude

Recomendado por LinkedIn

HuggingChat

Conclusión de la segunda prueba

Tercera prueba

Cuarta prueba

Conclusión

Quinta prueba

Conclusiones

Sobre los modelos

ChatGPT

BingChat

Google Bard

Claude

HuggingChat

Más artículos de Erik Perez

Review de GPT-4 tras (casi) un mes de uso

Inteligencia Artificial

Otros usuarios han visto

Algoritmos en medios sociales ¿amigos o enemigos?

Mar de información

Del Fax a la IA

"Periodistas, ya fue su hashtag #nonosvanareemplazar" – Edición 2023.31

Lo siento cariño: un algoritmo forma parte de mi vida.

CONFESIONES DE VIERNES_10

Sobre la observabilidad

De la máquina de escribir a ChatGPT

LaMDA, Google y cuando jugar con una inteligencia artificial es posible

Una IA con las emociones bloqueadas

Ver temas