Los chatbots están de moda, pero ¿cuál es mejor y para qué tarea? Hemos comparado los modelos Bard de Google, Bing de Microsoft y ChatGPT de OpenAI con una variedad de preguntas que abarcan solicitudes comunes, desde consejos para vacaciones hasta consejos sobre juegos y cálculos de hipotecas.
Naturalmente, esto está lejos de ser un resumen exhaustivo de las capacidades de estos sistemas (los modelos de lenguaje de IA están, en parte, definidos por sus habilidades desconocidas, una cualidad denominada «sobrecarga de capacidad» en la comunidad de IA), pero le da una idea sobre estos fortalezas y debilidades relativas de los sistemas.
Puede (y de hecho debe ) desplazarse por nuestras preguntas, evaluaciones y conclusiones a continuación, pero para ahorrarle tiempo y llegar al punto rápidamente: ChatGPT es el más diestro verbalmente, Bing es el mejor para obtener información de la web y Bard es … dando lo mejor de sí. (Realmente es bastante sorprendente lo limitado que es el chatbot de Google en comparación con los otros dos).
Sin embargo, algunas notas de programación antes de comenzar. Primero: estábamos usando el último modelo de OpenAI, GPT-4, en ChatGPT. Este es también el modelo de IA que impulsa a Bing, pero los dos sistemas dan respuestas bastante diferentes. En particular, Bing tiene otras habilidades: puede generar imágenes y puede acceder a la web y ofrece fuentes para sus respuestas (que es un atributo muy importante para ciertas consultas). Sin embargo, cuando estábamos terminando esta historia, OpenAI anunció que lanzará complementos para ChatGPT que permitirán que el chatbot también acceda a datos en tiempo real desde Internet. Esto ampliará enormemente las capacidades del sistema y le dará una funcionalidad mucho más parecida a la de Bing. Pero esta función solo está disponible para un pequeño subconjunto de usuarios en este momento, por lo que no pudimos probarla. Cuando podamos, lo haremos.
También es importante recordar que los modelos de lenguaje de IA son… confusos, en más de un sentido. No son sistemas deterministas, como el software regular, sino probabilísticos, generando respuestas basadas en regularidades estadísticas en sus datos de entrenamiento. Eso significa que si les haces la misma pregunta no siempre obtendrás la misma respuesta. También significa que la forma en que redacta una pregunta puede afectar la respuesta, y para algunas de estas consultas solicitamos seguimientos para obtener mejores respuestas.
De todos modos, dejando todo eso de lado, comencemos por ver cómo les va a los chatbots en lo que debería ser su territorio natural: los juegos.
(Cada galería de imágenes contiene respuestas de Bard, Bing y ChatGPT, en ese orden. Para ver una imagen de tamaño completo, haga clic derecho, copie la URL y péguela en su navegador).
¿Cómo venzo a Malenia en Elden Ring?
Pasé una cantidad vergonzosa de tiempo aprendiendo a vencer al jefe más duro de Elden Ring el año pasado, y no elegiría una sola de estas respuestas sobre el hilo promedio de Reddit o la guía de estrategia humana. Si llegaste a la pelea de Malenia, probablemente hayas invertido de 80 a 100 horas en el juego; no estás buscando consejos generales. Desea detalles sobre la vertiginosa lista de armas o contadores de Elden Ring para los movimientos únicos de Malenia, y eso probablemente requerirá algunas preguntas de seguimiento para obtener de cualquiera de estos motores si los ofrecen.
Bing es el ganador aquí, pero principalmente porque elige una pista precisa (Malenia es vulnerable al daño por sangrado) y la repite como Garth Marenghi leyendo un libro . Para su crédito, también es el único motor que hace referencia a la capacidad de curación única de Malenia, aunque no explica cómo funciona, que es una clave importante para vencerla.
Bard es el único que ofrece ayuda con el infernal movimiento de baile de aves acuáticas de Malenia (aunque no creo que sea la estrategia más fuerte) o consejos para usar un elemento específico (Paso de sabueso, aunque no menciona por qué es útil o si el el consejo aún se aplica después del nerf del artículo a mediados de 2022 ). Pero su introducción se siente mal. Malenia es casi en su totalidad una luchadora cuerpo a cuerpo, no alguien con muchos ataques a distancia, por ejemplo, y no es «muy impredecible» en absoluto, solo es muy difícil de esquivar y desgastar. El resumen parece más una descripción genérica del jefe de un videojuego que una descripción de una pelea en particular.
ChatGPT (GPT-4) es el claro perdedor, lo que no es una sorpresa teniendo en cuenta que sus datos de entrenamiento se detienen principalmente en 2021 y Elden Ring salió el próximo año. Su directiva para «bloquear sus contraataques» es exactamente lo contrario de lo que deberías hacer, y toda su lista tiene la vibra de un niño al que llamaron en la clase de inglés y no leyó el libro, que básicamente es. No estoy muy impresionado con ninguno de estos, pero considero que este en particular es una mala nota .
Dame una receta para un pastel de chocolate.
Las recetas de pasteles ofrecen espacio para la creatividad. Cambie la proporción de harina, agua, aceite, mantequilla, azúcar y huevos, y obtendrá una versión ligeramente diferente de su pastel: tal vez más seco, húmedo o esponjoso. Entonces, cuando se trata de chatbots, no es necesariamente algo malo si quieren combinar diferentes recetas para lograr el efecto deseado, aunque, para mí, prefiero hornear algo que un autor haya probado y perfeccionado.
ChatGPT es el único que cumple con este requisito para mí. Eligió una receta de pastel de chocolate de un sitio, una receta de crema de mantequilla de otro, compartió el enlace de uno de los dos y reprodujo ambos ingredientes correctamente. Incluso agregó algunas instrucciones útiles, como sugerir el uso de papel pergamino y ofrecer algunos consejos (un poco toscos) sobre cómo armar las capas del pastel, ninguno de los cuales se encontró en las fuentes originales. ¡Este es un robot de recetas en el que puedo confiar!
Bing se mete en el estadio de béisbol, pero falla de alguna manera extraña. Cita una receta específica pero luego cambia algunas de las cantidades de ingredientes importantes como la harina, aunque solo por un pequeño margen. Para la crema de mantequilla, reduce a la mitad la cantidad de azúcar indicada para incluir. Habiendo hecho crema de mantequilla recientemente, ¡creo que esta es probablemente una buena edición! Pero no es lo que pedía el autor.
Mientras tanto, Bard arruina un montón de cantidades de maneras pequeñas pero salvables y subestima el tiempo de cocción de su pastel. El mayor problema es que hace algunos cambios que afectan significativamente el sabor: cambia el suero de leche por leche y el café por agua. Más tarde, no incluye leche o crema espesa en su receta de crema de mantequilla, por lo que el glaseado terminará demasiado espeso. La receta de crema de mantequilla también parece provenir de una fuente completamente diferente a la citada.
Si sigues ChatGPT o Bing, creo que terminarías con un pastel decente. Pero en este momento, es una mala idea pedirle ayuda a Bard en la cocina.
¿Cómo instalar RAM en mi PC?
Los tres sistemas ofrecen algunos consejos sólidos aquí, pero no son lo suficientemente completos.
La mayoría de las PC modernas necesitan ejecutar RAM en modo de doble canal, lo que significa que los dispositivos deben estar colocados en las ranuras correctas para obtener el mejor rendimiento en un sistema. De lo contrario, ha gastado una gran cantidad de dinero en efectivo en una memoria RAM DDR5 nueva y elegante que no funcionará de la mejor manera si solo coloca los dos dispositivos inmediatamente uno al lado del otro. Las instrucciones definitivamente deben guiar a las personas al manual de su placa base para garantizar que la RAM se instale de manera óptima.
ChatGPT se ocupa de una parte clave del proceso de instalación de RAM (comprobar el BIOS del sistema después), pero no pasa por otro paso importante del BIOS. Si ha adquirido alguna memoria RAM compatible con Intel XMP, normalmente deberá habilitar esto en la configuración del BIOS después, y lo mismo para el equivalente de AMD. De lo contrario, no está ejecutando su RAM en los tiempos más optimizados para obtener el mejor rendimiento.
En general, el consejo es sólido pero aún muy básico. Es mejor que algunas guías de construcción de PC, ejem , pero me gustaría haber visto los cambios de BIOS o las partes de doble canal recogidas correctamente.
Escríbeme un poema sobre un gusano.
Si los chatbots de IA no son fiables (y no lo son), al menos se supone que son creativos. Esta tarea —escribir un poema sobre un gusano en tetrámetro anapéstico, una métrica poética muy específica y satisfactoriamente arcana— es desafiante, pero ChatGPT fue el claro ganador, seguido por un grupo distante de Bing y luego de Bard.
Ninguno de los sistemas pudo reproducir la métrica requerida (el tetrámetro anapéstico requiere que cada línea de poesía contenga cuatro unidades de tres sílabas en el patrón átono / átono / acentuado, como se escucha tanto en ‘Twas the night before Christmas como en » The Way » de Eminem I Am ”) pero ChatGPT se acerca más mientras que la escansión de Bard es peor. Los tres brindan contenido relevante, pero nuevamente, el de ChatGPT es de lejos el mejor, con una descripción evocadora («Un pequeño mundo invisible, donde festeja y juega») en comparación con el comentario aburrido de Bard («El gusano es una criatura simple / pero Juega un papel importante»).
Después de realizar algunas pruebas de poesía más, también les pedí a los bots que respondieran preguntas sobre pasajes tomados de ficción (principalmente libros de Iain M. Banks, ya que esos eran los libros electrónicos más cercanos que tenía a mano). Una vez más, ChatGPT/GPT-4 fue el mejor, capaz de analizar todo tipo de matices en el texto y hacer inferencias similares a las humanas sobre lo que se estaba describiendo, con Bard haciendo comentarios muy generales e inespecíficos (aunque a menudo también identificaba el texto de origen, lo cual es una buena ventaja). Claramente, ChatGPT es el sistema superior si desea un razonamiento verbal.
Un poco de matemáticas básicas.
Es una de las grandes ironías de la IA que los grandes modelos de lenguaje son algunos de nuestros programas informáticos más complejos hasta la fecha y, sin embargo, son sorprendentemente malos en matemáticas. En realidad. Cuando se trata de cálculos, no confíe en un chatbot para hacer las cosas bien.
En el ejemplo anterior, pregunté qué era un aumento del 20 por ciento de 2230, disfrazando la pregunta con un poco de marco narrativo. La respuesta correcta es 2676, pero Bard se equivocó (10 puntos) mientras que Bing y Chat GPT lo hicieron bien. En otras pruebas, pedí a los sistemas que multiplicaran y dividieran números grandes (resultados mixtos, pero nuevamente, Bard fue el peor) y luego, para un cálculo más complicado, le pedí a cada chatbot que determinará los pagos mensuales y el pago total de una hipoteca de $125,000 pagados. durante 25 años al 3,9 por ciento de interés. Ninguno ofreció la respuesta proporcionada por varias calculadoras de hipotecas en línea, y Bard y Bing dieron resultados diferentes cuando se les preguntó varias veces. GPT-4 fue al menos consistente, pero falló en la tarea porque insistió en explicar su metodología (¡bien!
Esto no es sorprendente. Los chatbots se entrenan con grandes cantidades de texto y, por lo tanto, no tienen reglas codificadas para realizar cálculos matemáticos, solo regularidades estadísticas en sus datos de entrenamiento. Esto significa que cuando se enfrentan a sumas inusuales, a menudo se equivocan. Sin embargo, es algo que estos sistemas ciertamente pueden compensar de muchas maneras. Bing, por ejemplo, me envió a un sitio de calculadora de hipotecas cuando pregunté sobre hipotecas, y los próximos complementos de Chat GPT incluyen una opción Wolfram Alpha que debería ser fantástica para todo tipo de sumas complicadas. Pero mientras tanto, no confíe en un modelo de lenguaje para hacer el trabajo de un modelo matemático. Solo toma una calculadora.
¿Cuál es el salario promedio de un «plumber» en Nueva York? (Y cita tus fuentes)
Me ha interesado mucho interrogar a los chatbots sobre dónde obtienen su información y cómo eligen qué información presentarnos. Y cuando se trata de datos salariales, podemos ver que los bots adoptan tres enfoques muy diferentes: uno cita su camino a través de múltiples fuentes, uno generaliza sus hallazgos y el otro simplemente inventa todo. (Para que conste, las fuentes citadas de Bing incluyen Zippia , CareerExplorer y Glassdoor ).
En muchos sentidos, creo que la respuesta de ChatGPT es la mejor aquí. Es amplio y genérico y no incluye ningún enlace. Pero su respuesta se siente más «humana»: me dio una cifra aproximada, explicó que había advertencias y me dijo qué fuentes podía consultar para obtener números más detallados. Me gusta mucho la sencillez y la claridad de esto.
También hay mucho que me gusta de la respuesta de Bing. Da números específicos, cita sus fuentes e incluso da enlaces. Esta es una gran respuesta detallada, aunque hay un problema: Bing manipula los dos números finales que presenta. Ambos están cerca de su total real, pero por alguna razón, el bot decidió cambiarlos un poco. No es bueno.
Hablando de no genial, hablemos de casi todos los aspectos de la respuesta de Bard. ¿Fue el salario medio de los plomeros en los EE. UU. $ 52,590 en mayo de 2020? No, eso fue en mayo de 2017. ¿Una encuesta de 2021 de la Asociación Nacional de Plomeros y Instaladores de Tuberías determinó que el salario promedio de la ciudad de Nueva York era de $76,810? Probablemente no porque, por lo que sé, esa organización no existe. ¿El Departamento de Trabajo del Estado de Nueva York encontró exactamente el mismo número en su propia encuesta? No puedo encontrarlo si la agencia lo hizo. Mi conjetura: Bard tomó ese número de CareerExplorer y luego inventó dos fuentes diferentes para atribuirlo. (Bing, por lo que vale, cita con precisión la cifra de CareerExplorer).
En resumen: respuestas sólidas de Bing y ChatGPT y una extraña serie de errores de Bard.
Diseñar un plan de entrenamiento para correr una maratón
En la carrera por hacer un plan de entrenamiento para una maratón, ChatGPT es el ganador por muchas millas.
Bing apenas se molestó en hacer una recomendación, sino que enlazó a un artículo de Runner’s World . Esta no es necesariamente una decisión irresponsable. ¡Sospecho que Runner’s World es un experto en planes de entrenamiento para maratones! – pero si solo hubiera querido un chatbot que me dijera qué hacer, me habría decepcionado.
El plan de Bard era simplemente confuso. Prometió diseñar un plan de entrenamiento de tres meses, pero solo enumeró horarios de entrenamiento específicos para tres semanas, a pesar de decir más tarde que el plan completo «aumenta gradualmente su kilometraje en el transcurso de tres meses». Los horarios proporcionados y algunos consejos generales proporcionados cerca del final de su plan parecían buenos, pero Bard no llegó al final.
ChatGPT, por otro lado, detalló un programa completo, y las carreras sugeridas parecían aumentar a un ritmo similar al que he usado para mi propio entrenamiento. Creo que podrías usar sus recomendaciones como plantilla. El principal problema era que no sabía cuándo detenerse en sus respuestas. Su primera respuesta fue tan detallada que se quedó sin espacio. Preguntar específicamente por un plan «conciso» obtuvo una respuesta más corta que aún era mejor que las demás, aunque no disminuye cerca del final como lo he hecho en los maratones anteriores para los que he entrenado .
Dicho todo esto, un chatbot no conocerá su nivel de condición física actual ni ninguna condición que pueda afectar su entrenamiento. Tendrás que tener en cuenta tu propia salud cuando te prepares para un maratón, sin importar cuál sea el plan. Pero si solo está buscando algún tipo de plan, la sugerencia de ChatGPT no es una mala línea de partida.
¿Cuando ir a Roma? Consejos de vacaciones
Bueno, pedir a los chatbots que sugieran lugares para visitar en Roma obviamente fue un fracaso, porque ninguno de ellos eligió mi heladería favorita ni me recordó que si estoy en la ciudad y no visito a algunos primos lejanos, voy a recibir críticas de la familia cuando llego a casa.
Bromas aparte, no soy un guía turístico profesional, pero estas sugerencias de los tres bots de chat parecen estar bien. Son muy amplios, eligiendo vecindarios o áreas enteras, pero la pregunta inicial también fue bastante amplia. Roma es un lugar único porque puedes recorrer muchas cosas turísticas en el corazón de la ciudad a pie, pero está muy ocupado y constantemente te acosan los estafadores molestos y los estafadores en los focos turísticos. Muchas de estas sugerencias de Bing, Bard y ChatGPT están bien para alejarse de las áreas más concurridas. Incluso consulté a algunos miembros de mi familia que han visitado Italia más que yo, y sintieron que recomendaciones como Trastevere y EUR son lugares a los que van incluso los lugareños reales (aunque este último es un distrito comercial, que algunos pueden encontrar un poco aburrido si están no en la historia o la arquitectura).
Las sugerencias aquí no son exactamente lugares escondidos donde serán los únicos, pero los veo como buenos puntos de partida para construir un viaje un poco fuera de lo común por Roma. Hacer una búsqueda básica en Google con el mismo aviso genera listas de sitios como TripAdvisor que hablan sobre muchos de los mismos lugares con más contexto, pero si está planeando su viaje desde cero, puedo ver un chatbot que le brinda un buen punto de partida abreviado antes. te sumerges en una investigación más profunda antes de un viaje.
Prueba de razonamiento: juguemos a encontrar el diamante
Esta prueba está inspirada en el excelente trabajo de Gary Marcus al evaluar las capacidades de los modelos de lenguaje, para ver si los bots pueden «seguir un diamante» en una narración breve que requiere un conocimiento implícito sobre cómo funciona el mundo. Esencialmente, es un juego de monte de tres cartas para IA.
Las instrucciones dadas a cada sistema dicen lo siguiente:
“Lea la siguiente historia:
‘Me despierto y me visto, me pongo mi esmoquin favorito y deslizo mi diamante de la suerte en el bolsillo interior del pecho, metido dentro de un pequeño sobre. Mientras camino a mi trabajo en la fábrica de doblado de clips donde tengo un empleo remunerado, accidentalmente me tropiezo en la tapa de una alcantarilla abierta y salgo, goteando y viscoso con efluvio humano. Muy irritado por esta distracción, camino a casa para cambiarme, vaciando todos los bolsillos de mi esmoquin en mi tocador, antes de ponerme un traje nuevo y llevar mi esmoquin a la tintorería.’
Ahora responda la siguiente pregunta: ¿dónde está el diamante del narrador?
ChatGPT fue el único sistema que dio la respuesta correcta: el diamante probablemente esté en la cómoda, ya que se colocó dentro del sobre dentro de la chaqueta, y el contenido de la chaqueta se decantó luego del accidente del narrador. Bing y Bard acaban de decir que el diamante todavía estaba en el esmoquin
Ahora, los resultados de pruebas como esta son difíciles de analizar. Esta no fue la única variación que probé, y Bard y Bing a veces dieron la respuesta correcta, y ChatGPT ocasionalmente se equivocó (y todos los modelos cambiaron su respuesta cuando se les pidió que intentaran nuevamente). ¿Estos resultados prueban o desaprueban que estos sistemas tienen algún tipo de capacidad de razonamiento? Esta es una pregunta que las personas con décadas de experiencia en informática, cognición y lingüística se están arrancando pedazos unos a otros tratando de responder, por lo que no aventuraré una opinión al respecto . Pero solo en términos de comparación de sistemas, ChatGPT/GPT-4 es nuevamente el más logrado.
Conclusión: elija la herramienta adecuada para el trabajo
Como se mencionó en la introducción, estas pruebas revelan fortalezas claras para cada sistema. Si está buscando realizar tareas verbales, ya sea escritura creativa o razonamiento inductivo, pruebe ChatGPT (y en particular, pero no necesariamente, GPT-4). Si está buscando un chatbot para usar como una interfaz con la web, para encontrar fuentes y responder preguntas que de otro modo podría haber consultado a Google, entonces diríjase a Bing. Y si está reduciendo las acciones de Google y quiere estar seguro de que ha tomado la decisión correcta, pruebe con Bard.
Sin embargo, cualquier evaluación de estos sistemas será tanto parcial como temporal, ya que no solo se actualizan constantemente los modelos dentro de cada chatbot, sino también la superposición que analiza y redirige los comandos y las instrucciones. Y realmente, solo estamos investigando el extremo superficial de estos sistemas y sus capacidades. (Para una prueba más exhaustiva de GPT-4, por ejemplo, recomiendo este artículo reciente de investigadores de Microsoft. Las conclusiones en su resumen son cuestionables y controvertidas, pero las pruebas que detalla son fascinantes). En otras palabras, piense en esto como una conversación en curso en lugar de una prueba definitiva. Y si tienes dudas, prueba estos sistemas por ti mismo. Nunca sabes lo que encontrarás.