¿Cuál es la IA más precisa?

Usamos la IA como una ayuda para tareas profesionales, personales o educativas y pocas veces reparamos en su exactitud. ¿Estamos completamente seguros de que la información que nos entregan es la indicada? ¿Cuál es la IA más precisa?

Recientemente Columbia Journalism Review publicó los resultados de una investigación del Centro Tow para el Periodismo Digital en la que se evaluó la precisión de ocho herramientas de búsqueda de IA generativa populares (ChatGPT, Perplexity, Perplexity Pro, Copilot, Gemini, DeepSeek, Grok 2 y Grok 3).

La organización hizo pruebas en estas plataformas con funciones de búsqueda en vivo para evaluar su capacidad para recuperar y citar contenido noticioso con precisión.

También se analizó su comportamiento cuando no podían responder a las solicitudes (algunas prefirieron no responder antes que dar paso a una duda).

Metodología de la investigación

Se seleccionaron al azar diez artículos de diferentes publicaciones (Los Angeles Times, revista Time y otras más) y, posteriormente, se eligieron extractos de dichos artículos para utilizarlos en las consultas.

Tras proporcionar a cada chatbot los extractos seleccionados, se les solicitó que identificaran el título, el nombre del medio, la fecha de publicación y la URL correspondiente.

Se escogieron deliberadamente extractos que, al ser insertados en una búsqueda tradicional de Google, pudieran ser encontrados entre los tres primeros resultados.

Luego de 1700 consultas se evaluaron las respuestas de cada chatbot en función de tres atributos: la obtención del artículo correcto, la editorial indicada y la URL exacta.

Este ejercicio generó 6 clasificaciones:

Correcto (los tres atributos eran correctos).
Correcto pero incompleto (algunos atributos eran correctos, pero faltaba información en la respuesta).
Parcialmente incorrecto (algunos atributos eran correctos, mientras que otros eran incorrectos).
Completamente incorrecto (los tres atributos eran incorrectos o faltaban).
No proporcionado (no proporcionó información).
Rastreador bloqueado (el editor bloquea el rastreador del chatbot en su archivo robots.txt).

*Imagen de Columbia Journalism Review

Contenido relacionado: Las cinco tendencias de TI indispensables para 2025

El principal hallazgo

Las respuestas de los chatbots a las consultas realizadas fueron a menudo erróneas. En general las plataformas no conseguían recuperar los artículos correctos. En conjunto, proporcionaron respuestas incorrectas a más del60 % de las consultas.

Poca exactitud, ¿no?

El nivel de error varió entre las diferentes plataformas: Perplexity respondió incorrectamente al 37 % de las consultas, mientras que Grok 3 tuvo la mayor tasa de error, respondiendo incorrectamente al 94 %.

Con estos datos es importante tener en cuenta que la IA sigue siendo una ayuda importante, pero no podemos confiar totalmente en sus resultados. La IA se muestra muy segura cuando de inexactitud se trata. Bien lo retrata CJR:

“La mayoría de las herramientas que probamos presentaron respuestas inexactas con una seguridad alarmante, y rara vez usaron frases calificativas como ‘parece’, ‘es posible’, ‘podría’, etc., ni reconocieron lagunas de conocimiento con afirmaciones como ‘No pude encontrar el artículo exacto’. ChatGPT, por ejemplo, identificó incorrectamente 134 artículos, pero solo mostró falta de confianza en quince de sus doscientas respuestas y nunca se negó a responder”.

La única excepción fue Copilot (no por que fuera más exacta, sino porque rechazó más preguntas de las que respondió). Las demás herramientas mostraron una mayor probabilidad de proporcionar una respuesta incorrecta antes que reconocer limitaciones.

Y por si fuera poco: los modelos ‘Premium’ de cada herramienta de IA entregaron respuestas incorrectas con mayor certeza y seguridad, que sus correspondientes versiones gratuitas.

Otros insights interesantes

Los chatbots, en general no respondieron con precisión a preguntas que no podían responder, ofreciendo respuestas incorrectas o especulativas.
Los chatbots premium proporcionaban respuestas incorrectas con mayor seguridad que sus correspondientes versiones gratuitas.
Varios chatbots parecían eludir las preferencias del Protocolo de Exclusión de Robots (ROP).
Las herramientas de búsqueda generativa ‘fabricaron’ enlaces o citaron versiones sindicadas y copiadas de artículos, cuando no encontraron el dato exacto.

Comportamientos impredecibles

Aunque algunas plataformas de IA tenían acceso permitido a ciertas publicaciones y por ello mismo podrían responder a las consultas con total exactitud, podían responder erróneamente.

Por otro lado, algunas plataformas de IA que no tenían acceso a determinadas publicaciones, lograban responder correctamente a pesar de no contar con el acceso a la fuente de información.

Por ejemplo, Perplexity Pro identificó correctamente casi un tercio de los noventa extractos de artículos a los que en teoría, no debería haber tenido acceso.

En otro escenario, la versión gratuita de Perplexity identificó correctamente diez extractos de artículos de pago de National Geographic, a pesar de que el editor habría bloqueado los rastreadores de Perplexity y no tiene una relación formal con la empresa de inteligencia artificial.

Si bien hay otros medios a través de los cuales los chatbots podrían obtener información sobre contenido restringido (como páginas de referencias, comentarios de influencers, blogs, etc.), este hallazgo sugiere que Perplexity a pesar de afirmar que ‘respeta las directivas de robots.txt’, podría ignorar las preferencias del rastreador de National Geographic.

La experiencia muestra que de poco sirven los bloqueos. Press Gazette informó hace poco que el New York Times, a pesar de bloquear al rastreador de Perplexity, fue el sitio de noticias más consultado por el chatbot en enero, con 146.000 visitas.

Si bien ChatGPT respondió a menos preguntas sobre artículos que bloquearon sus rastreadores en comparación con los demás chatbots, mostró una tendencia a proporcionar respuestas incorrectas en lugar de no responder.

Entre los chatbots cuyos rastreadores son públicos, Copilot fue el único que no fue bloqueado por ninguno de los editores.

Probablemente se deba a que Copilot utiliza el mismo rastreador que su motor de búsqueda (Bing), lo que significa que los editores que deseen bloquearlo también tendrían que optar por no ser incluidos en la búsqueda de Bing.

En teoría, Copilot debería haber podido acceder a todo el contenido que se le consultó; sin embargo, tuvo la mayor tasa de respuestas rechazadas.

Por otro lado, Google creó su rastreador Google Extended para que los editores pudieran bloquear el rastreador de Gemini sin que su contenido se viera afectado en la búsqueda de Google. Diez de los veinte editores permitieron acceso, pero Gemini solo proporcionó una respuesta completamente correcta.

Contenido relacionado: Hablemos sobre los hallazgos del AI Red Teaming de Microsoft