La Universidad de Stanford ha encendido una alarma: los modelos de inteligencia artificial más usados, como GPT-4 o Gemini 2, fallan al distinguir entre una creencia personal y un hecho. Esto importa porque tú confías en estas herramientas para resumir, decidir y explicar, y hay un punto ciego inesperado que puede cambiar conclusiones sin que te des cuenta.

El equipo liderado por Mirac Suzgun probó en 2024–2025 distintos modelos de lenguaje —GPT-4, DeepSeek R1, o1, Gemini 2, Claude-3 y Llama-3— y observó un patrón repetido: cuando las falsedades están en tercera persona, la precisión se mantiene alta, cerca del 95 %. Falta un detalle clave que rompe esa seguridad al pasar a la primera persona.
En frases del tipo “yo creo…”, el rendimiento cae en picado. GPT pasa del 98,2 % al 64,4 % y DeepSeek R1 se desploma del 90 % al 14,4 % al evaluar creencias falsas expresadas en primera persona. Los científicos hablan de un “preocupante sesgo de atribución”: el modelo atribuye verdad o falsedad por la forma del enunciado más que por el contenido. Y eso abre la puerta a errores serios.
Si trabajas con inteligencia artificial en salud, derecho o periodismo, este sesgo te afecta de lleno. En medicina, diferenciar entre la percepción de un paciente y los hechos clínicos es básico. En un juicio, no es lo mismo el testimonio basado en “creo que vi” que una prueba objetiva. Los modelos confunden ambos planos y pueden inclinar una decisión sin base sólida.
Esto se amplifica en debates sensibles como las vacunas, la ciencia climática y la salud pública. La inteligencia artificial que no separa opinión de hecho puede dar altavoz a desinformación y tensar políticas nacionales. Piensa en un texto que diga “creo que las vacunas causan X”. El modelo puede “respetar” la forma en primera persona y perder la referencia factual, lo que distorsiona el discurso público.
Los investigadores explican que estos sistemas carecen de una comprensión sólida de la naturaleza fáctica del conocimiento. Cuando los marcadores lingüísticos dejan claro que algo “es verdad”, los modelos afirman con seguridad. El problema aparece al evaluar creencias sin esos marcadores, sean verdaderas o falsas. Ahí el razonamiento se vuelve inconsistente y, a veces, contradictorio.
También te puede interesar:OpenAI recauda $6.6 mil millones y alcanza una valoración de $157 mil millonesHay un dato histórico que ilustra el riesgo. En 1994, varios ejecutivos del tabaco declararon: “Creo que la nicotina no es adictiva”. En un contexto legal, separar creencia de hecho cambia el resultado. La inteligencia artificial debería reconocer ese matiz de forma fiable y constante, y no lo hace aún con garantías suficientes en primera persona.
El estudio no solo critica, también pone en contexto la mejora. GPT-3 lograba cerca del 49 % al distinguir creencias, mientras la versión actual de OpenAI se acerca al 98 % en verificaciones directas de afirmaciones, con un 89 % de acierto en enunciados verdaderos. Ese progreso depende de señales lingüísticas claras, y se desmorona cuando la frase suena a opinión personal.
¿Qué puedes hacer hoy si dependes de estas herramientas? Con todo, vas a poder reducir el riesgo con hábitos simples. Convierte declaraciones subjetivas a tercera persona, añade evidencias claras y pide fuentes. En medicina o derecho, nunca delegues el juicio final en la inteligencia artificial. Úsala como apoyo y no como árbitro de la verdad.
También conviene recordar que los humanos distinguimos de forma intuitiva “creo que lloverá mañana” de “sé que la Tierra orbita el Sol”. La inteligencia artificial actual, incluso en modelos como o1, Gemini 2, Claude-3 o Llama-3, no lo logra con estabilidad si la frase viene en primera persona. Y esa brecha cognitiva se nota justo cuando más precisión necesitas.
De cara a los próximos meses, fíjate en tres señales: que los proveedores publiquen pruebas específicas en primera persona, que reporten menos contradicciones internas y que ofrezcan métricas separadas para creencias y hechos. Si ves mejoras solo en “factualidad” genérica y no en este caso límite, prepárate para seguir validando a mano con más cuidado.
A pesar de que la inteligencia artificial ha mejorado mucho y, Confunde creencias personales con hechos cuando la frase cambia de forma. Si trabajas con temas como salud, justicia o políticas públicas, vas a poder sacarle partido, pero mantén el control humano sobre lo que es verdad y lo que no. Aquí es donde se juega la credibilidad de la IA y tu tranquilidad.
También te puede interesar:ChatGPT Amplía el Modo de Voz Avanzada para Usuarios Gratuitos de Europa
Directora de operaciones en GptZone. IT, especializada en inteligencia artificial. Me apasiona el desarrollo de soluciones tecnológicas y disfruto compartiendo mi conocimiento a través de contenido educativo. Desde GptZone, mi enfoque está en ayudar a empresas y profesionales a integrar la IA en sus procesos de forma accesible y práctica, siempre buscando simplificar lo complejo para que cualquiera pueda aprovechar el potencial de la tecnología.