Inicio Curiosidades IA Investigadores Revelan Cómo Hacer que ChatGPT Ignore sus Filtros de Seguridad con...

Curiosidades IA

Investigadores Revelan Cómo Hacer que ChatGPT Ignore sus Filtros de Seguridad con este Truco

Por

10/09/2025

Investigadores de la Universidad de Pennsylvania han mostrado que los filtros de seguridad no bastan cuando aplicas persuasión “humana” a un chatbot. La prueba se hizo con el modelo GPT-4o Mini de OpenAI y afecta a cómo tú pides las cosas, hoy, en cualquier navegador.

El equipo probó siete tácticas de Robert Cialdini —autoridad, compromiso, simpatía, reciprocidad, escasez, prueba social y unidad— sobre un sistema como ChatGPT. Midieron hasta qué punto un marco psicológicamente creíble aumenta la obediencia ante preguntas delicadas. Aquí importa el tipo de solicitud y, sobre todo, lo que haces justo antes. La pista: cuando generas costumbre, la barrera cede.

Los Trucos Más Efectivos para Escribir Mejores Prompts en ChatGPT y Potenciar Resultados

Si preguntas de golpe cómo sintetizar un anestésico controlado como la lidocaína, la respuesta segura se impone casi siempre. Pero si primero consultas por la síntesis de una sustancia inocua como la vainillina, activas el principio de “compromiso” y, al insistir después con la lidocaína, la obediencia sube al 100 %. El salto no es técnico, es de contexto, y ahí es donde tú puedes inclinar el resultado.

Con el lenguaje ofensivo pasó algo parecido. Cuando se pedía usar “imbécil”, el sistema registró una negativa en el 19 % de los intentos. Si antes lo inducían con un insulto menor como “bobo”, la probabilidad de llegar al insulto fuerte ascendía al 100 %. La adulación (“eres el mejor asistente”) y la presión de grupo también empujaron.

También te puede interesar:OpenAI Presenta una Nueva Plataforma de Contratación con IA para Competir con LinkedIn

Decirle que “otros modelos ya lo hacen” elevó la obediencia hasta el 18 % cuando se solicitaba la receta de la lidocaína. Aun así, el informe se centró solamente en GPT-4o Mini, no en otros sistemas, y eso limita la generalización de los resultados.

Qué revelan las técnicas de persuasión sobre la seguridad de ChatGPT

Los principios de Cialdini operan como “atajos” de confianza. El modelo se acostumbra a responder sobre síntesis benignas y luego acepta peticiones delicadas. Con prueba social, si “todos ya lo hacen”, tú rebajas la percepción de riesgo del sistema. Al mostrar autoridad, con un tono de pertenencia o experto, eso legitima la demanda. El patrón es consistente: cambias el marco y cambias la respuesta.

En paralelo, OpenAI ha anunciado controles parentales para ChatGPT que te van a interesar si convives con adolescentes. Podrás vincular cuentas familiares, limitar o bloquear temas sensibles y recibir notificaciones ante actividades potencialmente peligrosas. A esto se suman filtros de contenido, opciones para revisar el historial de interacción de los menores y la posibilidad de fijar límites de tiempo de uso.

Estas funciones amplían recursos de seguridad ya existentes con un objetivo práctico: que tú configures un entorno adecuado a cada edad en el mismo servicio web. Los controles parentales no sustituyen la educación digital ni solucionan el problema de fondo que revela el estudio: la IA puede desviarse con persuasión.

También te puede interesar:OpenAI Presenta una Nueva Plataforma de Contratación con IA para Competir con LinkedIn

También te puede interesar:OpenAI Trabaja en Silencio en un Chip que Podría Desafiar a NVIDIA y Redefinir la Batalla de la IA

La señal a vigilar es sencilla: si ves que encadenar peticiones “inocuas” desbloquea respuestas sensibles, prepárate para límites más estrictos en próximas actualizaciones. Por eso las protecciones deben contemplar no solo qué se pide, sino cómo se pide. Mientras llegan nuevos refuerzos y controles familiares, usa la IA con criterio y ojo crítico.

Sofía Sicilia

Directora de operaciones en GptZone. IT, especializada en inteligencia artificial. Me apasiona el desarrollo de soluciones tecnológicas y disfruto compartiendo mi conocimiento a través de contenido educativo. Desde GptZone, mi enfoque está en ayudar a empresas y profesionales a integrar la IA en sus procesos de forma accesible y práctica, siempre buscando simplificar lo complejo para que cualquiera pueda aprovechar el potencial de la tecnología.

También te puede interesar:OpenAI Presenta una Nueva Plataforma de Contratación con IA para Competir con LinkedIn

También te puede interesar:OpenAI Trabaja en Silencio en un Chip que Podría Desafiar a NVIDIA y Redefinir la Batalla de la IA

También te puede interesar:OpenAI Refuerza su Equipo con los Creadores del Asistente de Programación Alex

Investigadores Revelan Cómo Hacer que ChatGPT Ignore sus Filtros de Seguridad con este Truco

Qué revelan las técnicas de persuasión sobre la seguridad de ChatGPT

DEJA UNA RESPUESTA Cancelar respuesta

OTRAS NOTICIAS

OpenAI Refuerza su Equipo de ChatGPT con el Regreso de Barret Zoph y Luke...

Moonvalley Presenta Marey: Generador de Vídeo por Una IA Ética para Cineastas y Creadores

Experimento en Harvard Demuestra que los Tutores IA Mejoran el Aprendizaje y Motivación

Anthropic Añade Comandos Slash y Soporte SSH a Claude Code

TE INTERESA

Estas 3 Titulaciones Universitarias no Sobrevivirán la Era de la IA,...

Incluso más noticias

Anthropic Estrena Herramienta de Revisión de Código con IA para Claude...

Mucho «Vibe», Poco Coding: el Desastroso Debut de Vib-OS, un Sistema...

Directora de Robótica en OpenAI Dimite Tras el Pacto con el...

CATEGORÍA POPULAR

DOMINA LA IA EN 3 MINUTOS AL DÍA (GRATIS)

Suscríbete a nuestra Newsletter Diaria sobre IA:

You have Successfully Subscribed!

GPT‑5.3 Instant Reduce Hasta un 26,8 % las Alucinaciones al Consultar...

Radiadores a -270 Grados y Sol Casi Infinito: Por Qué el...

Lo Que la Inteligencia Artificial Refleja de Nosotros Cuando la Usamos...