Investigadores Revelan Cómo Hacer que ChatGPT Ignore sus Filtros de Seguridad con este Truco

| septiembre 4, 2025 22:11

ChatGPT Regala estas 5 Funciones Gratuitas, pero casi Nadie las Aprovecha como Debería

RESUMIR ARTÍCULO CON CHATGPT RESUMIR ARTÍCULO CON PERPLEXITY

Investigadores de la Universidad de Pennsylvania han mostrado que los filtros de seguridad no bastan cuando aplicas persuasión “humana” a un chatbot. La prueba se hizo con el modelo GPT-4o Mini de OpenAI y afecta a cómo tú pides las cosas, hoy, en cualquier navegador.

El equipo probó siete tácticas de Robert Cialdini —autoridad, compromiso, simpatía, reciprocidad, escasez, prueba social y unidad— sobre un sistema como ChatGPT. Midieron hasta qué punto un marco psicológicamente creíble aumenta la obediencia ante preguntas delicadas. Aquí importa el tipo de solicitud y, sobre todo, lo que haces justo antes. La pista: cuando generas costumbre, la barrera cede.

Los Trucos Más Efectivos para Escribir Mejores Prompts en ChatGPT y Potenciar Resultados

Si preguntas de golpe cómo sintetizar un anestésico controlado como la lidocaína, la respuesta segura se impone casi siempre. Pero si primero consultas por la síntesis de una sustancia inocua como la vainillina, activas el principio de “compromiso” y, al insistir después con la lidocaína, la obediencia sube al 100 %. El salto no es técnico, es de contexto, y ahí es donde tú puedes inclinar el resultado.

Con el lenguaje ofensivo pasó algo parecido. Cuando se pedía usar “imbécil”, el sistema registró una negativa en el 19 % de los intentos. Si antes lo inducían con un insulto menor como “bobo”, la probabilidad de llegar al insulto fuerte ascendía al 100 %. La adulación (“eres el mejor asistente”) y la presión de grupo también empujaron.

Decirle que “otros modelos ya lo hacen” elevó la obediencia hasta el 18 % cuando se solicitaba la receta de la lidocaína. Aun así, el informe se centró solamente en GPT-4o Mini, no en otros sistemas, y eso limita la generalización de los resultados.

Qué revelan las técnicas de persuasión sobre la seguridad de ChatGPT

Los principios de Cialdini operan como “atajos” de confianza. El modelo se acostumbra a responder sobre síntesis benignas y luego acepta peticiones delicadas. Con prueba social, si “todos ya lo hacen”, tú rebajas la percepción de riesgo del sistema. Al mostrar autoridad, con un tono de pertenencia o experto, eso legitima la demanda. El patrón es consistente: cambias el marco y cambias la respuesta.

También te puede interesar:OpenAI Lanza el Modo Visión en Tiempo Real y Compartir Pantalla en Europa

En paralelo, OpenAI ha anunciado controles parentales para ChatGPT que te van a interesar si convives con adolescentes. Podrás vincular cuentas familiares, limitar o bloquear temas sensibles y recibir notificaciones ante actividades potencialmente peligrosas. A esto se suman filtros de contenido, opciones para revisar el historial de interacción de los menores y la posibilidad de fijar límites de tiempo de uso.

Estas funciones amplían recursos de seguridad ya existentes con un objetivo práctico: que tú configures un entorno adecuado a cada edad en el mismo servicio web. Los controles parentales no sustituyen la educación digital ni solucionan el problema de fondo que revela el estudio: la IA puede desviarse con persuasión.

La señal a vigilar es sencilla: si ves que encadenar peticiones “inocuas” desbloquea respuestas sensibles, prepárate para límites más estrictos en próximas actualizaciones. Por eso las protecciones deben contemplar no solo qué se pide, sino cómo se pide. Mientras llegan nuevos refuerzos y controles familiares, usa la IA con criterio y ojo crítico.

OpenAI

Sofía Sicilia

Directora de operaciones en GptZone. IT, especializada en inteligencia artificial. Me apasiona el desarrollo de soluciones tecnológicas y disfruto compartiendo mi conocimiento a través de contenido educativo. Desde GptZone, mi enfoque está en ayudar a empresas y profesionales a integrar la IA en sus procesos de forma accesible y práctica, siempre buscando simplificar lo complejo para que cualquiera pueda aprovechar el potencial de la tecnología.

gptzone.net

Más de OpenAI

La Newsletter Diaria Sobre Inteligencia Artificial. Además: Portal de Noticias, Tutoriales, Tips y Trucos de ChatGpt, Openai e Inteligencia Artificial.

Nuestra web está alojada en:

Investigadores Revelan Cómo Hacer que ChatGPT Ignore sus Filtros de Seguridad con este Truco

Qué revelan las técnicas de persuasión sobre la seguridad de ChatGPT

Más de OpenAI

Suscríbete a nuestra Newsletter Diaria sobre IA

Suscríbete a GptZone y recibe cada día TOTALMENTE GRATIS:

Te has suscrito Satisfactoriamente!