Investigadores de la Universidad de Pennsylvania han mostrado que los filtros de seguridad no bastan cuando aplicas persuasión “humana” a un chatbot. La prueba se hizo con el modelo GPT-4o Mini de OpenAI y afecta a cómo tú pides las cosas, hoy, en cualquier navegador.

El equipo probó siete tácticas de Robert Cialdini —autoridad, compromiso, simpatía, reciprocidad, escasez, prueba social y unidad— sobre un sistema como ChatGPT. Midieron hasta qué punto un marco psicológicamente creíble aumenta la obediencia ante preguntas delicadas. Aquí importa el tipo de solicitud y, sobre todo, lo que haces justo antes. La pista: cuando generas costumbre, la barrera cede.

Los Trucos Más Efectivos para Escribir Mejores Prompts en ChatGPT y Potenciar Resultados

Si preguntas de golpe cómo sintetizar un anestésico controlado como la lidocaína, la respuesta segura se impone casi siempre. Pero si primero consultas por la síntesis de una sustancia inocua como la vainillina, activas el principio de “compromiso” y, al insistir después con la lidocaína, la obediencia sube al 100 %. El salto no es técnico, es de contexto, y ahí es donde tú puedes inclinar el resultado.

Con el lenguaje ofensivo pasó algo parecido. Cuando se pedía usar “imbécil”, el sistema registró una negativa en el 19 % de los intentos. Si antes lo inducían con un insulto menor como “bobo”, la probabilidad de llegar al insulto fuerte ascendía al 100 %. La adulación (“eres el mejor asistente”) y la presión de grupo también empujaron.

También te puede interesar:OpenAI Presenta una Nueva Plataforma de Contratación con IA para Competir con LinkedIn

Decirle que “otros modelos ya lo hacen” elevó la obediencia hasta el 18 % cuando se solicitaba la receta de la lidocaína. Aun así, el informe se centró solamente en GPT-4o Mini, no en otros sistemas, y eso limita la generalización de los resultados.

Qué revelan las técnicas de persuasión sobre la seguridad de ChatGPT

Los principios de Cialdini operan como “atajos” de confianza. El modelo se acostumbra a responder sobre síntesis benignas y luego acepta peticiones delicadas. Con prueba social, si “todos ya lo hacen”, tú rebajas la percepción de riesgo del sistema. Al mostrar autoridad, con un tono de pertenencia o experto, eso legitima la demanda. El patrón es consistente: cambias el marco y cambias la respuesta.

Study Mode de ChatGPT

En paralelo, OpenAI ha anunciado controles parentales para ChatGPT que te van a interesar si convives con adolescentes. Podrás vincular cuentas familiares, limitar o bloquear temas sensibles y recibir notificaciones ante actividades potencialmente peligrosas. A esto se suman filtros de contenido, opciones para revisar el historial de interacción de los menores y la posibilidad de fijar límites de tiempo de uso.

Estas funciones amplían recursos de seguridad ya existentes con un objetivo práctico: que tú configures un entorno adecuado a cada edad en el mismo servicio web. Los controles parentales no sustituyen la educación digital ni solucionan el problema de fondo que revela el estudio: la IA puede desviarse con persuasión.

También te puede interesar:OpenAI Presenta una Nueva Plataforma de Contratación con IA para Competir con LinkedIn
También te puede interesar:OpenAI Trabaja en Silencio en un Chip que Podría Desafiar a NVIDIA y Redefinir la Batalla de la IA

La señal a vigilar es sencilla: si ves que encadenar peticiones “inocuas” desbloquea respuestas sensibles, prepárate para límites más estrictos en próximas actualizaciones. Por eso las protecciones deben contemplar no solo qué se pide, sino cómo se pide. Mientras llegan nuevos refuerzos y controles familiares, usa la IA con criterio y ojo crítico.

También te puede interesar:OpenAI Presenta una Nueva Plataforma de Contratación con IA para Competir con LinkedIn
También te puede interesar:OpenAI Trabaja en Silencio en un Chip que Podría Desafiar a NVIDIA y Redefinir la Batalla de la IA
También te puede interesar:OpenAI Refuerza su Equipo con los Creadores del Asistente de Programación Alex

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí