Investigadores de la Universidad de Pennsylvania han mostrado que los filtros de seguridad no bastan cuando aplicas persuasión “humana” a un chatbot. La prueba se hizo con el modelo GPT-4o Mini de OpenAI y afecta a cómo tú pides las cosas, hoy, en cualquier navegador.
El equipo probó siete tácticas de Robert Cialdini —autoridad, compromiso, simpatía, reciprocidad, escasez, prueba social y unidad— sobre un sistema como ChatGPT. Midieron hasta qué punto un marco psicológicamente creíble aumenta la obediencia ante preguntas delicadas. Aquí importa el tipo de solicitud y, sobre todo, lo que haces justo antes. La pista: cuando generas costumbre, la barrera cede.
Si preguntas de golpe cómo sintetizar un anestésico controlado como la lidocaína, la respuesta segura se impone casi siempre. Pero si primero consultas por la síntesis de una sustancia inocua como la vainillina, activas el principio de “compromiso” y, al insistir después con la lidocaína, la obediencia sube al 100 %. El salto no es técnico, es de contexto, y ahí es donde tú puedes inclinar el resultado.
Con el lenguaje ofensivo pasó algo parecido. Cuando se pedía usar “imbécil”, el sistema registró una negativa en el 19 % de los intentos. Si antes lo inducían con un insulto menor como “bobo”, la probabilidad de llegar al insulto fuerte ascendía al 100 %. La adulación (“eres el mejor asistente”) y la presión de grupo también empujaron.
Decirle que “otros modelos ya lo hacen” elevó la obediencia hasta el 18 % cuando se solicitaba la receta de la lidocaína. Aun así, el informe se centró solamente en GPT-4o Mini, no en otros sistemas, y eso limita la generalización de los resultados.
Los principios de Cialdini operan como “atajos” de confianza. El modelo se acostumbra a responder sobre síntesis benignas y luego acepta peticiones delicadas. Con prueba social, si “todos ya lo hacen”, tú rebajas la percepción de riesgo del sistema. Al mostrar autoridad, con un tono de pertenencia o experto, eso legitima la demanda. El patrón es consistente: cambias el marco y cambias la respuesta.
También te puede interesar:OpenAI Lanza el Modo Visión en Tiempo Real y Compartir Pantalla en EuropaEn paralelo, OpenAI ha anunciado controles parentales para ChatGPT que te van a interesar si convives con adolescentes. Podrás vincular cuentas familiares, limitar o bloquear temas sensibles y recibir notificaciones ante actividades potencialmente peligrosas. A esto se suman filtros de contenido, opciones para revisar el historial de interacción de los menores y la posibilidad de fijar límites de tiempo de uso.
Estas funciones amplían recursos de seguridad ya existentes con un objetivo práctico: que tú configures un entorno adecuado a cada edad en el mismo servicio web. Los controles parentales no sustituyen la educación digital ni solucionan el problema de fondo que revela el estudio: la IA puede desviarse con persuasión.
La señal a vigilar es sencilla: si ves que encadenar peticiones “inocuas” desbloquea respuestas sensibles, prepárate para límites más estrictos en próximas actualizaciones. Por eso las protecciones deben contemplar no solo qué se pide, sino cómo se pide. Mientras llegan nuevos refuerzos y controles familiares, usa la IA con criterio y ojo crítico.
Directora de operaciones en GptZone. IT, especializada en inteligencia artificial. Me apasiona el desarrollo de soluciones tecnológicas y disfruto compartiendo mi conocimiento a través de contenido educativo. Desde GptZone, mi enfoque está en ayudar a empresas y profesionales a integrar la IA en sus procesos de forma accesible y práctica, siempre buscando simplificar lo complejo para que cualquiera pueda aprovechar el potencial de la tecnología.