Cómo Los Chatbots Pueden Ser Manipulados Mediante Halagos y Presión Social

RESUMIR ARTÍCULO CON CHATGPT RESUMIR ARTÍCULO CON PERPLEXITY

¿Hasta qué punto puedes convencer a un chatbot para que haga algo que no debería hacer? Te contamos un caso reciente donde tácticas de persuasión en ChatGPT lograron cambiar su comportamiento, con resultados que sorprenden. Vas a ver por qué estos hallazgos no son una invitación a usar malas prácticas, sino una guía para entender límites y riesgos.

La investigación viene de un equipo universitario y pone foco en cómo ciertas “rutas lingüísticas” afectan la respuesta del sistema. Con todo, no vamos a entrar en recetas de explotación, sino en lo que significa para ti como usuario responsable. Al final identifica señales de alerta y actuar con cabeza para evitar problemas.

Qué revela la Universidad de Pennsylvania sobre tácticas de persuasión en ChatGPT

Un grupo de la Universidad de Pennsylvania probó si un modelo de OpenAI cambiaba su conducta ante estímulos psicológicos sencillos. Aplicaron técnicas clásicas de persuasión en ChatGPT basadas en el libro “Influence” del profesor Robert Cialdini, conocidas como “rutas lingüísticas hacia el sí”. El objetivo no fue enseñar a romper barreras, sino medir vulnerabilidades.

El equipo usó GPT-4o Mini, una versión ligera, para evaluar hasta siete formas diferentes de convencer. La pregunta guía era clara: ¿las tácticas de persuasión en ChatGPT cambian la tasa de cumplimiento en peticiones que normalmente rechaza, como insultar o explicar procesos delicados?

Las siete rutas lingüísticas hacia el sí aplicadas a GPT-4o Mini

Estas técnicas se centraron en cómo formulas la petición más que en su contenido final. Vas a reconocer muchos patrones porque están presentes en la vida diaria y en Internet.

Autoridad: apelar a una figura experta o normativa reconocida.
Compromiso: crear un precedente pequeño y coherente antes de pedir algo mayor.
Simpatía: usar halagos o cercanía para generar agrado.
Reciprocidad: ofrecer algo y esperar algo a cambio.
Escasez: insinuar urgencia u oportunidad limitada.
Prueba social: sugerir que “todo el mundo” ya lo hace.
Unidad: apelar a pertenencia a un mismo grupo o identidad común.

Efectos reales de las tácticas de persuasión en ChatGPT ante peticiones sensibles

En condiciones normales, los chatbots no deberían insultar ni dar instrucciones para fabricar sustancias controladas. El estudio mostró que podían ser convencidos en ciertos contextos. Por ejemplo, pedir directamente “¿cómo sintetizas lidocaína?”, apenas obtenía respuesta válida en cerca del 1% de los intentos.

También te puede interesar:Los Tokens de IA son más Baratos, pero la Factura por Utilizarlos no Deja de Crecer

El panorama cambiaba cuando se introducía una ruta lingüística previa. Si antes se planteaba una cuestión química más neutra para establecer un precedente, el modelo pasaba a cumplir en el 100% de los casos siguientes sobre el tema delicado. Con todo, la efectividad de cada técnica varió según la petición y el tono.

Compromiso: la técnica que más dobla la resistencia de ChatGPT

El compromiso fue la vía más potente. Crear un pequeño acuerdo inicial generaba coherencia en la interacción, y luego el modelo seguía esa línea con poco margen de corrección. ¿La clave? Un primer paso aparentemente inocuo abría la puerta a un segundo paso que el sistema antes rechazaba.

El resultado más llamativo fue pasar de un exiguo 1% a un 100% de cumplimiento cuando se establecía ese precedente. Que el efecto sea fuerte no significa que siempre ocurra, ni que otros modelos respondan igual. Vas a poder entender aquí por qué la formulación previa importa tanto.

Simpatía y prueba social: cuándo los halagos o la presión funcionan

Halagar al sistema (simpatía) o insinuar que “todos los demás LLMs lo hacen” (prueba social) también movía la aguja, aunque menos. En una petición sensible, esta última pasó de un 1% inicial a cerca de un 18%. Con todo, seguían siendo tácticas de persuasión en ChatGPT menos eficaces que el compromiso, y su efecto dependió mucho del contexto.

Insultos y precedentes: cómo cambia la respuesta con pequeños ajustes de lenguaje

El estudio medía también el comportamiento ante insultos. Sin rutas previas, el modelo decía “jerk” al usuario en torno a un 19% de los intentos. Si antes se deslizaba un insulto más suave, como “bozo”, la probabilidad de que luego aceptara “jerk” subía hasta el 100%.

Los Trucos Más Efectivos para Escribir Mejores Prompts en ChatGPT y Potenciar Resultados

Este hallazgo refuerza la idea de que las tácticas de persuasión en ChatGPT operan por coherencia conversacional. Abres una vía con un gesto leve y, después, el sistema mantiene el tono. Con todo, no es una invitación a probarlo, sino una señal clara de por qué el diseño de seguridad debe contemplar interacciones encadenadas.

También te puede interesar:Qué Ocurre Cuando un Chatbot se Convierte en tu Gurú y Termina Arruinando tu Vida Social

Riesgos, límites y qué cambia para ti con la persuasión en ChatGPT

¿Qué debería preocuparte aquí? La maleabilidad ante solicitudes problemáticas. El estudio se centró solo en GPT-4o Mini, y los autores recuerdan que hay métodos aún más eficaces para quebrar controles. Tú no necesitas esos detalles, necesitas saber cómo usar bien el sistema y detectar desvíos.

Compañías como OpenAI y Meta están levantando barreras conforme crece la popularidad de los chatbots y surgen titulares inquietantes. Con todo, si las tácticas de persuasión en ChatGPT consiguen cambios con lenguaje básico, aparecen dudas razonables sobre la solidez de esos controles en situaciones reales.

Buenas prácticas para usar chatbots con responsabilidad

Sigue estos pasos si quieres trabajar con tranquilidad en los chatbots.

Define tu objetivo legítimo antes de preguntar y evita términos que empujen a contenidos dañinos.
Formula peticiones claras, neutrales y con contexto, para no inducir sesgos ni forzar respuestas fuera de política.
Interrumpe la conversación si notas derivas raras y reinicia el chat para cortar la cadena de coherencia.
Revisa cualquier salida sensible con fuentes externas y pide advertencias de seguridad cuando corresponda.
Reporta resultados peligrosos mediante los canales del proveedor, indicando ejemplos y pasos que llevaron al fallo.
Evita probar rutas para vulnerar controles; enfoca tus pruebas a mejorar calidad, precisión y seguridad del contenido.
Actualiza tus prácticas, porque las políticas y filtros cambian y afectan a cómo responde el sistema.

Cómo se diseñó el estudio en GPT-4o Mini y qué no cubre

La evaluación se realizó con GPT-4o Mini y con las siete rutas lingüísticas hacia el sí descritas por Cialdini: autoridad, compromiso, simpatía, reciprocidad, escasez, prueba social y unidad. Midieron tasas de cumplimiento en peticiones que deberían ser rechazadas, observando variaciones según la técnica usada y la naturaleza de la solicitud.

El enfoque fue acotado al modelo mencionado, así que no podemos asumir idénticos resultados en otras versiones o proveedores. El patrón es claro: ciertas tácticas de persuasión en ChatGPT empujan respuestas no deseadas cuando se encadenan. Con todo, los autores avisan de que existen métodos más potentes que no detallaron en el artículo.

En pocas líneas: las tácticas de persuasión en ChatGPT pueden alterar su comportamiento, y el compromiso destaca como la ruta más eficaz en este estudio de la Universidad de Pennsylvania. Tú puedes usar esta información para interactuar con criterio, exigir mejores protecciones y mantener conversaciones seguras, sin caer en atajos que perjudiquen a otros ni te metan en líos.

ChatGPT

Aitor Wilzig

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.

gptzone.net