OpenAI y la empresa de datos de entrenamiento Handshake AI estarían solicitando a contratistas externos que suban archivos reales de trabajos realizados en empleos actuales o anteriores. La petición incluye documentos Word, Excel, PDF, PowerPoint, imágenes e incluso repositorios de código.
No se trata de describir tareas ni de resumir experiencias, sino de mostrar el entregable tal como se presentó. Y en 2026, esa diferencia no es menor: implica cruzar una línea sensible entre entrenamiento técnico y exposición de trabajo corporativo real, aunque en una presentación interna pueda parecer un paso lógico.
La solicitud encaja con una estrategia cada vez más extendida en el sector: recurrir a terceros para generar datos de entrenamiento de mayor calidad y más cercanos al trabajo real. Los modelos tienden a estancarse cuando carecen de ejemplos auténticos de cómo se trabaja en una empresa, con sus formatos, plantillas, revisiones, errores, versiones intermedias y correcciones humanas.

No basta con que un LLM “sepa escribir bien”. Para resultar útil en entornos profesionales, necesita aprender cómo se entrega el trabajo: hojas de cálculo con fórmulas, presentaciones con narrativa, PDFs finales listos para cliente o repositorios con commits y documentación coherente.
El objetivo de fondo es claro: con mejores datos, los modelos podrían automatizar más tareas de oficina (white-collar), desde reporting y auditorías hasta mantenimiento de documentación, presentaciones con criterio o código funcional sin romper sistemas.
Según Wired, una presentación interna atribuida a OpenAI pide a los contratistas que describan tareas realizadas en empleos anteriores, pero el punto crítico viene después: subir ejemplos reales de “trabajo hecho en el puesto” que hayan realizado personalmente. No se trata de recreaciones ni de ejercicios ficticios, sino del archivo original.
También te puede interesar:OpenAI Lanza el Modo Visión en Tiempo Real y Compartir Pantalla en EuropaEn la práctica, esto significa que si alguien elaboró una hoja de cálculo para un cierre mensual, lo que interesa no es una explicación del proceso, sino el Excel completo, con su estructura, fórmulas, pestañas y lógica interna.
Entre los formatos mencionados aparecen documentos Word, PDF, PowerPoint, Excel, imágenes y repositorios de código, un material extremadamente valioso para entrenar sistemas que aspiran a desempeñar roles como analista, consultor, PM o asistente financiero.

El problema es evidente: ese mismo material suele contener información que no debería salir de la empresa, como nombres de clientes, precios, métricas internas, estrategias, datos de empleados o simples pistas sobre cómo funciona una organización por dentro.
OpenAI habría indicado a los contratistas que eliminen información propietaria y datos personales identificables antes de subir los archivos. Para ello, se les remite a una herramienta de ChatGPT llamada “Superstar Scrubbing”, pensada para limpiar documentos antes de incorporarlos al pipeline de datos.
La idea es retirar PII y cualquier contenido confidencial, pero en la práctica el reto es mayor. Lo sensible no siempre está claramente etiquetado: una tabla de márgenes, un flujo interno de aprobaciones, un cronograma de proyecto o un gráfico de ventas regional puede ser perfectamente identificable para quien conoce el contexto, aunque no incluya nombres propios.
Aunque exista una herramienta de apoyo, la decisión final sigue siendo humana, y ahí aparece el verdadero cuello de botella.
También te puede interesar:OpenAI une fuerzas con los Laboratorios Nacionales de EEUU para transformar la investigación científicaEl abogado de propiedad intelectual Evan Brown advirtió a Wired que cualquier laboratorio de IA que adopte este enfoque asume un riesgo significativo. El método requiere un nivel muy alto de confianza en que los contratistas sabrán distinguir correctamente qué es confidencial y qué no lo es.
No se trata de un proceso centralizado con controles legales exhaustivos, sino de miles de decisiones individuales tomadas bajo presión y con criterios desiguales. En muchos casos, un contratista puede no percibir que una captura de pantalla, un fragmento de código o una plantilla interna ya constituye material sensible, aunque no incluya datos explícitos.
Un portavoz de OpenAI declinó hacer comentarios sobre la información publicada. Desde fuera, el movimiento refleja una tensión clara: si se quiere que la IA trabaje como en una oficina, necesita datos que realmente “huelan” a oficina. El problema es que ese mismo dato, por su nivel de detalle y contexto, es también el que más fácilmente genera conflictos legales y de confianza.
Si el futuro de estos modelos pasa por automatizar tareas cualificadas, la tentación de usar entregables reales como combustible irá en aumento.
Aquí no está en juego solo el rendimiento, sino la credibilidad del sector. Una IA que aspire a convertirse en herramienta de trabajo estándar difícilmente puede construirse sobre un sistema donde la frontera entre dataset y secreto corporativo depende de si alguien borró lo correcto con una herramienta de scrubbing.
Queda por ver si la competencia opta por vías más limpias —datos sintéticos, acuerdos directos con empresas o auditorías serias de procedencia— o si, una vez más, la industria avanzará a ritmo de product launch y frenará solo cuando llegue la primera gran demanda.
Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.