¿Por qué la inteligencia artificial no puede deletrear “strawberry”?

La inteligencia artificial ha alcanzado niveles sorprendentes en áreas como la escritura de ensayos o la resolución de ecuaciones. Sin embargo, también tiene momentos en los que falla de manera tan espectacular que terminan convirtiéndose en memes virales. Uno de estos casos es la incapacidad de algunos modelos de lenguaje grande (LLMs) para contar cuántas veces aparece la letra “r” en la palabra “strawberry”. Curiosamente, incluso productos formidables como GPT-4 y Claude insisten en que la respuesta es “dos”.

Estos errores no son meramente anecdóticos; son un recordatorio de una verdad fundamental que a menudo olvidamos: estas inteligencias artificiales no piensan como los humanos. No tienen cerebros y, por lo tanto, no entienden el mundo de la misma manera que nosotros.

¿Por qué los LLMs fallan en tareas simples?

Los modelos de lenguaje grande (LLMs) están construidos sobre una arquitectura de transformers, un tipo de aprendizaje profundo que descompone el texto en tokens. Dependiendo del modelo, estos tokens pueden ser palabras completas, sílabas o incluso letras individuales. Pero aquí radica el problema: los transformers no “leen” el texto como lo haría un humano.

Cuando se introduce una palabra como “strawberry” en un LLM, el modelo no la entiende como una secuencia de letras específicas (“s”, “t”, “r”, “a”, “w”, “b”, “e”, “r”, “r”, “y”), sino como una representación numérica de la palabra en su conjunto. Esto significa que, aunque el modelo pueda saber que “straw” y “berry” se combinan para formar “strawberry”, no necesariamente sabe cuántas “r” hay en la palabra.

La arquitectura de transformers y sus limitaciones

Este problema no es fácil de solucionar porque está profundamente arraigado en la arquitectura que hace que los LLMs funcionen. Los transformers convierten el texto en representaciones numéricas, lo que les permite contextualizar y generar respuestas lógicas, pero les dificulta comprender y manipular los elementos más pequeños del lenguaje, como las letras individuales.

Además, Matthew Guzdial, un investigador de inteligencia artificial, explica que los LLMs no procesan el texto en términos de letras individuales. Cuando se encuentran con la palabra “the”, por ejemplo, el modelo tiene una representación para “the” como un todo, pero no necesariamente entiende que “T”, “H” y “E” son componentes de esa palabra.

También te puede interesar:Octave: El Nuevo Modelo de Hume AI de Texto a Voz con Inteligencia Emocional

El desafío de la tokenización en diferentes lenguajes

Otro problema es que no existe una tokenización perfecta que funcione para todos los lenguajes. Sheridan Feucht, un estudiante de doctorado en la Universidad de Northeastern, menciona que incluso si los expertos humanos pudieran acordar un vocabulario de tokens perfecto, los modelos probablemente seguirían encontrando útil dividir aún más las palabras en fragmentos más pequeños.

Este problema se complica cuando un modelo de lenguaje aprende varios idiomas. Por ejemplo, en idiomas como el chino, japonés, tailandés y otros, no se utilizan espacios para separar las palabras. Esto hace que algunos métodos de tokenización asuman que un espacio siempre precederá a una nueva palabra, lo cual no es aplicable a estos lenguajes. De hecho, un estudio de 2023 encontró que algunos idiomas necesitan hasta 10 veces más tokens que el inglés para comunicar el mismo significado.

Limitaciones computacionales en los transformers

Feucht sugiere que lo ideal sería permitir que los modelos analicen los caracteres directamente sin imponer una tokenización, pero actualmente esto es inviable desde el punto de vista computacional para los transformers. Esto implica que los LLMs seguirán enfrentando desafíos con la tokenización y, por ende, con la comprensión precisa del texto.

Diferencias entre generadores de imágenes y de texto

Mientras que los LLMs utilizan la arquitectura de transformers, los generadores de imágenes como Midjourney y DALL-E utilizan modelos de difusión, que reconstruyen una imagen a partir del ruido. Estos modelos están entrenados en grandes bases de datos de imágenes y se les incentiva a recrear algo similar a lo que aprendieron durante el entrenamiento.

Asmelash Teka Hadgu, cofundador de Lesan y miembro del Instituto DAIR, señala que los generadores de imágenes tienden a desempeñarse mejor en la creación de objetos grandes como coches o rostros humanos, pero tienen dificultades con detalles más pequeños como los dedos o la escritura a mano. Esto podría deberse a que estos pequeños detalles no aparecen con tanta frecuencia en los conjuntos de entrenamiento como los conceptos más comunes, como que los árboles suelen tener hojas verdes.

Mejoras en los generadores de imágenes

A pesar de estas limitaciones, los problemas de los modelos de difusión podrían ser más fáciles de solucionar que los que enfrentan los transformers. Por ejemplo, algunos generadores de imágenes han mejorado en la representación de manos al entrenarse con más imágenes de manos humanas reales.

También te puede interesar:DeepSeek AI supera a ChatGPT y se convierte en la app Más Descargada en la App Store

Matthew Guzdial explica que, hasta hace poco, todos estos modelos eran muy malos con los dedos, lo que es un problema similar al de los textos. Sin embargo, ahora han mejorado localmente, por lo que si miras una mano con seis o siete dedos, podrías decir: “Oh, eso parece un dedo”. De manera similar, con el texto generado, podrías decir: eso parece una “H” o una “P”, pero siguen siendo muy malos en la estructuración completa de estas formas.

El proyecto “Strawberry” de OpenAI

Mientras los memes sobre la incapacidad de la IA para deletrear “strawberry” circulan por internet, OpenAI está trabajando en un nuevo producto de IA llamado Strawberry. Este está diseñado para ser aún más hábil en el razonamiento, y podría cambiar la forma en que percibimos las capacidades de los LLMs.

Uno de los mayores desafíos en el desarrollo de LLMs es la falta de datos de entrenamiento suficientes en el mundo para hacer que productos como ChatGPT sean más precisos. Sin embargo, Strawberry tiene la capacidad de generar datos sintéticos precisos para mejorar los modelos de lenguaje de OpenAI. Según informes, Strawberry puede resolver rompecabezas de palabras como los de The New York Times y ecuaciones matemáticas que no había visto antes.

Por otro lado, Google DeepMind también ha presentado recientemente AlphaProof y AlphaGeometry 2, sistemas de inteligencia artificial diseñados para el razonamiento matemático formal. Estos sistemas lograron resolver cuatro de los seis problemas de la Olimpiada Internacional de Matemáticas, un desempeño que les habría valido una medalla de plata en la prestigiosa competencia.

A pesar de que los memes sobre la incapacidad de la IA para deletrear palabras simples como “strawberry” pueden ser divertidos, también son un recordatorio de las limitaciones actuales de la inteligencia artificial. Sin embargo, con proyectos como Strawberry de OpenAI y los avances de Google DeepMind, la IA continúa mejorando en áreas más complejas como el razonamiento matemático y la generación de datos sintéticos. Aunque las fallas en la ortografía y la comprensión del texto persisten, estas innovaciones podrían acercarnos a un futuro donde las inteligencias artificiales sean mucho más precisas y confiables.

Aitor Wilzig

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.

gptzone.net