La IA pierde la razón después de ser entrenada con datos generados por IA
"A medida que el uso de modelos generativos continúa creciendo rápidamente, esta situación solo se acelerará"
La kriptonita de la IA podría ser... la IA.
En un fascinante nuevo artículo, científicos de las universidades Rice y Stanford encontraron que alimentar a los modelos de IA con contenido generado por IA parece causar que la calidad de su salida se deteriore. Entrenar modelos generativos de IA —incluyendo grandes modelos de lenguaje y generadores de imágenes— con suficiente material generado por IA, parece que esta autoconsumo similar a la ouroboros romperá el cerebro digital del modelo. O, según estos científicos, lo llevará a la "locura."
"Los avances sísmicos en algoritmos de IA generativa para imágenes, texto y otros tipos de datos han llevado a la tentación de usar datos sintéticos para entrenar modelos de próxima generación", escriben los investigadores. "Repetir este proceso crea un bucle autofágico ('autoconsumo') cuyas propiedades son poco comprendidas.
"Nuestra conclusión principal en todos los escenarios es que sin suficientes datos reales frescos en cada generación de un bucle autofágico, los futuros modelos generativos están condenados a tener su calidad (precisión) o diversidad (recuerdo) disminuir progresivamente", agregaron. "Denominamos a esta condición Trastorno de Autofagia del Modelo (MAD, por sus siglas en inglés)."
En otras palabras, sin "datos reales frescos" —traducción: trabajo humano original, en lugar de cosas escupidas por la IA— para alimentar a la bestia, podemos esperar que sus salidas sufran drásticamente. Cuando se entrena repetidamente en contenido sintético, dicen los investigadores, la información atípica y menos representada en las afueras de los datos de entrenamiento de un modelo comenzará a desaparecer. El modelo luego comenzará a extraer datos cada vez más convergentes y menos variados, y como resultado, pronto comenzará a desmoronarse en sí mismo.
El término MAD, acuñado por los investigadores, representa este proceso de autoconsumo.
Tome los resultados con un grano de sal, ya que el artículo aún no ha sido revisado por pares. Pero aun así, los resultados son convincentes. Como se detalla en el artículo, el modelo de IA probado solo logró pasar cinco rondas de entrenamiento con contenido sintético antes de que comenzaran a aparecer grietas en las salidas.
Y si es el caso que la IA, de hecho, rompe la IA, hay implicaciones en el mundo real.
Como lo dejan muy claro las numerosas demandas activas contra OpenAI, los modelos de IA han sido entrenados ampliamente raspando tesoros de datos en línea existentes. También ha sido generalmente cierto que cuanto más datos alimentas a un modelo, mejor se vuelve ese modelo. Como tal, los constructores de IA siempre están hambrientos de más material de entrenamiento, y en una era de una web cada vez más llena de IA, ese raspado de datos se volverá cada vez más precario. Y mientras tanto, la IA está siendo utilizada por las masas y por grandes empresas como Google para generar contenido, mientras que la gente de Google y Microsoft ha incorporado la IA en sus servicios de búsqueda también.
Esa es la forma larga de decir que la IA ya está profundamente entrelazada con la infraestructura de nuestra internet. Está creando contenido, intentando analizar contenido, y también está consumiendo contenido. Y cuanto más contenido sintético haya en Internet, más difícil será probablemente para las compañías de IA asegurarse de que sus conjuntos de datos de entrenamiento se mantengan alejados de él, dejando potencialmente la calidad y estructura de la web abierta en la balanza.
"Como los conjuntos de datos de entrenamiento para modelos de IA generativa tienden a ser obtenidos de Internet, los modelos de IA actuales están siendo entrenados involuntariamente con cantidades crecientes de datos sintetizados por IA", escriben los investigadores en el artículo, agregando que el "popular conjunto de datos LAION-5B, que se utiliza para entrenar modelos de texto a imagen de última generación como Stable Diffusion, contiene imágenes sintéticas tomadas de varias generaciones anteriores de modelos generativos."
"Las fuentes de texto anteriormente humanas ahora son creadas cada vez más por modelos de IA generativa, desde reseñas de usuarios hasta sitios web de noticias, a menudo sin indicación de que el texto es sintetizado", agregan. "A medida que el uso de modelos generativos continúa creciendo rápidamente, esta situación solo se acelerará."
Preocupante, de hecho, aunque afortunadamente, como señala Francisco Pires para Tom's Hardware, podría haber formas de frenar un poco este futuro, donde todo el mundo de Internet enloquece junto con los modelos de IA, particularmente en lo que respecta a ajustar los pesos del modelo.
Los resultados del artículo también plantean la pregunta de cuán útiles son realmente estos sistemas sin la entrada humana. A partir de los resultados mostrados aquí, la respuesta parece ser que no son muy útiles en absoluto. Y de alguna manera, eso se siente un poco esperanzador. ¡Mira, las máquinas no pueden reemplazarnos por completo, sus cerebros se derretirán!
Pero entonces, eso podría no ser tan esperanzador después de todo. Cuando la IA tome el control del mundo, tal vez no matará a los humanos; quizás simplemente nos acorralará en granjas de contenido, donde todos seremos forzados a escribir listas sobre la franquicia de "Star Wars" y sacrificar nuestras recetas familiares a Botatouille para mantener los modelos funcionando sin colapsar.