Los modelos de IA serán más pequeños y rápidos

También mejorarán de muchas otras maneras

13 de noviembre de 2023

Por Abby Bertics

El interés por la inteligencia artificial (ai) alcanzó su punto álgido en 2023. En los seis meses posteriores al lanzamiento de Openai en noviembre de 2022 de Chatgpt, el chatbot más famoso y efectivo de Internet, el tema de la "inteligencia artificial" casi se cuadruplicó en popularidad en el motor de búsqueda de Google. En agosto de 2023, un tercio de los encuestados en la última encuesta global de McKinsey dijeron que sus organizaciones estaban utilizando la inteligencia artificial generativa en al menos una capacidad.

 

¿Cómo se desarrollará la tecnología en 2024? Hay tres dimensiones principales en las que los investigadores están mejorando los modelos de AI: tamaño, datos y aplicaciones.

 

Empieza por el tamaño. Durante los últimos años, el dogma aceptado de la investigación de la ai ha sido que más grande significa mejor. Aunque los ordenadores se han vuelto más pequeños a medida que se han vuelto más potentes, eso no es cierto para los modelos de lenguaje grandes (llms), cuyo tamaño se mide en miles de millones o billones de "parámetros". Según SemiAnalysis, una empresa de investigación, gpt-4, el llm que alimenta la versión de lujo de Chatgpt, requirió más de 16.000 chips gpu especializados y tardó varias semanas en entrenarse, a un costo de más de 100 millones de dólares. Según Nvidia, un fabricante de chips, los costos de inferencia, conseguir que los modelos capacitados respondan a las consultas de los usuarios, ahora superan los costos de capacitación al implementar un llm a cualquier escala razonable.

 

No hay "ninguna razón para creer... que esta es la arquitectura neuronal definitiva"

 

A medida que los modelos de ai pasan a ser productos básicos comerciales, hay un enfoque creciente en mantener el rendimiento al tiempo que los hace más pequeños y rápidos. Una forma de hacerlo es entrenar un modelo más pequeño utilizando más datos de entrenamiento. Por ejemplo, "Chinchilla", un llm desarrollado en 2022 por Google DeepMind, supera al gpt-3 de Openai, a pesar de ser una cuarta parte del tamaño (se entrenó con cuatro veces los datos). Otro enfoque es reducir la precisión numérica de los parámetros que comprende un modelo. Un equipo de la Universidad de Washington ha demostrado que es posible exprimir un modelo del tamaño de Chinchilla en un chip de GPU, sin una caída marcada en el rendimiento. Los modelos pequeños, lo que es más importante, son mucho menos costosos de ejecutar más adelante. Algunos incluso pueden funcionar en un ordenador portátil o un teléfono inteligente.

 

A continuación, los datos. Los modelos ai son máquinas de predicción que se vuelven más efectivas cuando se entrenan con más datos. Pero el enfoque también está cambiando de "cuánto" a "qué tan bueno". Esto es especialmente relevante porque cada vez es más difícil encontrar más datos de entrenamiento: un análisis en 2022 sugirió que las existencias de texto nuevo y de alta calidad podrían agotarse en los próximos años. El uso de los resultados de los modelos para entrenar futuros modelos puede conducir a modelos menos capaces, por lo que la adopción de llms hace que Internet sea menos valiosa como fuente de datos de entrenamiento. Pero la cantidad no lo es todo. Descubrir la combinación correcta de datos de entrenamiento sigue siendo mucho más un arte que una ciencia. Y los modelos se están entrenando cada vez más en combinaciones de tipos de datos, incluyendo lenguaje natural, código informático, imágenes e incluso vídeos, lo que les da nuevas capacidades.

 

¿Qué nuevas aplicaciones podrían surgir? Hay algo de "sobrecarga" cuando se trata de ai, lo que significa que ha avanzado más rápido de lo que la gente ha podido aprovecharlo. Mostrar lo que es posible se ha convertido en descubrir lo que es práctico. Los avances más importantes no estarán en la calidad de los modelos en sí, sino en aprender a usarlos de manera más efectiva.

 

En la actualidad, hay tres formas principales de usar los modelos. La primera, la "ingeniería rápida", los toma tal como son y les alimenta con indicaciones específicas. Este método implica la elaboración de frases de entrada o preguntas para guiar el modelo para producir los resultados deseados. El segundo es "afinar" un modelo para mejorar su rendimiento en una tarea específica. Esto implica dar a un modelo preexistente una ronda adicional de entrenamiento utilizando un conjunto de datos estrecho adaptado a esa tarea. Por ejemplo, un llm podría ajustarse utilizando artículos de revistas médicas para mejorar la respuesta a las preguntas relacionadas con la salud. El tercer enfoque es incrustar llms en una arquitectura más grande y potente. Un llm es como un motor, y para usarlo para una aplicación en particular, necesitas construir el coche a su alrededor.

 

Un ejemplo de esto es la "generación aumentada retrieval", una técnica que combina un llm con software adicional y una base de datos de conocimientos sobre un tema en particular para que sea menos probable que escupa falsedades. Cuando se le hace una pregunta, el sistema primero busca en su base de datos. Si encuentra algo relevante, pasa la pregunta, junto con la información fáctica, al llm, solicitando que la respuesta se genere a partir de la información proporcionada. Proporcionar fuentes de esta manera significa que los usuarios pueden estar más seguros de la precisión de las respuestas. También permite que el llm sea personalizado, como Notebooklm de Google, que permite a los usuarios proporcionar sus propias bases de datos de conocimiento.

 

En medio de todo el enfoque en el potencial comercial de ai, la búsqueda de la inteligencia artificial general continúa. Los llms y otras formas de ai generativa pueden ser una pieza en el rompecabezas, o un paso en el camino, pero probablemente no sean la respuesta final. Como dice Chris Manning de la Universidad de Stanford: "no hay razón para creer... que esta es la arquitectura neuronal definitiva, y nunca encontraremos nada mejor". 

 

Abby bertics, corresponsal de ciencias, The Economist

 

Regresar al blog