NExT-GPT es un modelo de código abierto para dominar la inteligencia artificial

NExT-GPT es un modelo de código abierto para dominar la inteligencia artificial

En una escena tecnológica en crecimiento dominada por gigantes como OpenAI y Google, NExT-GPT, un modelo de inteligencia artificial (LLM) de lenguaje grande multimodal y de código abierto, puede tener lo necesario para competir en las grandes ligas.

ChatGPT ha conquistado el mundo con su capacidad para comprender consultas en lenguaje natural y generar respuestas similares a las humanas. Pero a medida que la inteligencia artificial continúa avanzando a la velocidad del rayo, las personas necesitan más energía. La era del texto puro ha terminado y están surgiendo LLM multimodales.

Desarrollado en colaboración entre la Universidad Nacional de Singapur (NUS) y la Universidad de Tsinghua, NExT-GPT puede procesar y generar combinaciones de texto, imágenes, audio y video. Esto permite una interacción más natural que los modelos basados ​​en texto, como la herramienta básica ChatGPT.

El equipo que lo creó considera a NExT-GPT como un sistema «cualquiera a cualquiera», lo que significa que puede recibir información de cualquier forma y producir respuestas en la forma adecuada.

El potencial para un progreso rápido es enorme. Al ser un modelo de código abierto, los usuarios pueden modificar NExT-GPT para adaptarlo a sus necesidades específicas. Esto podría resultar en mejoras significativas con respecto al original, muy similar a lo que sucedió con Stable Diffusion en comparación con su versión original. Democratizar el acceso permite a los creadores dar forma a las tecnologías para lograr el máximo impacto.

Entonces, ¿cómo funciona NExT-GPT?. Como se explica en trabajo de investigación el sistema modelo tiene módulos separados para codificar datos de entrada, como imágenes y audio, en representaciones textuales, que pueden ser procesadas por el modelo de lenguaje subyacente.

Los investigadores utilizaron una técnica llamada ajuste de comando de cambio de modalidad para mejorar el razonamiento intermodal: su capacidad para procesar diferentes tipos de entradas como una estructura única y coherente.Esta configuración le enseña al modelo a cambiar suavemente entre modalidades durante una conversación.

Para procesar datos de entrada, NExT-GPT utiliza tokens únicos tanto para imágenes como para audio y vídeo. Cada tipo de entrada se convierte en incorporaciones que el modelo de lenguaje puede entender. Luego, el modelo de lenguaje puede generar el texto de respuesta, así como tokens de señales especiales para activar la generación en otras modalidades.

Por ejemplo, un token en la respuesta indica al descodificador de vídeo que cree la salida de vídeo adecuada. El uso por parte del sistema de tokens especiales para cada método de entrada y salida proporciona una conversión flexible «cualquiera a cualquiera».

Luego, el modelo de lenguaje genera tokens especiales que señalan la necesidad de producir resultados que no sean texto, como imágenes.Luego, diferentes decodificadores producen resultados para cada modalidad: Stable Diffusion como decodificador de imágenes, AudioLDM como decodificador de audio y Zeroscope como decodificador de video.También utiliza Vicuña como LLM subyacente e ImageBind para codificar los datos de entrada.

NExT-GPT es esencialmente un modelo que combina las capacidades de diferentes IA, convirtiéndose en una especie de súper IA universal.

NExT-GPT es un modelo de código abierto para dominar la inteligencia artificial
Captura de pantalla proporcionada por: Documentos de IA de la Academia a través de YouTube

NExT-GPT proporciona esta transformación flexible de cualquiera a cualquiera entrenando solo el 1% del número total de parámetros. Los parámetros restantes son módulos congelados y previamente entrenados, que han sido elogiados por los investigadores como un diseño muy eficiente.

NExT-GPT proporciona una alternativa de código abierto que los creadores pueden utilizar. La multimodalidad es la clave para las interacciones naturales. Y con el código abierto NExT-GPT, los investigadores están brindando a la comunidad un trampolín para llevar la inteligencia artificial al siguiente nivel.

redactor 2
Manuel García

Experto del mundo digital con experiencia en SEO y redacción web. Con una sólida formación en comunicación y tecnología, he dedicado los últimos años a perfeccionar mis habilidades en la creación de contenido web de calidad.