Lanzamiento de «Fugaku-LLM», un gran modelo lingüístico entrenado en el superordenador «Fugaku»

Un equipo de investigadores de Japón ha presentado Fugaku-LLM, un gran modelo lingüístico (1) con capacidad mejorada para el idioma japonés, utilizando el superordenador Fugaku de RIKEN. El equipo está dirigido por el profesor Rio Yokota, del Instituto Tecnológico de Tokio, el profesor asociado Keisuke Sakaguchi, de la Universidad de Tohoku, Koichi Shirahata, de Fujitsu Limited, el jefe de equipo Mohamed Wahib, de RIKEN, el profesor asociado Koji Nishiguchi, de la Universidad de Nagoya, Shota Sasaki, de CyberAgent, Inc, y Noriyuki Kojima, de Kotoba Technologies Inc.

Para entrenar grandes modelos lingüísticos en Fugaku, los investigadores desarrollaron métodos de entrenamiento distribuido, incluida la portabilidad del marco de aprendizaje profundo Megatron-DeepSpeed a Fugaku con el fin de optimizar el rendimiento de Transformers en Fugaku. Aceleraron la biblioteca de multiplicación de matrices densas para Transformers y optimizaron el rendimiento de la comunicación para Fugaku combinando tres tipos de técnicas de paralelización y aceleraron la biblioteca de comunicación colectiva en la interconexión D de Tofu.

Fugaku-LLM tiene 13.000 millones de parámetros (2) y es mayor que los modelos de 7.000 millones de parámetros que se han desarrollado ampliamente en Japón. Fugaku-LLM tiene capacidades japonesas mejoradas, con una puntuación media de 5,5 en el MT-Bench japonés (3), el rendimiento más alto entre los modelos abiertos que se entrenan utilizando datos originales producidos en Japón. En concreto, el rendimiento de referencia para tareas de humanidades y ciencias sociales alcanzó una puntuación notablemente alta de 9,18.

Fugaku-LLM se entrenó con datos japoneses propios recopilados por CyberAgent, junto con datos ingleses y de otros países. El código fuente de Fugaku-LLM está disponible en GitHub (4) y el modelo en Hugging Face (5). Fugaku-LLM puede utilizarse con fines de investigación y comerciales siempre que los usuarios respeten la licencia.

En el futuro, a medida que más investigadores e ingenieros participen en la mejora de los modelos y sus aplicaciones, se mejorará la eficiencia del entrenamiento, lo que conducirá a aplicaciones empresariales y de investigación innovadoras de próxima generación, como la vinculación de la simulación científica y la IA generativa, y la simulación social de comunidades virtuales con miles de IA.

Antecedentes
En los últimos años, el desarrollo de grandes modelos lingüísticos (LLM) ha sido muy activo, especialmente en Estados Unidos. En particular, la rápida difusión de ChatGPT (6), desarrollado por OpenAI, ha tenido un profundo impacto en la investigación y el desarrollo, los sistemas económicos y la seguridad nacional. Otros países, además de Estados Unidos, también están invirtiendo enormes recursos humanos y computacionales para desarrollar LLM en sus propios países. Japón también necesita asegurarse recursos computacionales para la investigación de la IA y no quedarse atrás en esta carrera mundial. Hay grandes expectativas puestas en Fugaku, el sistema de supercomputación insignia de Japón, y es necesario mejorar el entorno computacional para el entrenamiento distribuido a gran escala en Fugaku para cumplir estas expectativas.

Por ello, el Instituto Tecnológico de Tokio, la Universidad de Tohoku, Fujitsu, RIKEN, la Universidad de Nagoya, CyberAgent y Kotoba Technologies han iniciado un proyecto conjunto de investigación sobre el desarrollo de grandes modelos lingüísticos.

[1] Modelo de lenguaje de gran tamaño : Modela la probabilidad con la que aparece un texto y puede predecir el texto (respuesta) que sigue a un contexto dado (consulta).
[2] Parámetro : Medida del tamaño de una red neuronal. Cuantos más parámetros, mayor es el rendimiento del modelo, pero más datos se necesitan para el entrenamiento.
[3] MT-Bench japonés : Prueba de referencia proporcionada por Stability AI.
[4] GitHub : Plataforma utilizada para publicar software de código abierto
[5] Hugging Face : Plataforma utilizada para publicar conjuntos de datos de IA
[6] ChatGPT : Un gran modelo lingüístico desarrollado por OpenAI, que ha provocado un gran cambio social, superando los 100 millones de usuarios en unos dos meses tras su lanzamiento.

Deja un comentario

Este sitio utiliza Akismet para reducir el spam. Conoce cómo se procesan los datos de tus comentarios.