Western Digital valida su rendimiento de almacenamiento para IA en el mundo real con los resultados de MLPerf® Storage V2

A medida que las tareas de IA crecen en complejidad y escala, la capacidad de los sistemas de almacenamiento para seguir el ritmo de la infraestructura informática acelerada se ha convertido en un factor crítico para el rendimiento general. Western Digital ha presentado los resultados de su evaluación MLPerf® Storage V2, que valida las capacidades en el mundo real de su plataforma de almacenamiento OpenFlex™ Data24 4000 Series NVMe-oF™. Los resultados confirman la capacidad de OpenFlex Data24 EBOF (Ethernet bunch of flash) para satisfacer las rigurosas demandas de las tareas de IA actuales, ofreciendo un alto rendimiento, eficiencia y escalabilidad en una solución rentable para la moderna infraestructura de IA.

Pruebas reales de IA a gran escala

OpenFlex Data24 NVMe-oF Storage Platform de Western Digital amplía el alto rendimiento de la tecnología flash NVMe® sobre tejido Ethernet para permitir un almacenamiento compartido de baja latencia para una infraestructura de IA escalable y desagregada. Diseñado para simplificar la implantación, reducir los costes y crecer con la demanda de GPU, OpenFlex Data24 ofrece la posibilidad de escalar el almacenamiento y el cálculo de forma independiente para una mayor flexibilidad.

Para representar escenarios de implantación realistas y exigentes en los que los sistemas de almacenamiento deben seguir el ritmo de la infraestructura de GPU acelerada, Western Digital colaboró con PEAK:AIO, un proveedor de SDS de alto rendimiento con capacidad para ingerir, organizar y servir grandes volúmenes de datos a altas velocidades.

Para la validación se utilizaron unidades SSD NVMe KIOXIA CM7-V Series, seleccionadas por sus extraordinarias características de rendimiento en las exigentes tareas de IA. Cuando se instalan en la carcasa OpenFlex Data24, permiten suministrar datos desagregados de forma sostenida y con un alto rendimiento a muchos nodos cliente de GPU.

Resultados del Benckmark MLPerf Storage V2

MLPerf está ampliamente considerado como el estándar de oro del sector para la evaluación comparativa de la IA. Los resultados de MLPerf Storage V2 de Western Digital muestran cómo esta arquitectura no solo ofrece rendimiento a escala, sino que lo hace centrándose en la eficiencia y la economía de implementación práctica con y sin una capa de almacenamiento definido por software (SDS).

MLPerf Storage utiliza nodos de cliente de GPU (sistemas que simulan el comportamiento de un servidor de IA que accede al almacenamiento durante el entrenamiento o la inferencia para generar los patrones de carga de E/S típicos de las cargas de trabajo de GPU del mundo real) para evaluar lo bien que una plataforma de almacenamiento admite entornos de IA distribuidos a través de múltiples clientes de GPU concurrentes. Las pruebas de entrenamiento de IA utilizadas en la suite de almacenamiento MLPerf miden la eficacia con la que el sistema sirve a las cargas de trabajo de IA que estresan diferentes aspectos de la E/S de almacenamiento, incluidos el rendimiento y la concurrencia, en varios modelos de aprendizaje profundo. Hay dos puntos de referencia de carga de trabajo clave utilizados para MLPerf:

Cargas de trabajo 3D U-Net

3D-UNet es un modelo de aprendizaje profundo utilizado en imágenes médicas y segmentación volumétrica. Supone una carga mucho mayor para los sistemas de almacenamiento debido a sus grandes conjuntos de datos de entrada en 3D y a sus intensos patrones de lectura de flujo de datos. Como tal, es un punto de referencia más estricto para demostrar un rendimiento sostenido de gran ancho de banda y baja latencia en flujos de trabajo de IA multinodo.

En este modelo:

  • OpenFlex Data24 de Western Digital logró un rendimiento de lectura sostenido de 106,5 GB/s (99,2 GiB/s), saturando 36 GPU H100 simuladas en tres nodos cliente físicos, lo que demuestra la capacidad de la EBOF para manejar con facilidad tareas de entrenamiento de alto paralelismo y uso intensivo de ancho de banda.
  • Con el servidor de datos de IA PEAK:AIO, OpenFlex Data24 fue capaz de proporcionar 64,9 GB/s (59,6 GiB/s), saturando 22 GPU H100 simuladas desde un único servidor principal y un único nodo cliente.

Cargas de trabajo ResNet50

ResNet-50 es una red neuronal convolucional muy utilizada para la clasificación de imágenes. Sirve como punto de referencia para el rendimiento de entrenamiento, ya que representa una combinación equilibrada de movimiento de datos y cálculo. Con patrones de E/S tanto aleatorios como secuenciales, y utilizando lecturas de imágenes de tamaño medio, resulta útil para evaluar la capacidad de un sistema para gestionar accesos de alta frecuencia a archivos más pequeños y ciclos de iteración rápidos.

En este modeol:  

  • OpenFlex Data24 de Western Digital ofreció un rendimiento óptimo en 186 GPU H100 simuladas y tres nodos cliente, con una extraordinaria relación GPU/unidad que refleja el uso eficiente de los soportes físicos por parte de la plataforma.
  • Con el servidor de datos de IA PEAK:AIO, OpenFlex Data24 fue capaz de saturar 52 GPU H100 simuladas desde un único servidor principal y un único nodo cliente.

“Estos resultados validan la arquitectura desagregada de Western Digital como un potente habilitador y piedra angular de la infraestructura de IA de próxima generación, que maximiza la utilización de la GPU al tiempo que minimiza la huella, la complejidad y el coste total de propiedad,” comenta Kurt Chan, vice president and general manager, Western Digital Platforms Business. “La plataforma de almacenamiento NVMe-oF OpenFlex Data24 Serie 4000 ofrece un rendimiento cercano a la saturación en los exigentes benchmarks de IA, tanto de forma independiente como con un único dispositivo PEAK:AIO AI Data Server, lo que se traduce en una obtención de resultados más rápida y una reducción de la expansión de la infraestructura”.

“Estos resultados de MLPerf ponen de manifiesto la eficiencia revolucionaria que se consigue al combinar el servidor de datos de IA definido por software de PEAK:AIO con la escalabilidad de OpenFlex Data24 de Western Digital y la densidad de rendimiento de las unidades SSD de la serie CM7-V de KIOXIA,” dijo Roger Cummings, President and CEO en PEAK:AIO. “Juntos, estamos ofreciendo una infraestructura de IA de alto rendimiento que es más rápida de implantar, más eficiente de utilizar y más fácil de escalar. Es una prueba convincente de que el alto rendimiento ya no requiere una gran complejidad”.

Tanto en organizaciones que están comenzando su viaje con la IA o escalando a cientos de GPU, OpenFlex Data24 de Western Digital con conectividad líder en la industria utilizando adaptadores de red Western Digital RapidFlex™ permite conectar hasta 12 hosts sin un conmutador. La plataforma de almacenamiento de datos ofrece un crecimiento simplificado, predecible y de alto rendimiento de la infraestructura de IA sin los costes iniciales ni las demandas de energía de otras soluciones, lo que la convierte en la solución ideal para que las organizaciones amplíen las tareas de IA con confianza.

Deja un comentario

Este sitio utiliza Akismet para reducir el spam. Conoce cómo se procesan los datos de tus comentarios.