Las pruebas comparativas de Nvidia muestran un progreso impresionante en el entrenamiento de modelos de IA


¿Dónde está su empresa en la curva de introducción de la IA? Responda nuestra encuesta de IA para averiguarlo.


Nvidia anunció que los sistemas basados ​​en sus unidades de procesamiento de gráficos (GPU) tienen un rendimiento de 3 a 5 veces mejor al entrenar modelos de IA que hace un año, según los últimos puntos de referencia de MLPerf publicados ayer.

El punto de referencia MLPerf es administrado por la Asociación MLCommons, un consorcio respaldado por Alibaba, Facebook AI, Google, Intel, Nvidia y otros y que actúa como administrador independiente.

Los últimos puntos de referencia incluyen ocho cargas de trabajo diferentes que cubren una variedad de casos de uso para entrenar modelos de IA, incluido el reconocimiento de voz, el procesamiento del lenguaje natural, el reconocimiento de objetos y el aprendizaje por refuerzo. Nvidia afirma que sus socios OEM fueron los únicos proveedores de sistemas que ejecutaron todas las cargas de trabajo definidas por el punto de referencia MLPerf en un total de 4096 GPU. Dell, Fujitsu, Gigabyte Technology, Inspur, Lenovo, Nettrix y Supermicro proporcionaron sistemas locales certificados por Nvidia con los que se ejecutó el punto de referencia.

Nvidia afirma que ha mejorado más en general que cualquiera de sus competidores, ofreciendo hasta 2,1 veces más rendimiento que la última vez que se ejecutaron los puntos de referencia de MLPerf. Estos puntos de referencia proporcionan un punto de referencia confiable que los científicos de datos y las organizaciones de TI pueden usar para hacer una comparación de manzana a manzana entre sistemas, dijo Paresh Kharya, director senior de gestión de productos de Nvidia. «MLPerf es un punto de referencia estándar de la industria», dijo.

Tratando de cuantificar lo desconocido

No está claro hasta qué punto las organizaciones de TI se basan en los puntos de referencia de los consorcios para decidir qué clase de sistema comprar. Cada carga de trabajo proporcionada por un equipo de TI es bastante única, por lo que los puntos de referencia no garantizan el rendimiento real. Quizás lo más convincente de los últimos resultados de las pruebas comparativas es que muestran que los sistemas adquiridos en el último año o incluso antes pueden seguir mejorando su rendimiento general con actualizaciones de software. Este mayor nivel de rendimiento podría ralentizar el ritmo al que puede ser necesario reemplazar los sistemas basados ​​en Nvidia.

Por supuesto, se desconoce la cantidad de empresas que invierten en plataformas de TI locales para ejecutar cargas de trabajo de IA. Algunos ciertamente prefieren entrenar modelos de IA en entornos de TI locales por diversas razones de seguridad, cumplimiento y red en la nube. Sin embargo, el costo de adquisición de un servidor basado en GPU tiende a hacer que el uso de GPU bajo demanda a través de un servicio en la nube sea una alternativa más atractiva para entrenar modelos de IA hasta que la empresa alcance un cierto umbral para la cantidad de modelos que se entrenan al mismo tiempo.

Alternativamente, los proveedores de plataformas locales ofrecen cada vez más planes de precios que permiten a las empresas utilizar la infraestructura de TI local de acuerdo con el mismo modelo que un proveedor de servicios en la nube.

Se pueden usar otras clases de procesadores para entrenar un modelo de IA. Sin embargo, por ahora, gracias a sus capacidades de paralelización inherentes, las GPU han demostrado ser la opción más eficiente.

Independientemente de la plataforma utilizada, la cantidad de modelos de IA entrenados aumenta constantemente. No hay escasez de casos de uso con aplicaciones que podrían mejorarse con IA. El desafío en muchas organizaciones ahora es priorizar los proyectos de IA dado el costo de las plataformas basadas en GPU. Por supuesto, a medida que aumenta el consumo de GPU, el costo de fabricarlas eventualmente disminuirá.

Cuando las empresas crean sus hojas de ruta para la IA, deberían poder asumir que tanto el tiempo requerido como el costo total de entrenar un modelo de IA continuarán disminuyendo en los próximos años, incluso teniendo en cuenta la escasez ocasional de procesadores causada por el impredecible «black cisnes «-Eventos como la pandemia de COVID-19.

VentureBeat

La misión de VentureBeat es ser un mercado digital para que los tomadores de decisiones técnicas obtengan conocimientos sobre tecnologías y transacciones transformadoras. Nuestro sitio web proporciona información esencial sobre tecnologías y estrategias de datos para ayudarlo a administrar su organización. Lo invitamos a convertirse en miembro de nuestra comunidad para obtener acceso:

  • información actual sobre los temas de su interés
  • nuestros boletines
  • contenido protegido de líderes de opinión y acceso con descuento a nuestros valiosos eventos, como Transformar 2021: Aprende más
  • Funciones de red y más

conviértete en miembro

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *