Para el éxito del modelo de IA, use MLops y obtenga los datos correctos


Esperamos presentar Transform 2022 en persona nuevamente el 19 de julio y virtualmente del 20 al 28 de julio. Únase a nosotros para conversaciones perspicaces y emocionantes oportunidades para establecer contactos. ¡Regístrese hoy!


Es crucial adoptar una mentalidad centrada en los datos y apoyarla con operaciones de ML

La inteligencia artificial (IA) en el laboratorio es una cosa; en el mundo real es diferente. Muchos modelos de IA no ofrecen resultados fiables en uso. Otros comienzan bien, pero luego los resultados desaparecen, dejando a sus dueños frustrados. Muchas empresas no obtienen los beneficios que esperan de la IA. ¿Por qué fallan los modelos de IA y cuál es el remedio?

A medida que las empresas han experimentado más con modelos de IA, ha habido algunos éxitos pero numerosas decepciones. Dimensional Research informa que el 96% de los proyectos de IA encuentran problemas con la calidad de los datos, el etiquetado de datos y la generación de confianza en el modelo.

Los investigadores y desarrolladores de IA empresarial suelen utilizar el método académico tradicional para aumentar la precisión. Es decir, mantenga constantes los datos del modelo mientras juega con las arquitecturas del modelo y ajusta los algoritmos. Es similar a reparar las velas cuando el barco tiene una fuga: es una mejora, pero la equivocada. ¿Por qué? Un buen código no puede superar los malos datos.

En cambio, deben asegurarse de que los registros sean apropiados para la aplicación. El software tradicional se basa en código, mientras que los sistemas de IA se basan tanto en código (modelos + algoritmos) como en datos. Tome el reconocimiento facial, por ejemplo, donde las aplicaciones impulsadas por IA se han entrenado en rostros predominantemente caucásicos, en lugar de rostros racialmente diversos. Como era de esperar, los resultados fueron menos precisos para los usuarios no caucásicos.

Los buenos datos de entrenamiento son solo el punto de partida. En el mundo real, las aplicaciones de IA suelen ser precisas al principio, pero luego se degradan. Cuando la precisión cae, muchos equipos responden optimizando el código de software. Eso no funciona porque el problema subyacente estaba cambiando las condiciones del mundo real. La respuesta: para aumentar la confiabilidad, mejore los datos, no los algoritmos.

Dado que las fallas de IA generalmente están relacionadas con la calidad de los datos y las variaciones de datos, los profesionales pueden utilizar un enfoque centrado en los datos para mantener intactas las aplicaciones de IA. Los datos son como alimento para la IA. En su solicitud de datos debe ser un ciudadano de primera clase. Apoyar esta idea no es suficiente; Las empresas necesitan una «infraestructura» para entregar los datos correctos.

MLops: el «cómo» de la IA centrada en datos

Los datos consistentemente buenos requieren procesos y prácticas continuos conocidos como MLops para operaciones de aprendizaje automático (ML). La tarea principal de MLops: proporcionar datos de alta calidad, ya que esto es esencial para un enfoque de IA centrado en datos.

MLops funciona abordando los desafíos específicos de la IA centrada en datos que son lo suficientemente complicados como para garantizar un empleo duradero para los científicos de datos. Aquí hay una muestra:

  • La cantidad incorrecta de datos: Los datos ruidosos pueden distorsionar los conjuntos de datos más pequeños, mientras que los conjuntos de datos más grandes pueden dificultar el etiquetado. Ambos problemas descartan modelos. El tamaño correcto del conjunto de datos para su modelo de IA depende del problema que esté resolviendo.
  • valores atípicos en los datos: una deficiencia común en los datos utilizados para entrenar aplicaciones de IA, los valores atípicos pueden sesgar los resultados.
  • Rango de datos insuficiente: Esto puede provocar que no se puedan manejar adecuadamente los valores atípicos en el mundo real.
  • deriva de datos: Lo que a menudo degrada la precisión del modelo con el tiempo.

Estos problemas son serios. Una encuesta de Google a 53 profesionales de la IA encontró que «las cascadas de datos (eventos compuestos que provocan efectos negativos posteriores de problemas de datos) desencadenados por prácticas tradicionales de IA/ML que subestiman la calidad de los datos… son ubicuas (92 % de prevalencia), invisibles, retrasadas, pero muchas veces evitable».

¿Cómo funciona MLOps?

Antes de implementar un modelo de IA, los investigadores deben planificar para mantener su precisión con nuevos datos. Pasos importantes:

  • Verifique y monitoree las predicciones del modelo para garantizar continuamente que los resultados sean correctos
  • Supervisar el estado de los datos que impulsan el modelo; Asegúrese de que no haya sobretensiones, valores faltantes, duplicados o anomalías en las distribuciones.
  • Confirmar que el sistema cumple con las normas de protección de datos y consentimiento
  • Si la precisión del modelo cae, averigüe por qué

Para practicar buenos MLops y desarrollar IA de manera responsable, aquí hay algunas preguntas para responder:

  • ¿Cómo identifica las desviaciones de datos en su canalización? La deriva de datos puede ser más difícil de detectar que las imperfecciones en la calidad de los datos. Los cambios de datos que parecen sutiles pueden tener un impacto enorme en ciertas predicciones del modelo y en ciertos clientes.
  • ¿Su sistema mueve datos de manera confiable del punto A al punto B sin comprometer la calidad de los datos? Afortunadamente, mover datos a granel desde un sistema se ha vuelto mucho más fácil a medida que mejoran las herramientas para ML.
  • ¿Puede rastrear y analizar datos automáticamente, con alertas cuando surgen problemas de calidad de datos?

MLops: Así que empieza ahora

Quizás se esté preguntando, ¿cómo podemos prepararnos para abordar estos problemas? La creación de una capacidad de MLops puede comenzar humildemente, con un experto en datos y su desarrollador de IA. Como disciplina temprana, MLops está evolucionando. Todavía no existe un estándar de oro o un marco aceptado para definir un buen sistema u organización de MLops, pero aquí hay algunos conceptos básicos:

  • Al desarrollar modelos, los investigadores de IA deben considerar los datos en cada paso, desde el desarrollo del producto hasta la implementación y posterior a la implementación. La comunidad de ML necesita herramientas de MLops maduras que ayuden a crear conjuntos de datos representativos, fiables y de alta calidad para los sistemas de IA.
  • El mantenimiento posterior a la implementación de la aplicación de IA no puede ser una ocurrencia tardía. Los sistemas de producción deben implementar equivalentes de ML para las mejores prácticas de desarrollo, incluido el registro, el monitoreo y las canalizaciones de CI/CD que abordan el linaje de datos, la deriva de datos y la calidad de los datos.
  • Estructure la colaboración continua entre todos los involucrados, desde la alta gerencia hasta los expertos en la materia, los científicos de datos/ML, los ingenieros de ML y los SRE.

El éxito sostenido de las aplicaciones de AI/ML requiere un cambio de «ingrese el código correcto y listo» a un enfoque continuo en los datos. Mejorar sistemáticamente la calidad de los datos para un modelo de referencia es mejor que perseguir modelos de última generación con datos de baja calidad.

MLops, que aún no es una ciencia definida, abarca prácticas que hacen viable la IA centrada en datos. Aprenderemos mucho en los próximos años sobre lo que funciona con mayor eficacia. Mientras tanto, usted y su equipo de IA pueden desarrollar de manera proactiva y creativa un marco de MLops y ajustarlo a sus modelos y aplicaciones.

Alessya Visnijc es directora ejecutiva de WhyLabs

tomador de decisiones de datos

¡Bienvenido a la comunidad VentureBeat!

DataDecisionMakers es el lugar donde los expertos, incluido el personal técnico, que trabajan con datos pueden compartir ideas e innovaciones relacionadas con los datos.

Si desea leer sobre ideas innovadoras e información actualizada, las mejores prácticas y el futuro de los datos y la tecnología de datos, visítenos en DataDecisionMakers.

¡Incluso podría considerar contribuir con un artículo propio!

Leer más de DataDecisionMakers

Deja una respuesta

Tu dirección de correo electrónico no será publicada.