Una mirada más cercana a SageMaker Studio, el IDE de aprendizaje automático de AWS


En diciembre, cuando AWS lanzó su nuevo IDE de aprendizaje automático, SageMaker Studio, escribimos una revisión de "hot-off-the-press". En este punto, sentimos que la plataforma era insuficiente, pero prometimos publicar una actualización después de trabajar con AWS para familiarizarnos con las nuevas funciones. Esta es la actualización.

Vulnerabilidades y soluciones en la tubería de aprendizaje automático

Cuando se lanzó Amazon SageMaker Studio, destacaron las debilidades que querían abordar: "El flujo de trabajo de desarrollo del aprendizaje automático todavía es muy iterativo y debido a la naturaleza relativa Inmaduras de las herramientas de ML, administrarlas es un desafío para los desarrolladores. “El flujo de trabajo del aprendizaje automático, desde la adquisición de datos hasta la ingeniería de características y la selección de modelos, hasta la depuración, el aprovisionamiento, el monitoreo y el mantenimiento, y todos los pasos intermedios, puede ser como tratar de domesticar a un animal salvaje.

Para resolver este desafío, las grandes compañías tecnológicas han desarrollado sus propias plataformas de aprendizaje automático y big data para sus científicos de datos: Uber tiene a Michelangelo, Facebook (y probablemente Instagram y WhatsApp) tiene FBLearner Flow, Google tiene TFX y Netflix Metaflow y Polynote (estos últimos se obtuvieron de fuentes abiertas. Para las empresas más pequeñas que no pueden implementar su propia infraestructura, han surgido varios actores en una forma patentada y productiva, como el Cuadrante Mágico de Gartner para plataformas de ciencia de datos y aprendizaje automático Documentado:

Estas incluyen plataformas como Microsoft Azure, H20, DataRobot y Google Cloud Platform (por nombrar solo algunas) Estas plataformas están destinadas a científicos de datos y roles relacionados como ingenieros de datos e ingenieros de ML e incluyen todo tipo de trabajo de datos, desde limpieza de datos, disputas y visualización hasta la máquina Inelle aprendiendo. Amazon SageMaker Studio fue el último en unirse a esta lucha.

VB Transform 2020 en línea – 15-17 Julio. Únase a los principales líderes de IA: regístrese para la transmisión en vivo gratuita.

¿Qué ofrece SageMaker Studio?

¿Qué ofrece Sagemaker Studio? Según Amazon, "SageMaker [including Studio] es un servicio totalmente administrado que elimina el trabajo pesado de cada paso del proceso de aprendizaje automático". Las herramientas son impresionantes y eliminan algunos aspectos del trabajo pesado:

  • El IDE se reúne con científicos de datos donde se encuentran utilizando la interfaz intuitiva de JupyterLab, un popular IDE abierto basado en notebook para ciencia de datos en Python. Al estandarizar lo que rápidamente se convierte (o ya se ha convertido) en las herramientas estándar para los profesionales de datos, cualquiera puede aprovechar la amplia gama de herramientas de código abierto disponibles en el ecosistema. Esta parece ser un área en la que AWS ha asumido un compromiso sólido desde que se contrataron dos empleados clave de JupyterLab, incluido Brian Granger, co-líder del proyecto Jupyter.
  • Los cuadernos Sagemaker se pueden operar de manera flexible, lo que significa que los científicos de datos solo pagan por el tiempo de computación utilizado, en lugar de cuánto tiempo está abierto el portátil. Esto permite a los científicos de datos trabajar de manera mucho más rentable. Con las computadoras portátiles elásticas, incluso las cargas de trabajo pesadas para el aprendizaje automático pueden completarse rápidamente expandiendo y reduciendo rápidamente la infraestructura informática con una configuración mínima para cumplir con los requisitos.
  • SageMaker Studio proporciona un marco para rastrear y comparar el rendimiento del modelo para conjuntos de validación en diferentes modelos, arquitecturas e hiperparámetros (¡lo cual es mejor que en las hojas de cálculo!). Vale la pena centrarse en formalizar la construcción de modelos para el aprendizaje automático como una serie de experimentos: puede encontrar innumerables publicaciones sobre cuántos problemas tienen los científicos de datos para seguir los experimentos de aprendizaje automático. Es emocionante poder mostrar experimentos de ML en una tabla de clasificación organizada por una métrica de elección. Sin embargo, debemos tener cuidado porque la optimización de las métricas individuales a menudo conduce a un sesgo algorítmico.
  • El depurador proporciona un monitoreo gráfico en tiempo real de problemas comunes que los científicos de datos encuentran al entrenar modelos (gradientes que explotan y desaparecen, la función de pérdida no disminuye), así como la capacidad de crear sus propias reglas. Esto elimina el estrés práctico y cognitivo y libera a los científicos de datos de la necesidad de monitorear constantemente estos problemas comunes a medida que SageMaker Studio envía alertas.
  • La plataforma también contiene un sistema automático de construcción de modelos, piloto automático. Todo lo que tiene que hacer es proporcionar los datos de entrenamiento, y SageMaker realiza todas las funciones de ingeniería, selección de algoritmos y optimización de los hiperparámetros automáticamente (similar a DataRobot). Una característica interesante es la generación automática de portátiles con todos los modelos resultantes con los que puedes jugar y construir. Amazon afirma que los modelos automatizados pueden servir como base (para los científicos que desean crear modelos más sofisticados) o como modelos para ser producidos directamente. Esto último puede ser problemático, especialmente porque los usuarios no pueden seleccionar la métrica de optimización (solo pueden proporcionar los datos de entrenamiento). Todos conocemos los horrores de los representantes de las métricas de optimización y el potencial de "racismo desenfrenado en el software de decisión". Cuando le preguntamos a AWS sobre esto, un portavoz nos dijo: "Al igual que con cualquier aprendizaje automático, los clientes siempre deben examinar cuidadosamente los datos de capacitación y evaluar los modelos para asegurarse de que se desempeñen según lo previsto, especialmente en casos de uso críticos como servicios de salud o financieros". [19659010] Al alojar y entregar modelos, los científicos de datos pueden poner sus modelos en funcionamiento directamente desde el portátil SageMaker y proporcionar un punto final HTTPS que puede hacer ping con nuevos datos para obtener predicciones. La capacidad de monitorear la deriva de datos en nuevos datos a lo largo del tiempo (es decir, qué tan representativos son los datos de entrenamiento para los nuevos datos) es importante y prometedora, especialmente cuando se trata de identificar posibles sesgos. Las funciones integradas se limitan a estadísticas de resumen básicas. Sin embargo, hay formas para que los científicos de datos creen sus propias métricas personalizadas al proporcionar scripts de preprocesamiento o posprocesamiento personalizados y utilizando un contenedor de análisis preconstruido, o utilizando su propio contenedor de métricas personalizadas.

Estas características son impresionantes, ya que eliminan algunas de las tareas difíciles asociadas con la creación, implementación, mantenimiento y monitoreo de modelos de aprendizaje automático en producción. Pero juntos, ¿reducen todo el trabajo duro, la piratería y los ciclos iterativos que componen gran parte del trabajo de los científicos de datos de ML?

¿SageMaker Studio cumple su promesa?

A diferencia de las plataformas de ciencia de datos como DataRobot y H20.ai, SageMaker persigue un enfoque más de "rueda de entrenamiento". Los principales defensores fueron principalmente científicos de datos con graves problemas de desarrollo de software o equipos con talento para DevOps, ingeniería, infraestructura y ciencia de datos. Otra forma de formular la pregunta es: ¿SageMaker Studio permite a los científicos de datos individuales con menos antecedentes técnicos ingresar productivamente al área de creación de modelos ML en Amazon? Después de pasar días en el estudio, creemos que la respuesta es no. Como se mencionó anteriormente, las herramientas son poderosas, pero al igual que AWS, el caos en la documentación (o la falta de ella) y la extremadamente difícil UX / UI (para comparar experimentos de ML, haga clic en la pestaña Experimentos, marca varios experimentos). Si mueve el control (algo sin una especificación clara en la propia interfaz de usuario), el esfuerzo para el uso de productos que aún se están desarrollando activamente es demasiado alto.

Por esta razón, AWS organiza tantos talleres con y sin sesiones de trabajo, conversaciones de tiza. Seminarios web y eventos como re: Invent. Todas las partes de SageMaker Studio requieren ayuda externa y piratería constante. Por ejemplo, hay un cuaderno con un ejemplo de xgboost que podríamos replicar, pero después de buscar documentación, aún no pudimos encontrar la manera de hacer que Scikit-Learn (un paquete de aprendizaje de ML muy popular) funcione. Cuando enviamos un correo electrónico a nuestro contacto de Amazon en preparación para escribir este artículo para pedir direcciones a la documentación relevante, explicaron que el producto todavía estaba en versión preliminar. Los mejores productos le muestran cómo usarlos sin la necesidad de seminarios adicionales. Los científicos de datos (y los expertos técnicos en general) prefieren comenzar con un buen tutorial en lugar de esperar a que llegue un seminario por la ciudad.

SageMaker Studio es un paso en la dirección correcta, pero hay muchas maneras de cumplir su promesa. Hay una razón por la cual no está en el Cuadrante Mágico de Gartner para plataformas de ciencia de datos y aprendizaje automático. Al igual que con AWS, aún se requieren serias habilidades de desarrollo de software y desarrollo, y aún queda un largo camino para preparar a los científicos de datos para la producción y alcanzarlos donde están. El potencial real (no alcanzado) de SageMaker Studio y las nuevas características de SageMaker residen en ganancias de eficiencia y reducciones de costos tanto para los científicos de datos que ya están familiarizados con DevOps como para los equipos que ya tienen fuertes habilidades de desarrollo de software.

Hugo Bowne-Anderson es Jefe de Evangelismo de Ciencia de Datos y Vicepresidente de Marketing en Coiled. Es consultor de estrategia de datos en DataCamp y ha enseñado en la Universidad de Yale y el Laboratorio Cold Spring Harbor, conferencias como SciPy, PyCon y ODSC, y con organizaciones sobre temas de ciencia de datos como la carpintería de datos.

Tianhui Michael Li es presidente del Instituto Pragmático y fundador y presidente de The Data Incubator, una empresa de educación y colocación de ciencia de datos. Anteriormente, estuvo a cargo de la ciencia de datos de monetización en Foursquare y trabajó en Google, Andreessen Horowitz, J.P. Morgan y D.E. Shaw

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *