La IA necesita una plataforma de etiquetado abierta


Hoy en día es difícil encontrar una empresa pública que no hable de cómo la inteligencia artificial está cambiando su negocio. Desde lo obvio (Tesla usa IA para mejorar el rendimiento del piloto automático) hasta lo menos obvio (Levis usa IA para tomar mejores decisiones sobre productos), todos quieren usar IA.

Sin embargo, para llegar allí, las empresas deben ser mucho más inteligentes con los datos. Para acercarse a una IA seria, debe aprender a ser monitoreado, lo que a su vez depende de los datos etiquetados. Los datos brutos deben etiquetarse cuidadosamente antes de que puedan usarse para respaldar modelos de aprendizaje supervisado. Esta posición presupuestaria es lo suficientemente grande como para que la alta dirección preste atención. Los ejecutivos que han almacenado datos durante los últimos 10 años y ahora necesitan convertir esos datos en ingresos tienen tres opciones:

1. Hágalo usted mismo y cree su propio sistema de etiquetado de datos a medida. Esté preparado e invierta mucho en personas, tecnología y tiempo para crear un sistema robusto y de calidad de producción a una escala que mantendrá a largo plazo. ¿Suena fácil? Después de todo, eso es lo que hicieron Google y Facebook. Lo mismo ocurre con Pinterest, Uber y otros unicornios. Pero estas no son buenas composiciones para ti. A diferencia de usted, tenían batallones de estudiantes de doctorado y presupuestos de TI del tamaño del PIB de un país pequeño para configurar y mantener estos complejos sistemas de etiquetado. ¿Puede su empresa permitirse esta inversión continua incluso si tiene el talento y el tiempo para desarrollar un sistema de fabricación desde cero? Si eres el CIO, seguro que será un MBO superior.

2. Subcontratar. No hay nada de malo en los socios de servicios profesionales, pero aún necesita desarrollar sus propias herramientas internas. Esta elección coloca a su empresa en una zona de riesgo. Muchos proveedores de estas soluciones mezclan datos de terceros con sus propios datos patentados para hacer N tamaños de muestra mucho más grandes, lo que en teoría conduce a mejores modelos. ¿Tiene confianza en la pista de auditoría de sus propios datos para mantenerlos protegidos durante todo el ciclo de vida de sus necesidades persistentes de etiquetado de datos? ¿Los procesos que desarrolla como diferenciadores competitivos en su viaje de IA son repetibles y confiables, incluso si su proveedor cierra el negocio? Su década de datos IP acumulados podría ayudar a enriquecer a un competidor que también está construyendo sus sistemas con sus socios. Scale.ai es la más grande de estas empresas de servicios y sirve principalmente a la industria de vehículos autónomos.

3. Utilice una plataforma de datos de formación (TDP). Relativamente nuevas en el mercado, se trata de soluciones que ofrecen una plataforma uniforme para consolidar todo el trabajo de recopilación, etiquetado y alimentación de datos en modelos de aprendizaje supervisado, o que ayudan a crear los propios modelos. Este enfoque puede ayudar a las organizaciones de todos los tamaños a estandarizar los flujos de trabajo de la misma manera que lo hacen Salesforce y Hubspot para administrar las relaciones con los clientes. Algunas de estas plataformas automatizan tareas complejas utilizando algoritmos de aprendizaje automático integrados, lo que facilita aún más las cosas. Lo mejor de todo es que una solución TDP como los científicos de datos libera personal costoso para construir las estructuras reales para las que fueron contratados, en lugar de construir y mantener sistemas a medida complejos y frágiles. Los reproductores Purer TDP incluyen Labelbox, Alegion y Superb.ai.

Arriba: Labelbox es un ejemplo de una plataforma TDP que admite el etiquetado de texto e imágenes, entre otras cosas.

¿Por qué necesita una plataforma de datos de formación?

Lo primero que debe comprender una organización en un viaje de IA es que el etiquetado de datos es una de las partes más costosas y que requieren más tiempo en el desarrollo de un sistema de aprendizaje automático supervisado. El etiquetado de datos no se detiene cuando un sistema de aprendizaje automático ha madurado para su uso en producción. Persiste y suele crecer. Ya sea que las empresas subcontraten su etiquetado o hagan todo internamente, necesitan un TDP para gestionar el trabajo.

Un TDP está destinado a facilitar todo el proceso de etiquetado de datos. La idea es producir mejores datos más rápido para que las empresas puedan crear modelos y aplicaciones de IA de alto rendimiento lo más rápido posible. Hay bastantes empresas que utilizan este término en la actualidad, pero pocas son verdaderas TDP.

Deben estar en juego dos cosas: la preparación corporativa y una interfaz de usuario intuitiva. Si no es adecuado para empresas, los departamentos de TI lo rechazarán. Si no es intuitivo, los usuarios navegarán por TI y encontrarán algo que sea más fácil de usar. Cada sistema que procesa información confidencial y crítica para el negocio requiere seguridad y escalabilidad a nivel de empresa. De lo contrario, no es un principiante. Pero eso es todo lo que se siente como un producto corporativo de la vieja escuela. Hemos estado en la consumerización de TI durante al menos una década. Todo lo que no es tan fácil de usar como Instagram simplemente no se usa. ¿Recuerda el famoso estante de automatización de Salesforce de Siebel? Salesforce arrasó con el negocio con una experiencia de usuario simple y una implementación en la nube.

Más allá de estos conceptos básicos, existen tres requisitos principales: anotar, administrar e iterar. Si un sistema que está considerando no cumple con estos tres requisitos, no elija un TDP verdadero. Estos son los elementos imprescindibles en su lista de consideraciones:

Deja un comentario. Un TDP debe proporcionar herramientas para la automatización inteligente de anotaciones. La mayor cantidad de etiquetado posible debe realizarse automáticamente. Un buen TDP debería poder trabajar con una cantidad limitada de datos etiquetados profesionalmente. Por ejemplo, comenzaría con los tumores en círculos en rayos X por radiólogos antes de que los tumores mismos estén premarcados. Entonces depende del ser humano corregir lo que se haya etiquetado incorrectamente. El dispositivo asigna una salida de confianza. Por ejemplo, puede estar 80% seguro de que una etiqueta en particular es correcta. La máxima prioridad para los seres humanos debería ser revisar y corregir las etiquetas en las que menos confían las máquinas. Por lo tanto, las empresas deben intentar automatizar las anotaciones e invertir en servicios profesionales para garantizar la precisión y la integridad de los datos etiquetados. Gran parte del trabajo de anotación se puede realizar fácilmente sin ayuda humana.

Gestionar. Un TDP debería servir como sistema de registro central para proyectos de capacitación en datos. Aquí es donde los científicos de datos y otros miembros del equipo trabajan juntos. Se pueden crear flujos de trabajo y asignar tareas mediante la integración con herramientas tradicionales de gestión de proyectos o dentro de la propia plataforma.

Aquí también se pueden volver a visualizar registros de datos para proyectos posteriores. Por ejemplo, en los Estados Unidos, aproximadamente el 30% de todos los hogares se ofrecen como seguro de hogar cada año. Para predecir y evaluar el riesgo, las aseguradoras se basan en datos como la edad del techo de la casa, la presencia de una piscina o trampolín, o la distancia de un árbol a la casa. Para ayudar en este proceso, las empresas ahora están utilizando la visión por computadora para proporcionar a las compañías de seguros un análisis continuo a través de imágenes de satélite. Una empresa debería poder utilizar un TDP para reutilizar los registros existentes al clasificar viviendas en un nuevo mercado. Por ejemplo, cuando una empresa ingresa al mercado del Reino Unido, debería poder reutilizar los datos de capacitación existentes de los EE. UU. Y actualizarlos fácilmente para adaptarse a las diferencias locales, como los materiales de construcción. Estos ciclos de iteración permiten a las organizaciones proporcionar datos altamente precisos y adaptarse rápidamente para mantenerse al día con los cambios continuos en los hogares en los Estados Unidos y más allá.

Esto significa que su TDP debe proporcionar API para la integración con otro software, ya sean aplicaciones de gestión de proyectos, herramientas para recopilar y procesar datos o SDK que las empresas pueden utilizar para personalizar sus herramientas y personalizar el TDP para satisfacer sus necesidades.

Iterar. Un verdadero TDP sabe que los datos anotados nunca son estáticos. En cambio, sigue cambiando y repitiéndose a medida que se agregan más datos al conjunto de datos y los modelos brindan retroalimentación sobre la efectividad de los datos. De hecho, la clave para obtener datos precisos es la iteración. Prueba el modelo. Mejora el modelo. Prueba nuevamente. Y una y otra vez. El rociador inteligente de un tractor puede aplicar herbicida a un tipo de maleza el 50% del tiempo. Sin embargo, a medida que se agregan más imágenes de las malas hierbas a los datos de entrenamiento, las iteraciones futuras del modelo de visión por computadora del pulverizador pueden aumentar esto al 90% o más. Cuando se agregan otras malezas a los datos de entrenamiento, el rociador puede detectar estas plantas no deseadas. Este puede ser un proceso que requiere mucho tiempo y generalmente requiere que las personas estén informadas, incluso si gran parte del proceso está automatizado. Tienes que iterar, pero la idea es obtener tus modelos lo mejor posible lo antes posible. El propósito de un TDP es acelerar esas iteraciones y hacer que cada iteración sea mejor que la anterior, ahorrando tiempo y dinero.

El futuro

Así como el cambio en el siglo XVIII hacia la estandarización y las piezas intercambiables provocó la revolución industrial, un marco estándar para definir los TDP también comenzará a llevar la IA a un nuevo nivel. Es temprano, pero está claro que los datos marcados, administrados a través de un verdadero TDP, pueden convertir de manera confiable los datos sin procesar (la valiosa propiedad intelectual de su empresa) en una ventaja competitiva en casi cualquier industria.

Sin embargo, los ejecutivos de alto nivel deben comprender que se requiere inversión para aprovechar la riqueza potencial de la IA. Tiene tres opciones hoy, y cualquier decisión que tome, será costosa de construir, subcontratar o comprar. Como suele suceder con las infraestructuras comerciales críticas, construirlas o subcontratarlas puede generar enormes costos ocultos, especialmente cuando se inicia una nueva forma de hacer negocios. Un verdadero TDP “reduce” el riesgo de esta costosa decisión al tiempo que preserva el foso competitivo de su empresa, su propiedad intelectual.

(Divulgación: trabajo para AWS, pero las opiniones expresadas aquí son mías).

Matt Asay es director de Amazon Web Services. Anteriormente, fue Jefe de Ecosistema de Desarrolladores en Adobe y ocupó puestos en MongoDB, Nodeable (adquirido de Appcelerator), la startup móvil HTML5 Strobe (adquirida de Facebook) y Canonical. Es miembro retirado de la junta de Open Source Initiative (OSI).

VentureBeat siempre está atento a las contribuciones perspicaces de los huéspedes de los datos expertos y los profesionales de la IA.

VentureBeat

La misión de VentureBeat es ser una plaza de la ciudad digital para que los responsables de la toma de decisiones tecnológicas obtengan conocimientos sobre la tecnología y las transacciones transformadoras. Nuestro sitio web proporciona información importante sobre tecnologías y estrategias de datos para ayudarlo a administrar su negocio. Te invitamos a convertirte en miembro de nuestra comunidad y acceder a:

  • información actual sobre los temas de su interés
  • nuestros boletines
  • contenido privado de líderes de opinión y acceso con descuento a nuestros valiosos eventos como Transform
  • Funciones de red y más

conviértete en miembro

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *