Un robot del desierto muestra las enormes posibilidades de la IA


Cuando Hongzhi Gao era joven, vivía con su familia en Gansu, una provincia del centro norte de China en el desierto de Tengger. Cuando piensa en su infancia, recuerda el viento constante y constante de suciedad fuera de su casa, y que durante la mayoría de los meses del año no tardó más de un minuto en salir a lijar cada espacio vacío que se llenaba y se arrastraba hacia su interior. bolsillos, botas y boca. La monotonía del desierto se le quedó grabada en la cabeza durante años, y en la universidad tradujo este recuerdo en la idea de construir una máquina que pudiera traer plantas al paisaje desértico.

Los esfuerzos para detener la desertificación, el proceso que convierte la tierra fértil en desierto, se han centrado principalmente en soluciones manuales costosas. Hongzhi ha desarrollado un robot con tecnología de aprendizaje profundo para automatizar el proceso de plantación de árboles: desde identificar los lugares óptimos hasta plantar árboles jóvenes y regar. Aunque no tenía experiencia con la inteligencia artificial, como estudiante de pregrado, Hongzhi utilizó la plataforma de aprendizaje profundo de Baidu, PaddlePaddle, para combinar diferentes módulos para construir un robot con mejores capacidades de reconocimiento de objetos que las máquinas comparables que ya existen en el mercado. Hongzhi y sus amigos tardaron menos de un año en desarrollar y encargar el producto final.

El robot del desierto de Hongzhi es un ejemplo revelador de la creciente accesibilidad de la inteligencia artificial.

En la actualidad, más de cuatro millones de desarrolladores utilizan la tecnología de inteligencia artificial de código abierto de Baidu para crear soluciones que pueden mejorar la vida de las personas en sus comunidades, y muchos de ellos tienen poca o ninguna experiencia técnica en el campo. “Durante la próxima década, la IA será la fuente de los cambios que se están produciendo en todas las áreas de nuestra sociedad y cambiará la forma en que funcionan las industrias y las empresas. La tecnología expandirá la experiencia humana al sumergirnos más profundamente en el mundo digital ”, dijo Robin Li, CEO de Baidu, en Baidu Create 2021, una conferencia de desarrolladores de inteligencia artificial.

Al abrir un nuevo capítulo en la evolución de la inteligencia artificial, el director de tecnología de Baidu, Haifeng Wang, identificó dos tendencias clave que están apuntalando el camino de la industria: la inteligencia artificial continuará madurando y aumentando en complejidad técnica. Al mismo tiempo, los costos de implementación y la barrera de entrada disminuirán, lo que beneficiará tanto a las empresas que desarrollan soluciones impulsadas por IA a gran escala como a los desarrolladores de software que exploran el mundo de la IA.

Fusionar conocimientos y datos con el aprendizaje profundo

La integración de conocimientos y datos con el aprendizaje profundo ha mejorado significativamente la eficiencia y precisión de los modelos de IA. Desde 2011, la infraestructura de inteligencia artificial de Baidu ha estado recopilando nueva información e integrándola en un gráfico de conocimiento a gran escala. Actualmente, este gráfico de conocimiento contiene más de 550 mil millones de hechos, que cubren todos los aspectos de la vida diaria y temas específicos de la industria, incluida la fabricación, los productos farmacéuticos, el derecho, los servicios financieros, la tecnología y los medios de comunicación y el entretenimiento.

Este gráfico de conocimiento y los puntos de datos masivos juntos forman los bloques de construcción del modelo de lenguaje pre-entrenado recientemente publicado por Baidu PCL-BAIDU Wenxin (versión ERINIE 3.0 Titan). El modelo supera a otros modelos de lenguaje sin gráficos de conocimiento en 60 tareas de procesamiento del lenguaje natural (PNL), incluida la comprensión de lectura, la clasificación de textos y la similitud semántica.

Aprendizajes sobre modalidades

El aprendizaje intermodal es una nueva área de investigación de la inteligencia artificial que tiene como objetivo mejorar la comprensión cognitiva de las máquinas e imitar mejor el comportamiento adaptativo humano. Ejemplos de esfuerzos de investigación en esta área incluyen la síntesis automática de texto a imagen, en la que se entrena un modelo para generar imágenes a partir de descripciones textuales únicamente, y algoritmos diseñados para comprender el contenido visual y expresar esa comprensión con palabras. El desafío en estas tareas es que las máquinas establezcan conexiones semánticas entre diferentes tipos de conjuntos de datos (por ejemplo, imágenes, texto) y comprendan las dependencias mutuas entre ellos.

El siguiente paso para la IA es fusionar tecnologías de IA como la visión por computadora, el reconocimiento de voz y el procesamiento del lenguaje natural en un sistema multimodal.

En este frente, Baidu ha introducido una variante de sus modelos de PNL que combinan el lenguaje y la comprensión semántica visual. Ejemplos de aplicaciones del mundo real para este tipo de modelo son los avatares digitales que perciben su entorno como humanos y brindan soporte al cliente para las empresas, así como algoritmos que pueden «dibujar» obras de arte y componer poemas basados ​​en su comprensión de las obras de arte creado.

Hay resultados potenciales aún más creativos e impactantes para esta tecnología. La plataforma PaddlePaddle puede construir conexiones semánticas entre la visión y el lenguaje, lo que llevó a un grupo de estudiantes de maestría en China a crear un diccionario para preservar los idiomas en peligro de extinción en regiones como Yunnan y Guangxi al traducirlos al chino simplificado más fácilmente.

Integración de IA en software y hardware, así como en casos de uso específicos de la industria

Dado que los sistemas de IA se utilizan para resolver problemas cada vez más complejos y específicos de la industria, se pone más énfasis en optimizar el software (marco de aprendizaje profundo) y el hardware (chip de IA) en su conjunto, en lugar de tener en cuenta individualmente factores como la potencia informática, Consumo de energía y latencia.

Además, se están produciendo enormes innovaciones a nivel de plataforma de la infraestructura de inteligencia artificial de Baidu, donde los desarrolladores externos aprovechan las capacidades de aprendizaje profundo para crear nuevas aplicaciones adaptadas a casos de uso específicos. La plataforma PaddlePaddle tiene una serie de API para admitir aplicaciones de inteligencia artificial en tecnologías más nuevas, como la computación cuántica, las ciencias de la vida, la dinámica de fluidos computacional y la dinámica molecular.

La IA también tiene usos prácticos. Por ejemplo, en Shouguang, una pequeña ciudad de la provincia de Shandong, se está utilizando la IA para racionalizar la industria de frutas y verduras. Solo se necesitan dos personas y una aplicación para administrar docenas de cobertizos de verduras.

Y esto es notable, dice Wang: “A pesar de la creciente complejidad de la tecnología de inteligencia artificial, la plataforma de aprendizaje profundo de código abierto reúne el procesador y las aplicaciones como un sistema operativo, lo que reduce las barreras de entrada para las empresas y las personas que usan inteligencia artificial para integrar su negocio. . «

Barrera de entrada reducida para desarrolladores y usuarios finales

En el frente tecnológico, la formación previa para modelos grandes como PCL-BAIDU Wenxin (versión ERNIE 3.0 Titan) ha resuelto muchos cuellos de botella habituales en los modelos tradicionales. Por ejemplo, estos modelos multipropósito han ayudado a sentar las bases para realizar diferentes tipos de tareas posteriores de la PNL, como la clasificación de texto y la respuesta a preguntas en un lugar consolidado, mientras que en el pasado cada tipo de tarea tenía que resolverse mediante un modelo separado.

PaddlePaddle también tiene una serie de herramientas fáciles de desarrollar, como tecnologías de compresión de modelos, para personalizar los modelos de propósito general para casos de uso más específicos. La plataforma ofrece una biblioteca de modelos industriales con soporte oficial con más de 400 modelos, de grandes a pequeños, que mantienen solo una fracción del tamaño de los modelos de propósito general, pero pueden lograr un rendimiento comparable, reduciendo el desarrollo del modelo y los costos de implementación.

En la actualidad, la tecnología de aprendizaje profundo de código abierto de Baidu respalda a una comunidad de más de cuatro millones de desarrolladores de IA que han desarrollado conjuntamente 476.000 modelos y, por lo tanto, contribuyen a la transformación impulsada por la IA de 157.000 empresas e instituciones. Los ejemplos enumerados anteriormente son el resultado de innovaciones en todos los niveles de la infraestructura de IA de Baidu que integra tecnologías como reconocimiento de voz, visión por computadora, AR / VR, gráficos de conocimiento y entrenamiento previo de modelos grandes que se acercan un paso más a percibir el mundo como los humanos.

En su estado actual, la IA ha alcanzado un nivel de madurez que le permite realizar tareas asombrosas. Por ejemplo, el reciente lanzamiento de Metaverse XiRang no hubiera sido posible sin la plataforma de PaddlePaddle para crear avatares digitales para que los participantes de todo el mundo se conecten desde sus dispositivos. Además, los avances futuros en áreas como la computación cuántica podrían mejorar significativamente el rendimiento de los metaversos. Esto muestra cómo las diversas ofertas de Baidu están entrelazadas y son interdependientes.

En unos años, la IA se convertirá en el núcleo de nuestra experiencia humana. Será para nuestra sociedad lo que la energía de vapor, la electricidad e Internet fueron para las generaciones anteriores. A medida que la IA se vuelve más compleja, los desarrolladores como Hongzhi trabajarán más que los artistas y diseñadores, dada la libertad creativa para explorar casos de uso que antes solo eran posibles en teoría. El cielo es el limite.

Este contenido fue creado por Baidu. No fue escrito por el personal editorial de MIT Technology Review.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *