La herramienta de inteligencia artificial de Google permite a los usuarios activar acciones para aplicaciones móviles con instrucciones en lenguaje natural


Google está explorando cómo se puede usar la IA para usar instrucciones en lenguaje natural para acciones de aplicaciones de teléfonos inteligentes. En un estudio adoptado en la conferencia de la Asociación para la Lingüística Computacional (ACL) 2020, los investigadores de la compañía sugirieron que los corpora entrenen modelos que reducen la necesidad de maniobrar a través de aplicaciones que podrían ser útiles para personas con discapacidades visuales.

Al coordinar esfuerzos y cumplir tareas con secuencias de acciones, por ejemplo, según una receta para hornear un pastel de cumpleaños, se dan instrucciones mutuamente. En este contexto, los investigadores querían establecer una base para agentes de IA que puedan ayudar con interacciones similares. Con una serie de instrucciones, estos agentes idealmente predecirían una secuencia de acciones de la aplicación, así como las pantallas y elementos interactivos generados cuando la aplicación se mueve de una pantalla a otra.

En su trabajo, los investigadores describen una solución de dos pasos que comprende un paso de extracción de frase de acción y un paso de conexión a tierra. La extracción de frases de acción identifica las descripciones de operaciones, objetos y argumentos a partir de declaraciones de niveles múltiples utilizando un modelo de transformador. (Un módulo de "atención de área" dentro del modelo le permite tratar un grupo de palabras adyacentes en la instrucción como un todo para decodificar una descripción.) Durante la conexión a tierra, las operaciones extraídas y las descripciones de los objetos se muestran en la pantalla con un objeto de IU coincide, por lo que nuevamente se utiliza un modelo de transformador, que sin embargo presenta los objetos de la interfaz de usuario contextualmente y justifica las descripciones de los objetos para ellos.

  Google Mobile AI

Arriba: el modelo de extracción de frases de acción utiliza una secuencia de palabras de una instrucción de lenguaje natural y genera una secuencia de áreas (indicadas en recuadros rojos) que indican los términos, que describen la operación, el objeto y el argumento de cada acción en la tarea.

Crédito de la foto: Google

Los coautores han creado tres nuevos conjuntos de datos para entrenar y evaluar su modelo de extracción y puesta a tierra para frases de acción:

VB Transform 2020 Online – 14-17. Julio. Únase a los principales líderes de IA: ¡Última oportunidad para registrarse!
  • El primero contiene 187 instrucciones en inglés de varios niveles para operar teléfonos con píxeles, así como las secuencias de pantalla de acción correspondientes.
  • El segundo contiene instrucciones en inglés de la web y frases anotadas que describen cada acción.
  • El tercero contiene 295,000 comandos de un solo paso para acciones de IU que cubren 178,000 objetos de IU en 25,000 pantallas de IU móviles de un corpus de IU público de Android.

Informan que un transformador con atención en el área recibe una precisión del 85.56% para la predicción de secuencias de extensión que coinciden completamente con la verdad básica. Mientras tanto, el extractor de frases y el modelo de puesta a tierra juntos tienen una precisión parcial de 89.21% y una precisión total de 70.59% para asignar secuencias de acción de verdad básicas a la tarea más difícil de asignar instrucciones de voz a acciones consistentemente ejecutables.

Los investigadores afirman que los conjuntos de datos, modelos y resultados, todos disponibles como código abierto en GitHub, proporcionan un primer paso importante para abordar el problema desafiante de la instrucción de lenguaje natural basado en acciones de interfaz de usuario móvil.

“Esta base de investigación y lenguaje En general, este es un paso importante para traducir las instrucciones de varios pasos en acciones en una interfaz gráfica de usuario. La aplicación exitosa de la automatización de tareas al dominio de la interfaz de usuario puede mejorar significativamente la accesibilidad. Las interfaces de voz pueden ayudar a las personas con discapacidad visual a realizar tareas con interfaces basadas en la visión ", escribió Yang Li, investigador de Google Research, en una publicación de blog. "Esto también es importante para un deterioro de la situación cuando no es fácil acceder a un dispositivo mientras está ocupado con tareas pendientes".

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *