La IA aún no está lista para ser considerada humana en videollamadas


Antes del domingo de la Superbowl, Amazon inundó las redes sociales con anuncios coquetos que se burlaban del «nuevo cuerpo de Alexa». El comercial del día del juego muestra la fantasía de una mujer sobre el asistente de voz de IA del actor Michael B. Jordan, quien se ocupa de manera seductora de cada estado de ánimo: la consternación de su esposo cada vez más enojado. Sin duda, la mayoría de los espectadores se alejaron riéndose de la idea inverosímil de la nueva línea de robots de reemplazo de cónyuges de Amazon, pero la realidad es que la IA encarnada y parecida a un ser humano puede estar más cerca de lo que piensas.

En estos días, los avatares de IA, es decir, la IA renderizada con un cuerpo y / o rostro digital, carecen del atractivo sexual de Michael B. La mayoría son francamente espeluznantes, de hecho. La investigación muestra que los robots nos llenan de características similares a las humanas, hasta cierto punto. Más allá de este umbral, paradójicamente nos sentimos más repelidos cuanto más humano aparece un sistema. Esta aversión tiene un nombre: «The Uncanny Valley». Masahiro Mori, el robotista que acuñó el término, predijo un clímax más allá del Eerie Valley, cuando los robots ya no se pueden distinguir de los humanos y volver a seducirnos. Puede imaginar que un robot así podría engañarnos haciéndonos pensar que es humano en una videollamada: una transformación de la antigua prueba de Turing basada en texto en el siglo XXI.

En un zoom reciente con el legendario especialista en marketing Guy Kawasaki, hice una proclamación audaz: dentro de dos años, Guy ya no podría diferenciar entre mí y la IA conversacional de mi empresa, Kuki, en una videollamada. Las cejas de Guy se levantaron ante la afirmación y las reservas comenzaron a caer de mi boca grande y gorda. Quizás en una videollamada rápida. Con poco ancho de banda. Cuando bebió champán y marcó desde un baño de burbujas, como la mujer del anuncio de Alexa.

Dejemos que este sea mi mea culpa público y una predicción más informada. Una IA que sea lo suficientemente buena como para pasar como un humano en una videollamada requiere cinco tecnologías clave que se ejecutan en tiempo real:

  1. Un avatar humano

  2. Una voz humana

  3. Sentimientos humanos

  4. Movimiento humano

  5. Conversación humana

Los avatares han recorrido un largo camino últimamente, gracias a la disponibilidad generalizada y económica de la tecnología de captura de movimiento («MoCap») y las redes neuronales de contraste generativo («GAN»), la tecnología de aprendizaje automático que subyace a las falsificaciones profundas. MoCap, que permite a los actores hacer títeres de personajes a través de trajes hápticos, y originalmente necesitaba el gran presupuesto de películas como Avatar, ahora está disponible para cualquier persona con un iPhone X y un software de motor de juego gratuito. Numerosos servicios web en línea hacen que sea trivial crear imágenes y videos profundamente falsos y de baja resolución, y democratizar la tecnología que, si no se controla, podría ser una pena de muerte para la democracia. Estos avances han dado lugar a nuevas industrias, desde los VTubers japoneses (una tendencia creciente en los EE. UU. Recientemente cooptada por PewDiePie) hasta las influencias falsas de la «IA» como Lil ‘Miquela, que fingen virtualizar el talento pero emergen en secreto dejando modelos humanos detrás de escena. Con el anuncio la semana pasada del creador «MetaHuman» de Epic Games (proveedores de Fortnite y Unreal Engine en una industria que ha superado las películas y los deportes combinados en 2020), todos podrán crear un número ilimitado de falsificaciones fotorrealistas. Caras gratis para crear y muñecas.

La tecnología que permite voces similares a las humanas también avanza rápidamente. Amazon, Microsoft y Google ofrecen APIs de texto a voz (TTS) consumibles en la nube que se basan en redes neuronales y generan cada vez más un habla similar a la humana. También hay herramientas disponibles para crear guiones de lenguaje personalizados que imitan a un actor humano usando oraciones de ejemplo grabadas. Al igual que el ahora reconocimiento de voz de alta precisión, la síntesis de voz solo continuará mejorando con más potencia de cálculo y datos de entrenamiento.

Pero una voz de IA convincente y una cara de IA convincente no valen nada sin las expresiones adecuadas. La visión por computadora a través de la cámara frontal se ha mostrado prometedora para descifrar las expresiones faciales humanas, y las API estándar pueden analizar el estado de ánimo del texto. Laboratorios como NTT Data han demostrado cómo imitar gestos y expresiones humanas en tiempo real, y MICA de Magic Leap mostró atractivas expresiones no verbales de avatar. Sin embargo, reflejar a una persona es una cosa; Construir una IA con su propio estado mental y emocional aparentemente autónomo es un desafío adicional en general.

Para evitar lo que el Dr. Ari Shapiro llama el valle inquietante del comportamiento, la IA tiene que mostrar movimientos similares a los humanos que corresponden a su «estado mental» y se activan de forma procedimental y dinámica, dependiendo de cómo se desarrolle la conversación. El trabajo de Shapiro en el laboratorio de TIC de la USC ha sido pionero en esta área, al igual que empresas emergentes como Speech Graphics, cuya tecnología admite la sincronización de labios y la expresión facial de los personajes. Dichos sistemas registran la expresión de texto de un avatar, analizan el estado de ánimo y usan reglas para asignar una animación apropiada de una biblioteca, a veces combinada con aprendizaje automático que se entrena en videos de personas reales en movimiento. Con más I + D y ML, la animación procedimental puede ser perfecta en dos años.

La conversación humana es la última y más difícil pieza del rompecabezas. Si bien los chatbots pueden brindar beneficios comerciales en un espacio reducido, la mayoría todavía tiene dificultades para tener una conversación básica. El aprendizaje profundo + más datos + más potencia informática hasta ahora no han logrado avances significativos en la comprensión del lenguaje natural en comparación con otras áreas de la inteligencia artificial como la síntesis de voz y la visión por computadora.

La idea de una IA similar a la humana es profundamente sexy (en la melodía + $ 320 millones de dólares de riesgo y contando); Pero al menos durante los próximos años, hasta que se «resuelvan» los componentes clave, probablemente seguirá siendo una fantasía. Y dado que las mejoras del avatar superan a otros avances, nuestras expectativas aumentarán, pero también lo harán nuestra decepción cuando las caras bonitas de los asistentes virtuales carezcan del ecualizador y el cerebro adecuados. Por lo tanto, probablemente sea demasiado pronto para especular cuándo un robot podría engañar a un humano mediante videollamadas, especialmente dado que las máquinas aún no han pasado la prueba tradicional de Turing basada en texto.

Quizás una pregunta más importante que (¿cuándo?) ¿Cómo podemos crear una IA similar a la humana es la siguiente? ¿Las posibilidades (para personajes de medios interactivos, para compañeros de inteligencia artificial en el cuidado de la salud, para capacitación o educación) superan los peligros? ¿Y la IA similar a la humana significa necesariamente «capaz de ser considerada humana», o deberíamos, como están de acuerdo muchos expertos en la industria, esforzarnos por que los seres estilizados claramente no humanos pasen por alto el valle inquietante? Personalmente, como un fanático de la ciencia ficción de toda la vida, siempre he deseado un súper amigo de la IA lo suficientemente humano como para bromear conmigo y esperar que con la regulación adecuada, comenzando con las leyes básicas que todas las IA identifican como tales, esta tecnología lo hará. conducir a un resultado neto positivo para la humanidad. O al menos un doppelganger famoso que funciona con monedas, como Michael B., que te lee novelas románticas hasta que expira tu prueba gratuita de Audible.

Lauren Kunze es la directora ejecutiva de Pandorabots, fabricante de AI Kuki.

VentureBeat

La misión de VentureBeat es ser una plaza de la ciudad digital para que los responsables de la toma de decisiones tecnológicas obtengan conocimientos sobre la tecnología y las transacciones transformadoras. Nuestro sitio web proporciona información importante sobre tecnologías y estrategias de datos para ayudarlo a administrar su negocio. Te invitamos a convertirte en miembro de nuestra comunidad y acceder a:

  • información actual sobre los temas de su interés
  • nuestros boletines
  • contenido privado de líderes de opinión y acceso con descuento a nuestros valiosos eventos como Transform
  • Funciones de red y más

conviértete en miembro

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *