ProBeat: la cuestión de la IA en la nube o la IA marginal está lejos de ser clara


Esta semana, pasé unos meses después de la revisión detallada de la cancelación de ruido de Microsoft Teams de la cancelación de ruido de Google Meet. Ambos utilizan el aprendizaje supervisado. Ambos intentan filtrar la tipificación, las aspiradoras y las bolsas de susurro mientras hablan, cantan y se ríen. Claro, Google Meet borra los instrumentos musicales mientras que Microsoft Teams los conserva, pero por lo demás son casi idénticos. Al menos se ve así hasta que miras debajo del capó.

El tiempo tampoco es una coincidencia: las herramientas de colaboración y videoconferencia nunca han sido tan importantes como en la era del Virus Corona, cuando millones tenían que aprender y trabajar desde casa. Google y Microsoft están probando sus habilidades de aprendizaje automático con la esperanza de mejorar el zoom nuevamente y aplastar a Slack. Google Meet y los equipos de Microsoft usan AI para eliminar el ruido de fondo en tiempo real, por lo que solo se escucha el discurso en una llamada de reunión. Sin embargo, después de la entrevista con los respectivos gerentes de producto, noté cuán diferente es el trato de las compañías con el mismo problema.

Aquí está la versión simple: Google ha puesto su modelo de aprendizaje automático en la nube, mientras que Microsoft ha puesto su modelo de aprendizaje automático en el borde de la nube. Pero hay más que eso: permítanme citar las líneas de productos directamente.

Aquí está Serge Lachapelle, Director de Gestión de Producto de G Suite:

VB Transform 2020 Online – 15-17 Julio. Únase a los principales líderes de IA: regístrese para la transmisión en vivo gratuita.

Nuestro trabajo siempre fue a través de la nube lo más rápido posible. Con estos procesadores TensorFlow y la forma en que se construye nuestra infraestructura, ahora hemos descubierto que podemos hacer manipulaciones de medios en tiempo real y, a veces, solo agregamos unos 20 milisegundos de retraso. Entonces este es el camino que hemos tomado.

Aquí está Robert Aichner, gerente de programa del grupo Microsoft Teams:

Gran parte del aprendizaje automático se lleva a cabo en la nube. Por ejemplo, para el reconocimiento de voz, hable al micrófono que se envía a la nube. La nube tiene una enorme cantidad de poder de cómputo, y luego ejecuta estos grandes modelos para reconocer su idioma. Como se trata de una comunicación en tiempo real, tengo que procesar cada cuadro por nosotros. Digamos que son 10 o 20 milisegundos. Tengo que procesar esto ahora dentro de este tiempo para poder enviárselo de inmediato. No puedo enviarlo a la nube, esperar la reducción de ruido y devolverlo.

Esta pregunta de latencia también plantea una pregunta de costo. Cada salto de red adicional aumenta la latencia y una gran cantidad de procesamiento del servidor para cada llamada aumenta los costos.

Lachapelle de Google a los siguientes costos:

Esto implica costos. Absolutamente. Sin embargo, en nuestro modelado, sentimos que esto movió la aguja tanto que tuvimos que hacerlo. E inicialmente ofreceremos esta función a nuestros clientes de pago de G Suite. Con suerte, si vemos cuánto se usa y seguimos mejorando, podemos hacer que sea accesible para un grupo cada vez mayor de usuarios.

Microsoft Aichner sobre costos:

Desea asegurarse de enviar tanta potencia informática al punto final del usuario, porque en realidad no hay costos involucrados. Ya tiene su computadora portátil, PC o teléfono móvil. Ahora hagamos un procesamiento adicional. Mientras no sobrecargues la CPU, eso debería estar bien.

Pero luego hay otros compromisos a considerar.

La Capilla de la Risa de Google sobre la velocidad:

Hacer esto sin ralentizar las cosas es muy importante, porque eso es lo que hace una gran parte de nuestro equipo: siempre tratar de optimizar todo para la velocidad. No podemos introducir funciones que ralenticen las cosas. Entonces, diría que probablemente sea más de la mitad del trabajo ajustar el código para obtenerlo lo más rápido posible. Más que construir el modelo, más que toda la parte de aprendizaje automático. Es como optimizar, optimizar, optimizar. Ese fue el obstáculo más difícil.

Microsoft Aichner sobre la duración de la batería:

Sí, duración de la batería, por supuesto, prestamos atención a eso. No queremos que tenga una duración de batería mucho más corta solo porque agregamos reducción de ruido. Este es definitivamente otro requisito que tenemos para el envío. Tenemos que asegurarnos de que no retrocedamos allí.

A primera vista, estos diferentes enfoques tienen sentido. Está justo ahí en el ADN de la compañía. Google nació en la era de Internet, mientras que Microsoft fue pionera en la era del software. Microsoft tradicionalmente se trata de software instalado localmente, Google se trata de aplicaciones alojadas en la nube. Esto es Microsoft Office en pocas palabras en comparación con G Suite.

Aún así, nunca es tan fácil. Claro, Office eclipsa a G Suite, pero Microsoft Azure tiene más éxito que Google Cloud. Google Chrome ahora ha ganado tanto que Edge ahora está basado en Chrome.

Pero estoy divagando. Al desarrollar el filtro de ruido para sus respectivas soluciones de videollamadas, Google y Microsoft decidieron utilizar diferentes enfoques. Google eligió la nube para brindar a todos la misma experiencia. Microsoft ha intentado brindar a todos la mejor experiencia posible, maldita sea la complejidad.

Tanto Lachapelle como Aichner reconocen que pueden tener que cambiar su enfoque dependiendo de cómo se introduce cada función. Es demasiado pronto para decir qué solución es superior o si hay un ganador. Sin embargo, si una de estas compañías renuncia, habrá un claro perdedor: ya sea en la nube o en la periferia.

ProBeat es una columna en la que Emil regaña todo lo que se cruza con él esta semana.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *