Continúa el debate sobre la precisión de los servicios de transcripción de IA


Asista a Transform 2021 para conocer los temas clave en IA y datos empresariales. Aprende más.


Los proveedores de servicios de transcripción continúan proporcionando información sobre su IA, pero en ausencia de puntos de referencia formales de procesamiento del lenguaje natural (NLP), la mayor parte de esta información carece del contexto necesario para comparar con precisión manzanas con manzanas.

Por ejemplo, Dialpad anunció recientemente que su tecnología Voice Intelligence AI superó a la competencia en términos de palabras clave y precisión general. Además de Google, IBM, Microsoft, Cisco, Chorus.ai, Otter.ai, Avaya, Zoom y Amazon Web Services (AWS), Dialpad ofrece a los usuarios finales funciones de reconocimiento automático de voz (ASR) y NLP que se pueden aplicar a la voz. llamadas y videoconferencias en tiempo real.

Un análisis general de precisión de palabras y palabras clave publicado por Dialpad indica que logró una calificación de precisión de palabras del 82,3% y una calificación de precisión de palabras clave del 92,5%. Esto equivale al 79,8% para la precisión de las palabras y al 90,9% para el servicio mejorado de Google. Sin embargo, ninguno de los servicios está calificado por un evaluador independiente con las mismas palabras y palabras clave que se ejecutan al mismo tiempo y se dicen exactamente de la misma manera. Dialpad creó una colección de oraciones de prueba que incluyen audio y la transcripción adjunta, que se considera la «verdad básica» de lo que se dijo en el audio. La compañía envió el audio a cada servicio calificado y recibió una transcripción que luego lo comparó con la verdad básica. Luego, el teclado de marcación calculó el número de errores para determinar un porcentaje de precisión.

A pesar de estos esfuerzos, aún puede ser difícil llegar a una conclusión final sobre la precisión de un ASR sobre otro para ciertos casos de uso. Se ha trabajado para establecer una serie de puntos de referencia, como los esfuerzos de Evaluación de comprensión del lenguaje general (GLUE), que están diseñados para evaluar las ASR en función de la precisión en el contexto de una oración. También hay iniciativas como Fisher y Switchboard para crear conjuntos de datos estándar para que los científicos evalúen los sistemas ASR. Sin embargo, hasta ahora no ha surgido un consenso de referencia. Incluso cuando se alcanza ese consenso, la jerga varía según las industrias. Los servicios de transcripción de IA, utilizados, por ejemplo, en la asistencia sanitaria, necesitan formación para comprender la nomenclatura específica.

No está tan claro hasta qué punto estas afirmaciones pueden influir en la decisión de estandarizar los servicios de transcripción. En cuanto a los servicios de transcripción, todavía es temprano, por lo que la mayoría de las expectativas de los usuarios finales no son demasiado altas, dijo Zeus Kerravala, fundador y analista principal de ZK Research. «Muchos usuarios finales esperan errores en esta etapa», dijo Kerravala.

Dialpad asume que la integración de funciones ASR en una plataforma de comunicación se está volviendo gradualmente superior a los enfoques basados ​​en API (interfaces de programación de aplicaciones) para acceder a un servicio de voz y texto de un proveedor de servicios en la nube. La compañía adquirió TalkIQ en 2018, lo que le permitió integrar estas capacidades como un conjunto de microservicios que se ejecutan de forma nativa en sus plataformas de comunicación centrales, dijo Craig Walker, CEO de Dialpad.

Después de actualizar continuamente su plataforma durante los últimos años, la compañía ahora ha analizado más de mil millones de minutos de llamadas de voz, dijo Walker. Cada una de estas llamadas ha permitido que la tecnología Voice AI patentada de TalkIQ transcriba conversaciones con mayor precisión y realice análisis de sentimientos en tiempo real. Por ejemplo, la plataforma Dialpad Contact Center puede detectar cuándo el estado de ánimo se vuelve negativo durante una llamada y alertar a un gerente. «Se convierte en parte del flujo de trabajo», dijo Walker.

Las empresas también pueden crear su propio diccionario personalizado de términos, y la plataforma de inteligencia artificial de Voice Intelligence aprende a manejar casos de uso que solo pueden aplicarse a una industria o un léxico que solo se usa en una región específica, dijo Walker.

No está claro hasta qué punto las organizaciones califican la precisión como criterio para elegir una plataforma de IA conversacional sobre otra. Avaya y otros competidores emplean una combinación de motores de inteligencia artificial desarrollados internamente con servicios que llaman a sus plataformas externamente a través de una API. Sin embargo, Walker dijo que se seguirá viendo que los motores de IA conversacionales que se ejecutan de forma nativa dentro de una plataforma no solo son más eficientes sino también más baratos de implementar al reducir en gran medida el esfuerzo requerido para la integración del sistema. No es necesario configurar las API primero y luego esperar para invocar un servicio de nube externo, dijo Walker.

Independientemente de la plataforma utilizada, el nivel de extracción de datos para llamadas de voz en tiempo real aumentará significativamente. Anteriormente, la minería de datos solo se podía aplicar después de que una llamada se grababa y traducía a texto. A continuación, se generaría un informe de análisis de opiniones mucho después de que finalizara la primera llamada o videoconferencia.

Es probable que el hecho de que las llamadas de voz se analicen ahora en tiempo real tenga un impacto profundo en la forma en que las personas interactúan entre sí. En muchos casos, una de las razones por las que las personas todavía prefieren hacer llamadas de voz en lugar de enviar un correo electrónico es que no quieren que se grabe el contenido de esas comunicaciones.

Independientemente de la intención, sin embargo, los días en que las llamadas de voz estaban excluidas del nivel de análisis ya aplicado a otros medios de comunicación están claramente llegando a su fin.

VentureBeat

La misión de VentureBeat es ser una plaza de la ciudad digital para que los responsables de la toma de decisiones tecnológicas obtengan conocimientos sobre la tecnología y las transacciones transformadoras. Nuestro sitio web proporciona información importante sobre tecnologías y estrategias de datos para ayudarlo a administrar su negocio. Te invitamos a convertirte en miembro de nuestra comunidad y acceder a:

  • información actual sobre los temas de su interés
  • nuestros boletines
  • contenido privado de líderes de opinión y acceso con descuento a nuestros valiosos eventos, como Transformar 2021: Aprende más
  • Funciones de red y más

conviértete en miembro

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *