Los investigadores afirman que las máscaras amortiguan el habla, pero no lo suficiente como para dificultar el reconocimiento de voz


Las organizaciones de salud, incluidos los Centros para el Control y la Prevención de Enfermedades de EE. UU., La Organización Mundial de la Salud y el Servicio Nacional de Salud del Reino Unido, abogan por el uso de máscaras para prevenir la propagación de infecciones. Sin embargo, las máscaras atenúan el habla, lo que afecta la precisión de los sistemas de reconocimiento de voz como Google Assistant, Alexa y Siri. Para cuantificar hasta qué punto los materiales de las máscaras afectan la acústica, los investigadores de la Universidad de Illinois realizaron un estudio que analizó un total de 12 tipos diferentes de cubiertas faciales. Descubrieron que las máscaras transparentes tenían la peor acústica en comparación con las máscaras médicas y las máscaras de tela, pero que la mayoría de las máscaras tenían "poco efecto" en los micrófonos de clip, lo que sugiere que los sistemas existentes pueden reconocer el habla amortiguada sin ningún problema.

Si bien esto es intuitivo, suponga que el habla deformada por máscara resultaría difícil para el reconocimiento de voz. La evidencia hasta ahora pinta una imagen mixta. La investigación publicada por el Educational Testing Service (ETS) encontró que, si bien hubo diferencias entre las grabaciones realizadas por los usuarios de máscaras y los que no usaron máscaras durante una prueba de inglés, el sesgo no resultó en desviaciones "significativas" en los puntajes de las pruebas automatizadas. En un estudio separado, científicos de la Universidad Duke Kunshan, Lenovo y la Universidad de Wuhan descubrieron que se puede entrenar un sistema de inteligencia artificial para usar el sonido de su discurso amortiguado para saber si alguien está usando una máscara.

Un portavoz de Google le dijo a VentureBeat que este no era el caso. Este ha sido un impacto medible en los sistemas de reconocimiento de voz de la empresa desde el comienzo de la pandemia, cuando el uso de máscaras se volvió cada vez más común. Amazon también dice que no ha visto un cambio en la precisión del reconocimiento de voz que se correlacione con el uso de la máscara.

Los investigadores de la Universidad de Illinois examinaron los efectos acústicos de una máscara quirúrgica de polipropileno, máscaras de protección respiratoria N95 y KN95, seis máscaras de tela hechas de diferentes tejidos, dos máscaras de tela con ventanas transparentes y un escudo de plástico. Tomaron medidas en un laboratorio "tratado acústicamente" con un altavoz en forma de cabeza y un voluntario humano con ambos micrófonos colocados en y cerca de las solapas, mejillas, frente y boca. (El altavoz con forma de cabeza de madera contrachapada utilizaba un controlador de dos pulgadas con un patrón similar al de un hablante humano). colocó el altavoz en un tocadiscos y lo giró para capturar diferentes ángulos de las máscaras probadas. Luego se le pidió al voluntario que hablara en tres incrementos de 30 segundos a volumen constante para cada máscara.

Los resultados muestran que la mayoría de las máscaras tenían "poco efecto" por debajo de una frecuencia de 1 kHz, pero se atenuaron en diferentes grados a frecuencias más altas. La mascarilla quirúrgica y el ventilador KN95 tuvieron una atenuación máxima de alrededor de 4 dB, mientras que el N95 se atenuó en alrededor de 6 dB a altas frecuencias. En el caso de las máscaras de tela, se descubrió que el material y el tejido eran variables clave: las máscaras hechas de 100% algodón se desempeñaron mejor, mientras que las máscaras hechas de tela vaquera y sábanas de tejido apretado obtuvieron los peores resultados. Máscaras transparentes bloqueadas a altas frecuencias entre 8 dB y 14 dB, lo que las convierte en las peores.

“Con todas las máscaras probadas, la atenuación del sonido fue más fuerte en la parte delantera. La transmisión de sonido hacia los lados y detrás del altavoz se vio menos afectada por las máscaras, y el escudo amplificó el sonido detrás del altavoz ”, describen los investigadores en un artículo. “Estos resultados sugieren que las máscaras pueden desviar la energía del sonido hacia los lados en lugar de absorberla. Por lo tanto, se pueden usar micrófonos unidos al costado de la máscara para amplificar el sonido. “

Los investigadores recomiendan evitar las máscaras hechas de algodón y elastano para lograr un habla más clara y nítida. Sin embargo, encuentran que las grabaciones están siendo captadas por la solapa El micrófono exhibió una atenuación "pequeña" y "uniforme", el tipo de atenuación que los sistemas de detección pueden corregir fácilmente. Por ejemplo, Amazon lanzó recientemente el modo Whisper para Alexa, que responde a la inteligencia artificial entrenada en un corpus de grabaciones de voz profesionales para responder al habla susurrada (es decir, de decibeles bajos) susurrando de vuelta. Un portavoz de Amazon no dijo si el modo Whisper se usa para mejorar el rendimiento del habla enmascarada, pero le dijo a VentureBeat que los equipos de ingeniería pueden reducir las relaciones señal / ruido de los sistemas de reconocimiento de voz de Alexa cuando los clientes usan máscaras con fluctuaciones en la confianza. a través de un canal de aprendizaje activo.

Suponiendo que los resultados resistan la revisión por pares de la Universidad de Illinois, definitivamente son un buen augurio para los altavoces inteligentes, las pantallas inteligentes y otros dispositivos inteligentes activados por voz. La próxima vez que levante su teléfono para llamar a Siri, no debería tener que dejar caer la máscara.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *