El problema con el reconocimiento de voz en el aula – TechCrunch


Antes de la pandemia, más del 40% de los nuevos usuarios de Internet eran niños. Se estima que los niños menores de 12 años han aumentado el tiempo de pantalla en un 60% o más y pasan menos de cinco horas al día frente a las pantallas (con todos los beneficios y peligros que conlleva).

Aunque la tecnología es fácil de maravillar, las habilidades de los nativos digitales, los educadores (y los padres) son dolorosamente conscientes de que los jóvenes "aprendices remotos" a menudo tienen dificultades para navegar por los teclados, menús e interfaces que necesario para cumplir la promesa de la tecnología educativa.

En este contexto, los asistentes digitales controlados por voz esperan una interacción más fluida con la tecnología. Pero mientras que a los niños les gusta pedirle a Alexa o Siri que toquen la caja de ritmos, que cuenten chistes o hagan ruidos de animales, los padres y maestros saben que estos sistemas tienen problemas para comprender a sus usuarios más jóvenes cuando se desvían de los requisitos predecibles.

El desafío surge del hecho de que el software de reconocimiento de voz que admite asistentes de voz populares como Alexa, Siri y Google nunca fue diseñado para niños, cuyas voces, lenguaje y comportamiento son mucho más complejos que los de los adultos.

No es sólo que las voces de los niños son más chirriantes, sus canales vocales son más delgados y más cortos, sus cuerdas vocales más pequeñas y su laringe aún no está completamente desarrollada. Esto conduce a patrones de habla muy diferentes a los de un niño mayor o un adulto.

En el gráfico siguiente, se puede ver fácilmente que el simple hecho de cambiar el tono de las voces adultas utilizadas para entrenar el reconocimiento del habla no reproduce la complejidad de la información requerida para comprender el habla de un niño. Las estructuras y patrones del lenguaje de los niños son muy diferentes. Dan saltos en sintaxis, pronunciación y gramática que deben ser tomados en cuenta por el componente de procesamiento del lenguaje natural de los sistemas de reconocimiento de voz. Esta complejidad se ve agravada por la variabilidad entre hablantes en niños en una variedad de diferentes etapas de desarrollo que no necesitan ser consideradas en el habla de adultos.

  Cambios en el tono con la edad

Cambiar el tono de las voces adultas utilizadas para entrenar el reconocimiento del habla no reproduce la complejidad de la información requerida para comprender el habla de un niño. Crédito de la foto: SoapBox Labs

El comportamiento del habla de un niño no solo es más variable que el de los adultos, también es muy impredecible. Los niños pronuncian palabras en exceso, alargan ciertas sílabas, insertan cada palabra cuando piensan en voz alta o se saltan algunas palabras por completo. Sus patrones de habla no están comprometidos con las cadencias habituales conocidas por los usuarios adultos. Como adultos, aprendimos cómo interactuar mejor con estos dispositivos y cómo provocar la mejor respuesta. Nos enderezamos, formulamos la solicitud en nuestras cabezas, la modificamos en función del comportamiento que hemos aprendido y expresamos nuestras solicitudes en voz alta, respiramos profundamente … "Alexa …" Los niños simplemente explotan sus solicitudes irreflexivas como si Siri o Alexa fueran humanos y suelen recibir una respuesta incorrecta o predefinida.

En un entorno educativo, estos desafíos se ven agravados por el hecho de que el reconocimiento de voz no solo lucha con el ruido ambiental y la imprevisibilidad del aula, sino también con los cambios en el habla de un niño a lo largo del año y la multitud de acentos y dialectos en uno. escuela primaria típica. Las diferencias físicas, lingüísticas y de comportamiento entre niños y adultos también aumentan drásticamente cuanto más joven es el niño. Esto significa que los estudiantes jóvenes que más se benefician del reconocimiento de voz son los más difíciles de construir para los desarrolladores.

Para tener en cuenta y comprender las muy diferentes peculiaridades del lenguaje infantil, se requieren sistemas de reconocimiento de voz que aprendan intencionalmente del reconocimiento de voz la forma en que hablan los niños. El lenguaje de los niños no puede tratarse como un acento o dialecto más para el reconocimiento de voz. Es fundamental y prácticamente diferente y cambia a medida que los niños crecen y se desarrollan, tanto física como verbalmente.

En contraste con la mayoría de los contextos de consumo, la precisión tiene un efecto profundo en los niños. Un sistema que le dice a un niño que está equivocado cuando tiene razón (falso negativo) daña su confianza. que les dice que si están equivocados (falso positivo) tienen razón, arriesgándose a sufrir daños socioemocionales (y psicométricos). En un entorno de entretenimiento, en aplicaciones, juegos, robótica y juguetes inteligentes, estos falsos negativos o positivos conducen a experiencias frustrantes. En las escuelas, los errores, los malentendidos o las respuestas empaquetadas pueden tener efectos mucho más profundos en la educación y la justicia.

Los prejuicios bien documentados en el reconocimiento de voz pueden, por ejemplo, tener efectos nocivos en los niños. Es inaceptable que un producto destinado a niños con un entorno demográfico o socioeconómico particular funcione con menor precisión y produzca falsos positivos y negativos. Un creciente cuerpo de investigación sugiere que la voz puede ser una interfaz extremadamente valiosa para los niños, pero no podemos permitir o ignorar que refuerza los prejuicios y las desigualdades ya endémicas en nuestras escuelas.

El reconocimiento de voz puede ser una herramienta poderosa para los niños en el hogar y en el aula. Puede llenar vacíos críticos para ayudar a los niños en las etapas de alfabetización y aprendizaje de idiomas, y ayudar a los niños a comprender mejor y ser comprendidos por el mundo que los rodea. Puede allanar el camino para una nueva era de medidas de observación "invisibles" que funcionan de manera confiable incluso en un entorno remoto. Sin embargo, la mayoría de las herramientas de reconocimiento de voz actuales no son adecuadas para este propósito. Siri, Alexa y otras tecnologías de asistentes de voz tienen un trabajo que hacer: comprender que los adultos hablan de manera clara y predecible, y en su mayor parte, hacen bien el trabajo. Para que el reconocimiento de voz funcione para los niños, se debe modelar y responder a sus voces, lenguaje y comportamiento únicos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *