Los investigadores descubren evidencia de sesgo de género en las principales API de visión por computadora


Las API de detección de rostros ofrecidas por Google, Microsoft e IBM exhiben sesgos de género cuando se prueban en autorretratos de personas que usan máscaras faciales parciales. Según los científicos de datos de la agencia de comunicaciones de marketing Wunderman Thompson, los servicios populares de visión por computadora como Cloud Vision API y Azure Cognitive Services Computer Vision han identificado con mayor frecuencia las máscaras usadas durante la pandemia como "cinta" y "accesorios de moda". en mujeres en lugar de "barbas" y "vello facial" en hombres.

Ilinca Barsan, directora de ciencia de datos en Wunderman Thompson, no buscó prejuicios en las API comerciales de reconocimiento facial. Había planeado desarrollar una herramienta que permitiera a los usuarios conectarse a miles de cámaras de calle en todo el país y determinar el porcentaje de peatones que usan máscaras en un momento dado. La API Cloud Vision de Google debe admitir el componente de reconocimiento de máscara de la herramienta y proporcionar subtítulos para los elementos de la imagen, así como valores de confianza para estos subtítulos.

Cuando Barsan subió una foto de sí mismo con una máscara para probar la precisión de la API de Cloud Vision, notó que una etiqueta inesperada – "cinta" – había aparecido con gran certeza (96.57%) estaba. (Un valor de confianza alto indica que el modelo cree que la etiqueta es muy relevante para la imagen). La aplicación de otra máscara de rubí dio un 87% de confianza para "cinta" y dejó caer la etiqueta de "máscara" – eso fue 73.92% – de la lista de etiquetas. Una máscara quirúrgica azul resultó nuevamente en "cinta adhesiva" con un valor de confianza del 66% y no pudo obtener la etiqueta de "máscara" por segunda vez.

Barsan tomó esto como una señal de sesgo dentro de los modelos de visión por computadora subyacentes a la API de Cloud Vision. Sospechaba que podían confiar en representaciones sexistas de mujeres en el conjunto de datos en el que fueron entrenadas, mujeres que pueden haber sido víctimas de violencia.

Esta no es una suposición inapropiada. Ya en 2015, un desarrollador de software señaló que los algoritmos de reconocimiento de imágenes en Google Photos describían a sus amigos negros como "gorilas". Un estudio realizado por la Universidad de Washington descubrió que las mujeres estaban significativamente subrepresentadas en las búsquedas de imágenes de Google para trabajos como "CEO". Más recientemente, el AlgorithmWatch sin fines de lucro ha demostrado que la API de Cloud Vision identifica automáticamente un termómetro en poder de una persona de piel oscura como un "arma", mientras que una imagen similar con una persona de piel clara está etiquetada como un "dispositivo electrónico".

En respuesta, Google dice que ajustó los valores de confianza para reflejar con mayor precisión cuando una pistola estaba en una foto. La compañía también ha eliminado la capacidad de marcar a las personas en imágenes usando la API de Cloud Vision como "hombre" o "mujer" porque los errores violaron el principio de inteligencia artificial de Google de no crear sistemas sesgados.

Para probar si la API de Cloud Vision podría clasificar la apariencia de manera diferente, los hombres con una máscara y las mujeres con una máscara usaban Barsan y las fotos de maquillaje del equipo de amigos y colegas que las agregaron a un conjunto de fotos en Internet. Los corpus finales consistieron en 265 imágenes de hombres con máscaras y 265 imágenes de mujeres con máscaras en diferentes contextos, desde imágenes al aire libre e instantáneas de oficina con máscaras de algodón DIY hasta imágenes de archivo y selfies de iPhone con respiradores N95.

 Cloud API Mask Bias

Según Barsan, Cloud Vision API de las 265 imágenes de hombres con máscaras identificó 36% correctamente como equipo de protección personal (EPP) y pareció establecer la asociación de que algo era la cara un hombre probablemente cubrió el vello facial (el 27% de las imágenes se denominó "vello facial"). Alrededor del 15% de las imágenes se clasificaron erróneamente como "cinta adhesiva" con un nivel de confianza promedio del 92%, lo que sugiere que esto podría ser un problema tanto para hombres como para mujeres. De las 265 imágenes de mujeres con máscaras, la API de Cloud Vision confundió el 28% con la cinta con un nivel de confianza promedio del 93%. El "PSA" se devolvió en el 19% de los casos y el "vello facial" en el 8% de los casos.

"Con casi el doble de hombres, la" cinta adhesiva "era la" mala suposición "más común para el marcado de máscaras. Dijo Barsan. “El modelo ciertamente hizo una suposición bien fundada. ¿Qué plantea la pregunta: a dónde fuiste exactamente a la escuela ? [

En una declaración a VentureBeat, Tracy Frey, directora de estrategia de producto en Cloud AI, dijo que Google contactó a Wunderman directamente para obtener más información sobre la investigación, la metodología y los resultados. "La equidad es uno de nuestros principios centrales de IA y estamos decididos a avanzar en esta área. Hemos estado trabajando en el desafío de reconocer con precisión los objetos durante varios años y continuaremos haciéndolo", dijo Frey. "El año pasado hemos desarrollado herramientas y conjuntos de datos que pueden identificar y reducir las distorsiones en los modelos de aprendizaje automático y los ofrecemos como código abierto a la comunidad en general para que sus comentarios puedan ayudarnos a mejorar ".

Google es esto no es el único proveedor con prejuicios obvios en sus modelos de visión por computadora. Después de probar la API de Cloud Vision, Barsan y su equipo ejecutaron el mismo conjunto de datos a través del servicio de reconocimiento visual Watson de IBM, que representaba el 23% de las imágenes de mujeres enmascaradas ( en comparación con el 10% de las imágenes de hombres) y la etiqueta "cadenas de retención" devolvió "mordaza" para el 23% (en comparación con el 10% de las imágenes masculinas) Además, Watson identificó correctamente el 12% de los hombres con máscaras, mientras que solo el 5% del tiempo era correcto para las mujeres.

Con respecto al nivel de confianza, el puntaje promedio de mordaza para las mujeres fue de alrededor del 79% en comparación con el 75% para los hombres, lo que sugiere que Watson Visual Recognition era más reacio a asignar estas etiquetas que eso API de Cloud Vision. IBM declinó hacer comentarios, pero tuvo problemas con la forma en que se compiló el conjunto de datos, y un portavoz dijo que la compañía está realizando pruebas para encontrar evidencia del sesgo que se dice que Barsan ha expuesto.

 Distorsión de máscara de API en la nube

En un experimento final, Barsan y sus colegas probaron la API Computer Vision de Microsoft para Azure Cognitive Services, que recibió una actualización hace dos años que se decía que Capacidad mejorada para reconocer el género en diferentes tonos de piel. El servicio se esforzó por etiquetar correctamente las máscaras en imágenes y etiquetó correctamente solo el 9% de las imágenes de hombres y el 5% de las imágenes de mujeres con una máscara. Azure Cognitive Services no identificó etiquetas como "cinta adhesiva", "gags" o "renuencia", pero identificó máscaras como "accesorios de moda" para el 40% de las imágenes de mujeres (contra solo el 13% de las imágenes de hombres). , como "lápiz labial" para el 14% de las imágenes de mujeres y como barba para el 12% de las imágenes de hombres.

Microsoft también declinó hacer comentarios.

"Con respecto a las becas de investigación o similares, es una forma de repetir un punto que se dijo", dijo Mike Cook, un investigador de IA con una beca para la Universidad Queen Mary en Londres que no participó en el trabajo de Facebook estaba involucrado con VentureBeat. "Pero es un punto interesante … He estado pensando mucho sobre el mito del" buen "registro. Honestamente, siento que algunas cosas simplemente no pueden esperar construir registros a su alrededor sin estar desesperadamente apretadas o sesgadas. Es muy bueno eliminar la etiqueta "man" de un registro. Sin embargo, ¿hay fotos de mujeres con vello facial u hombres con lápiz labial en este conjunto de datos? Probablemente no, porque el conjunto de datos refleja ciertas normas y expectativas que son cada vez más antiguas y menos relevantes. “

Barsan no cree que los resultados indiquen intenciones maliciosas de Google, IBM y Microsoft, pero dice que este es otro ejemplo del prejuicio que puede aparecer en los conjuntos y modelos de datos de aprendizaje automático desequilibrados. Tienen el potencial de mantener estereotipos dañinos que reflejan una cultura en la que la violencia contra las mujeres a menudo se normaliza y explota.

"Una simple búsqueda de imágenes para" hombre con cinta adhesiva "y" mujer con cinta adhesiva "en su mayoría (si no exclusivamente) mostró imágenes de hombres que participaron en bromas divertidas mientras participaban en bromas divertidas, mientras que las mujeres en su mayoría actuaron con cinta adhesiva en la boca, muchas de ellas claramente en necesidad ", dijo Barsan. “A lo largo de la línea, los tres modelos de visión por computadora se desempeñaron mal en la tarea en cuestión. Sin embargo, fueron consistentemente mejores para identificar hombres enmascarados que mujeres. "

 Sesgo de máscara de API en la nube

Esto ciertamente no es sorprendente en el contexto de Computer Vision, que numerosos estudios han demostrado ser susceptibles a sesgo. La investigación realizada por investigadores de Boulder en la Universidad de Colorado el otoño pasado mostró que la IA de Amazon, Clarifai, Microsoft y otros mantuvieron tasas de precisión superiores al 95% para hombres y mujeres cisgender, pero identificaron erróneamente a los transmen como mujeres en el 38% de los casos. Los puntos de referencia separados de los sistemas de los principales proveedores por el proyecto Gender Shades y el Instituto Nacional de Estándares y Tecnología (NIST) sugieren que la tecnología de reconocimiento facial tiene prejuicios racistas y específicos de género y que los programas de reconocimiento facial pueden ser extremadamente inexactos y clasificar erróneamente a las personas más del 96% de los encuestados Hora.

"Más allá de la limitación de daños y las soluciones de pavimentación, tenemos que trabajar diligentemente para asegurarnos de que la inteligencia artificial que construimos aproveche al máximo nuestra propia inteligencia natural", dijo Barsan. “Si queremos que nuestras máquinas funcionen correctamente y reflejen a la sociedad de manera responsable, debemos ayudarlas a comprender la dinámica social en la que vivimos, evitar que aumenten las desigualdades existentes a través de la automatización y, en su lugar, hacer que funcionen para siempre … Finalmente, queremos que nuestro analizador de cámaras de calle sugiera que el 56% de las personas en la calle están a salvo, no amordazadas ni restringidas. "

Barson luego aclaró por correo electrónico que el proyecto del analizador de levas en la calle era un" ejercicio hipotético interno "para dar retroalimentación a las personas en categorías de riesgo sobre lo seguro que podría ser ir a lugares públicos. Preocupada por las implicaciones de privacidad y dada la investigación parcial que realizó, Barson decidió no seguir adelante.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *