MIT elimina 80 millones de pequeños registros de imágenes debido a contenido racista e inapropiado


Los creadores del conjunto de datos Tiny Images de 80 millones de MIT y NYU desconectaron la colección esta semana, se disculparon y pidieron a otros investigadores que no usaran el conjunto de datos y eliminaran las copias existentes. La noticia se publicó el lunes en una carta de los profesores del MIT Bill Freeman y Antonio Torralba y el profesor de la Universidad de Nueva York Rob Fergus, que se publicó en el sitio web del MIT CSAIL.

Recientemente se han encontrado 80 millones de imágenes pequeñas y contienen fotos que provienen de motores de búsqueda en Internet, una cantidad de etiquetas racistas, sexistas y ofensivas como casi 2,000 imágenes etiquetadas con la palabra N y etiquetas como "sospechoso de violación" y "abusador de niños" Contiene. El conjunto de datos también contenía contenido pornográfico, como fotos no consensuadas de faldas de mujeres. Los creadores del registro de imágenes de 79.3 millones dijeron que era demasiado grande y sus imágenes de 32 x 32 demasiado pequeñas, lo que dificulta la revisión visual de todo el contenido del registro. Según Google Scholar, se han citado 80 millones de imágenes pequeñas más de 1.700 veces.

Arriba: términos ofensivos en el conjunto de datos 80 millones de imágenes pequeñas

"Los prejuicios, las imágenes ofensivas y desventajosas y la terminología despectiva enajenan a una parte importante de nuestra comunidad, exactamente aquellas que queremos involucrar", escribieron los profesores en una carta conjunta. “También contribuye a los prejuicios perjudiciales en los sistemas de IA que están capacitados en dichos datos. Además, la presencia de tales imágenes adversas perjudica los esfuerzos para promover una cultura de inclusión en la comunidad de visión por computadora. Esto es extremadamente desafortunado y contradice los valores que queremos representar. "

El trío de profesores declaró que las deficiencias en el conjunto de datos fueron señaladas a su atención por un análisis y revisión (PDF) publicado por la Universidad de Dublín a finales del mes pasado Ph.D. Estudiante Abeba Birhane y Carnegie Mellon University Ph.D. Estudiante Vinay Prabhu. Los autores dicen que su evaluación es la primera crítica conocida de 80 millones de pequeñas imágenes.

VB Transform 2020 en línea – 15-17 Julio. Únase a los principales líderes de IA: regístrese para la transmisión en vivo gratuita.

Tanto los autores del artículo como los creadores de 80 millones de imágenes pequeñas dicen que parte del problema se debe a la recopilación automatizada de datos y a los sustantivos del conjunto de datos de WordNet para la jerarquía semántica. Antes de que el conjunto de datos se desconectara, los coautores sugirieron que se crearan 80 millones de imágenes pequeñas como lo hicieron los creadores de ImageNet, y evaluaron los subtítulos utilizados en la categoría de persona del conjunto de datos. El documento señala que los conjuntos de datos de imágenes de gran formato socavan la privacidad y pueden tener un impacto desproporcionado en las mujeres, las minorías raciales y étnicas y las comunidades marginadas.

Birhane y Prabhu afirman que la comunidad de visión por computadora debe comenzar a hacer esto. Las discusiones adicionales sobre el uso ético de los conjuntos de datos de imágenes grandes ahora se deben en parte a la creciente disponibilidad de herramientas de eliminación de imágenes y la tecnología de búsqueda de imágenes inversas. Citando trabajos anteriores, como el análisis Excavating AI de ImageNet, el análisis de grandes conjuntos de datos de imágenes muestra que no se trata solo de datos, sino de una cultura en la ciencia y la industria que considera aceptable crear grandes cantidades de datos sin el consentimiento el participante "disfrazado de anonimato".

"[W] e afirman que los problemas más profundos tienen sus raíces en las tradiciones estructurales más amplias, incentivos y discursos de un campo que trata las cuestiones éticas como una ocurrencia tardía. Un campo en la naturaleza a menudo es un eufemismo sin consentimiento Estamos tratando con un sistema que domina de manera demostrable las compras éticas, el blanqueo ético, el cabildeo ético, el dumping ético y la reticencia ética ", dice el documento.

Birhane y Prabhu sugieren:

  • Desenfoque los rostros de las personas en los registros.
  • No utilice material con licencia de Creative Commons.
  • Recopile imágenes con el claro consentimiento de los participantes registrados.
  • Agregue una tarjeta de verificación de registros con grandes imágenes los mapas modelo utilizados por Google AI y las hojas de datos para conjuntos de datos propuestos por Microsoft Research

El trabajo contiene el trabajo anterior de Birhane La ética relacional sugiere que los desarrolladores de sistemas de aprendizaje automático deberían comenzar a hablar con ImageNet, el más vulnerable, se lanzó en CVPR en 2009 y generalmente se considera importante para el avance de la visión por computadora y el aprendizaje automático. . Mientras que algunos de los conjuntos de datos más grandes solían contarse en decenas de miles, ImageNet contiene más de 14 millones de imágenes. El desafío de reconocimiento visual a gran escala de ImageNet se ejecutó de 2010 a 2017 y condujo a la fundación de una gran cantidad de nuevas empresas como Clarifai y MetaMind, una empresa de Salesforce adquirida en 2017. Según Google Scholar, ImageNet ha sido citado casi 17,000 veces.

Como parte de una serie de cambios que se detallaron en diciembre de 2019, los desarrolladores de ImageNet, incluido el autor principal Jia Deng y el Dr. Fei-Fei Li señala que 1.593 de las 2.832 categorías de personas en el conjunto de datos pueden contener marcas inapropiadas que les gustaría eliminar

"Estamos celebrando el rendimiento de ImageNet y reconociendo los esfuerzos de los desarrolladores para abordar algunos problemas éticos . Sin embargo, ImageNet y otros conjuntos de datos de imágenes grandes siguen siendo problemáticos ”, dice el artículo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *