Facebook acaba de lanzar una base de datos de 100,000 falsificaciones profundas para enseñar a la IA cómo reconocerlas
Las compañías de redes sociales temen que las falsificaciones profundas puedan inundar pronto sus sitios web. Sin embargo, es difícil reconocerlos automáticamente. Para resolver el problema, Facebook quiere usar la IA para defenderse de las falsificaciones generadas por la IA. Para entrenar a las IA para que reconozcan videos manipulados, se lanza el mayor conjunto de datos de Deepfakes hasta la fecha: más de 100,000 clips creados con 3,426 actores y una gama de técnicas de intercambio de caras existentes.
“Deepfakes actualmente no es un gran problema. Dice Mike Schroepfer, CTO de Facebook. “Pero la lección que aprendí por las malas en los últimos años es no quedar atrapado. Realmente quiero estar preparado para muchas cosas malas que nunca suceden y no al revés. “
Facebook también anunció al ganador de su Deepfake Detection Challenge, en el que 2,114 participantes enviaron alrededor de 35,000 modelos que recibieron capacitación sobre sus datos. El mejor modelo, desarrollado por Selim Seferbekov, ingeniero de aprendizaje automático de la empresa de mapeo Mapbox, pudo determinar si un video con una precisión del 65% era falso cuando se probó en 10,000 clips previamente invisibles, incluidos Una mezcla de nuevos videos creados por Facebook y los existentes desde Internet.
Para hacer las cosas más difíciles, el conjunto de entrenamiento y el conjunto de prueba contienen videos a través de los cuales se puede confundir un sistema de detección, p. B. Personas que dan tutoriales de maquillaje y videos que han sido optimizados Inserte texto y formas sobre las caras de los altavoces, cambie la resolución u orientación y disminuya la velocidad.
En lugar de aprender técnicas forenses, p. B. Búsqueda de huellas digitales en los píxeles de un video que se deja atrás por el proceso de generación de falsificaciones profundas. Las cinco mejores entradas parecen haber aprendido a reconocer cuándo algo "parecía" que un humano podría hacer.
Para lograr esto, todos los ganadores utilizaron un nuevo tipo de red neuronal convolucional (CNN) que fue desarrollado por investigadores de Google llamado EfficientNets el año pasado. Las CNN se usan comúnmente para analizar imágenes y pueden reconocer fácilmente rostros o reconocer objetos. Sin embargo, mejorar su precisión más allá de cierto punto puede requerir un ajuste fino ad hoc. EfficientNets ofrece una forma más estructurada para optimizar y facilitar el desarrollo de modelos más precisos. Pero exactamente qué hace que superen a otras redes neuronales en esta tarea no está claro, dice Seferbekov.
Facebook no planea usar ninguno de los modelos ganadores en su sitio web. Por un lado, una precisión del 65% aún no es lo suficientemente buena como para ser útil. Algunos modelos lograron más del 80% de precisión con los datos de entrenamiento, pero esto cayó cuando se colocó contra clips invisibles. Seferbekov dice que generalizar a nuevos videos que pueden contener diferentes caras que han sido intercambiadas usando diferentes técnicas es la parte más difícil del desafío.
Él cree que una forma de mejorar la detección es enfocarse en las transiciones entre imágenes de video y rastrearlas con el tiempo. "Incluso las falsificaciones profundas de muy alta calidad parpadean entre los cuadros", dice Seferbekov. Las personas son buenas para reconocer estas inconsistencias, especialmente al disparar caras. Sin embargo, la detección automática de estos errores reveladores requiere datos de entrenamiento más grandes y variados y mucha más potencia informática. Seferbekov intentó rastrear estas transiciones de trama, pero no pudo. "La CPU fue un verdadero cuello de botella", dice.
Facebook sugiere que la detección de falsificación profunda también se mejore a través de técnicas que van más allá del análisis de una imagen o video, p. B. Evaluación del contexto u origen.
Sam Gregory, quien dirige Witness, un proyecto que apoya a los defensores de los derechos humanos en el uso de la tecnología de video, agradece la inversión de las plataformas de redes sociales en la detección de falsificaciones. Witness es miembro de Partnership on AI, que asesoró a Facebook en su conjunto de datos. Gregory está de acuerdo con Schroeder en que vale la pena prepararse para lo peor. "Todavía no hemos tenido apocalipsis profundos, pero estas herramientas son una adición muy desagradable a la violencia de género y la desinformación", dice. Por ejemplo, el informe de DeepTrace Labs encontró que el 96% de las falsificaciones profundas eran pornografía no consensuada, donde las caras de otras personas se pegan sobre la cara del actor en clips porno.
Cuando millones de personas pueden crear y compartir videos, es más importante que nunca confiar en lo que vemos. Las noticias falsas se propagan como incendios forestales a través de Facebook, y la mera posibilidad de falsificaciones profundas plantea dudas, por lo que es más probable que cuestionemos tanto las imágenes reales como las falsas.
Además, la detección automática pronto podría ser nuestra única opción. "En el futuro veremos falsificaciones que los humanos no pueden distinguir", dice Seferbekov.