AI Weekly: Conozca a las personas que están tratando de replicar OpenAIs GPT-3 y convertirlo en código abierto


EleutherAI

Según Leahy, EleutherAI comenzó como una «broma» en el Podcast de TPU, un servidor de aprendizaje automático de Discord, donde sugirió en broma que alguien intentara replicar GPT-3. Leahy, Gao y Black llevaron esto al extremo y crearon el servidor EleutherAI Discord que se convirtió en la base del negocio de la organización.

“Veo GPT-3 y otros resultados similares como una fuerte evidencia de que de hecho es posible obtener resultados [powerful models] con nada más que nuestras técnicas actuales ”, dijo Leahy a VentureBeat en una entrevista. «De hecho resulta muy, muy difícil, pero no imposible con un grupo de personas inteligentes, como ha demostrado EleutherAI, y por supuesto con acceso a cantidades inadecuadas de hardware».

Como parte de un proyecto personal, Leahy intentó anteriormente replicar GPT-2 usando el acceso a computadoras a través del programa TFRC (Tensorflow Research Cloud) de Google. La base de código original que se convirtió en GPT-Neo fue diseñada para ejecutarse en Unidades de procesamiento de tensor (TPU), los chips aceleradores de IA personalizados de Google. Sin embargo, el equipo de EleutherAI concluyó que incluso la generosa cantidad de TPU proporcionados a través de TFRC no sería suficiente para entrenar la versión similar a GPT-3 de GPT-Neo en menos de dos años.

GPT-Neo

El destino de EleutherAI cambió cuando CoreWeave, un minero de criptomonedas con sede en EE. UU. Que brinda servicios en la nube para cargas de trabajo de renderizado CGI y aprendizaje automático, se acercó a la empresa. El mes pasado, CoreWeave ofreció al equipo de EleutherAI acceso a su hardware a cambio de un modelo de código abierto similar al GPT-3 que sus clientes podrían usar y operar.

Leahy insiste en que el trabajo que comenzó en torno a la Navidad no incluye dinero ni ninguna otra compensación que vaya en cualquier sentido. «CoreWeave nos da acceso a su hardware. Estamos creando un GPT-3 de código abierto que cualquiera puede usar (y agradecerle en voz alta), y eso es todo», dijo.

Conjuntos de datos de entrenamiento

EleutherAI reconoce que GPT-Neo se desviará de él al menos en este sentido debido a la decisión de OpenAI de no publicar algunos detalles importantes de la arquitectura GPT-3. Otras diferencias pueden surgir del conjunto de datos de entrenamiento que EleutherAI quiere usar, que está curado por un equipo de 10 personas en EleutherAI, incluidos Leahy, Gao y Black.

Los modelos de lenguaje como GPT-3 a menudo amplifican la distorsión codificada en los datos. Algunos de los datos de entrenamiento a menudo provienen de comunidades con géneros, razas y prejuicios religiosos ubicuos. OpenAI señala que esto puede resultar en que palabras como «travieso» o «chupado» se coloquen cerca de pronombres femeninos y «Islam» cerca de palabras como «terrorismo». Otros estudios, como uno publicado en abril por Intel, MIT y el Instituto Canadiense de Investigación Avanzada (CIFAR), han encontrado altos niveles de sesgo estereotipado en algunos de los modelos más populares, incluidos BERT y XLNet de Google, OpenAIs GPT-2 y RoBERTa de Facebook. Los actores maliciosos podrían usar esta tendencia para alimentar la discordia al difundir información errónea, desinformación y mentiras descaradas que «radicalizan a las personas en ideologías y comportamientos violentos de derecha», según el Instituto de Estudios Internacionales de Middlebury.

El equipo de EleutherAI afirma que realizó un «análisis de sesgo completo» del conjunto de datos de entrenamiento de GPT-Neo y tomó «decisiones editoriales difíciles» para descartar algunos conjuntos de datos que creen que tienen «sesgos inaceptablemente negativos» hacia ciertos grupos o puntos de vista. La pila, como se le llama, es un corpus de 835 GB compuesto por 22 conjuntos de datos más pequeños que se combinan para garantizar amplias capacidades de generalización.

«Seguimos estudiando detenidamente cómo se comportan nuestros modelos en diferentes circunstancias y cómo podemos hacerlos más seguros», dijo Leahy.

Leahy personalmente no cree que lanzar un modelo como GPT-3 tenga un impacto negativo directo sobre la polarización. Un oponente que quiera generar opiniones extremistas encontraría mucho más barato y más fácil alquilar una granja de trolls, como ya lo han hecho los gobiernos autocráticos. Además, Leahy afirma que las discusiones sobre discriminación y prejuicio indican un problema real, pero no ofrecen una solución completa. En lugar de censurar los datos de entrada de un modelo, la comunidad de investigación de IA debe trabajar hacia sistemas que «puedan aprender todo lo que se pueda aprender sobre el mal y luego usar ese conocimiento para combatir el mal y obtener el bien».

GPT-Neo

«Creo que la comercialización de modelos GPT-3 es parte de una tendencia inevitable en la caída del precio de producir contenido digital atractivo que no tiene sentido descarrilar si lanzamos un modelo o no», continuó Leahy. “El mayor impacto que podemos tener aquí es brindar a más usuarios con escasos recursos, especialmente académicos, acceso a estas tecnologías, con suerte para estudiarlas mejor, y también hacer nuestra propia marca de investigación centrada en la seguridad en ellos en lugar de tenerlo todo encerrado laboratorios industriales. Después de todo, esta es una investigación aún actual. Problemas como la replicación de sesgos surgen naturalmente cuando dichos modelos se utilizan sin cambios en la producción sin la necesidad de una investigación más extensa, lo que con suerte veremos en la ciencia debido a la mejor disponibilidad de modelos. »

Google despidió recientemente al especialista en ética de inteligencia artificial Timnit Gebru, quien, según se informa, informó en parte sobre un artículo de investigación sobre modelos de lenguaje grandes que discutían riesgos como el impacto de su huella de carbono en las comunidades marginadas. Cuando se le preguntó sobre el impacto ambiental de la capacitación de GPT-Neo, Leahy caracterizó el argumento como una «pista falsa» y dijo que era una cuestión de si los objetivos justifican los medios, es decir, si la realización de la capacitación vale la pena. poner en él.

“La cantidad de energía utilizada para entrenar un modelo de este tipo es mucho menor que, por ejemplo, la cantidad de energía utilizada para proporcionar un sitio web de tamaño mediano o un solo vuelo transatlántico para presentar un documento sobre las emisiones de carbono de los modelos de IA en una conferencia o, Dios no lo quiera, la minería de Bitcoin ”, dijo Leahy. «Nadie se queja del proyecto de ley de energía del CERN (Organización Europea para la Investigación Nuclear) y tampoco creo que deba ser así».

Trabajo futuro

EleutherAI planea utilizar mejoras arquitectónicas que el equipo ha encontrado útiles en la formación de GPT-Neo. Supone que el modelo puede lograr un rendimiento similar al del GPT-3 por aproximadamente el mismo tamaño (aproximadamente 350 GB a 700 GB de peso). En el futuro, planean destilar el modelo final «en un orden de magnitud o algo más pequeño» para que sea más fácil sacar conclusiones. Y aunque no planean proporcionar ninguna API comercial, esperan que CoreWeave y otros configuren servicios para hacer que GPT-Neo sea accesible para los usuarios.

Para la próxima iteración de GPT y modelos complejos de tamaño similar como el parámetro Switch-C de un billón de dólares de Google, Leahy cree que la replicación probablemente será más difícil. Sin embargo, existe alguna evidencia de que las mejoras de eficiencia podrían compensar los requisitos de cálculo de montaje. Una encuesta de OpenAI encontró que desde 2012, el esfuerzo computacional requerido para entrenar un modelo de IA en las mismas imágenes de clasificación de rendimiento en un punto de referencia popular (ImageNet) se ha reducido en un factor de dos cada 16 meses. En qué medida la computación contribuye al rendimiento en comparación con los enfoques algorítmicos novedosos permanece abierto.

«Parece inevitable que los modelos sigan creciendo en tamaño a medida que aumenta el rendimiento», dijo Leahy. “Por supuesto, los modelos suficientemente grandes están fuera del alcance de los actores más pequeños, pero eso me parece una realidad. No parece haber otra alternativa. Cuando los modelos más grandes significan un mejor rendimiento, cualquiera que tenga la computadora más grande hará el modelo más grande y, por lo tanto, obtendrá el mejor rendimiento, es así de simple. Desearía que no lo fuera, pero realmente no hay nada que puedas hacer al respecto. »

Para obtener cobertura de IA, envíe consejos de noticias a Khari Johnson y Kyle Wiggers, así como al editor de IA Seth Colaner, y asegúrese de suscribirse al boletín informativo de AI Weekly y marcar nuestro canal de IA The Machine.

Gracias por leer,

Kyle Wiggers

Redactor de AI

VentureBeat

La misión de VentureBeat es ser una plaza de la ciudad digital para que los responsables de la toma de decisiones tecnológicas obtengan conocimientos sobre tecnología y transacciones transformadoras. Nuestro sitio web proporciona información importante sobre tecnologías y estrategias de datos para ayudarlo a administrar su negocio. Te invitamos a convertirte en miembro de nuestra comunidad y acceder a:

  • información actual sobre los temas de su interés
  • nuestros boletines
  • contenido privado de líderes de opinión y acceso con descuento a nuestros valiosos eventos como Transform
  • Funciones de red y más

conviértete en miembro

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *