Esta inteligencia artificial sabelotodo aprende leyendo toda la web sin interrupciones


Este es un problema si se debe confiar en las IA. Es por eso que Diffbot adopta un enfoque diferente. Se crea una IA que lee todas las páginas de la web pública en varios idiomas y extrae tantos datos como sea posible de esas páginas.

Al igual que GPT-3, el sistema Diffbot aprende absorbiendo un gran número de personas. texto escrito que se encuentra en línea. Pero en lugar de utilizar esos datos para entrenar un modelo de lenguaje, Diffbot convierte lo que lee en una serie de factoides de tres partes que relacionan una cosa: sujeto, verbo, objeto.

Me referí a mi biografía, por ejemplo, Diffbot se entera de que Will Douglas Heaven es periodista; Will Douglas Heaven trabaja en MIT Technology Review; MIT Technology Review es una empresa de medios. y así. Cada uno de estos factores se fusiona con miles de millones de otros en una vasta red interconectada de hechos. Esto se conoce como gráfico de conocimiento.

Los gráficos de conocimiento no son nuevos. Han existido durante décadas y fueron un concepto fundamental en las primeras investigaciones de IA. Sin embargo, la construcción y el mantenimiento de los gráficos de conocimiento generalmente se han realizado a mano, lo cual es difícil. Esto también impidió que Tim Berners-Lee se diera cuenta de la llamada Web Semántica, que habría contenido información para máquinas y personas, para que los bots pudieran reservar nuestros vuelos, hacer nuestras compras o dar respuestas a preguntas más inteligentes que los motores de búsqueda.

Hace unos años, Google también comenzó a utilizar gráficos de conocimiento. Cuando busque "Katy Perry", aparecerá un cuadro junto a los resultados de búsqueda principales que indica que Katy Perry es una cantautora estadounidense cuya música está disponible en YouTube, Spotify y Deezer. Puede ver de un vistazo que está casada con Orlando Bloom, tiene 35 años y un valor de $ 125 millones. En lugar de brindarle una lista de enlaces a páginas sobre Katy Perry, Google le brinda un montón de datos sobre ella tomados del gráfico de conocimiento.

Sin embargo, Google solo hace esto para los términos de búsqueda más populares. Diffbot quiere hacerlo para todo. Al automatizar completamente el proceso de construcción, Diffbot pudo crear lo que posiblemente sea el diagrama de conocimiento más grande de la historia.

Junto con Google y Microsoft, Diffbot es una de las tres únicas empresas estadounidenses que rastrea toda la web pública. "Definitivamente tiene sentido rastrear la web", dijo Victoria Lin, científica de Salesforce que trabaja en el procesamiento del lenguaje natural y la representación del conocimiento. "De lo contrario, un gran esfuerzo humano puede resultar en la construcción de una gran base de conocimientos". Heiko Paulheim de la Universidad de Mannheim está de acuerdo: "La automatización es la única forma de crear gráficos de conocimiento a gran escala".

Super Surfer

Para recopilar hechos, la IA de Diffbot lee la web como un humano, pero mucho mas rapido. Usando una versión cargada del navegador Chrome, la IA mostrará los píxeles sin procesar de una página web y usará algoritmos de reconocimiento de imágenes para categorizar la página como uno de los 20 tipos diferentes que incluyen video, imagen, artículo, evento e hilo de discusión. Luego, los elementos importantes de la página, como el título, el autor, la descripción del producto o el precio, se identifican y extraen de cualquier texto utilizando datos de PNL.

Cada factoride de tres partes se agrega al diagrama de conocimiento. Diffbot extrae datos de páginas escritas en cualquier idioma, lo que significa que puede responder preguntas sobre Katy Perry, por ejemplo, utilizando datos de artículos en chino o árabe, incluso si no contienen el término “Katy Perry”.

Buscar en la web como un humano le permite a la IA ver los mismos hechos que nosotros. También significa que tuvo que aprender a navegar por Internet. La IA necesita desplazarse hacia abajo, cambiar entre pestañas y eliminar ventanas emergentes. "La IA tiene que jugar en la web como un videojuego solo para experimentar las páginas", dice Tung.

Diffbot rastrea la web continuamente y reconstruye su gráfico de conocimiento cada cuatro o cinco días. Según Tung, AI agrega de 100 a 150 millones de empresas cada mes a medida que surgen nuevas personas, se inician empresas y se lanzan productos en línea. Se están utilizando más algoritmos de aprendizaje automático para fusionar nuevos hechos con los antiguos, hacer nuevas conexiones o sobrescribir los obsoletos. Diffbot necesita agregar nuevo hardware a su centro de datos a medida que crece el gráfico de conocimiento.

Los investigadores pueden acceder al diagrama de conocimiento de Diffbot de forma gratuita. Diffbot también tiene alrededor de 400 clientes de pago. El motor de búsqueda DuckDuckGo lo usa para generar sus propias cajas similares a Google. Snapchat lo usa para extraer lo más destacado de los sitios de noticias. La popular aplicación de planificación de bodas Zola ayuda a crear listas de bodas y recopilar imágenes y precios. NASDAQ, que proporciona información sobre el mercado de valores, lo utiliza para la investigación financiera.

Zapatos falsificados

Adidas y Nike incluso los utilizan para buscar zapatos falsificados en Internet. Un motor de búsqueda muestra una larga lista de sitios web que mencionan zapatillas Nike. Sin embargo, Diffbot permite que estas empresas encuentren sitios web que realmente estén vendiendo sus zapatos y solo hablen de ellos.

Actualmente, estas empresas necesitan código para interactuar con Diffbot. Sin embargo, Tung planea agregar una interfaz de lenguaje natural. En última instancia, quiere construir lo que se llama un "sistema universal para responder preguntas fácticas": una IA que pueda responder casi cualquier cosa que preguntes, con fuentes que respalden su respuesta.

Tung y Lin coinciden en que este tipo de IA no se puede construir solo con modelos de lenguaje. Pero sería aún mejor combinar las tecnologías y usar un modelo de lenguaje como GPT-3 para crear una interfaz similar a la humana para un sabelotodo.

Pero incluso una IA cuyos hechos son claros, no es necesariamente sabia. "No estamos tratando de definir qué es la inteligencia ni nada", dice Tung. "Solo estamos tratando de construir algo útil".

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *