Con la IA de Google, los usuarios pueden buscar bases de conocimientos independientes del idioma en su idioma nativo.


Vincular entidades juega un papel clave en una sólida comprensión del lenguaje. Cuando un texto menciona una entidad (por ejemplo, la palabra «útil»), un algoritmo identifica la entrada correspondiente de la entidad en una base de conocimientos (por ejemplo, un artículo de Wikipedia). Para ampliar su utilidad, los investigadores de Google están proponiendo una nueva técnica en la que las menciones específicas del idioma se resuelven en un idioma.agnóstico Base de conocimientos. Describen un modelo de recuperación de entidad única que cubre más de 100 idiomas y 20 millones de entidades, y supuestamente supera las tareas multilingües más limitadas.

Al vincular entidades multilingües, un extracto de texto se vincula en un contexto determinado con la entidad correspondiente en una base de conocimientos independiente del idioma. Las bases de conocimiento son esencialmente bases de datos que contienen información sobre entidades: personas, lugares y cosas. En 2012, Google lanzó una base de conocimientos, el Gráfico de conocimiento, para mejorar los resultados de búsqueda con cientos de miles de millones de hechos tomados de fuentes como Wikipedia, Wikidata y el CIA World Factbook. Microsoft proporciona una base de conocimientos de más de 150.000 artículos creados por profesionales de soporte que han resuelto problemas para sus clientes.

Las bases de conocimientos para vincular entidades multilingües pueden contener información textual, como nombres y descripciones de cada entidad en uno o más idiomas. Sin embargo, no hacen ninguna suposición previa sobre la relación entre estos lenguajes de la base de conocimientos y el idioma de la página de menciones.

Los investigadores de Google utilizaron los llamados modelos avanzados de recuperación de codificador dual y WikiData como una base de conocimientos que captura una gran cantidad de entidades diferentes. WikiData contiene nombres y descripciones breves, pero a través de su estrecha integración con todas las ediciones de Wikipedia, también conecta entidades con descripciones extensas (y otras funciones) que provienen de las páginas de Wikipedia específicas del idioma correspondiente.

Modelo de entidad de Google

Los investigadores extrajeron un gran conjunto de datos de 684 millones de menciones en 104 idiomas asociados con entidades de WikiData. Dicen que esto es al menos seis veces más grande que los registros utilizados en trabajos de unión anteriores solo en inglés. Además, los coautores crearon un conjunto de datos coincidente, Mewsli-9, que abarca una variedad de idiomas y entidades, incluidas 289.087 menciones de entidades que aparecen en 58.717 artículos de noticias de WikiNews. (Solo el 11% de las 82.162 entidades objetivo diferentes en Mewsli-9 no tienen páginas de Wikipedia en inglés, lo que establece un límite superior en los sistemas que se centran en entidades de Wikipedia en inglés).

Los investigadores dicen que los resultados muestran que las entidades vinculadas pueden reflejar mejor los desafíos del mundo real de entidades raras y / o lenguajes con pocos recursos. «Nuestros experimentos, realizados a través de Wikipedia y WikiData, utilizando modelos mejorados de recuperación de codificador dual y evaluaciones basadas en frecuencia, proporcionan evidencia convincente de que es posible hacer esto con un solo modelo que cubre más de 100 idiomas», escribe tú. «Nuestro conjunto de datos Mewsli-9 extraído automáticamente sirve como punto de partida para evaluar el vínculo de la entidad más allá de los puntos de referencia en inglés firmemente anclados y bajo el entorno multilingüe extendido».

Sin embargo, no está claro si los modelos de los investigadores tienen un sesgo demográfico. En un artículo publicado a principios de este año, los investigadores de Twitter dijeron que encontraron evidencia de prejuicio en modelos populares para reconocer entidades nombradas, particularmente con respecto a los nombres negros y otros «no blancos». Sin embargo, los coautores de Google dejan la puerta abierta para emplear evaluadores humanos sin experiencia para mejorar la calidad del conjunto de datos de capacitación e incorporar el conocimiento relacional.


Cómo las empresas emergentes escalan la comunicación:

La pandemia está haciendo que las nuevas empresas analicen más de cerca sus soluciones de comunicación. Aprender cómo


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *