¿Qué es una base de datos de gestión de registros?


Asiste a la GamesBeat Summit 2021 del 28 al 29 de abril. Regístrese hoy para obtener un pase VIP o gratis.


Cuando Sócrates supuestamente dijo que «no vale la pena vivir una vida no probada», el filósofo griego no imaginó la Internet moderna con su capacidad aparentemente ilimitada para recibir datos. Cada clic del mouse, cada vista de página y cada evento parece terminar en algún lugar de un archivo de registro. El gran volumen de esta información hace que hacer malabarismos con toda esta información sea un desafío en el que realmente destaca una base de datos de administración de registros.

Recopilar información es una cosa; analizarlo es mucho más difícil. Sin embargo, muchos modelos comerciales dependen de encontrar patrones y comprender el flujo de clics para obtener una ventaja y justificar sus márgenes. La base de datos de registros debe recopilar los datos y calcular estadísticas importantes. Los sistemas modernos suelen estar estrechamente acoplados con software de presentación que convierte los datos en una infografía visual.

¿Qué es una base de datos de gestión de registros?

Las bases de datos de gestión de registros son casos especiales de bases de datos de series de tiempo. La información llega en un flujo constante de eventos ordenados y se registra en los archivos de registro. Si bien muchas aplicaciones web generalmente se enfocan en eventos web como visitas a páginas o clics del mouse, no hay ninguna razón por la que las bases de datos deban limitarse solo a ese dominio. Se puede analizar cualquier secuencia de eventos, p. B. Eventos de líneas de montaje, plantas industriales y manufactura.

Por ejemplo, una serie de archivos de registro puede rastrear una línea de ensamblaje y rastrear un artículo a medida que alcanza diferentes etapas en la tubería. El resultado puede ser tan simple como determinar cuándo se completa una fase, o puede incluir datos adicionales sobre el ajuste que se realizó en ese momento, como la cantidad de veces que se completó. B. el color de la pintura o el tamaño. Cuando las cosas van bien, muchos eventos son rutinarios y memorables. Sin embargo, si algo sale mal, los registros pueden ayudar a diagnosticar qué fase falló. Cuando los productos deben desecharse o inspeccionarse en busca de defectos, los registros pueden limitar este trabajo.

Hace décadas, surgieron herramientas de procesamiento de registros especializadas, y muchas se enfocaron simplemente en crear informes que agregaran datos para proporcionar una descripción general estadística. Contaron eventos por día, semana o mes y luego crearon estadísticas sobre promedios, máximos y mínimos. Las herramientas más nuevas ofrecen la posibilidad de encontrar y reportar rápidamente campos individuales como la dirección IP o el nombre de la cuenta. Puede localizar palabras o frases específicas en los campos y buscar valores numéricos.

¿Cuáles son los desafíos en la creación de una base de datos de registros?

Los datos históricos a menudo se denominan «cardinalidad alta», lo que significa que los campos pueden contener muchos valores diferentes. De hecho, el valor de cada marca de tiempo cambia constantemente. Las bases de datos históricas usan algoritmos para crear índices para encontrar valores específicos y optimizar esos índices en una amplia variedad de valores.

Las buenas bases de datos de registros pueden administrar archivos para almacenar algunos datos y eliminar otros datos. También puede hacer cumplir una política de retención desarrollada por las oficinas de cumplimiento para responder cualquier pregunta legal y luego destruir los datos para ahorrar dinero cuando ya no sean necesarios. Algunos sistemas de análisis históricos pueden mantener resúmenes estadísticos o métricas agregadas sobre datos heredados.

¿Cómo se acercan al mercado las bases de datos heredadas?

Las empresas de bases de datos tradicionales generalmente no se han centrado en proporcionar una herramienta de almacenamiento de registros porque las bases de datos relacionales tradicionales no combinan bien con el tipo de datos de alta cardinalidad que se escriben con mucha más frecuencia de la que se buscan. El costo de crear el índice, que es la oferta principal de una base de datos relacional, a menudo no vale la pena para grandes colecciones de registros porque simplemente no habrá suficientes JOIN en el futuro. Las series de tiempo y las bases de datos históricas generalmente evitan el uso de bases de datos relacionales regulares para almacenar información sin procesar, pero pueden almacenar algunos de los resúmenes estadísticos generados a lo largo del camino.

Por ejemplo, QRadar de IBM es un producto que se puede utilizar para detectar comportamientos sospechosos en los archivos de registro. La base de datos que contiene se centra en encontrar anomalías estadísticas. User Behavior Analytics (UBA) crea modelos de comportamiento y monitorea las salidas.

Oracle ofrece un servicio llamado Oracle Cloud Infrastructure Logging Analytics que puede absorber, indexar y aplicar algunos algoritmos de aprendizaje automático de múltiples fuentes en la nube. Surgirán problemas que van desde un rendimiento deficiente hasta brechas de seguridad. Al analizar los archivos de registro, los datos también se pueden clasificar de acuerdo con las reglas de cumplimiento y, si es necesario, guardarlos para el futuro.

Microsoft Monitor también recopila archivos de registro y telemetría de toda la nube de Azure. La empresa ofrece una amplia gama de análisis. Una API de SQL es un ejemplo de un servicio adaptado a las necesidades de los administradores de bases de datos que supervisan los archivos de registro de Microsoft SQL Server.

¿Quiénes son los advenedizos?

Varias bases de datos de registros se basan en Lucene, un popular proyecto de código abierto para crear motores de búsqueda de texto completo. Si bien fue diseñado originalmente para buscar palabras o frases específicas en grandes bloques de texto, también puede dividir valores en diferentes campos para que funcione como una base de datos.

Elastic es una empresa que ofrece una herramienta que permite iniciar múltiples versiones de Lucene en diferentes motores para que escale automáticamente a medida que aumenta la carga. La empresa lo está agrupando con otros dos proyectos de código abierto, LogStash y Kibana, para crear lo que se conoce como «pila ELK». LogStash extrae los datos de los archivos de registro sin procesar a la base de datos elástica mientras Kibana analiza los resultados.

La función de análisis de registros de Amazon también se basa en las herramientas de código abierto Elasticsearch, Kibana y LogStash y se especializa en implementar y dar soporte a las herramientas en las computadoras en la nube de AWS. AWS y Elastic se separaron recientemente, por lo que puede haber diferencias en versiones futuras.

Loggly y LogDNA son otras dos herramientas que se basan en Lucene. Se integran con la mayoría de los formatos de archivo de registro y realizan un seguimiento del uso a lo largo del tiempo para identificar problemas de rendimiento y posibles vulnerabilidades de seguridad.

No todas las empresas confían en Lucene, también porque la herramienta contiene muchas funciones para la búsqueda de texto completo que no son tan importantes para el procesamiento de registros, y estas funciones generan trabajo adicional. Sumo Logic, otra empresa de seguimiento del rendimiento, recopila registros con su propia versión de SQL para consultar la base de datos.

Splunk ha creado su propia base de datos para almacenar información de registro. Clientes que trabajan directamente con las aplicaciones que se utilizarán para automatizar las tareas de supervisión, p. Ej. B. Después de servidores sobrecargados o patrones de acceso inusuales, que podrían indicar una violación, generalmente no use la base de datos. La base de datos de Splunk se utiliza para curar los índices y archivarlos lentamente a lo largo del tiempo.

EraDB ofrece una base de datos diferente con un núcleo diferente pero la misma API que Elastic. Promete una ingesta y análisis más rápidos, ya que su motor está diseñado específicamente para manejar archivos de registro de alta cardinalidad sin la sobrecarga que podría ser útil para búsquedas de texto.

¿Hay algo que una base de datos de registros no pueda hacer?

Las bases de datos de registros son ideales para flujos interminables de eventos con valores variables. Pero no todas las fuentes de datos están llenas de campos con cardinalidad alta. Aquellos con valores repetidos con frecuencia pueden encontrar cierta reducción en la memoria de una estructura tabular más tradicional que puede ahorrar espacio.

Los sistemas de protocolo basados ​​en motores de búsqueda de texto como Lucene también pueden proporcionar funciones adicionales que no son necesarias para muchas aplicaciones. Por ejemplo, en una línea de montaje hipotética, hay poca necesidad de buscar cadenas o palabras arbitrarias. El soporte de la capacidad de buscar cualquier texto requiere índices más complejos, cuyo cálculo lleva algún tiempo y cuyo espacio de almacenamiento requiere espacio de almacenamiento.

Este artículo es parte de una serie sobre tendencias de tecnología de bases de datos empresariales.

VentureBeat

La misión de VentureBeat es ser una plaza de la ciudad digital para que los responsables de la toma de decisiones tecnológicas obtengan conocimientos sobre la tecnología y las transacciones transformadoras. Nuestro sitio web proporciona información importante sobre tecnologías y estrategias de datos para ayudarlo a administrar su negocio. Te invitamos a convertirte en miembro de nuestra comunidad y acceder a:

  • información actual sobre los temas de su interés
  • nuestros boletines
  • contenido privado de líderes de opinión y acceso con descuento a nuestros valiosos eventos, como Transformar 2021: Aprende más
  • Funciones de red y más

conviértete en miembro

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *