Construya una casa de lago de datos para evitar un pantano de datos


¿Te perdiste la transmisión en vivo de hoy? Eche un vistazo a la IA ahora en Edge & IoT Summit on demand.


En mi publicación anterior del blog, regañé un poco sobre las tecnologías de bases de datos y tuve algunas ideas sobre lo que creo que podría hacer un mejor sistema de datos. En esta publicación, hablaré un poco sobre el concepto de la casa del lago de datos.

El termino Casa del lago de datos ha estado circulando en el área de datos y análisis durante varios años. Describe un entorno que combina la estructura de datos y las funciones de gestión de datos de un almacén de datos con el almacenamiento escalable y rentable de un lago de datos. Los lagos de datos han avanzado en la separación del almacenamiento y la informática, pero no resuelven los problemas de gestión de datos (qué datos se almacenan dónde, etc.). Estos desafíos a menudo convierten un lago de datos en un pantano de datos. En otras palabras, el lago de datos conserva las ventajas de costo y flexibilidad de almacenar datos en un lago al tiempo que permite la aplicación de esquemas para subconjuntos de datos.

Profundicemos un poco más en el concepto de Lakehouse. Vemos la casa del lago como un desarrollo posterior del lago de datos. Y estas son las características que agrega arriba:

  1. Mutación de datos – Los lagos de datos a menudo se construyen sobre Hadoop o AWS, y tanto HDFS como S3 son inmutables. Esto significa que los datos no se pueden corregir. Esto también va acompañado del problema de la evolución del esquema. Hay dos enfoques aquí: copiar mientras se escribe y fusionar mientras se lee; probablemente lo exploraremos con más detalle en la próxima publicación del blog.
  2. Transacciones (ACID) / Lectura y escritura simultáneas – Una de las principales características de las bases de datos relacionales que nos ayuda con el paralelismo de lectura / escritura y por tanto la integridad de los datos.
  3. Viaje en el tiempo – Esta función de lata la proporciona la función de transacción. El Seehaus rastrea las versiones y, por lo tanto, permite un viaje en el tiempo en un conjunto de datos.
  4. Calidad de datos / cumplimiento de esquemas – La calidad de los datos tiene varias facetas, pero afecta principalmente a la aplicación de esquemas en el momento de la grabación. Por ejemplo, los datos ingeridos no deben contener columnas adicionales que no estén en el esquema de la tabla de destino y los tipos de datos de las columnas deben coincidir.
  5. Independencia de los formatos de almacenamiento Es importante si queremos admitir diferentes formatos de archivo, desde parquet hasta kudu, CSV o JSON.
  6. Admite lotes y transmisión (en tiempo real) – Existen muchos desafíos con la transmisión de datos. Por ejemplo, el problema de los datos desordenados, que la casa del lago de datos resuelve mediante marcas de agua. Otros desafíos son inherentes a algunas de las capas de almacenamiento, como el parquet, que solo funciona en lotes. Necesita confirmar su pila antes de poder leerla. Kudu también podría ayudar aquí, pero más sobre eso en la próxima publicación del blog.
Casa del lago de datos

Arriba: La evolución de la casa del lago de datos. Fuente: DataBricks

Si está interesado en la perspectiva del profesional de cómo el aumento de la carga de datos crea desafíos y cómo una gran empresa los resolvió, consulte el viaje de Uber que terminó con el desarrollo de Hudi, una capa de datos que incorpora la mayoría de las características anteriores en un Lakehouse. apoyos. Hablaremos más sobre Hudi en el próximo.

Esta historia apareció originalmente en Raffy.ch. Copyright 2021

VentureBeat

La misión de VentureBeat es ser un mercado digital para que los responsables de la toma de decisiones tecnológicas obtengan conocimientos sobre tecnologías y transacciones transformadoras. Nuestro sitio web proporciona información importante sobre tecnologías y estrategias de datos para ayudarlo a administrar su organización. Lo invitamos a convertirse en miembro de nuestra comunidad para obtener acceso:

  • información actual sobre los temas de su interés
  • nuestros boletines
  • contenido de liderazgo intelectual cerrado y acceso con descuento a nuestros valiosos eventos, como Transformar 2021: Aprende más
  • Funciones de red y más

conviértete en miembro

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *