Synapse - Creación de Data Warehouse sin servidor

Reproducimos el caso de éxito de Afimilk publicado en el Blog de Azure Synapse Analytics porque pensamos que es interesante también para nuestro clientes.

Afimilk es un pequeño proveedor independiente de software (ISV) que ofrece soluciones para explotaciones lecheras para ayudar a los ganaderos a determinar el momento óptimo de inseminación de las vacas para aumentar la producción de leche. Se buscaba una forma rentable de recopilar datos de las explotaciones lecheras, limpiarlos y organizarlos, y permitir a los científicos de datos utilizarlos para construir mejores modelos.

Contenidos mostrar

Requisitos de Afimilk

Miles de fuentes de datos similares, con baja tasa de cambio
- Más de 3000 fuentes, con < 20 pequeños archivos diarios por ubicación
Rentable
- Utilizar computación sin servidor siempre que sea posible
- Utilizar repositorios de datos de bajo coste
- La frecuencia de actualización horaria es suficiente
Facilidad de operación, ya que el número de recursos puede aumentar, se requiere un modelo operativo sólido.

La solución: Un data warehouse sin servidor

Se creó una solución rentable abordando áreas de implementación como la construcción del entorno utilizando IaC (infraestructura como código), o el uso de acciones/actividades DevOps para desplegar la solución.

Tecnología

Pipelines de Synapse – orquestador
Azure Storage con soporte de espacio de nombres jerárquico – almacén de datos principal
Formato de datos – Parquet (los archivos originales eran archivos JSON – JavaScript Object Notation – comprimidos)
Azure Function – proporciona una solución rentable para el procesamiento de archivos individuales
Power BI – visualización de datos
DevOps – combinación de scripts de Bicep y acciones de GitHub

Solución tecnológica

Contenedor Bronce a Contenedor Plata

Actividad de copia: una actividad de copia leerá una tabla de control y se utilizará para mover los archivos sin procesar del contenedor bronce (bronze) al contenedor plata (silver). Ideal cuando no se aplica ninguna lógica de negocio.
Función Azure – Una función Azure leerá una tabla de control y se utilizará para mover los archivos no procesados en el contenedor bronce (bronze) al contenedor plata (silver) después de aplicar alguna lógica de negocio compleja.
Notebook – Igual que azure function pero ideal para grandes cantidades de datos.

De contenedor Plata al contendor Oro

Store Procedure – Se utilizará un procedimiento almacenado sin servidor para crear los resultados agregados.
Tablas externas – Se utilizarán tablas externas para crear los resultados agregados.

Puntos clave

Para minimizar los costes al utilizar Synapse o Azure Data Factory, es aconsejable evitar las actividades individuales (por archivo) y repartir los datos en un número mínimo de archivos más grandes (idealmente, de 200 MB o más).
Cuando se trabaja con muchos archivos pequeños, el rendimiento puede mejorar en plataformas como Databricks y Serverless SQL utilizando archivos más grandes.
Managed VNet (Virtual Network) Integration Runtime puede no ser la opción más eficiente o segura para todos los usuarios, especialmente para aquellos con un menor volumen de datos y actividades. En estos casos, hay que considerar la posibilidad de utilizar Integration Runtime autoalojado, que permite personalizar el tamaño de las VM (máquinas virtuales), las horas de funcionamiento y la postura de seguridad de la red.

FUENTE: Synapse – Creating a serverless Data Warehouse (Azure Fastrack team)

¿Quieres saber más sobre las soluciones de gestión empresarial de Microsoft? Pregúntanos y te lo contamos

Resume o comparte este contenido a través de:

ChatGPT Perplexity WhatsApp LinkedIn X Grok Google AI

Publicaciones Similares

Artículos DQS/

En D365FO, ¿es posible consultar las modificaciones realizadas en los permisos de los roles de usuario?
DQS/team Actualizada a14/02/2020

D365 FO cuenta con un potente módulo de auditoría que permite revisar los cambios realizados en roles y asignación a usuarios para controlar problemáticas eventuales. Estamos ante una forma de hacer mejor el seguimiento de las actividades realizadas y de poder mantener un mayor control de las acciones. El módulo de auditoría está presente a lo largo…

Leer más En D365FO, ¿es posible consultar las modificaciones realizadas en los permisos de los roles de usuario?
Artículos DQS/

Microsoft Teams, la mejor herramienta de Teletrabajo
DQS/team Actualizada a11/03/2020

Debido a la delicada situación actual que se está viviendo en todo el mundo, las empresas están ofreciendo la posibilidad de realizar teletrabajo a sus empleados. ¿Está tu empresa preparada para tus empleados hagan home office ? Desde DQS/ apoyamos esta fórmula de trabajo desde hace mucho tiempo. Para nosotros es esencial que tanto nuestros…

Leer más Microsoft Teams, la mejor herramienta de Teletrabajo
Artículos DQS/

Microsoft presenta las últimas novedades de Power BI
DQS/team Actualizada a17/10/2019

El pasado 10 de octubre tuvo lugar el Evento de Lanzamiento Virtual de Aplicaciones de Negocio de Microsoft. En él se desglosaban muchas de las novedades de la segunda ola de 2019 para Dynamics 365 y la Power Platform. Power BI ha incorporado nuevas características que presentan una plataforma más unificada para BI empresarial y…

Leer más Microsoft presenta las últimas novedades de Power BI

¡Bienvenid@! Te has suscrito correctamente a nuestros mailings. Prometemos solamente enviarte información relevante y de calidad.

INFORMACIÓN BÁSICA SOBRE PROTECCIÓN DE DATOS Responsable: Dynamics Quality Services Consulting Group S.L. Finalidad: Gestionar la solicitud que realizas en este formulario de contacto y envío de información comercial por email. Legitimación: Consentimiento del interesado. Destinatarios: No se cederán a terceros salvo obligación legal. Derechos: Puedes ejercitar en cualquier momento tus derechos de acceso, rectificación, supresión, oposición y demás derechos legalmente establecidos a través del siguiente e-mail: dqs@dqsconsulting.com. INFORMACIÓN ADICIONAL: Puedes consultar la información adicional y detallada sobre protección de datos aquí.

Synapse – Creación de Data Warehouse sin servidor

Requisitos de Afimilk

La solución: Un data warehouse sin servidor

Tecnología

Solución tecnológica

Contenedor Bronce a Contenedor Plata

De contenedor Plata al contendor Oro

Puntos clave

En D365FO, ¿es posible consultar las modificaciones realizadas en los permisos de los roles de usuario?

Microsoft Teams, la mejor herramienta de Teletrabajo

Microsoft presenta las últimas novedades de Power BI

¿Quieres recibir nuestras novedades y ofertas?

¡Bienvenid@! Te has suscrito correctamente a nuestros mailings. Prometemos solamente enviarte información relevante y de calidad.