De la Teoría a la Práctica: Construyendo tu Primer Flujo de Datos End-to-End en Microsoft Fabric

Written by:

Microsoft Fabric se ha presentado como una plataforma de datos unificada. Sin embargo, su verdadero poder no reside en la cantidad de herramientas que ofrece. Más bien, se destaca en cómo se integran para dar forma a un método de trabajo coherente. Aprender a usarlo no va de pulsar botones al azar. Va de implantar un proceso que transforma datos brutos y desordenados en activos fiables y listos para el análisis.

En la reciente Clase 3 del curso de Ingeniería de Datos en Microsoft Fabric en NamasData, Walter Calcagno Lucares guió a los alumnos a través de este recorrido completo. La sesión se centró en construir un flujo de ingeniería de datos de principio a fin. Así, se demostró que con una arquitectura clara y las decisiones correctas, cualquier equipo puede lograr resultados medibles y sostenibles. Este es el resumen de ese método, una plantilla operativa que puedes aplicar en tus propios proyectos.

El Cimiento: Espacios de Trabajo y Arquitectura Lakehouse

Antes de mover un solo byte, el primer paso es establecer un entorno de trabajo ordenado. La clase comenzó con la creación de espacios de trabajo individuales para cada alumno. El motivo es fundamental para la gobernanza. Cada solución analítica debe vivir en su propio espacio. Allí, se gestionan permisos, se controlan costes y se evita el caos que surge cuando todos los proyectos se mezclan en un mismo lugar.

Contenido del artículo

Una vez configurado el espacio de trabajo, con su capacidad de Fabric asignada, se introduce la columna vertebral de la arquitectura: el Lakehouse. La metodología se basa en un enfoque por capas, una práctica estándar en la ingeniería de datos moderna:

  1. Capa Bronce (Bronze): Aquí es donde residen los datos en su estado más crudo, tal como llegan de las fuentes. En la clase, se creó un Lakehouse llamado “Bronze” que contenía los datos iniciales de temperaturas mínimas y máximas.
  2. Capa Plata (Silver): Esta capa almacena datos que ya han sido limpiados, validados y transformados en un modelo coherente, típicamente dimensional. Se creó un segundo Lakehouse, “Silver”, destinado a albergar las tablas de dimensiones y hechos curadas.
Contenido del artículo

Este enfoque por capas permite aislar problemas y mejorar la trazabilidad. Además, asegura que los analistas solo consuman datos que han pasado por un proceso de calidad.

El Puente Inteligente: Conectando Capas sin Duplicar Datos

Una de las preguntas más comunes es cómo mover datos de una capa a otra. La respuesta en Fabric, gracias a OneLake, no siempre es “copiarlos”. La clase demostró el uso de accesos directos (shortcuts). Desde el Lakehouse Silver, se creó un acceso directo a las tablas del Lakehouse Bronze.

Contenido del artículo

Esto es más que un simple truco; es un cambio de paradigma. El acceso directo permite que las herramientas que trabajan en la capa Silver (como los Notebooks o Dataflows) lean los datos de la capa Bronze como si fueran locales. Sin embargo, no se crea una segunda copia física. Esto mantiene una única fuente de verdad, reduciendo costes de almacenamiento y complejidad.

La Herramienta Adecuada para Cada Tarea: Notebooks vs. Dataflows

El núcleo del proceso de ingeniería es la transformación, y Fabric ofrece dos herramientas principales para ello. La clase demostró de forma práctica cuándo y por qué elegir cada una.

Contenido del artículo

1. Notebooks con Spark: Potencia y Flexibilidad para la Lógica Compleja Para crear la tabla de dimensión de tiempo (dim_tiempo), una tarea que requiere lógica para generar fechas, años, meses y otros atributos, se utilizó un Notebook de Spark. Walter destacó varias ventajas:

  • Rendimiento: Spark es un motor de procesamiento distribuido diseñado para manejar grandes volúmenes de datos de manera mucho más eficiente que otras herramientas.
  • Flexibilidad: Los Notebooks permiten combinar lenguajes. Aunque el entorno principal era PySpark, se demostró cómo ejecutar consultas SQL puras directamente dentro del código. Esto facilita la transición para quienes vienen de un mundo de bases de datos.
  • Lógica Avanzada: Tareas como la creación de columnas calculadas complejas o la aplicación de algoritmos específicos son mucho más sencillas en un entorno de código como este.

2. Dataflows (Power Query): Claridad para Transformaciones Declarativas Para crear la dimensión de estaciones (dim_estaciones), la tarea era más simple. Se procedió a leer una vista, cambiar el tipo de dato de una columna y guardar el resultado. Para esto, se utilizó un Dataflow Gen2. La elección se basó en:

  • Simplicidad y Accesibilidad: La interfaz gráfica de Power Query es familiar para millones de usuarios y permite construir flujos de transformación sin escribir código.
  • Mantenibilidad: Las reglas aplicadas son visibles como pasos en una lista. Esto facilita su comprensión y mantenimiento a largo plazo, especialmente para equipos con distintos niveles técnicos.
  • Capacidad de Escritura: A diferencia de los flujos de datos de Power BI, los Dataflows Gen2 en Fabric pueden escribir su salida directamente en un Lakehouse. Esto completa el ciclo ETL.
Contenido del artículo

La conclusión fue clara: usa Dataflows para transformaciones sencillas y repetibles; recurre a los Notebooks cuando necesites rendimiento a gran escala y lógica compleja.

Construyendo el Modelo: Tablas de Hechos y Agregaciones

Con las dimensiones listas, el siguiente paso fue crear las tablas de hechos en la capa Silver. Usando un Notebook, se unieron las tablas de temperaturas máximas y mínimas por estación y fecha para crear la tabla de hechos principal.

Contenido del artículo

Además, se demostró un paso crucial en el diseño de Data Warehouses: la creación de tablas de hechos agregadas. Se escribió un nuevo Notebook que leía la tabla de hechos diaria y creaba un resumen mensual. Esto promedia las temperaturas por estación y mes. Estas tablas pre-agregadas son vitales para el rendimiento. Así, los informes que solo necesitan vistas mensuales consultan un conjunto de datos mucho más pequeño, mejorando drásticamente la velocidad.

La Última Milla: El Modelo Semántico para el Consumo

Tener los datos limpios en el Lakehouse Silver es solo la mitad del trabajo. Para que los analistas de negocio puedan usarlos, necesitan una capa semántica que presente los datos de forma intuitiva.

Contenido del artículo

El paso final de la clase fue crear un modelo semántico directamente sobre el Lakehouse Silver. En esta interfaz, que es prácticamente idéntica a la vista de modelo de Power BI, se establecieron las relaciones entre la tabla de hechos y las tablas de dimensiones. Este modelo se convierte en la fuente de verdad certificada para cualquier informe de Power BI. Así, se asegura que todos en la organización trabajen con las mismas definiciones y cálculos.

Conclusión: Un Método, No un Mosaico de Herramientas

La clase demostró que el verdadero valor de Fabric emerge cuando se sigue un flujo de trabajo estructurado. No se trata de saltar de una herramienta a otra. Es importante entender cómo cada una contribuye a un objetivo mayor: convertir datos crudos en conocimiento fiable.

El recorrido, desde la arquitectura en capas hasta el modelo semántico final, proporciona una hoja de ruta clara. Al elegir la herramienta adecuada para cada etapa, se aprovechan los shortcuts para evitar la duplicación. Así, al organizar el trabajo en capas lógicas, se construye una solución que no solo funciona en una demo. Esta solución es robusta, mantenible y escalable. Esa es la diferencia entre un experimento de datos y una verdadera solución empresarial.

Si este resumen te ha ayudado a ver el mapa con más nitidez, tienes dos caminos igual de válidos según tu punto de partida. Si quieres una ruta guiada y ordenada, podrás llevar conceptos a proyectos reales que se mantienen en el tiempo. Aquí tienes el curso de Ingeniería de Datos en Microsoft Fabric de Namasdata: https://www.namasdata.com/pages/curso-de-ingenier%C3%ADa-de-datos-en-microsoft-fabric

Si necesitas calibrar tu nivel antes de dar el salto y prefieres una recomendación inmediata de siguiente paso, haz el Test de Nivel de Namasdata. En dos minutos tendrás una hoja de ruta inicial: https://test-nivel-namasdata.scoreapp.com/

Puedes leer aquí más artículos como este: https://blog.alexayala.es/category/fabric/

Deja un comentario

Descubre más desde Blog de Alex Ayala

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo