Unificar datos de Mercado Libre y Shopify en BigQuery en 2026 se hace con stack ELT: Airbyte para extracción y carga, BigQuery como warehouse, dbt para transformación con capas Bronze Silver Gold, y Metabase o Looker Studio para visualización. El patrón correcto: capa Bronze recibe datos crudos por API, capa Silver normaliza productos, órdenes y clientes con identificadores únicos cross channel, capa Gold agrega KPIs (margen por canal, productos top, sell through rate). Costo operacional típico 200 a 800 USD al mes para pyme mediana. Setup técnico en 1 a 3 semanas, modelado dbt completo en 4 a 8 semanas. Sin retainers, sin licencias atadas cuando el código es tuyo.
Si tienes ventas en Mercado Libre y Shopify y nadie en tu pyme sabe cuál canal vende más margen real, esta guía te da el patrón ganador.
El stack ELT canónico
| Capa | Herramienta | Costo mensual |
|---|---|---|
| Extracción Mercado Libre | Airbyte connector ML | 0 USD (self hosted) |
| Extracción Shopify | Airbyte connector Shopify | 0 USD |
| Warehouse | BigQuery | 50 a 300 USD según volumen |
| Transformación | dbt Core (gratis) | 0 USD |
| Orquestación | Airflow o Cloud Composer | 0 a 200 USD |
| Visualización | Metabase o Looker Studio | 0 a 50 USD |
| Total típico | 200 a 800 USD |
Paso 1: Configurar Airbyte para Mercado Libre
Mercado Libre tiene API REST documentada en api.mercadolibre.com con sites por país (MLM México, MLA Argentina, MLB Brasil, MLC Chile, MCO Colombia). Para Airbyte:
- Crear app en developers.mercadolibre.com
- OAuth 2.0 con scope read para tu cuenta
- Conectar Airbyte source Mercado Libre con CLIENT_ID y CLIENT_SECRET
- Seleccionar streams: orders, items, questions, shipments, billing
- Configurar destination BigQuery con dataset bronze_mercadolibre
- Sync incremental cada 1 a 4 horas según volumen
Si tienes operaciones en más de un país, cada cuenta Mercado Libre es una source Airbyte separada. En BigQuery los unificas por columna site_id.
Paso 2: Configurar Airbyte para Shopify
Shopify expone API REST y GraphQL. Para Airbyte:
- En tu admin Shopify, crear Custom App con Admin API access
- Scopes necesarios: read_orders, read_products, read_customers, read_inventory, read_reports
- Generar Admin API access token
- Crear source Airbyte Shopify con shop name y access token
- Streams típicos: orders, products, customers, transactions, abandoned_checkouts, inventory_items
- Destination BigQuery con dataset bronze_shopify
Si manejas más de un store (marca A en .com.mx, marca B en .com.co), cada uno es source separada.
Paso 3: Modelado dbt con Bronze Silver Gold
En BigQuery, organiza datasets por capa:
- bronze_mercadolibre.orders, bronze_mercadolibre.items
- bronze_shopify.orders, bronze_shopify.products
- silver.orders_unified con identificador único cross channel
- silver.products_unified mapeando SKU entre canales
- gold.sales_by_channel_daily con margen real
- gold.product_performance_cross_channel
El modelo Silver canónico para órdenes:
{{ config(materialized='incremental', unique_key='order_global_id') }}
select
concat(source_channel, '_', source_order_id) as order_global_id,
source_channel,
source_order_id,
customer_email,
total_amount_usd,
order_status,
shipping_country,
ordered_at
from {{ ref('stg_orders_mercadolibre') }}
union all
select
concat('shopify', '_', source_order_id) as order_global_id,
'shopify' as source_channel,
source_order_id,
customer_email,
total_amount_usd,
order_status,
shipping_country,
ordered_at
from {{ ref('stg_orders_shopify') }}
Paso 4: Capa Gold con KPIs cross channel
Gold materializa decisiones de negocio:
- Margen real por canal: ingreso menos costo de producto menos comisión de canal menos envío
- Sell through rate por SKU por canal en últimos 30 y 90 días
- Productos que solo venden en un canal (oportunidad de expansión)
- Carrito promedio por canal vs total
- Tiempo entre compras de cliente recurrente
Estas Gold tables se refrescan cada hora con dbt incremental y alimentan dashboards en Metabase o Looker Studio.
El caso real: 13 millones de filas y 75 Gold tables
Una distribuidora multi sucursal en Ciudad de Guatemala llegó a Catalizadora con 13 millones de filas legacy en SQL Server 2019, 197 tablas inconsistentes y 10 años de datos desorganizados. En 12 semanas Catalizadora entregó:
- Data Lake arquitectura Bronze a Silver a Gold sobre Supabase
- 3.6 millones de filas migradas a Supabase en 48 horas
- 1.17 TB en GCS (Bronze parquet raw)
- 197 tablas snapshot más 825 vistas Silver más 75 vistas Gold materializadas
- Verificación fila a fila: source igual Bronze igual Silver igual Gold
- 73 Gold tables finales normalizadas
- Stack Supabase más Python más dbt más BigQuery más PyArrow más Psycopg2
- Inversión 26,000 USD fija, sin retainers
Lo mismo aplica a Mercado Libre más Shopify: el patrón Bronze Silver Gold escala desde pyme hasta enterprise.
Lo que NO debes hacer
- Cargar datos directo a tablas finales sin Bronze: pierdes capacidad de reprocesar cuando descubres bug en lógica de negocio
- Mezclar Mercado Libre y Shopify en mismo dataset sin source_channel: cuando alguien hace query, no sabe si está contando dos veces
- Pagar Fivetran para Shopify cuando Airbyte tiene el connector gratis
- Sin Git para dbt: cuando una métrica cambia nadie sabe quién la cambió ni por qué
- Saltarse capa Silver: meter Bronze directo a Gold mezcla normalización con métrica y se vuelve frágil
Cuándo necesitas más que Airbyte más dbt
Tres señales:
- Tu volumen rompe 50 GB al mes y BigQuery cobra notable: optimizar particionamiento, clustering y materialized views
- Necesitas datos en tiempo real (menos de 5 minutos): cambias de batch a streaming con Kafka o Pub Sub
- Reglas de negocio especiales (marketplace fees por categoría, devoluciones complejas, comisiones por SKU): dbt macros y modelos custom
Ahí MAGIA Core entrega el sistema completo en 12 semanas.
Próximos pasos
Si recién arrancas con tus datos dispersos entre Mercado Libre y Shopify, el stack Airbyte más BigQuery más dbt te cubre rápido y barato. Cuando ya tienes 10 fuentes (también ERP, CRM, POS) y dashboards por rol, vale la pena un Data Lake unificado armado por equipo experto.
Catalizadora arma ese diagnóstico en una llamada de 30 minutos, sin pitch deck, conversación real sobre tu operación.
- MAGIA Core entrega Data Lake completo con Bronze a Silver a Gold, dashboards por rol e integraciones profundas en 12 semanas por 15,000 USD. Código y datos a tu nombre.
- Para casos enterprise con motor de IA, guardrails y observabilidad, MAGIA Forge entrega en 12 semanas por 20,000 USD.