Ingeniero de Calidad de Datos Hybrid - US

Ingeniero de Calidad de Datos

Tiempo completo • Hybrid - US
Beneficios:
  • OPORTUNIDAD W2
  • Salario competitivo
  • Oportunidad de ascenso
Título del puesto: Ingeniero de Calidad de Datos (Databricks, Kafka, AWS)
Ubicación: Dallas, TX (Híbrido – 3 días presenciales)
Tipo de puesto: Contrato a largo plazo
Autorización de trabajo: Abierto - Oportunidad W2
Proceso de entrevista: Presencial (Entrevista con el cliente - Obligatoria)

Buscamos un Ingeniero de Calidad de Datos para que se encargue de la validación en pipelines de datos por lotes y streaming. Este puesto se centra en garantizar la corrección, fiabilidad y rendimiento de los datos en plataformas basadas en Databricks, Kafka, AWS, SQL y Python.
Este es un puesto práctico centrado en construir marcos escalables de validación de datos y garantizar sistemas de datos de calidad de producción.

Responsabilidades clave
Validación de datos de extremo a extremo
* Validar las canalizaciones de datos para garantizar su precisión, completitud, consistencia y puntualidad
* Construir validaciones basadas en SQL para reglas de negocio y transformaciones
* Implementar la conciliación entre sistemas fuente y aguas abajo
* Garantizar la línea de datos y la trazabilidad

ETL / ELT y pruebas de chispas
* Canalizaciones de prueba construidas en AWS (Glue, Lambda, EMR, Funciones por Pasos)
* Validar transformaciones usando SQL y Python
* Pruebas de ingestión, transformación, agregación y capas de servicio
* Gestionar rellenos, reprocesamiento y cargas históricas de datos
* Validar pipelines Spark (PySpark/Scala) en Databricks

Streaming (Kafka)
* Validar garantías de integridad de datos, pedidos y entrega
* Formatos de lógica y serialización para productores de pruebas y consumidores (Avro, JSON, Protobuf)
* Validar temas, particiones, desplazamientos, retención y evolución de esquemas
* Simular eventos tardíos, duplicados y escenarios de fallo

Automatización y marcos
* Construir marcos de pruebas de datos basados en Python
* Desarrollar utilidades de validación reutilizables y conjuntos de datos sintéticos
* Integrar pruebas de datos en pipelines CI/CD
* Habilitar alertas automáticas para problemas de calidad de datos

Rendimiento y fiabilidad
* Validar el rendimiento, la latencia y la concurrencia a gran escala
* Lógica de reintento de prueba, idempotencia y mecanismos de recuperación
* Realizar pruebas de regresión, absorción y fallo

Observabilidad
* Validar registros, métricas y alertas utilizando herramientas como CloudWatch, Prometheus y Grafana
* Definir y monitorizar SLA y SLOs de datos
* Apoyo a la respuesta a incidentes, análisis de causas raíz y autopsias

Cualificaciones y experiencia requeridas
* 7+ años de experiencia total en QA, SDET o Ingeniería de Calidad de Datos
* Mínimo de 4–6 años de experiencia práctica trabajando con plataformas de datos, canalizaciones de datos o ecosistemas de ingeniería de datos
* 3+ años de experiencia práctica con Databricks y Apache Spark
* Sólidas habilidades SQL para la validación de datos, conciliación y análisis complejo
* Dominio de Python para la automatización y validación de datos
* Experiencia probando pipelines ETL/ELT (por lotes y streaming)
* Experiencia práctica con Kafka o plataformas de streaming similares
* Sólido conocimiento de los servicios de datos de AWS (S3, Glue, Lambda, Redshift, Athena)
* Experiencia trabajando con sistemas de datos distribuidos a gran escala
* Habilidades sólidas de depuración, análisis y resolución de problemas

Encantado de tener
* Experiencia con herramientas de calidad o observabilidad de datos como Great Expectations o Monte Carlo
* Conocimiento de los contratos de registros de esquemas y datos
* Experiencia con herramientas CI/CD como GitHub Actions o Jenkins

Opciones flexibles de teletrabajo disponibles.

Compensación: 60,00 $ - 65,00 $ la hora




(si ya tienes un currículum en Indeed)

O aplicar aquí.

* campos requeridos

Ubicación
Or
Or
If no code provided, add their name instead.