En AD4 Octógono buscamos perfiles de Data Engineers – Entorno Big Data.
📍Ubicación: Madrid (Zona Madrid Río – presencialidad 3 días/semana)
🗓 Experiencia: 1 año (perfil junior) o 2-3 años (perfil intermedio)
🌍 Inglés: B2-C1
💰 Tarifa: acorde a experiencia y conocimientos
Funciones:
Ingesta y procesamiento de datos
* Diseñar y desarrollar pipelines de datos usando Apache Spark (batch y streaming).
* Crear procesos ETL/ELT eficientes en Scala para transformar y limpiar datos.
* Integrar datos de múltiples fuentes: archivos, APIs, bases de datos relacionales y sistemas distribuidos.
Gestión de almacenamiento distribuido
* Administrar y optimizar el uso de HDFS (Hadoop Distributed File System).
* Definir estrategias de particionado, compresión y formatos de almacenamiento (Parquet, ORC, Avro).
* Garantizar la disponibilidad y consistencia de los datos en entornos distribuidos.
Modelado y optimización de bases de datos
* Diseñar esquemas y modelos de datos en bases de datos SQL (Oracle, PostgreSQL, MySQL, SQL Server).
* Optimizar consultas SQL y procesos de carga masiva.
* Gestionar integraciones entre sistemas transaccionales y el ecosistema Big Data.
Automatización y orquestación
* Integrar workflows en herramientas como Airflow, Oozie o Azkaban.
* Automatizar despliegues y actualizaciones de pipelines (CI/CD).
* Gestionar versionado de código y procesos con Git.
Colaboración y soporte
* Colaborar con Data Scientists y Analistas de BI para poner a disposición datasets limpios y estructurados.
* Dar soporte en la explotación de datos y en la resolución de incidencias.
* Documentar arquitecturas y procesos para el equipo.
Requisitos:
🔹 Conocimientos clave:
* Spark / Scala
* Python
* Herramientas CI/CD (GitLab, Jenkins, etc.)
* HDFS y bases de datos estructuradas (SQL)
🔹 Conocimiento completo de:
* Hadoop
* Oozie
* Apache Airflow
* Almacenamiento S3/COS
* Shell scripting
* Ciclo de vida del desarrollo de software (SDLC)
* Principios y ceremonias Ágiles
🔹 Conocimientos básicos:
* Kubernetes (contenedorización)
* Dremio (virtualización de datos)
🔹 Valoramos como plus:
* Elasticsearch y Kibana
* Procesamiento de streaming (Kafka, event streaming, etc.)
* HashiCorp Vault (HVault)
* Dataiku
Si quieres trabajar en proyectos Big Data punteros, en un entorno internacional y con tecnología de vanguardia, este es tu sitio. 🚀