Seguimos desarrollando la infraestructura soberana de IA para empresas, con clústeres de GPUs en centros de datos en España, pensada como complemento a las nubes públicas en entornos híbridos y on-prem.
Buscamos un/a DevOps / Platform Engineer que quiera ser pieza fundamental de esta plataforma: alguien que disfrute convirtiendo modelos de IA en APIs robustas, escalables y bien monitorizadas, y que tenga ganas de trastear con GPUs de verdad, no solo con CPUs en la nube.
La sede del equipo está en Granada (modelo híbrido/remoto desde España) y el datacenters en varias localizaciones.
Responsabilidades
- Diseñar y operar la plataforma de servicios de IA :
- Despliegue de modelos como APIs de inferencia (REST/gRPC).
- Uso de contenedores (Docker) y orquestación (Kubernetes, K3s u otro similar).
- Trabajar codo con codo con el equipo de data science para:
- Empaquetar modelos (LLMs, visión, modelos propios) en servicios productivos.
- Ajustar configuración para aprovechar bien las GPUs (batching, concurrencia, etc.).
- Encargarte de la operación y fiabilidad de la plataforma:
- Métricas de latencia, throughput y uso de recursos (GPU/CPU/memoria).
- Logs centralizados y alertas.
- Procedimientos de rollback y redeploy de versiones de modelo.
- Colaborar con el/la Ingeniero/a de Redes & Seguridad para:
- Exponer endpoints de forma segura (API gateway, autenticación).
- Separar entornos (desarrollo / pruebas / producción).
Requisitos imprescindibles
- 2–5 años aprox. de experiencia en roles tipo DevOps / SRE / Platform Engineer / Backend con mucha infra.
- Sólida experiencia con:
- Linux a nivel administración.
- Docker.
- Algún orquestador (Kubernetes, K3s, Nomad, ECS…).
- Haber trabajado con servicios en producción :
- Pipelines de CI/CD.
- Monitorización (Prometheus, Grafana u otras).
- Logs centralizados (ELK, Loki, etc.).
- Ganas reales de aprender y profundizar en:
- Inferencia sobre GPU.
- Servidores de modelos (Triton, vLLM, TGI, etc.), aunque todavía no los domines.
Se valorará
- Haber desplegado modelos de ML en producción (aunque sea en proyectos pequeños).
- Experiencia con Python para tooling interno.
- Conocimientos básicos de redes y seguridad (firewall, VPN, TLS).
- Experiencia en entornos híbridos (on-prem + cloud).
Qué ofrecemos
- Trabajar con infraestructura de GPUs puntera en España, en proyectos reales de IA.
- Mucha autonomía y posibilidad de construir cosas casi desde cero.
- Crecimiento hacia:
- Arquitectura de plataforma.
- MLOps avanzado si te interesa ese camino.
- Entorno pequeño y ágil, con impacto directo en decisiones técnicas y de producto.