Seguimos desarrollando la infraestructura soberana de IA para empresas, con clústeres de GPUs en centros de datos en España, pensada como complemento a las nubes públicas en entornos híbridos y on-prem .
Buscamos un/a DevOps / Platform Engineer que quiera ser pieza clave de esta plataforma: alguien que disfrute convirtiendo modelos de IA en APIs robustas, escalables y bien monitorizadas, y que tenga ganas de trastear con GPUs de verdad, no solo con CPUs en la nube.
La sede del equipo está en Granada (modelo híbrido/remoto desde España) y el datacenters en varias localizaciones.
Responsabilidades
* Diseñar y operar la plataforma de servicios de IA :
* Despliegue de modelos como APIs de inferencia (REST/gRPC).
* Uso de contenedores (Docker) y orquestación (Kubernetes, K3s u otro similar).
* Trabajar codo con codo con el equipo de data science para:
* Empaquetar modelos (LLMs, visión, modelos propios) en servicios productivos.
* Ajustar configuración para aprovechar bien las GPUs (batching, concurrencia, etc.).
* Encargarte de la operación y fiabilidad de la plataforma:
* Métricas de latencia, throughput y uso de recursos (GPU/CPU/memoria).
* Logs centralizados y alertas.
* Procedimientos de rollback y redeploy de versiones de modelo.
* Colaborar con el/la Ingeniero/a de Redes & Seguridad para:
* Exponer endpoints de forma segura (API gateway, autenticación).
* Separar entornos (desarrollo / pruebas / producción).
Requisitos imprescindibles
* 2–5 años aprox. de experiencia en roles tipo DevOps / SRE / Platform Engineer / Backend con mucha infra .
* Sólida experiencia con:
* Linux a nivel administración.
* Docker .
* Algún orquestador (Kubernetes, K3s, Nomad, ECS…).
* Haber trabajado con servicios en producción :
* Pipelines de CI/CD.
* Monitorización (Prometheus, Grafana u otras).
* Logs centralizados (ELK, Loki, etc.).
* Ganas reales de aprender y profundizar en:
* Inferencia sobre GPU .
* Servidores de modelos (Triton, vLLM, TGI, etc.), aunque todavía no los domines.
Se valorará
* Haber desplegado modelos de ML en producción (aunque sea en proyectos pequeños).
* Experiencia con Python para tooling interno.
* Conocimientos básicos de redes y seguridad (firewall, VPN, TLS).
* Experiencia en entornos híbridos (on-prem + cloud).
Qué ofrecemos
* Trabajar con infraestructura de GPUs puntera en España, en proyectos reales de IA.
* Mucha autonomía y posibilidad de construir cosas casi desde cero.
* Crecimiento hacia:
* Arquitectura de plataforma.
* MLOps avanzado si te interesa ese camino.
* Entorno pequeño y ágil, con impacto directo en decisiones técnicas y de producto.