Seguimos desarrollando la infraestructura soberana de IA para empresas, con clústeres de GPUs en centros de datos en España, pensada como complemento a las nubes públicas en entornos híbridos y on-prem.
Buscamos un/a Dev Ops / Platform Engineer que quiera ser pieza clave de esta plataforma: alguien que disfrute convirtiendo modelos de IA en APIs robustas, escalables y bien monitorizadas, y que tenga ganas de trastear con GPUs de verdad, no solo con CPUs en la nube.
La sede del equipo está en Granada (modelo híbrido/remoto desde España) y el datacenters en varias localizaciones.
Responsabilidades
Diseñar y operar la plataforma de servicios de IA :
Despliegue de modelos como APIs de inferencia (REST/g RPC).
Uso de contenedores (Docker) y orquestación (Kubernetes, K3s u otro similar).
Trabajar codo con codo con el equipo de data science para:
Empaquetar modelos (LLMs, visión, modelos propios) en servicios productivos.
Ajustar configuración para aprovechar bien las GPUs (batching, concurrencia, etc.).
Encargarte de la operación y fiabilidad de la plataforma:
Métricas de latencia, throughput y uso de recursos (GPU/CPU/memoria).
Logs centralizados y alertas.
Procedimientos de rollback y redeploy de versiones de modelo.
Colaborar con el/la Ingeniero/a de Redes & Seguridad para:
Exponer endpoints de forma segura (API gateway, autenticación).
Separar entornos (desarrollo / pruebas / producción).
Requisitos imprescindibles
~2–5 años aprox. de experiencia en roles tipo Dev Ops / SRE / Platform Engineer / Backend con mucha infra.
~ Sólida experiencia con:
~ Linux a nivel administración.
~ Docker.
~ Algún orquestador (Kubernetes, K3s, Nomad, ECS…).
~ Haber trabajado con servicios en producción :
~ Pipelines de CI/CD.
~ Monitorización (Prometheus, Grafana u otras).
~ Logs centralizados (ELK, Loki, etc.).
~ Ganas reales de aprender y profundizar en:
~ Inferencia sobre GPU.
~ Servidores de modelos (Triton, v LLM, TGI, etc.), aunque todavía no los domines.
Se valorará
Haber desplegado modelos de ML en producción (aunque sea en proyectos pequeños).
Experiencia con Python para tooling interno.
Conocimientos básicos de redes y seguridad (firewall, VPN, TLS).
Experiencia en entornos híbridos (on-prem + cloud).
Qué ofrecemos
Trabajar con infraestructura de GPUs puntera en España, en proyectos reales de IA.
Mucha autonomía y posibilidad de construir cosas casi desde cero.
Crecimiento hacia:
Arquitectura de plataforma.
MLOps avanzado si te interesa ese camino.
Contexto pequeño y ágil, con impacto directo en decisiones técnicas y de producto.