Buscamos un ingeniero de Devops, arquitecto MLOps para la definición, configuración, mantenimiento, despliegue y soporte de toda nuestra estructura IA y SaaS
Será el responsable de la infraestructura para servicios SaaS con IA
Funciones Fundamentales del Puesto.
1. Gestión de Infraestructura Base y Hardware:
* Despliegue, configuración y mantenimiento de servidores bare metal (ej. HPE ProLiant) con Ubuntu Server LTS.
* Administración avanzada de GPUs (NVIDIA A100/H100/L4), incluyendo particionamiento (MIG) y optimización de recursos compartidos.
1. Administración de Kubernetes y Orquestación:
* Instalación y administración de clusters Kubernetes orientados a producción y alta seguridad (RKE2).
* Implementación de prácticas GitOps para el despliegue continuo y versionado de la infraestructura.
1. Despliegue de la Plataforma MLOps y Datos:
* Configuración de la capa de almacenamiento distribuido (Data Lakehouse) y bases de datos relacionales.
* Integración de pipelines de datos (ETL/CDC) y herramientas de tracking de experimentos ML y registro de modelos.
1. Inferencia y Despliegue de Modelos (Serving):
* Configuración de motores de inferencia para servir modelos open source (LLMs, PyTorch, TensorFlow) de manera escalable y eficiente.
* Despliegue de bases de datos vectoriales para habilitar arquitecturas RAG (Retrieval-Augmented Generation).
1. Seguridad, Aislamiento y Multi-tenancy:
* Diseño e implementación de arquitecturas seguras para múltiples clientes: separación por namespaces, políticas de red estrictas, y gestión de identidades (SSO/IAM).
* Gestión segura de secretos, certificados y cifrado de datos en reposo y en tránsito.
1. Observabilidad y Monitorización:
* Despliegue de un stack completo de monitorización para la infraestructura (CPU, RAM, red), métricas específicas de GPU, y observabilidad del rendimiento de los modelos de IA (latencia, errores, data drift).
1. 💻 Stack Tecnológico Fundamental (Requisitos Técnicos)
1. Infraestructura y Contenedores (Core):
* OS: Linux (Ubuntu Server LTS).
* Orquestación: Kubernetes (específicamente RKE2) y gestión de red/Ingress (Cilium/Calico, MetalLB, NGINX/Traefik).
* Hardware/GPU: NVIDIA GPU Operator, CUDA, NVIDIA MIG (Multi-Instance GPU).
2. DevOps y Seguridad:
* GitOps & CI/CD: Argo CD, Harbor (Registry privado).
* Identidad y Secretos: Keycloak (IAM/OIDC), Vault o External Secrets, cert-manager.
3. Datos y Almacenamiento:
* Storage S3: MinIO.
* Bases de Datos: PostgreSQL.
* Orquestación de Datos: Apache Airflow.
4. Ecosistema IA / MLOps:
* Tracking & Registry: MLflow.
* Serving (Inferencia): KServe, NVIDIA Triton Inference Server, vLLM.
* Bases Vectoriales (RAG): Qdrant (y conocimiento de pgvector).
5. Observabilidad:
* Stack de Monitorización: Prometheus, Grafana, Loki.
* Métricas GPU: DCGM Exporter.
* Trazabilidad: OpenTelemetry.
🚀 Tecnologías Valorable
* Data Lakehouse & Ingesta: Airbyte, Apache NiFi, Debezium, Kafka, Apache Iceberg, dbt.
* Serving & MLOps Avanzado: Kubeflow, Ray Serve / KubeRay, BentoML.
* Bases Vectoriales a gran escala: Milvus.
💡 Perfil Ideal
Ingeniero DevOps/SysAdmin que ha evolucionado hacia el ecosistema de IA. Debe tener una mentalidad orientada a producto y a la prestación de servicios B2B, entendiendo que la seguridad, el aislamiento de datos entre distintos clientes y la alta disponibilidad son tan importantes como el propio rendimiento de los modelos.
Ofrecemos incorporacion a importante proyecto en fase inicial con gran potencialidad de crecimiento.