Buscamos un ingeniero de Devops, arquitecto MLOps para la definición, configuración, mantenimiento, despliegue y soporte de toda nuestra estructura IA y Saa S Será el responsable de la infraestructura para servicios Saa S con IA Funciones Fundamentales del Puesto.
Recuerde revisar su CV antes de enviar la solicitud. Además, asegúrese de leer todos los requisitos relacionados con este puesto.
Gestión de Infraestructura Base y Hardware: Despliegue, configuración y mantenimiento de servidores bare metal (ej.
HPE Pro Liant) con Ubuntu Server LTS.
Administración avanzada de GPUs (NVIDIA A100/H100/L4), incluyendo particionamiento (MIG) y optimización de recursos compartidos.
Administración de Kubernetes y Orquestación: Instalación y administración de clusters Kubernetes orientados a producción y alta seguridad (RKE2).
Implementación de prácticas Git Ops para el despliegue continuo y versionado de la infraestructura.
Despliegue de la Plataforma MLOps y Datos: Configuración de la capa de almacenamiento distribuido (Data Lakehouse) y bases de datos relacionales.
Integración de pipelines de datos (ETL/CDC) y herramientas de tracking de experimentos ML y registro de modelos.
Inferencia y Despliegue de Modelos (Serving): Configuración de motores de inferencia para servir modelos open source (LLMs, Py Torch, Tensor Flow) de manera escalable y eficiente.
Despliegue de bases de datos vectoriales para habilitar arquitecturas RAG (Retrieval-Augmented Generation).
Seguridad, Aislamiento y Multi-tenancy: Diseño e implementación de arquitecturas seguras para múltiples clientes: separación por namespaces, políticas de red estrictas, y gestión de identidades (SSO/IAM).
Gestión segura de secretos, certificados y cifrado de datos en reposo y en tránsito.
Observabilidad y Monitorización: Despliegue de un stack completo de monitorización para la infraestructura (CPU, RAM, red), métricas específicas de GPU, y observabilidad del rendimiento de los modelos de IA (latencia, errores, data drift).
Stack Tecnológico Fundamental (Requisitos Técnicos) 1.
Infraestructura y Contenedores (Core): OS: Linux (Ubuntu Server LTS).
Orquestación: Kubernetes (específicamente RKE2) y gestión de red/Ingress (Cilium/Calico, Metal LB, NGINX/Traefik).
Hardware/GPU: NVIDIA GPU Operator, CUDA, NVIDIA MIG (Multi-Instance GPU).
2.
Dev Ops y Seguridad: Git Ops & CI/CD: Argo CD, Harbor (Registry privado).
Identidad y Secretos: Keycloak (IAM/OIDC), Vault o External Secrets, cert-manager.
3.
Datos y Almacenamiento: Storage S3: Min IO.
Bases de Datos: Postgre SQL.
Orquestación de Datos: Apache Airflow.
4.
Ecosistema IA / MLOps: Tracking & Registry: MLflow.
Serving (Inferencia): KServe, NVIDIA Triton Inference Server, v LLM.
Bases Vectoriales (RAG): Qdrant (y conocimiento de pgvector).
5.
Observabilidad: Stack de Monitorización: Prometheus, Grafana, Loki.
Métricas GPU: DCGM Exporter.
Trazabilidad: Open Telemetry.
Tecnologías Valorable Data Lakehouse & Ingesta: Airbyte, Apache Ni Fi, Debezium, Kafka, Apache Iceberg, dbt.
Serving & MLOps Avanzado: Kubeflow, Ray Serve / Kube Ray, Bento ML.
Bases Vectoriales a gran escala: Milvus.
Perfil Ideal Ingeniero Dev Ops/Sys Admin que ha evolucionado hacia el ecosistema de IA.
Debe tener una mentalidad orientada a producto y a la prestación de servicios B2 B, entendiendo que la seguridad, el aislamiento de datos entre distintos clientes y la alta disponibilidad son tan importantes como el propio rendimiento de los modelos. xpzdshu
Ofrecemos incorporacion a importante proyecto en fase inicial con gran potencialidad de crecimiento.