Buscamos un ingeniero de Devops, arquitecto MLOps para la definición, configuración, mantenimiento, despliegue y soporte de toda nuestra estructura IA y SaaS
Desplácese hacia abajo para encontrar una descripción detallada de este trabajo y lo que se espera de los candidatos. Envíe su solicitud haciendo clic en el botón "Solicitar".
Será el responsable de la infraestructura para servicios SaaS con IA
Funciones Fundamentales del Puesto.
1. Gestión de Infraestructura Base y Hardware:
* Despliegue, configuración y mantenimiento de servidores bare metal (ej. HPE ProLiant) con Ubuntu Server LTS.
* Administración avanzada de GPUs (NVIDIA A100/H100/L4), incluyendo particionamiento (MIG) y optimización de recursos compartidos.
1. Administración de Kubernetes y Orquestación:
* Instalación y administración de clusters Kubernetes orientados a producción y alta seguridad (RKE2).
* Implementación de prácticas GitOps para el despliegue continuo y versionado de la infraestructura.
1. Despliegue de la Plataforma MLOps y Datos:
* Configuración de la capa de almacenamiento distribuido (Data Lakehouse) y bases de datos relacionales.
* Integración de pipelines de datos (ETL/CDC) y herramientas de tracking de experimentos ML y registro de modelos.
1. Inferencia y Despliegue de Modelos (Serving):
* Configuración de motores de inferencia para servir modelos open source (LLMs, PyTorch, TensorFlow) de manera escalable y eficiente.
* Despliegue de bases de datos vectoriales para habilitar arquitecturas RAG (Retrieval-Augmented Generation).
1. Seguridad, Aislamiento y Multi-tenancy:
* Diseño e implementación de arquitecturas seguras para múltiples clientes: separación por namespaces, políticas de red estrictas, y gestión de identidades (SSO/IAM).
* Gestión segura de secretos, certificados y cifrado de datos en reposo y en tránsito.
1. Observabilidad y Monitorización:
* Despliegue de un stack completo de monitorización para la infraestructura (CPU, RAM, red), métricas específicas de GPU, y observabilidad del rendimiento de los modelos de IA (latencia, errores, data drift).
Stack Tecnológico Fundamental (Requisitos Técnicos)
1. Infraestructura y Contenedores (Core):
* OS: Linux (Ubuntu Server LTS).
* Orquestación: Kubernetes (específicamente RKE2) y gestión de red/Ingress (Cilium/Calico, MetalLB, NGINX/Traefik).
* Hardware/GPU: NVIDIA GPU Operator, CUDA, NVIDIA MIG (Multi-Instance GPU).
2. DevOps y Seguridad:
* GitOps & CI/CD: Argo CD, Harbor (Registry privado).
* Identidad y Secretos: Keycloak (IAM/OIDC), Vault o External Secrets, cert-manager.
3. Datos y Almacenamiento:
* Storage S3: MinIO.
* Bases de Datos: PostgreSQL.
* Orquestación de Datos: Apache Airflow.
4. Ecosistema IA / MLOps:
* Tracking & Registry: MLflow.
* Serving (Inferencia): KServe, NVIDIA Triton Inference Server, vLLM.
* Bases Vectoriales (RAG): Qdrant (y conocimiento de pgvector).
5. Observabilidad:
* Stack de Monitorización: Prometheus, Grafana, Loki.
* Métricas GPU: DCGM Exporter.
* Trazabilidad: OpenTelemetry.
Tecnologías Valorable
* Data Lakehouse & Ingesta: Airbyte, Apache NiFi, Debezium, Kafka, Apache Iceberg, dbt.
* Serving & MLOps Avanzado: Kubeflow, Ray Serve / KubeRay, BentoML.
* Bases Vectoriales a gran escala: Milvus.
Perfil Ideal
Ingeniero DevOps/SysAdmin que ha evolucionado hacia el ecosistema de IA. Debe tener una mentalidad orientada a producto y a la prestación de servicios B2B, entendiendo que la seguridad, el aislamiento de datos entre distintos clientes y la alta disponibilidad son tan importantes como el propio rendimiento de los modelos. xpzdshu
Ofrecemos incorporacion a importante proyecto en fase inicial con gran potencialidad de crecimiento.