Buscamos un/a especialista en Evaluación de Modelos de IA con experiencia en GenAI para asegurar la calidad, rendimiento y gobernanza de soluciones basadas en LLMs en entornos productivos.Ubicación: Madrid (Pozuelo de Alarcón)Modalidad: Híbrida (alta flexibilidad según el perfil)Salario: flexibleResponsabilidades Evaluar y comparar modelos LLM (OpenAI, Anthropic, etc.) en términos de calidad, consistencia, latencia y coste, identificando riesgos.Monitorizar cambios en modelos (versiones, deprecaciones, ajustes de comportamiento) y analizar su impacto en sistemas productivos.Optimizar estrategias de prompting para cada modelo, asegurando estabilidad, eficiencia y reducción de costes.Diseñar e implementar frameworks de testing para GenAI: regresión, pruebas de prompts, pipelines de evaluación y dashboards de seguimiento.Colaborar con equipos de IAOps / MLOps para reforzar observabilidad, logging, métricas y gobernanza de modelos.Generar recomendaciones técnicas sobre selección de modelos, optimización de costes, mitigación de riesgos y mejora continua.Requisitos técnicos +2 años de experiencia en GenAI, especialmente en auditoría, evaluación y monitorización de modelos.Experiencia sólida con LLMs en entornos productivos.Experiencia en AWS (Bedrock, SageMaker, Lambda, CloudWatch) y ecosistemas de operación de modelos.Conocimientos en prompt engineering y optimización por modelo.Experiencia con frameworks de evaluación de LLMs (RAGAS, DeepEval u otros).Experiencia en A/B testing, experimentación y análisis comparativo de modelos.Conocimientos de gobernanza de IA y ciclo de vida de modelos.Nivel de inglés fluido.Si te interesa trabajar en la evaluación y mejora continua de modelos de IA generativa, en entornos reales y con impacto directo en negocio, queremos conocerte!
#J-18808-Ljbffr