Buscamos un/a especialista en Evaluación de Modelos de IA con experiencia en GenAI para asegurar la calidad, rendimiento y gobernanza de soluciones basadas en LLMs en entornos productivos.
Ubicación: Madrid (Pozuelo de Alarcón)
Modalidad: Híbrida (alta flexibilidad según el perfil)
Salario: flexible
Responsabilidades
* Evaluar y comparar modelos LLM (OpenAI, Anthropic, etc.) en términos de calidad, consistencia, latencia y coste, identificando riesgos.
* Monitorizar cambios en modelos (versiones, deprecaciones, ajustes de comportamiento) y analizar su impacto en sistemas productivos.
* Optimizar estrategias de prompting para cada modelo, asegurando estabilidad, eficiencia y reducción de costes.
* Diseñar e implementar frameworks de testing para GenAI: regresión, pruebas de prompts, pipelines de evaluación y dashboards de seguimiento.
* Colaborar con equipos de IAOps / MLOps para reforzar observabilidad, logging, métricas y gobernanza de modelos.
* Generar recomendaciones técnicas sobre selección de modelos, optimización de costes, mitigación de riesgos y mejora continua.
Requisitos técnicos
* +2 años de experiencia en GenAI, especialmente en auditoría, evaluación y monitorización de modelos.
* Experiencia sólida con LLMs en entornos productivos.
* Experiencia en AWS (Bedrock, SageMaker, Lambda, CloudWatch) y ecosistemas de operación de modelos.
* Conocimientos en prompt engineering y optimización por modelo.
* Experiencia con frameworks de evaluación de LLMs (RAGAS, DeepEval u otros).
* Experiencia en A/B testing, experimentación y análisis comparativo de modelos.
* Conocimientos de gobernanza de IA y ciclo de vida de modelos.
* Nivel de inglés fluido.
Si te interesa trabajar en la evaluación y mejora continua de modelos de IA generativa, en entornos reales y con impacto directo en negocio, queremos conocerte!
#J-18808-Ljbffr