* Diseñar y optimizar la infraestructura MLOps para modelos LLM de vanguardia (vLLM, Mistral, Qwen) utilizando hardware NVIDIA de última generación.* Desarrollar pipelines de inferencia en tiempo real con latencias ultra-bajas para sistemas distribuidos a gran escala.* Implementar y gestionar arquitecturas multi-GPU con Docker/Kubernetes para un despliegue continuo y eficiente.* Liderar la optimización de rendimiento con CUDA/TensorRT y gestionar el monito