Responsable de que el sistema funcione 24/7, de detectar regresiones antes que los clientes, de mantener al día credenciales/dominios y de construir — con apoyo agéntico — la infraestructura de observabilidad, alertas y QA.
Todos los candidatos deben asegurarse de leer atentamente la siguiente descripción del puesto y la información antes de enviar su solicitud.
Este perfil es multiplicador: libera a los developers de tareas de soporte, monitoreo y verificación, y empuja la confiabilidad del sistema con ayuda de agentes.
ResponsabilidadesQuality assurance & testing
- Diseñar y mantener suites de tests end-to-end sobre flujos críticos (login, alta de paciente, facturación, captura de audio, citas).
- Construir y mantener tests de regresión que se ejecutan automáticamente antes de cada despliegue.
- Hacer smoke tests post-deploy en cada tenant que aplique.
- Levantar y mantener un entorno de staging que refleje producción.
- Reportar bugs con repro mínimo
Monitoreo de la plataforma
- Diseñar y mantener el stack de observabilidad: métricas, logs centralizados, dashboards, healthchecks por servicio.
- Construir alertas accionablespara: caídas de servicios, latencia anómala, errores 5xx, colas estancadas, fallos de cron jobs, espacio en disco, conexiones DB.
- On-call ligero (con apoyo agéntico para triaging inicial) durante horas hábiles y rotación pactada fuera de horario.
- Post-mortems breves y accionables tras cualquier incidente.
Monitoreo de cuentas y dependencias externas
- Llevar inventario y vigilancia activa de servicios de terceros AWS, Stripe, Twilio, dominios, certificados SSL, licencias. Alertas antes de que se agoten.
- Renovación proactiva de dominios, certificados, licencias.
- Vigilar límites de uso y proyecciones de costo mensual; identificar anomalías.
- Mantener un dashboard único con el estado de todas las cuentas externas.
Monitoreo de repos y código
- Mantener al día las dependencias
- Vigilar CVE / vulnerabilidades en dependencias críticas.
- Auditar PRs antes de merge.
- Mantener CI green: si hay tests rotos, los persigue hasta cerrar.
Soporte
- Primera línea de soporte técnico interno (al equipo y, eventualmente, a clínicas usuarias).
- Triage de tickets: distingue bug real vs error de usuario vs configuración faltante.
- Mantener una base de conocimiento (FAQ, runbooks) que crece con cada incidente.
Uso activo de IA
- Agentes de monitoreo: construye agentes que revisan logs, dashboards y métricas y le entregan resúmenes ejecutables (no streams crudos).
- Agentes de QA: usa agentes para generar casos de test a partir de specs/PRs, ejecutar regresiones en background y reportar diferencias.
- Agentes de triage: usa agentes para clasificar tickets entrantes, sugerir runbook aplicable y escalar solo lo que necesita humano.
- Agentes de auditoría: usa agentes para revisar diffs de PRs grandes, encontrar inconsistencias y sugerir áreas a testear.
- No delega al modelo decisiones de severidad ni comunicación con cliente final.
Stack que vas a tocar
Imprescindible:
- Conocimiento operativo de Linux / Bash
- Docker (logs, exec, compose)
- Git y revisión de PRs
- Alguna herramienta de observabilidad (Grafana, Datadog, New Relic, CloudWatch, Sentry, Prometheus — al menos una con experiencia real)
- Alguna herramienta de testing E2E (Playwright, Cypress, Puppeteer)
- Postman / Insomnia / .http files para validar APIs
- SQL básico (consultar la DB para reproducir bugs)
- GitHub Actions u otro CI/CD
Ayuda mucho tener exposición:
- AWS CloudWatch, S3, SQS, EC2 (entorno actual)
- Sentry o equivalente para tracking de errores
- Statuspage o equivalente para comunicación de incidentes
- Scripting (Python o Node) para automatizar checks recurrentes
- Bases de datos (PostgreSQL, conexiones, queries de diagnóstico)
- Healthcare / data sensible (HIPAA, GDPR conceptualmente — no es legal advisor pero entiende implicaciones)
Experiencia esperada
- Experiencia demostrable usando herramientas agénticas para resolver problemas reales (Claude Code, Cursor, Codex en flows de scripting/automation/QA). Comparte un ejemplo.
- Experiencia en roles de SRE / DevOps / QA / Soporte técnico / Platform Engineer.
- Experiencia construyendo o manteniendo alertas accionables (sabe distinguir signal de ruido).
- Capacidad demostrada de escribir runbooks claros.
- Disciplina obsesiva con el detalle. Este rol es el último filtro antes de que un bug llegue al cliente.
- Comunicación clara en español (escrita y verbal).
Deseable
- Experiencia en startups pequeñas donde se hace de todo.
- Experiencia construyendo scripts/agentes de automatización que reemplazan trabajo manual recurrente.
- Repositorios públicos con automation scripts, runbooks, dashboards.
- Experiencia con status pages / incident communication.
- Conocimiento de billing y FinOps (vigilancia de costos cloud).
- Experiencia en healthcare / fintech (compliance, datos sensibles).
Soft skills críticos
- Pensamiento de checklist. Detallista de los errores
- Paranoia productiva. Asume que algo se va a romper y se prepara.
- Productivo y proactivo bajo estrés. Triage, prioriza, ejecuta, comunica. xpzdshu
- Construye en lugar de tolerar. Si algo te despierta dos veces, lo automatizadas