Responsable de que el sistema funcione 24/7, de detectar regresiones antes que los clientes, de mantener al día credenciales/dominios y de construir — con apoyo agéntico — la infraestructura de observabilidad, alertas y QA.
Este perfil es multiplicador: libera a los developers de tareas de soporte, monitoreo y verificación, y empuja la confiabilidad del sistema con ayuda de agentes.
ResponsabilidadesQuality assurance & testing
* Diseñar y mantener suites de tests end-to-end sobre flujos críticos (login, alta de paciente, facturación, captura de audio, citas).
* Construir y mantener tests de regresión que se ejecutan automáticamente antes de cada despliegue.
* Hacer smoke tests post-deploy en cada tenant que aplique.
* Levantar y mantener un entorno de staging que refleje producción.
* Reportar bugs con repro mínimo
Monitoreo de la plataforma
* Diseñar y mantener el stack de observabilidad: métricas, logs centralizados, dashboards, healthchecks por servicio.
* Construir alertas accionablespara: caídas de servicios, latencia anómala, errores 5xx, colas estancadas, fallos de cron jobs, espacio en disco, conexiones DB.
* On-call ligero (con apoyo agéntico para triaging inicial) durante horas hábiles y rotación pactada fuera de horario.
* Post-mortems breves y accionables tras cualquier incidente.
Monitoreo de cuentas y dependencias externas
* Llevar inventario y vigilancia activa de servicios de terceros AWS, Stripe, Twilio, dominios, certificados SSL, licencias. Alertas antes de que se agoten.
* Renovación proactiva de dominios, certificados, licencias.
* Vigilar límites de uso y proyecciones de costo mensual;
identificar anomalías.
* Mantener un dashboard único con el estado de todas las cuentas externas.
Monitoreo de repos y código
* Mantener al día las dependencias
* Vigilar CVE / vulnerabilidades en dependencias críticas.
* Auditar PRs antes de merge.
* Mantener CI green: si hay tests rotos, los persigue hasta cerrar.
Soporte
* Primera línea de soporte técnico interno (al equipo y, eventualmente, a clínicas usuarias).
* Triage de tickets: distingue bug real vs error de usuario vs configuración faltante.
* Mantener una base de conocimiento (FAQ, runbooks) que crece con cada incidente.
Uso activo de IA
* Agentes de monitoreo: construye agentes que revisan logs, dashboards y métricas y le entregan resúmenes ejecutables (no streams crudos).
* Agentes de QA: usa agentes para generar casos de test a partir de specs/PRs, ejecutar regresiones en background y reportar diferencias.
* Agentes de triage: usa agentes para clasificar tickets entrantes, sugerir runbook aplicable y escalar solo lo que necesita humano.
* Agentes de auditoría: usa agentes para revisar diffs de PRs grandes, encontrar inconsistencias y sugerir áreas a testear.
* No delega al modelo decisiones de severidad ni comunicación con cliente final.
Stack que vas a tocar
Imprescindible:
* Conocimiento operativo de Linux / Bash
* Docker (logs, exec, compose)
* Git y revisión de PRs
* Alguna herramienta de observabilidad (Grafana, Datadog, New Relic, CloudWatch, Sentry, Prometheus — al menos una con experiencia real)
* Alguna herramienta de testing E2E (Playwright, Cypress, Puppeteer)
* Postman / Insomnia / .Http files para validar APIs
* SQL básico (consultar la DB para reproducir bugs)
* GitHub Actions u otro CI/CD
Ayuda mucho tener exposición:
* AWS CloudWatch, S3, SQS, EC2 (entorno actual)
* Sentry o equivalente para tracking de errores
* Statuspage o equivalente para comunicación de incidentes
* Scripting (Python o Node) para automatizar checks recurrentes
* Bases de datos (PostgreSQL, conexiones, queries de diagnóstico)
* Healthcare / data sensible (HIPAA, GDPR conceptualmente — no es legal advisor pero entiende implicaciones)
Experiencia esperada
* Experiencia demostrable usando herramientas agénticas para resolver problemas reales (Claude Code, Cursor, Codex en flows de scripting/automation/QA). Comparte un ejemplo.
* Experiencia en roles de SRE / DevOps / QA / Soporte técnico / Platform Engineer.
* Experiencia construyendo o manteniendo alertas accionables (sabe distinguir signal de ruido).
* Capacidad demostrada de escribir runbooks claros.
* Disciplina obsesiva con el detalle. Este rol es el último filtro antes de que un bug llegue al cliente.
* Comunicación clara en español (escrita y verbal).
Deseable
* Experiencia en startups pequeñas donde se hace de todo.
* Experiencia construyendo scripts/agentes de automatización que reemplazan trabajo manual recurrente.
* Repositorios públicos con automation scripts, runbooks, dashboards.
* Experiencia con status pages / incident communication.
* Conocimiento de billing y FinOps (vigilancia de costos cloud).
* Experiencia en healthcare / fintech (compliance, datos sensibles).
Soft skills críticos
* Pensamiento de checklist. Detallista de los errores
* Paranoia productiva. Asume que algo se va a romper y se prepara.
* Productivo y proactivo bajo estrés. Triage, prioriza, ejecuta, comunica.
* Construye en lugar de tolerar. Si algo te despierta dos veces, lo automatizadas