Platform reliability/qa engineer

MAIA AESTHETICS

Publicada el 2 junio

Descripción

Responsable de que el sistema funcione 24/7, de detectar regresiones antes que los clientes, de mantener al día credenciales/dominios y de construir — con apoyo agéntico — la infraestructura de observabilidad, alertas y QA.

Todos los candidatos deben asegurarse de leer atentamente la siguiente descripción del puesto y la información antes de enviar su solicitud.

Este perfil es multiplicador: libera a los developers de tareas de soporte, monitoreo y verificación, y empuja la confiabilidad del sistema con ayuda de agentes.

ResponsabilidadesQuality assurance & testing

- Diseñar y mantener suites de tests end-to-end sobre flujos críticos (login, alta de paciente, facturación, captura de audio, citas).
- Construir y mantener tests de regresión que se ejecutan automáticamente antes de cada despliegue.
- Hacer smoke tests post-deploy en cada tenant que aplique.
- Levantar y mantener un entorno de staging que refleje producción.
- Reportar bugs con repro mínimo

Monitoreo de la plataforma

- Diseñar y mantener el stack de observabilidad: métricas, logs centralizados, dashboards, healthchecks por servicio.
- Construir alertas accionablespara: caídas de servicios, latencia anómala, errores 5xx, colas estancadas, fallos de cron jobs, espacio en disco, conexiones DB.
- On-call ligero (con apoyo agéntico para triaging inicial) durante horas hábiles y rotación pactada fuera de horario.
- Post-mortems breves y accionables tras cualquier incidente.

Monitoreo de cuentas y dependencias externas

- Llevar inventario y vigilancia activa de servicios de terceros AWS, Stripe, Twilio, dominios, certificados SSL, licencias. Alertas antes de que se agoten.
- Renovación proactiva de dominios, certificados, licencias.
- Vigilar límites de uso y proyecciones de costo mensual; identificar anomalías.
- Mantener un dashboard único con el estado de todas las cuentas externas.

Monitoreo de repos y código

- Mantener al día las dependencias
- Vigilar CVE / vulnerabilidades en dependencias críticas.
- Auditar PRs antes de merge.
- Mantener CI green: si hay tests rotos, los persigue hasta cerrar.

Soporte

- Primera línea de soporte técnico interno (al equipo y, eventualmente, a clínicas usuarias).
- Triage de tickets: distingue bug real vs error de usuario vs configuración faltante.
- Mantener una base de conocimiento (FAQ, runbooks) que crece con cada incidente.

Uso activo de IA

- Agentes de monitoreo: construye agentes que revisan logs, dashboards y métricas y le entregan resúmenes ejecutables (no streams crudos).
- Agentes de QA: usa agentes para generar casos de test a partir de specs/PRs, ejecutar regresiones en background y reportar diferencias.
- Agentes de triage: usa agentes para clasificar tickets entrantes, sugerir runbook aplicable y escalar solo lo que necesita humano.
- Agentes de auditoría: usa agentes para revisar diffs de PRs grandes, encontrar inconsistencias y sugerir áreas a testear.
- No delega al modelo decisiones de severidad ni comunicación con cliente final.

Stack que vas a tocar

Imprescindible:

- Conocimiento operativo de Linux / Bash
- Docker (logs, exec, compose)
- Git y revisión de PRs
- Alguna herramienta de observabilidad (Grafana, Datadog, New Relic, CloudWatch, Sentry, Prometheus — al menos una con experiencia real)
- Alguna herramienta de testing E2E (Playwright, Cypress, Puppeteer)
- Postman / Insomnia / .http files para validar APIs
- SQL básico (consultar la DB para reproducir bugs)
- GitHub Actions u otro CI/CD

Ayuda mucho tener exposición:

- AWS CloudWatch, S3, SQS, EC2 (entorno actual)
- Sentry o equivalente para tracking de errores
- Statuspage o equivalente para comunicación de incidentes
- Scripting (Python o Node) para automatizar checks recurrentes
- Bases de datos (PostgreSQL, conexiones, queries de diagnóstico)
- Healthcare / data sensible (HIPAA, GDPR conceptualmente — no es legal advisor pero entiende implicaciones)

Experiencia esperada

- Experiencia demostrable usando herramientas agénticas para resolver problemas reales (Claude Code, Cursor, Codex en flows de scripting/automation/QA). Comparte un ejemplo.
- Experiencia en roles de SRE / DevOps / QA / Soporte técnico / Platform Engineer.
- Experiencia construyendo o manteniendo alertas accionables (sabe distinguir signal de ruido).
- Capacidad demostrada de escribir runbooks claros.
- Disciplina obsesiva con el detalle. Este rol es el último filtro antes de que un bug llegue al cliente.
- Comunicación clara en español (escrita y verbal).

Deseable

- Experiencia en startups pequeñas donde se hace de todo.
- Experiencia construyendo scripts/agentes de automatización que reemplazan trabajo manual recurrente.
- Repositorios públicos con automation scripts, runbooks, dashboards.
- Experiencia con status pages / incident communication.
- Conocimiento de billing y FinOps (vigilancia de costos cloud).
- Experiencia en healthcare / fintech (compliance, datos sensibles).

Soft skills críticos

- Pensamiento de checklist. Detallista de los errores
- Paranoia productiva. Asume que algo se va a romper y se prepara.
- Productivo y proactivo bajo estrés. Triage, prioriza, ejecuta, comunica. xpzdshu
- Construye en lugar de tolerar. Si algo te despierta dos veces, lo automatizadas

Enviar

Crear una alerta

Guardar