Destaques importantes
- Área e especialização profissional: Informática, TI, Telecomunicações - Segurança da Informação
- Nível hierárquico: Analista
- Local de trabalho: Barueri, SP
- Regime de contratação de tipo Efetivo – CLT
- Jornada Período Integral
- Modelo de Trabalho: Híbrido
- Atuar na construção, evolução e operação da observabilidade dos ambientes (APM, logs, métricas e traces), garantindo visibilidade ponta a ponta, performance e confiabilidade dos serviços. Será responsável por apoiar times técnicos na identificação de causa raiz, prevenção de incidentes e melhoria contínua da experiência do usuário e dos indicadores de negócio.
- Responsabilidades e atribuições
- Implementar e manter a estratégia de observabilidade (monitoramento, tracing distribuído, logging estruturado e métricas) em aplicações e infraestrutura
- Configurar dashboards, alertas e SLO/SLI, reduzindo ruído e aumentando a assertividade de alarmes
- Atuar em análise de incidentes e troubleshooting, apoiando a identificação de causa raiz (RCA) e planos de ação
- Conduzir melhorias de performance, capacidade e estabilidade com base em dados (latência, erros, saturação, throughput)
- Apoiar a instrumentação de aplicações (ex.: OpenTelemetry) junto aos times de desenvolvimento
- Garantir padronização de logs, nomenclaturas, tags e boas práticas de observabilidade
- Automatizar rotinas de monitoramento e respostas iniciais (ex.: alertas inteligentes, correlações, runbooks)
- Atuar em conjunto com SRE/DevOps/SecOps para governança de observabilidade, compliance e disponibilidade
- Produzir e manter documentação (dashboards, runbooks, playbooks, catálogo de serviços, dependências)
- Acompanhar indicadores e propor ações proativas para evitar recorrência de incidentes
- Requisitos obrigatórios
- Experiência com práticas de observabilidade: métricas, logs e traces (APM)
- Experiência com criação de dashboards, alertas e tuning de monitoramento
- Vivência com troubleshooting em ambientes cloud e/ou híbridos
- Conhecimento de Linux, redes (HTTP, DNS, TCP) e conceitos de containers
- Noções de CI/CD e integração com pipelines
- Capacidade analítica, comunicação clara e boa gestão de prioridades
- Requisitos desejáveis
- Conhecimento em OpenTelemetry, Prometheus, Grafana, Loki, Tempo, Elastic/ELK, Splunk, Datadog, New Relic, Dynatrace, Zabbix ou similares
- Conhecimento em Kubernetes e service mesh (quando aplicável)
- Experiência com práticas SRE (SLO, error budget, postmortem sem culpa)
- Noções de segurança e observabilidade (logs auditáveis, trilhas, correlação)
- Conhecimento básico de programação/scripting (Python, Bash, Go) para automações
- Competências comportamentais
- Raciocínio investigativo e foco em causa raiz
- Organização e atenção a detalhes
- Boa comunicação com times técnicos e não técnicos
- Proatividade e postura de melhoria contínua
- Trabalho colaborativo e senso de dono
- Diferenciais de atuação
- Capacidade de reduzir MTTR e aumentar a confiabilidade via observabilidade
- Criação de alertas acionáveis e redução de falso positivo
- Evolução de maturidade do time (padrões, playbooks, indicadores e governança)
Valorizado
- Escolaridade Mínima: Ensino Superior
11 Candidatos se inscreveram a esta vaga