TRANSMISSÃO_0051 OBSERVABILIDADE 16.09.2025 · 7 MIN

A Odisséia de Observabilidade de Sofia: DORA Metrics

O time do Raony vive em war room e não sabe dizer se está melhorando — Lauren apresenta as quatro DORA Metrics e o caminho para medi-las com OpenTelemetry e Datadog, com direito a dogão da Dona Rosa no epílogo.

O barulho metálico ecoava pela plataforma do metrô. Entre anúncios de “atenção às portas” e o zumbido das composições chegando, Sofia e Lauren se encontraram a caminho do trabalho.

Sofia: "Lauren, você viu a mensagem do João no whats? Parece que o time do Raony tá pedindo apoio urgente."

Lauren: "Vi sim. Eles estão com a qualidade do serviço caindo e estão lidando com incidentes dia sim e dia também. Não é só técnico, parece cultural. Que tistreza..."

Sofia suspirou enquanto o trem passava por elas, levantando vento quente.

Sofia: "É sempre assim… a gente só é chamada quando a casa tá pegando fogo."

Lauren (rindo): "First time? Bem-vinda ao mundo, fia. Mas relaxa, isso pode ser uma ótima oportunidade pra ensinar algo importante."

O Pedido de Ajuda

Lauren concentrada no computador enquanto Sofia conversa com Raony

Em uma sala virtual com o time, Raony, o gerente, abriu o jogo:

Raony: "Gente, estamos exaustos. Temos liberado features novas, mas quase toda entrega gera incidente. O time passa mais tempo em war room do que em sprint planning. Os desenvolvedores estão frustrados, e eu não consigo mostrar para a diretoria que estamos melhorando em nada. A sensação é de que estamos andando em círculos. Chegou a hora de olharmos para esses débitos técnicos... a quem eu estou enganando, já passou da hora."

Sofia ficou em silêncio, mas Lauren já sacou a raiz do problema.

Lauren: "Raony, vocês estão medindo o quê, exatamente? Só uptime e CPU? Porque isso não mostra a saúde do time."

Raony confirmou com a cabeça: era exatamente isso.

A Explicação de Lauren

Lauren explicando as DORA Metrics

Lauren: "O que vocês precisam é aplicar DORA Metrics. Não é Dora Aventureira hehe. São quatro métricas criadas a partir de anos de pesquisa pela equipe do DevOps Research and Assessment, que viraram referência mundial para avaliar times de software. Olha só:"

Lead Time for Changes – "Quanto tempo leva de um commit até chegar em produção. Mede a agilidade de entrega."
Deployment Frequency – "Quantas vezes o time coloca algo novo em produção. Mostra a cadência de releases."
Change Failure Rate (CFR) – "A porcentagem de deploys que resultam em falha, rollback ou hotfix. Essa é a medida de qualidade."
Mean Time to Recovery (MTTR) – "O tempo médio para recuperar o sistema após uma falha. Reflete a resiliência."

Lauren: "Se vocês conseguirem medir isso, vai ajudar demaaaais vocês no dia a dia. Vão saber se são um time ágil, confiável e resiliente, ou só um time ocupado. E o mais importante: essas métricas não são pra apontar culpados, mas pra mostrar onde melhorar."

Sofia interrompeu com a sua típica curiosidade.

Sofia: "Então se o CFR deles tá alto, significa que os deploys estão sempre falhando. Se o MTTR é longo, eles não têm rollback. É isso?"

Lauren: "Exatamente. E se o Lead Time é gigante, é porque o fluxo de entrega tá emperrado. Com isso na mão, vocês conseguem negociar melhorias com a liderança, em vez de só dizer 'deu ruim'."

Raony parecia respirar aliviado.

Raony: "Isso… isso eu consigo apresentar para a diretoria. Números claros, que mostrem onde precisamos investir."

Raony: "Mas tem um ponto importante. A gente precisa subir o Datadog, como é padrão agora na empresa, mas o problema é que temos muita complexidade no nosso ambiente e não vai ser tão simples instalar e ver as coisas."

Lauren: "Ok, entendi, isso vai facilitar demais as coisas. Mas vai demandar uns dias de alinhamento para que o time consiga absorver o que tem de ser feito..."

Sofia: "E lá vamos nós...".

Como integrar DORA Metrics com OpenTelemetry + Datadog

Sofia explicando a integração para o time

1. Padronize os atributos

Sempre envie junto nos sinais (logs, traces, métricas):

service.name (nome do serviço)
service.version (commit/tag da release)
deployment.environment (prod, staging, etc.)
vcs.repository.url e vcs.repository.ref.revision (repo + commit SHA)

Esses dados permitem correlacionar commit → deploy → incidente → restauração.

2. Instrumente o CI/CD

No seu CI (ex.: GitHub Actions, GitLab), exporte dados de build e commit via OTel.
No seu CD (ex.: Argo, Spinnaker), emita um evento de deploy usando logs OTel ou um span curto com os atributos acima. Isso garante Deployment Frequency e ajuda a calcular Lead Time (do commit até o deploy).

3. Registre falhas e restaurações

Quando um deploy der problema (rollback, incidente aberto), emita um evento de failure via OTel.
Quando o serviço se recuperar (novo deploy fix ou incidente fechado), emita um evento de restore.

Com isso você cobre Change Failure Rate (CFR) e MTTR.

4. Use o OpenTelemetry Collector

Configure o Collector para receber OTLP (logs/traces/metrics) e exportar para o Datadog.
Assim o Datadog junta seus eventos OTel com métricas/monitores já existentes e monta os painéis de DORA.

5. Valide

Veja no Datadog se aparecem os deploys (DF).
Confira se o Lead Time mostra o tempo commit → deploy.
Teste um failure/restore pra validar CFR e MTTR.

Em resumo

CI/CD → envia deploys via OTel
Monitores/incidentes → enviam failures/restores via OTel
Collector → Datadog
Datadog → calcula e mostra DORA

Depois de toda explicação e orientação, Lauren puxa os finalmentes:

Lauren: "Com isso, o time consegue tocar por conta própria, acredito eu."

Raony: "Ajudaram demais da conta. Muito obrigado, pessoal."

Sofia: "Imagina, e para qualquer coisa, a nossa documentação interna está tinindo, podem confiar."

Epílogo: Dogão da Dona Rosa

Dogão da Dona Rosa — dogão é sempre bom com amigos

Já no fim do dia, as duas voltaram juntas para a estação.

Sofia: "Ei, depois de tanto papo sério, bora comer um dogão da Dona Rosa? Aquele da esquina do metrô, cheio de purê, batata palha, milho, conforto e felicidade?"

Lauren (rindo alto): "Hahaha... depois de falar de Dora Metrics, agora vai me convencer com puré de batata? Tá bom, eu topo. Hoje a gente merece. Só me deixa comprar um antiácido antes pois essas coisas me fazem mal..."

Sofia: "Sempre soube que você não aguenta comida das ruas..."

Fontes

O que é "A Odisséia de Observabilidade de Sofia"?

Adso Castro escreve sobre Observabilidade e SRE contando histórias pessoais e não tão pessoais assim, utilizando personagens fictícios na trama. A ideia é abordar assuntos complexos do mundo de Cloud Native de uma forma mais amigável. As histórias giram em torno das personagens Sofia e sua amiga e colega de equipe, Lauren.

Sofia Wang — Site Reliability Engineer, 23 anos

Lauren Johanssen — Senior Site Reliability Engineer, techlead do time de observabilidade, 27 anos

◂ VOLTAR AO ARQUIVO // FIM DA TRANSMISSÃO_0051