A Odisséia de Observabilidade de Sofia: DORA Metrics
O time do Raony vive em war room e não sabe dizer se está melhorando — Lauren apresenta as quatro DORA Metrics e o caminho para medi-las com OpenTelemetry e Datadog, com direito a dogão da Dona Rosa no epílogo.

O barulho metálico ecoava pela plataforma do metrô. Entre anúncios de “atenção às portas” e o zumbido das composições chegando, Sofia e Lauren se encontraram a caminho do trabalho.
Sofia: "Lauren, você viu a mensagem do João no whats? Parece que o time do Raony tá pedindo apoio urgente."
Lauren: "Vi sim. Eles estão com a qualidade do serviço caindo e estão lidando com incidentes dia sim e dia também. Não é só técnico, parece cultural. Que tistreza..."
Sofia suspirou enquanto o trem passava por elas, levantando vento quente.
Sofia: "É sempre assim… a gente só é chamada quando a casa tá pegando fogo."
Lauren (rindo): "First time? Bem-vinda ao mundo, fia. Mas relaxa, isso pode ser uma ótima oportunidade pra ensinar algo importante."
O Pedido de Ajuda

Em uma sala virtual com o time, Raony, o gerente, abriu o jogo:
Raony: "Gente, estamos exaustos. Temos liberado features novas, mas quase toda entrega gera incidente. O time passa mais tempo em war room do que em sprint planning. Os desenvolvedores estão frustrados, e eu não consigo mostrar para a diretoria que estamos melhorando em nada. A sensação é de que estamos andando em círculos. Chegou a hora de olharmos para esses débitos técnicos... a quem eu estou enganando, já passou da hora."
Sofia ficou em silêncio, mas Lauren já sacou a raiz do problema.
Lauren: "Raony, vocês estão medindo o quê, exatamente? Só uptime e CPU? Porque isso não mostra a saúde do time."
Raony confirmou com a cabeça: era exatamente isso.
A Explicação de Lauren

Lauren: "O que vocês precisam é aplicar DORA Metrics. Não é Dora Aventureira hehe. São quatro métricas criadas a partir de anos de pesquisa pela equipe do DevOps Research and Assessment, que viraram referência mundial para avaliar times de software. Olha só:"
- Lead Time for Changes – "Quanto tempo leva de um commit até chegar em produção. Mede a agilidade de entrega."
- Deployment Frequency – "Quantas vezes o time coloca algo novo em produção. Mostra a cadência de releases."
- Change Failure Rate (CFR) – "A porcentagem de deploys que resultam em falha, rollback ou hotfix. Essa é a medida de qualidade."
- Mean Time to Recovery (MTTR) – "O tempo médio para recuperar o sistema após uma falha. Reflete a resiliência."
Lauren: "Se vocês conseguirem medir isso, vai ajudar demaaaais vocês no dia a dia. Vão saber se são um time ágil, confiável e resiliente, ou só um time ocupado. E o mais importante: essas métricas não são pra apontar culpados, mas pra mostrar onde melhorar."
Sofia interrompeu com a sua típica curiosidade.
Sofia: "Então se o CFR deles tá alto, significa que os deploys estão sempre falhando. Se o MTTR é longo, eles não têm rollback. É isso?"
Lauren: "Exatamente. E se o Lead Time é gigante, é porque o fluxo de entrega tá emperrado. Com isso na mão, vocês conseguem negociar melhorias com a liderança, em vez de só dizer 'deu ruim'."
Raony parecia respirar aliviado.
Raony: "Isso… isso eu consigo apresentar para a diretoria. Números claros, que mostrem onde precisamos investir."
Raony: "Mas tem um ponto importante. A gente precisa subir o Datadog, como é padrão agora na empresa, mas o problema é que temos muita complexidade no nosso ambiente e não vai ser tão simples instalar e ver as coisas."
Lauren: "Ok, entendi, isso vai facilitar demais as coisas. Mas vai demandar uns dias de alinhamento para que o time consiga absorver o que tem de ser feito..."
Sofia: "E lá vamos nós...".
Como integrar DORA Metrics com OpenTelemetry + Datadog

1. Padronize os atributos
Sempre envie junto nos sinais (logs, traces, métricas):
- service.name (nome do serviço)
- service.version (commit/tag da release)
- deployment.environment (prod, staging, etc.)
- vcs.repository.url e vcs.repository.ref.revision (repo + commit SHA)
Esses dados permitem correlacionar commit → deploy → incidente → restauração.
2. Instrumente o CI/CD
- No seu CI (ex.: GitHub Actions, GitLab), exporte dados de build e commit via OTel.
- No seu CD (ex.: Argo, Spinnaker), emita um evento de deploy usando logs OTel ou um span curto com os atributos acima. Isso garante Deployment Frequency e ajuda a calcular Lead Time (do commit até o deploy).
3. Registre falhas e restaurações
- Quando um deploy der problema (rollback, incidente aberto), emita um evento de failure via OTel.
- Quando o serviço se recuperar (novo deploy fix ou incidente fechado), emita um evento de restore.
Com isso você cobre Change Failure Rate (CFR) e MTTR.
4. Use o OpenTelemetry Collector
- Configure o Collector para receber OTLP (logs/traces/metrics) e exportar para o Datadog.
- Assim o Datadog junta seus eventos OTel com métricas/monitores já existentes e monta os painéis de DORA.
5. Valide
- Veja no Datadog se aparecem os deploys (DF).
- Confira se o Lead Time mostra o tempo commit → deploy.
- Teste um failure/restore pra validar CFR e MTTR.
Em resumo
- CI/CD → envia deploys via OTel
- Monitores/incidentes → enviam failures/restores via OTel
- Collector → Datadog
- Datadog → calcula e mostra DORA
Depois de toda explicação e orientação, Lauren puxa os finalmentes:
Lauren: "Com isso, o time consegue tocar por conta própria, acredito eu."
Raony: "Ajudaram demais da conta. Muito obrigado, pessoal."
Sofia: "Imagina, e para qualquer coisa, a nossa documentação interna está tinindo, podem confiar."
Epílogo: Dogão da Dona Rosa

Já no fim do dia, as duas voltaram juntas para a estação.
Sofia: "Ei, depois de tanto papo sério, bora comer um dogão da Dona Rosa? Aquele da esquina do metrô, cheio de purê, batata palha, milho, conforto e felicidade?"
Lauren (rindo alto): "Hahaha... depois de falar de Dora Metrics, agora vai me convencer com puré de batata? Tá bom, eu topo. Hoje a gente merece. Só me deixa comprar um antiácido antes pois essas coisas me fazem mal..."
Sofia: "Sempre soube que você não aguenta comida das ruas..."
Fontes
O que é "A Odisséia de Observabilidade de Sofia"?
Adso Castro escreve sobre Observabilidade e SRE contando histórias pessoais e não tão pessoais assim, utilizando personagens fictícios na trama. A ideia é abordar assuntos complexos do mundo de Cloud Native de uma forma mais amigável. As histórias giram em torno das personagens Sofia e sua amiga e colega de equipe, Lauren.

