// UPLINK ESTÁVEL 214 SERVIÇOS MONITORADOS ERROR BUDGET: 99.2% INCIDENTES ABERTOS: 0 // FIM DA LINHA
// UPLINK ESTÁVEL 214 SERVIÇOS MONITORADOS ERROR BUDGET: 99.2% INCIDENTES ABERTOS: 0 // FIM DA LINHA
TRANSMISSÃO_0053 OBSERVABILIDADE

A Odisséia de Observabilidade de Sofia: O Agente Bom Pra Cachorro

Sofia testa o Bits Assistant do Datadog num teste de stress do checkout e o agente identifica sozinho que os 11 mil erros eram sintéticos — Lauren, cética de carteirinha, sai impressionada (mas com uma ressalva sobre contexto de negócio).

A Odisséia de Observabilidade de Sofia: O Agente Bom Pra Cachorro

Esta é mais uma história da série A Odisséia de Observabilidade de Sofia, onde acompanhamos o dia a dia da Sofia e da Lauren lidando com incidentes, ferramentas de observabilidade e decisões de SRE. Se você ainda não conhece a série, fica tranquilo: cada episódio funciona de forma independente.

15:33 - Terraço do escritório da empresa

Sofia e Lauren no terraço do escritório

Notificação de mensagem da Lauren:

Sofia: Ou, onde cê tá? Acabei de sair do papo com o time de checkout, preciso te contar como foi.

Lauren: Terraço, terminando um cigarro, sobe aqui…

Sofia: Indo.

— Aí eu pensei, vou testar, vai que ao menos ele consegue me apontar para o caminho certo né? Diz Sofia empolgada.

— Ahan… Lauren desdenha — Tem certeza de que não é mais um daqueles agentes no estilo "Posso ajudar?" e não faz nada além de jogar link de documentação na minha cara?

— Pior que não, é bom, te juro! — Sofia retruca. — Não é aquela coisa de jogar o erro no GPT e esperar que ele resolva tudo pra mim sem ter contexto algum. Como o Bits tem os nossos dados, você consegue ter um bom direcionamento de onde procurar a causa raiz; isso quando ele já não te aponta logo de cara.

— Hmmm. Lauren pensa sobre. — Tá, vamos voltar e você me mostra…

No escritório

Sofia mostrando o Bits Assistant aberto no Datadog para Lauren

— Se liga. Sofia loga em sua máquina enquanto se ajusta em sua cadeira. — O time de checkout estava na call de teste de stress fazendo profiling da aplicação enquanto eu via em paralelo o que o agente podia fazer.

— Okaaay... Lauren se inclina para a tela. — E qual o nome mesmo do agente? Pergunta ela.

— Bits Assistant.

Datadog Bits Assistant

O Bits Assistant é um assistente de IA integrado ao Datadog que permite pesquisar, analisar e agir sobre dados de observabilidade em linguagem natural, diretamente pela web, app mobile e Slack, sempre respeitando as permissões do seu papel (RBAC — Role-Based Access Control) no Datadog. Segurança acima de tudo.

Com ele, você pode resumir incidentes, investigar erros e latência a partir de traces, entender mudanças de custos na nuvem e criar ou editar dashboards e notebooks a partir de prompts em linguagem natural.

Na prática, o Bits funciona como um copiloto de observabilidade para times de SRE, DevOps e desenvolvimento. Ele evita consultas complexas e navegação por múltiplos dashboards, ajudando a localizar métricas, traces, logs e custos relevantes. Além disso, gera resumos, sugere visualizações e automatiza a criação/ajuste de dashboards e notebooks. Isso reduz o tempo até a causa provável e padroniza análises que antes dependiam de especialistas na ferramenta.

O Bits Assistant é treinado para entender como a sua organização tagueia serviços e infraestrutura no Datadog e usar isso nas consultas em linguagem natural. Isso significa que ele "entende" o seu ambiente através de:

  • Serviços de APM (Application Performance Monitoring), containers, hosts, clusters, lambdas, etc.
  • Tags e labels que você já usa (por exemplo, service:checkout, team:payments, env:prod).
  • Métricas, logs, traces, RUM (Real User Monitoring), security signals, cloud cost, e outros dados de telemetria ligados a esses serviços. Na prática, ele sabe como o seu sistema é composto tecnicamente e consegue navegar isso de forma inteligente.

Fonte: https://www.datadoghq.com/blog/introducing-bits-assistant/


— Olha o histórico da minha interação com ele. Sofia aponta para a conversa de chat com o agente. — Perguntei se havia algo de errado com o checkout service, como ele está instrumentado com o datadog-agent, temos traces, logs e métricas.

— A tradução dele é boa? Pergunta Lauren ajustando seus óculos.

— Sim! Assustadoramente boa. Todas as minhas interações com ele são em PT-BR. Claro, quanto mais contexto você passar, melhor, não vai sair escrevendo pra ele algo como "CHECKOUT MORREU?", ainda que eu acredite que ele possa trabalhar com isso...

Perguntei assim:

Sofia: O service checkout está com um problema de latência alta há meia hora, consegue analisar o que possa estar causando esse problema?
Bits Assistant: Vou buscar informações sobre o serviço de checkout.
Bits Assistant: Agora vou buscar logs, spans e eventos dos últimos 30 minutos para o service de checkout.
Bits Assistant: Bom, tenho bastante informação. Deixa-me buscar mais detalhes sobre os erros.
Bits Assistant: Aqui está o resumo completo do serviço checkout nos últimos 30 minutos.

Resumo Checkout - Últimos 30 minutos

+----------------+-----------+--------+
| SERVIÇO        | STATUS    | SPANS  |
+----------------+-----------+--------+
| Checkout       | ERROR     | 11,245 |
+----------------+-----------+--------+
Atenção: O service checkout está em processo de teste de stress intencional (ref checkout-stress-test-lambda). Os mais de 11 mil erros são sintéticos/esperados, não representam falha real em produção.

Status dos Monitors
1 Monitor ativo e em andamento
❌ Checkout - Alta latência - Ativo

— Viu, e ai? Pergunta Sofia olhando para Lauren concentrada na tela. Cê viu que ele identificou que o serviço de checkout estava sob teste de stress (teste de carga intencional), reconheceu que os 11 mil erros eram sintéticos (não reais) e evitou que o time entrasse em pânico com um falso incidente.

Em vez de 10–15 minutos navegando entre dashboards, logs e traces, Sofia teve uma visão clara e contextualizada em segundos. Menos tempo em diagnóstico, menos ruído, mais foco no que realmente importa.

— Nem fod****... como ele soube do lambda? Eu sei que nossas contas AWS estão integradas com ele, mas ele foi atrás até disso? Pergunta Lauren ainda desconfiada.

— Pois é, o agente tem acesso a TODO dado da nossa organização na plataforma Datadog, traces, logs, métricas. Tudo isso ele consulta e correlaciona de acordo com o que você pergunta pra ele.

— E ele supôs que está sendo executado um teste de stress pelo lambda estar em execução e o serviço em questão está sendo afetado? Nossa, perdão pelo festival de gerundismo...

— Exato. Esse é um dos pontos impressionantes do agente, ele correlaciona tudo muito bem, assustadoramente bem. Responde Sofia.

— Você viu que ele criou tasks depois da minha pergunta? Ele quebra as perguntas em tasks e vai ligando os pontos na medida em que eles vão sendo completados com sucesso ou não. É muito bizarro pra dizer o mínimo... Sofia abre um link de um notebook do Datadog e vira-se pra Lauren.

— Você viu no post-mortem do último incidente do checkout ontem que o Josias apresentou?

— Aham... foi você? Pergunta Lauren.

— Oui, c'était moi (Sim, fui eu). Desdenha Sofia. — Não tem segredo, o Bits Assistant consegue criar dashboards, notebooks e em breve, monitors. Só de não ter que ser chamada por toda a empresa pra ajudar tudo e todos a construir dashboards eu já me sinto realizada.

— Nossa, que prático, estou impressionada, confesso. Diz Lauren. — E o quanto vai custar pra nós (empresa) essa brincadeira?

— Boa pergunta, ainda está em preview, então, não sabemos. Sei que a Cláudia, gerente do time de operações, vai brigar com unhas e dentes pra contratarmos quando estiver oficializado. Imagina, o dia e as madrugadas deles ficaram mais de boa.

Na cafeteria

Sofia e Lauren na cafeteria em um dia de chuva

— Chuva, maravilha, isso porque eu ainda vou lavar roupa quando chegar em casa. Desabafa Lauren. — Sabe no que eu estava pensando? No momento em que esses agentes entenderem qual o contexto do nosso negócio, aí a coisa complica. O agente entender como nosso parque de aplicações e infraestrutura funcionam, legal, isso é muito útil pra nós, nos ajuda a manter as coisas operando sem dor de cabeça. Mas quando se trata de contexto de negócio, ainda acho complexo...

Lauren tem razão aqui. Serviços de AI como esse são muito úteis para nós engenheiros em nosso dia-a-dia, mas na experiência deste autor que vos escreve, contexto de negócio (ainda) não é pego de forma automatizada assim.

— Sabe o que eu percebi e isso me deixa bem empolgada? Agora eu não preciso mais começar a buscar o que está acontecendo com algum serviço ou componente da nossa infra do zero, varrendo dashboards, logs e métricas. Diz Sofia. — Eu posso simplesmente pedir para o agente resumir o que aconteceu desde o início do impacto até o atual momento. Ou melhor, pedir para que ele avalie o que possa ter causado o problema desde o início. Complementa ela. — E isso é muito maneiro.


O que é "A Odisséia de Observabilidade de Sofia"?

Adso Castro escreve sobre Observabilidade e SRE contando histórias pessoais e não tão pessoais assim, utilizando personagens fictícios na trama. A ideia é abordar assuntos complexos do mundo de Cloud Native de uma forma mais amigável. As histórias giram em torno das personagens Sofia e sua amiga e colega de equipe, Lauren.

Sofia Wang — Site Reliability Engineer, 23 anos

Lauren Johanssen — Senior Site Reliability Engineer, techlead do time de observabilidade, 27 anos

◂ VOLTAR AO ARQUIVO // FIM DA TRANSMISSÃO_0053
Receba o sinal.
// IGNORE O RUÍDO — 1 EMAIL POR SEMANA