FinOps
& Observability.
FinOps
& Observability.
Conta de cloud com dono, produto e decisão — em PR, não em retrospectiva trimestral. Visibilidade que mostra cada dólar, otimização que não quebra SLO, governança que avisa antes de estourar. Começa com tagging que funciona; termina com o time de produto decidindo sabendo o custo.
Cloud spend with an owner, a product, and a decision — in the PR, not in the quarterly retro. Visibility that shows every dollar, optimization that does not break SLO, governance that warns before the bill blows up. Starts with tagging that works; ends with the product team deciding knowing the cost.
Cada dólar com dono e produto. Não estimativa.
FinOps começa em visibilidade — não em corte. Antes de economizar é preciso saber para onde o dinheiro vai: por equipe, por produto, por ambiente. Tag herdada por IaC, cobertura medida em contrato, custo não-alocado tratado como bug. Relatório que ninguém entende não muda comportamento; dashboard com dono muda.
- V·01
Tagging contratual herdado por IaC
Política de tags (owner, produto, ambiente, centro de custo) aplicada no Terraform — não no clique. Recurso sem tag não sobe: bloqueado no plan, não corrigido no fim do mês.
- V·02
Cobertura de alocação como métrica
Custo não-alocado é dívida. A meta é acima de 95% do gasto com dono e produto. O que falta vira backlog com prazo, não nota de rodapé.
- V·03
CUR + Athena para a verdade fina
Cost Explorer dá a visão executiva; o Cost and Usage Report no Athena responde "por que essa conta subiu 18% na terça?". Dashboard em Grafana, atualizado diariamente.
- V·04
Showback antes de chargeback
Cada time vê o próprio custo antes de qualquer cobrança interna. Transparência primeiro muda decisão; cobrança sem contexto só gera ressentimento.
Economia que não vira incidente na sexta.
Otimizar é fácil até o SLO quebrar. Aqui rightsizing nasce de uso real (P95, não média otimista), aplicado em janela combinada, com rollback ensaiado. Savings Plan e reserva entram por baseline medido — não por chute. Cada movimento tem antes-e-depois no dashboard.
- O·01
Rightsizing por uso real
Compute Optimizer mais métrica de 30 dias. Recomendação com P95 e headroom, não pico nem média. Aplicada em janela, sempre revertível.
- O·02
Savings Plans & RIs por baseline
Cobertura calculada sobre o piso estável de consumo. Compromisso que cabe, não que aposta. Revisão trimestral, sem reserva no escuro.
- O·03
Descomissionamento do invisível
Volume órfão, snapshot antigo, IP elástico parado, ambiente de teste ligado 24×7. O custo que ninguém defende numa reunião — e que ninguém apaga sem alguém olhar.
- O·04
Storage tiering & egress
S3 lifecycle, classe certa por padrão de acesso, retenção de log definida, VPC endpoints e NAT compartilhado para cortar egress. Dado frio não paga preço de quente.
Alerta antes de estourar. Não depois.
Governança de FinOps não é trava que atrasa o time — é guardrail que evita a surpresa de fatura. Orçamento por equipe, alerta com dono, política aplicada por código. O objetivo é o engenheiro tomar decisão técnica sabendo o custo dela, no momento da decisão.
- G·01
Orçamento por equipe e produto
AWS Budgets por dono, com limites mensais combinados. Estouro previsto dispara conversa antes do fechamento — não cobrança depois.
- G·02
Guardrails por política
Service Control Policies e budget actions evitam a instância gigante esquecida e a região errada por engano. Regra em código, não em wiki.
- G·03
Forecast com intervalo, não número único
Projeção com cenário e margem de erro. Decisão de compromisso (Savings Plan, reserva) sai do forecast, não do otimismo do trimestre.
- G·04
Revisão de custo no ritual do time
FinOps entra na cadência quinzenal junto com SLO e incidente — não vira reunião separada que ninguém prioriza.
Custo é sinal de produção. Tratado como tal.
Custo que dispara é sintoma — de loop infinito, de retry sem teto, de query nova sem índice. Quando o custo entra na mesma observability do SLO, a anomalia de fatura vira alerta acionável, não descoberta no fechamento. Dashboard que alguém olha, alerta que acorda a pessoa certa.
- B·01
Anomaly detection com dono
AWS Cost Anomaly Detection mais regra própria sobre o CUR. Desvio acima do esperado abre alerta para o time dono do recurso — não um e-mail genérico que ninguém lê.
- B·02
Custo ao lado do SLO
Custo por requisição e por tenant no mesmo Grafana do MTTR e do error budget. Decisão de arquitetura passa a pesar custo e confiabilidade juntos.
- B·03
Custo de Kubernetes desambiguado
Kubecost ou OpenCost para alocar o cluster por namespace, equipe e workload. Fim do "o cluster custa X" sem saber de quem é o X.
- B·04
Unit economics que importam
Custo por pedido, por usuário ativo, por GB processado. Número que conecta engenharia a negócio — e mostra quando crescer ficou caro demais.
Corte que vira incidente não é economia.
- NÃO
Rightsizing agressivo sem dado de uso
Reduzir instância no chute economiza até o pico derrubar produção. Sem P95 e headroom medidos, não tocamos.
- NÃO
Relatório bonito que ninguém usa
Painel sem dono não muda comportamento. Se o número não entra no ritual do time, não fizemos FinOps — fizemos slide.
- NÃO
Compromisso de reserva sem baseline
Savings Plan apostado em consumo que pode cair vira prejuízo travado por anos. Compromisso só sobre piso medido.
Every dollar with an owner and a product. Not an estimate.
FinOps starts with visibility — not with cuts. Before you save, you have to know where the money goes: by team, by product, by environment. Tags inherited through IaC, coverage measured in the contract, unallocated cost treated as a bug. A report nobody understands does not change behavior; a dashboard with an owner does.
- V·01
Contractual tagging inherited via IaC
A tag policy (owner, product, environment, cost center) applied in Terraform — not by clicking. A resource without tags does not ship: blocked at plan, not fixed at month-end.
- V·02
Allocation coverage as a metric
Unallocated cost is debt. The target is above 95% of spend with an owner and a product. What is missing becomes backlog with a deadline, not a footnote.
- V·03
CUR + Athena for the fine-grained truth
Cost Explorer gives the executive view; the Cost and Usage Report in Athena answers "why did this account jump 18% on Tuesday?". Dashboard in Grafana, refreshed daily.
- V·04
Showback before chargeback
Each team sees its own cost before any internal billing. Transparency first changes decisions; billing without context only breeds resentment.
Savings that do not turn into a Friday incident.
Optimizing is easy until the SLO breaks. Here rightsizing comes from real usage (P95, not an optimistic average), applied in an agreed window, with a rehearsed rollback. Savings Plans and reservations come from a measured baseline — not a guess. Every move has a before-and-after on the dashboard.
- O·01
Rightsizing from real usage
Compute Optimizer plus 30 days of metrics. A recommendation with P95 and headroom, not peak or average. Applied in a window, always reversible.
- O·02
Savings Plans & RIs from a baseline
Coverage calculated over the stable consumption floor. A commitment that fits, not one that gambles. Reviewed quarterly, no reservation in the dark.
- O·03
Decommissioning the invisible
Orphan volumes, old snapshots, idle elastic IPs, test environments running 24×7. The cost nobody defends in a meeting — and nobody deletes without someone looking.
- O·04
Storage tiering & egress
S3 lifecycle, the right class per access pattern, defined log retention, VPC endpoints and shared NAT to cut egress. Cold data should not pay hot prices.
An alert before it blows up. Not after.
FinOps governance is not a brake that slows the team — it is a guardrail that prevents the invoice surprise. Budget per team, an alert with an owner, policy applied in code. The goal is for the engineer to make a technical decision knowing its cost, at the moment of the decision.
- G·01
Budget per team and product
AWS Budgets per owner, with agreed monthly limits. A forecast overrun triggers a conversation before close — not a charge after.
- G·02
Guardrails by policy
Service Control Policies and budget actions prevent the forgotten giant instance and the wrong region by accident. Rule in code, not in a wiki.
- G·03
Forecast with a range, not a single number
A projection with scenarios and a margin of error. Commitment decisions (Savings Plans, reservations) come from the forecast, not from quarterly optimism.
- G·04
Cost review in the team ritual
FinOps joins the biweekly cadence alongside SLO and incidents — it does not become a separate meeting nobody prioritizes.
Cost is a production signal. Treated as one.
A cost that spikes is a symptom — of an infinite loop, of a retry without a cap, of a new query with no index. When cost joins the same observability as the SLO, an invoice anomaly becomes an actionable alert, not a discovery at close. A dashboard someone watches, an alert that wakes the right person.
- B·01
Anomaly detection with an owner
AWS Cost Anomaly Detection plus a custom rule over the CUR. A deviation above expected opens an alert to the team that owns the resource — not a generic email nobody reads.
- B·02
Cost next to the SLO
Cost per request and per tenant in the same Grafana as MTTR and the error budget. Architecture decisions now weigh cost and reliability together.
- B·03
Kubernetes cost disambiguated
Kubecost or OpenCost to allocate the cluster by namespace, team, and workload. The end of "the cluster costs X" without knowing whose X it is.
- B·04
Unit economics that matter
Cost per order, per active user, per GB processed. The number that connects engineering to the business — and shows when growth got too expensive.
A cut that becomes an incident is not savings.
- NO
Aggressive rightsizing without usage data
Shrinking an instance on a hunch saves money until the peak takes production down. Without measured P95 and headroom, we do not touch it.
- NO
A pretty report nobody uses
A dashboard without an owner does not change behavior. If the number does not enter the team ritual, we did not do FinOps — we made a slide.
- NO
A reservation commitment without a baseline
A Savings Plan bet on consumption that may fall becomes a loss locked in for years. Commit only over a measured floor.
Conta de cloud subindo sem explicação? Conta o problema.
45 min com um engenheiro de FinOps. Sem pitch.
Cloud bill climbing with no explanation? Tell us the problem.
45 min with a FinOps engineer. No pitch.