06 · Capacidade 06 · Capability

FinOps
& Observability.

FinOps
& Observability.

Conta de cloud com dono, produto e decisão — em PR, não em retrospectiva trimestral. Visibilidade que mostra cada dólar, otimização que não quebra SLO, governança que avisa antes de estourar. Começa com tagging que funciona; termina com o time de produto decidindo sabendo o custo.

Cloud spend with an owner, a product, and a decision — in the PR, not in the quarterly retro. Visibility that shows every dollar, optimization that does not break SLO, governance that warns before the bill blows up. Starts with tagging that works; ends with the product team deciding knowing the cost.

23% médio
Economia em 90 dias
90dias
Primeiro ciclo · visibilidade → ação
95%
Meta de custo alocado · dono + produto
0
Reserva no escuro. Sempre com número.
23% avg
Saved in 90 days
90days
First cycle · visibility → action
95%
Cost-allocation target · owner + product
0
No reservation in the dark. Always with a number.
01. Visibilidade & tagging
02. Otimização & rightsizing
03. Governança & orçamento
04. Observability & SLO
05. Anomaly detection
06. FinOps no ciclo de produto
01. Visibility & tagging
02. Optimization & rightsizing
03. Governance & budget
04. Observability & SLO
05. Anomaly detection
06. FinOps in the product cycle
stack · ferramental stack · tooling AWS Cost ExplorerCUR + AthenaKubecostOpenCostGrafanaPrometheusCompute OptimizerSavings PlansTerraformCloudHealth
01 · Visibilidade & tagging

Cada dólar com dono e produto. Não estimativa.

FinOps começa em visibilidade — não em corte. Antes de economizar é preciso saber para onde o dinheiro vai: por equipe, por produto, por ambiente. Tag herdada por IaC, cobertura medida em contrato, custo não-alocado tratado como bug. Relatório que ninguém entende não muda comportamento; dashboard com dono muda.

  • V·01

    Tagging contratual herdado por IaC

    Política de tags (owner, produto, ambiente, centro de custo) aplicada no Terraform — não no clique. Recurso sem tag não sobe: bloqueado no plan, não corrigido no fim do mês.

  • V·02

    Cobertura de alocação como métrica

    Custo não-alocado é dívida. A meta é acima de 95% do gasto com dono e produto. O que falta vira backlog com prazo, não nota de rodapé.

  • V·03

    CUR + Athena para a verdade fina

    Cost Explorer dá a visão executiva; o Cost and Usage Report no Athena responde "por que essa conta subiu 18% na terça?". Dashboard em Grafana, atualizado diariamente.

  • V·04

    Showback antes de chargeback

    Cada time vê o próprio custo antes de qualquer cobrança interna. Transparência primeiro muda decisão; cobrança sem contexto só gera ressentimento.

02 · Otimização & rightsizing

Economia que não vira incidente na sexta.

Otimizar é fácil até o SLO quebrar. Aqui rightsizing nasce de uso real (P95, não média otimista), aplicado em janela combinada, com rollback ensaiado. Savings Plan e reserva entram por baseline medido — não por chute. Cada movimento tem antes-e-depois no dashboard.

  • O·01

    Rightsizing por uso real

    Compute Optimizer mais métrica de 30 dias. Recomendação com P95 e headroom, não pico nem média. Aplicada em janela, sempre revertível.

  • O·02

    Savings Plans & RIs por baseline

    Cobertura calculada sobre o piso estável de consumo. Compromisso que cabe, não que aposta. Revisão trimestral, sem reserva no escuro.

  • O·03

    Descomissionamento do invisível

    Volume órfão, snapshot antigo, IP elástico parado, ambiente de teste ligado 24×7. O custo que ninguém defende numa reunião — e que ninguém apaga sem alguém olhar.

  • O·04

    Storage tiering & egress

    S3 lifecycle, classe certa por padrão de acesso, retenção de log definida, VPC endpoints e NAT compartilhado para cortar egress. Dado frio não paga preço de quente.

03 · Governança & orçamento

Alerta antes de estourar. Não depois.

Governança de FinOps não é trava que atrasa o time — é guardrail que evita a surpresa de fatura. Orçamento por equipe, alerta com dono, política aplicada por código. O objetivo é o engenheiro tomar decisão técnica sabendo o custo dela, no momento da decisão.

  • G·01

    Orçamento por equipe e produto

    AWS Budgets por dono, com limites mensais combinados. Estouro previsto dispara conversa antes do fechamento — não cobrança depois.

  • G·02

    Guardrails por política

    Service Control Policies e budget actions evitam a instância gigante esquecida e a região errada por engano. Regra em código, não em wiki.

  • G·03

    Forecast com intervalo, não número único

    Projeção com cenário e margem de erro. Decisão de compromisso (Savings Plan, reserva) sai do forecast, não do otimismo do trimestre.

  • G·04

    Revisão de custo no ritual do time

    FinOps entra na cadência quinzenal junto com SLO e incidente — não vira reunião separada que ninguém prioriza.

04 · Observability & anomaly detection

Custo é sinal de produção. Tratado como tal.

Custo que dispara é sintoma — de loop infinito, de retry sem teto, de query nova sem índice. Quando o custo entra na mesma observability do SLO, a anomalia de fatura vira alerta acionável, não descoberta no fechamento. Dashboard que alguém olha, alerta que acorda a pessoa certa.

  • B·01

    Anomaly detection com dono

    AWS Cost Anomaly Detection mais regra própria sobre o CUR. Desvio acima do esperado abre alerta para o time dono do recurso — não um e-mail genérico que ninguém lê.

  • B·02

    Custo ao lado do SLO

    Custo por requisição e por tenant no mesmo Grafana do MTTR e do error budget. Decisão de arquitetura passa a pesar custo e confiabilidade juntos.

  • B·03

    Custo de Kubernetes desambiguado

    Kubecost ou OpenCost para alocar o cluster por namespace, equipe e workload. Fim do "o cluster custa X" sem saber de quem é o X.

  • B·04

    Unit economics que importam

    Custo por pedido, por usuário ativo, por GB processado. Número que conecta engenharia a negócio — e mostra quando crescer ficou caro demais.

O que NÃO fazemos em FinOps

Corte que vira incidente não é economia.

  • NÃO

    Rightsizing agressivo sem dado de uso

    Reduzir instância no chute economiza até o pico derrubar produção. Sem P95 e headroom medidos, não tocamos.

  • NÃO

    Relatório bonito que ninguém usa

    Painel sem dono não muda comportamento. Se o número não entra no ritual do time, não fizemos FinOps — fizemos slide.

  • NÃO

    Compromisso de reserva sem baseline

    Savings Plan apostado em consumo que pode cair vira prejuízo travado por anos. Compromisso só sobre piso medido.

01 · Visibility & tagging

Every dollar with an owner and a product. Not an estimate.

FinOps starts with visibility — not with cuts. Before you save, you have to know where the money goes: by team, by product, by environment. Tags inherited through IaC, coverage measured in the contract, unallocated cost treated as a bug. A report nobody understands does not change behavior; a dashboard with an owner does.

  • V·01

    Contractual tagging inherited via IaC

    A tag policy (owner, product, environment, cost center) applied in Terraform — not by clicking. A resource without tags does not ship: blocked at plan, not fixed at month-end.

  • V·02

    Allocation coverage as a metric

    Unallocated cost is debt. The target is above 95% of spend with an owner and a product. What is missing becomes backlog with a deadline, not a footnote.

  • V·03

    CUR + Athena for the fine-grained truth

    Cost Explorer gives the executive view; the Cost and Usage Report in Athena answers "why did this account jump 18% on Tuesday?". Dashboard in Grafana, refreshed daily.

  • V·04

    Showback before chargeback

    Each team sees its own cost before any internal billing. Transparency first changes decisions; billing without context only breeds resentment.

02 · Optimization & rightsizing

Savings that do not turn into a Friday incident.

Optimizing is easy until the SLO breaks. Here rightsizing comes from real usage (P95, not an optimistic average), applied in an agreed window, with a rehearsed rollback. Savings Plans and reservations come from a measured baseline — not a guess. Every move has a before-and-after on the dashboard.

  • O·01

    Rightsizing from real usage

    Compute Optimizer plus 30 days of metrics. A recommendation with P95 and headroom, not peak or average. Applied in a window, always reversible.

  • O·02

    Savings Plans & RIs from a baseline

    Coverage calculated over the stable consumption floor. A commitment that fits, not one that gambles. Reviewed quarterly, no reservation in the dark.

  • O·03

    Decommissioning the invisible

    Orphan volumes, old snapshots, idle elastic IPs, test environments running 24×7. The cost nobody defends in a meeting — and nobody deletes without someone looking.

  • O·04

    Storage tiering & egress

    S3 lifecycle, the right class per access pattern, defined log retention, VPC endpoints and shared NAT to cut egress. Cold data should not pay hot prices.

03 · Governance & budget

An alert before it blows up. Not after.

FinOps governance is not a brake that slows the team — it is a guardrail that prevents the invoice surprise. Budget per team, an alert with an owner, policy applied in code. The goal is for the engineer to make a technical decision knowing its cost, at the moment of the decision.

  • G·01

    Budget per team and product

    AWS Budgets per owner, with agreed monthly limits. A forecast overrun triggers a conversation before close — not a charge after.

  • G·02

    Guardrails by policy

    Service Control Policies and budget actions prevent the forgotten giant instance and the wrong region by accident. Rule in code, not in a wiki.

  • G·03

    Forecast with a range, not a single number

    A projection with scenarios and a margin of error. Commitment decisions (Savings Plans, reservations) come from the forecast, not from quarterly optimism.

  • G·04

    Cost review in the team ritual

    FinOps joins the biweekly cadence alongside SLO and incidents — it does not become a separate meeting nobody prioritizes.

04 · Observability & anomaly detection

Cost is a production signal. Treated as one.

A cost that spikes is a symptom — of an infinite loop, of a retry without a cap, of a new query with no index. When cost joins the same observability as the SLO, an invoice anomaly becomes an actionable alert, not a discovery at close. A dashboard someone watches, an alert that wakes the right person.

  • B·01

    Anomaly detection with an owner

    AWS Cost Anomaly Detection plus a custom rule over the CUR. A deviation above expected opens an alert to the team that owns the resource — not a generic email nobody reads.

  • B·02

    Cost next to the SLO

    Cost per request and per tenant in the same Grafana as MTTR and the error budget. Architecture decisions now weigh cost and reliability together.

  • B·03

    Kubernetes cost disambiguated

    Kubecost or OpenCost to allocate the cluster by namespace, team, and workload. The end of "the cluster costs X" without knowing whose X it is.

  • B·04

    Unit economics that matter

    Cost per order, per active user, per GB processed. The number that connects engineering to the business — and shows when growth got too expensive.

What we do NOT do in FinOps

A cut that becomes an incident is not savings.

  • NO

    Aggressive rightsizing without usage data

    Shrinking an instance on a hunch saves money until the peak takes production down. Without measured P95 and headroom, we do not touch it.

  • NO

    A pretty report nobody uses

    A dashboard without an owner does not change behavior. If the number does not enter the team ritual, we did not do FinOps — we made a slide.

  • NO

    A reservation commitment without a baseline

    A Savings Plan bet on consumption that may fall becomes a loss locked in for years. Commit only over a measured floor.

Cases recentes em FinOpsRecent cases in FinOps
migracao-oracle-postgresql-aurora-aws Uma das maiores companhias aéreas da Europa · Aviação comercial One of Europe's largest airlines · Commercial aviation 100% dos cenários críticos validados na migração Oracle para Aurora. 100% of critical scenarios validated in the Oracle to Aurora migration. Assessment, automação e ciclos iterativos de validação viabilizaram a migração de uma aplicação corporativa crítica de Oracle para PostgreSQL Aurora na AWS, com downtime mínimo e redução dos custos de licenciamento. Structured assessment, automation, and iterative validation cycles enabled the migration of a critical enterprise application from Oracle to PostgreSQL Aurora on AWS, with minimal downtime and reduced licensing costs. 100% cenários críticos validados 100% critical scenarios validated 2026 2025·068 Companhia aérea europeia (sob NDA) · indústria European airline (under NDA) · industry Otimização de custo AWS database em aviação. AWS database cost optimization in aviation. Otimização de custos AWS para workloads Oracle de companhia aérea. Análise de CloudWatch, padrões de workload, governança com times do cliente e parceiros. AWS cost optimization for airline Oracle workloads. CloudWatch analysis, workload patterns, governance across client + partner + Redgator teams. Multi-time governança Multi-team governance 2025 2025·041 Empresa global (sob NDA) · indústria Global enterprise (under NDA) · industry Redução de ~40% no custo Oracle RDS sem comprometer performance. Reducing Oracle RDS costs by ~40% without compromising performance. Assessment de custo Oracle RDS combinando métricas AWS, comportamento de workload Oracle e classificação de criticidade. Identificou ~40% de redução de custo sem degradar produção. Oracle RDS cost assessment combining AWS metrics, Oracle workload behavior, and criticality classification. Identified ~40% cost reduction without degrading production. -40% custo Oracle RDS -40% Oracle RDS cost 2025 2025·013 Cliente AWS (sob NDA) · indústria AWS customer (under NDA) · industry VPC Endpoint redesign: -30% custo de rede AWS. VPC Endpoint redesign: -30% AWS network cost. Otimização de uso de VPC Endpoints reduzindo custos de rede AWS em ~30% sem comprometer conectividade privada nem postura de segurança. VPC endpoint usage optimization, reducing AWS network costs by ~30% without compromising private connectivity or security posture. -30% custo de rede -30% network cost 2025
FinOps & Observability

Conta de cloud subindo sem explicação? Conta o problema.

45 min com um engenheiro de FinOps. Sem pitch.

FinOps & Observability

Cloud bill climbing with no explanation? Tell us the problem.

45 min with a FinOps engineer. No pitch.