Appearance
Dashboard Panorama Geral - Execucao dos Jobs de Backup
Escopo
Este documento descreve o dashboard principal provisionado:
docker/grafana/dashboards/Panorama Geral dos Jobs de Backup.json
Objetivo operacional:
- entregar uma visao rapida da saude dos jobs Veeam
- destacar falhas, alertas, jobs sem execucao recente e pressao de volumetria
- separar claramente VMware e Tape para priorizacao no dia a dia
Leitura Rapida
Antes de entrar painel a painel, use esta sequencia:
- confira os filtros globais
job_name,job_typeestatus - leia os KPIs do topo para entender saude imediata
- veja as tabelas por status para localizar os jobs afetados
- use os graficos de tendencia para saber se o problema e pontual ou persistente
- use os rankings para descobrir quais jobs mais pesam na janela
- use
Jobs sem Execucao Recentepara localizar jobs parados, fora de janela ou nunca executados
Convencoes Importantes
VMwareusa a identidade visual azulTapeusa a identidade visual roxaStatususa cores operacionais: sucesso em verde, alerta em laranja, falha em vermelho, execucao em azul/ciano e idle em cinza- rankings com
Filtro globalrespeitam o time range do Grafana - rankings com
24h fixasignoram o time range e sempre olham o ultimo dia - em
Jobs sem Execucao Recente, jobsNunca executadoficam por ultimo na lista
Variaveis Globais
job_name
- Como ler: filtra o dashboard por um ou mais jobs especificos.
- O que esperar: quando um job e selecionado, todos os paineis passam a refletir so aquele recorte.
- Como usar no dia a dia: use quando o time estiver investigando um job reportado por nome.
job_type
- Como ler: filtra entre
vm_backup,backup_to_tapeou ambos. - O que esperar: os paineis segmentados ficam muito mais objetivos ao isolar a tecnologia.
- Como usar no dia a dia: use para separar rapidamente incidentes de VMware dos de Tape.
status
- Como ler: filtra o recorte por status conhecido do job.
- O que esperar: as tabelas e paineis relacionados passam a mostrar apenas os status escolhidos.
- Como usar no dia a dia: use para focar em falha, alerta ou idle sem ruido do restante do ambiente.
Secao: Visao operacional imediata
Total de Jobs
- Como ler: mostra o total de jobs visiveis no filtro atual.
- O que esperar: serve como base para interpretar todos os outros contadores.
- Como usar no dia a dia: compare com Sucesso, Falha e Idle para entender rapidamente a distribuicao do parque.
Sucesso Geral
- Como ler: conta quantos jobs estao atualmente em sucesso.
- O que esperar: o ideal e ficar proximo do total de jobs, salvo quando houver jobs desabilitados ou ociosos.
- Como usar no dia a dia: use como principal termometro de estabilidade operacional.
Alerta Geral
- Como ler: conta jobs em warning.
- O que esperar: qualquer aumento consistente merece atencao, porque warning costuma anteceder falha.
- Como usar no dia a dia: priorize revisao preventiva antes que a degradacao vire incidente.
Falha Geral
- Como ler: conta jobs em
failedouerror. - O que esperar: valor acima de zero indica risco operacional imediato.
- Como usar no dia a dia: use para disparar a fila de troubleshooting e escalacao.
Em Execucao Geral
- Como ler: mostra quantos jobs estao rodando no momento.
- O que esperar: o valor sobe dentro da janela operacional e cai quando os jobs terminam.
- Como usar no dia a dia: correlacione com lentidao, concorrencia e throughput do ambiente.
Idle Geral
- Como ler: conta jobs em
disabled,noneouunknown. - O que esperar: parte desse volume pode ser normal, mas concentracoes altas pedem revisao.
- Como usar no dia a dia: identifique jobs desabilitados, sem atividade recente ou com cadastro inconsistente.
Volume Total Transferido (24h)
- Como ler: soma o volume elegivel das ultimas 24h para jobs com status de execucao relevante.
- O que esperar: nao inclui idle nem jobs sem execucao recente.
- Como usar no dia a dia: use como referencia da carga total do ultimo dia.
Volume VMware (24h)
- Como ler: mostra quanto do volume elegivel veio de jobs VMware.
- O que esperar: ajuda a entender o peso do ambiente virtual na janela recente.
- Como usar no dia a dia: compare com o volume Tape para ver onde esta a maior pressao de dados.
Volume Tape (24h)
- Como ler: mostra quanto do volume elegivel veio de jobs Tape.
- O que esperar: revela o peso operacional da camada de fita no ultimo dia.
- Como usar no dia a dia: use para entender impacto de retencao, copia para fita e throughput do meio fisico.
VMware: Sucesso
- Como ler: total de jobs VMware em sucesso.
- O que esperar: o ideal e representar a maior parte dos jobs VMware ativos.
- Como usar no dia a dia: confirme rapidamente se a camada virtual esta saudavel.
VMware: Falha
- Como ler: total de jobs VMware em falha ou erro.
- O que esperar: qualquer valor acima de zero pede investigacao.
- Como usar no dia a dia: priorize troubleshooting do ambiente virtual quando esse card subir.
VMware: Em Execucao
- Como ler: total de jobs VMware em execucao.
- O que esperar: sobe durante a janela de backup virtual.
- Como usar no dia a dia: valide concorrencia e pressao de janela em hosts e storage virtual.
VMware: Idle
- Como ler: total de jobs VMware sem execucao operacional util no momento.
- O que esperar: parte pode ser normal, mas acumulacao pode esconder jobs esquecidos.
- Como usar no dia a dia: revise jobs desabilitados, sem schedule efetivo ou sem execucao recente.
Tape: Sucesso
- Como ler: total de jobs Tape em sucesso.
- O que esperar: indica estabilidade da operacao em fita.
- Como usar no dia a dia: acompanhe a saude da camada de retencao e copia para fita.
Tape: Falha
- Como ler: total de jobs Tape em falha ou erro.
- O que esperar: qualquer valor acima de zero merece atencao direta.
- Como usar no dia a dia: priorize verificacoes em drives, media, janelas e politicas de fita.
Tape: Em Execucao
- Como ler: total de jobs Tape rodando agora.
- O que esperar: varia conforme a janela de copia e retencao.
- Como usar no dia a dia: acompanhe carga ativa da camada Tape e eventuais gargalos.
Tape: Idle
- Como ler: total de jobs Tape sem atividade operacional util no momento.
- O que esperar: valores altos podem ser normais em janelas fora do horario, mas merecem contexto.
- Como usar no dia a dia: use para revisar jobs parados, desabilitados ou sem execucao recente em fita.
Secao: Diagnostico operacional por status de job
Jobs com Sucesso
- Como ler: tabela com uma linha por job em sucesso.
- O que esperar: cada linha mostra nome, tipo, status, ultima execucao, duracao e volume transferido.
- Como usar no dia a dia: confirme quais jobs terminaram saudaveis e use o rodape para medir quantidade total.
Jobs com Alerta
- Como ler: tabela com uma linha por job em warning.
- O que esperar: traz o recorte de jobs degradados, sem duplicidade.
- Como usar no dia a dia: trate como fila preventiva antes que esses jobs evoluam para falha.
Jobs com Falha
- Como ler: tabela com uma linha por job em falha.
- O que esperar: esse e o painel tabular principal para incidentes.
- Como usar no dia a dia: comece por aqui quando houver quebra de backup e ordene por ultima execucao ou volume.
Jobs em Execucao
- Como ler: tabela dos jobs ativos agora.
- O que esperar: os registros oscilam conforme a janela operacional.
- Como usar no dia a dia: acompanhe quem esta rodando e correlacione com lentidao ou saturacao.
Jobs Idle
- Como ler: tabela dos jobs sem atividade operacional relevante.
- O que esperar: aparecem jobs desabilitados, desconhecidos ou sem execucao observada.
- Como usar no dia a dia: use para localizar gaps de configuracao, jobs esquecidos e ausencia de execucao.
Top Jobs por Volumetria (24h)
- Como ler: ranking tabular dos jobs com maior volume nas ultimas 24h.
- O que esperar: o topo concentra os jobs que mais movimentaram dados no ultimo dia.
- Como usar no dia a dia: investigue primeiro esses jobs quando houver pressao de rede, storage ou janela.
Secao: Pontualidade, curvas e anomalias operacionais
Evolucao do Estado Operacional
- Como ler: curva temporal da contagem de jobs por status.
- O que esperar: mudancas persistentes no mix de sucesso, alerta, falha, execucao e idle mostram degradacao ou recuperacao.
- Como usar no dia a dia: use para diferenciar pico pontual de tendencia operacional.
Jobs sem Execucao Recente
- Como ler: ranking dos jobs com maior tempo desde a ultima execucao observada, em linguagem amigavel.
- O que esperar: jobs com execucao conhecida mostram
Tempo sem execucao,StatuseVolume transferido; jobsNunca executadoficam no fim e mostramN/Anas colunas complementares. - Como usar no dia a dia: localize jobs parados, fora de janela, sem schedule efetivo ou nunca executados.
Duracao Media no Periodo Selecionado x Media Historica
- Como ler: compara a media do periodo filtrado com a media historica reportada pelo exporter.
- O que esperar: quando a media recente sobe acima da historica, ha sinal de lentidao ou mudanca de perfil.
- Como usar no dia a dia: use para detectar degradacao de desempenho antes que ela vire falha.
Volume Elegivel no Periodo Selecionado
- Como ler: mostra a volumetria elegivel do periodo escolhido, separando total, VMware e Tape.
- O que esperar: o painel acompanha o time range do Grafana, nao uma janela fixa.
- Como usar no dia a dia: use para entender pressao de dados no recorte exato de uma ocorrencia.
Secao: Rankings operacionais por tecnologia
VMware: Maiores Volumes (Filtro global)
- Como ler: ranking dos jobs VMware que mais transferiram dados no periodo selecionado.
- O que esperar: o topo concentra os jobs mais pesados do recorte atual.
- Como usar no dia a dia: priorize investigacao de throughput, storage e janela desses jobs.
VMware: Maiores Duracoes (Filtro global)
- Como ler: ranking dos jobs VMware mais longos no periodo selecionado.
- O que esperar: os primeiros itens tendem a alongar a janela de backup virtual.
- Como usar no dia a dia: use para identificar jobs que mais pressionam hosts, proxies e repositosrios.
Tape: Maiores Volumes (Filtro global)
- Como ler: ranking dos jobs Tape com maior volume no periodo selecionado.
- O que esperar: revela quais cargas pressionaram mais a camada de fita.
- Como usar no dia a dia: acompanhe jobs que exigem mais midia, throughput e tempo de copia.
Tape: Maiores Duracoes (Filtro global)
- Como ler: ranking dos jobs Tape mais longos no periodo selecionado.
- O que esperar: o topo tende a representar maior impacto na janela de fita.
- Como usar no dia a dia: identifique primeiro os jobs que mais prolongam a operacao em Tape.
VMware: Maiores Volumes (24h fixas)
- Como ler: ranking fixo do ultimo dia, independente do time range do browser.
- O que esperar: ideal para leitura diaria padronizada.
- Como usar no dia a dia: compare dias consecutivos sem depender do filtro global do Grafana.
VMware: Maiores Duracoes (24h fixas)
- Como ler: ranking fixo dos jobs VMware mais longos nas ultimas 24h.
- O que esperar: revela rapidamente quem mais alongou a janela recente.
- Como usar no dia a dia: use em rotinas matinais para revisar o ultimo ciclo operacional.
Tape: Maiores Volumes (24h fixas)
- Como ler: ranking fixo dos jobs Tape com maior volume no ultimo dia.
- O que esperar: mostra a carga recente da camada de fita com leitura padronizada.
- Como usar no dia a dia: acompanhe a pressao diaria de retencao e copia para fita.
Tape: Maiores Duracoes (24h fixas)
- Como ler: ranking fixo dos jobs Tape mais longos nas ultimas 24h.
- O que esperar: destaca rapidamente os jobs que mais consumiram a janela de fita.
- Como usar no dia a dia: use para identificar gargalos recorrentes na operacao diaria.
Secao: Paineis a serem trabalhados
Jobs com Recorrencia/Persistencia de Falha (7d)
- Como ler: ranking dos jobs com maior quantidade de amostras em falha nos ultimos 7 dias.
- O que esperar: leia este painel como proxy de persistencia em falha, nao como numero exato de retries ou execucoes falhas.
- Como usar no dia a dia: mantenha como painel de referencia para revisao futura, sem usar como contador oficial de recorrencia.
Boas Praticas De Operacao
- comece sempre pelos KPIs do topo e pela tabela
Jobs com Falha - use
Jobs sem Execucao Recentepara revisar backlog operacional e jobs esquecidos - compare
Filtro globale24h fixaspara separar anomalia do recorte atual de comportamento diario - quando houver lentidao, cruze
Duracao Media...,Jobs em Execucaoe rankings por duracao - quando houver pressao de dados, cruze
Volume Elegivel...,Top Jobs por Volumetria (24h)e rankings por volume - use o filtro
job_typepara separar imediatamente VMware e Tape durante incidentes
Resultado Esperado Em Operacao
Ao usar esse dashboard corretamente, o operador deve conseguir:
- saber em menos de um minuto se o ambiente esta saudavel ou degradado
- localizar rapidamente os jobs em falha, warning ou sem execucao recente
- entender se o problema e pontual, recorrente ou tendencia
- identificar quais jobs mais pesam em volume e duracao
- separar claramente problemas de VMware e de Tape