AIOps TOTVS Presentation

📋 Contexto da POC

⚠️ Atraso na Disponibilização do Ambiente

Apesar do entusiasmo do cliente na apresentação e aceite da POC, a Britvic foi o único cliente que não conseguiu entregar os acessos em tempo hábil. O início da POC, previsto para 02 de março, ocorreu apenas em 25 de março.

📅 Extensão do Período

Por conta do atraso na disponibilização do ambiente e bases de dados, foi realizada uma extensão de uso do sistema — que se encerraria em 31 de março — passando para 10 de abril. Essa extensão foi solicitada à SVS, que liberou sem custo.

🔍 Análise de Infraestrutura

Problemas críticos identificados no ambiente Britvic durante o monitoramento.

🔴 Contenção de Locks (LCK_M_U) — 83.67%

83.67% Esperas Totais

17.420s Tempo Médio (~5h)

Processos de UPDATE travando o banco de dados por períodos extremamente longos. Causa raiz: fragmentação extrema + estatísticas desatualizadas.

Recomendação: Manutenção semanal na base: rebuild de índices + atualização de estatísticas

🔴 Fragmentação Extrema (>99%)

>99% Fragmentação

85M Linhas (Log)

Tabelas como RU6060 e tabelas de Log com fragmentação acima de 99%. A tabela SC9060_TTAT_LOG possui 85 milhões de linhas e ocupa 15GB.

Recomendação: Rebuild de índices e purga de tabelas de auditoria acima de 5-10GB

🔴 Estatísticas Massivamente Desatualizadas

100M+ Modificações Pendentes

SA1/SA2 Tabelas Core

SA1060 (Clientes) e SA2060 (Fornecedores) com centenas de milhões de modificações desde a última atualização. O otimizador gera planos de execução ineficientes.

Recomendação: Atualizar estatísticas semanalmente para base >1TB

⚠️ Paralelismo Excessivo (CXPACKET) — 14.81%

14.81% CXPACKET

48 CPUs MAXDOP 8

SQL gastando muito tempo coordenando threads. Com índices fragmentados e estatísticas obsoletas, o otimizador não estima corretamente quantas linhas cada thread vai processar.

Recomendação: Resolver fragmentação e estatísticas primeiro; reavaliar Cost Threshold for Parallelism

🔴 Query Vilã — Posição Diária de Pedidos

766M Leituras Lógicas

4 tabelas Cruzamentos

INSERT INTO WAPEBBA.dbo.WAP_COMPPosicaoDiariaPedComCot — cruzamentos complexos entre SC7, SB1, ZZ1 e SC8, gerando alto volume de I/O.

Recomendação: Refatoração da query + criação de índices específicos para colunas de filtro (C7_EMISSAO, C7_CONAPRO, etc.)

🔴 Tabela de Auditoria Gigante (15GB)

15 GB SC9060_TTAT_LOG

99.29% Fragmentação

A tabela funciona como uma "âncora" amarrada à tabela principal. Trigger dispara inserção a cada alteração na SC9060, gerando bloqueios em cascata e expulsando dados úteis do Buffer Pool.

Recomendação: Backup full + expurgo dos dados de auditoria; quando solicitado, subir backup em ambiente de QA

📡 Monitoramento em Tempo Real

Análises realizadas em tempo real durante o período de monitoramento, com alertas enviados ao cliente via grupo de WhatsApp.

🖥️ Consumo de CPU por Rotinas (25/03/2026)

CRÍTICO

MATA225 — Saldos em Estoque (88.9 MB)

Rotina de recálculo/consulta pesada. Filtro muito abrangente ou tabela SB2 sem índices otimizados, causando Full Table Scan e consumo elevado de CPU.

ATENÇÃO

MATA019 — Indicadores (104.5 MB)

Indicadores realizando diversos COUNT e SUM em tabelas de movimentos (SD1/SD2). Consumo elevado de memória indica grandes estruturas de dados carregadas.

ATENÇÃO

MATA410 — Pedidos de Venda (65 MB)

Pedido de Venda no Protheus dispara inúmeras fórmulas e gatilhos. Com muitos itens, a CPU sobe rapidamente durante MDIEXECUTE.

ATENÇÃO

SymTab List — 28 Milhões de Hits

Indica ambiente com muitas customizações ou funções sendo chamadas repetidamente dentro de loops. Ponto de atenção para performance.

💬 Comunicação com o Cliente (WhatsApp)

Rafael TOTVS 09:06, 26/03/2026

Aparentemente, conforme já estamos reparando considerando os dados recentes

Rafael TOTVS 09:06, 26/03/2026

A rotina #ConexNFE Imp.XML realmente faz um consumo mais elevado de CPU

Rafael TOTVS 09:07, 26/03/2026

Por enquanto é algo que está sendo atendido... mas essa é o tipo de rotina que se tem uma escalada em realização simultânea, com certeza será uma ofensora.

✅ Pontos Positivos do Ambiente

Indicadores saudáveis identificados pela ferramenta durante o período de monitoramento.

✅ Performance de Disco Excelente

Disco com ótima performance, sem latência nos datafiles identificados pelo SQL. Cliente parabenizado pela excelente configuração de storage.

✅ Page Life Expectancy Razoável

3242 PLE

Valor razoável, poderia ser melhor se a RAM não estivesse ocupada com logs gigantes (SC9060_TTAT_LOG de 15GB).

✅ Sem Erros de Log SQL

Nenhuma mensagem contendo "Erro", "Error", "Fail" ou "Failed" detectada no monitoramento.

✅ Infraestrutura Robusta

48 CPUs

32 GB RAM

Servidor com hardware robusto. O baixo consumo de CPU confirma que os gargalos são de banco de dados, não de infraestrutura.

📄 Relatórios Gerados

Documentação técnica completa entregue ao cliente.

🖥️ Protheus — SP-SDB01 (DADOSADV12)

📄

Relatório SQL Server — Análise Completa

Análise SQL Server — 25/03/2026 16:50

Relatório completo com análise de instância, performance, waits, queries, locks, fragmentação e estatísticas.

Abrir Relatório

📊

Relatório SQL Server — Diário

Análise diária — 25/03/2026

Relatório diário de consumo e performance do servidor.

Abrir Relatório

🏁 Conclusão da POC

A POC realizada na Britvic demonstrou a capacidade da ferramenta de monitoramento inteligente em identificar, de forma rápida e precisa, problemas críticos em um ambiente de grande porte — com banco de dados superior a 1TB. Em poucos dias de operação, foram identificados 6 problemas críticos, gerados mais de 350 relatórios e entregues 8 recomendações técnicas fundamentadas em dados reais.

A análise revelou que os principais gargalos do ambiente não estavam na infraestrutura — que se mostrou robusta com 48 CPUs e excelente performance de disco — mas sim na manutenção do banco de dados: fragmentação extrema (>99%), estatísticas com centenas de milhões de modificações pendentes e tabelas de auditoria gigantes funcionando como "âncoras" que degradam toda a operação.

A riqueza de dados obtidos em tão pouco tempo evidencia o valor do monitoramento contínuo e inteligente. Mesmo com a limitação de interação por parte do cliente, a ferramenta operou de forma autônoma, gerando alertas, relatórios detalhados e recomendações acionáveis que, se implementadas, transformariam significativamente a estabilidade e performance do ambiente.

Com esta ferramenta, fica evidente que a busca por uma estabilização de ambiente é muito mais eficiente e alcançável do que com processos manuais. O diagnóstico que levaria semanas de análise por equipes especializadas foi entregue em dias, com profundidade técnica e precisão que só o monitoramento automatizado pode proporcionar.

💬 Interação com o Cliente

Sem Feedback Formal

Apesar de todas as informações e análises compartilhadas, o cliente não forneceu um feedback formal sobre a POC. A última interação ocorreu em 30 de março de 2026, após solicitações de posicionamento nos dias 27 e 30 de março.

Ainda assim, a riqueza de dados obtidos em tão pouco tempo demonstra o valor e a eficiência da ferramenta de monitoramento.

BRITVIC

📋 Contexto da POC

⚠️ Atraso na Disponibilização do Ambiente

📅 Extensão do Período

📊 Resultados da POC

🔍 Análise de Infraestrutura

🔴 Contenção de Locks (LCK_M_U) — 83.67%

🔴 Fragmentação Extrema (>99%)

🔴 Estatísticas Massivamente Desatualizadas

⚠️ Paralelismo Excessivo (CXPACKET) — 14.81%

🔴 Query Vilã — Posição Diária de Pedidos

🔴 Tabela de Auditoria Gigante (15GB)

📡 Monitoramento em Tempo Real

🖥️ Consumo de CPU por Rotinas (25/03/2026)

MATA225 — Saldos em Estoque (88.9 MB)

MATA019 — Indicadores (104.5 MB)

MATA410 — Pedidos de Venda (65 MB)

SymTab List — 28 Milhões de Hits

💬 Comunicação com o Cliente (WhatsApp)

✅ Pontos Positivos do Ambiente

✅ Performance de Disco Excelente

✅ Page Life Expectancy Razoável

✅ Sem Erros de Log SQL

✅ Infraestrutura Robusta

📄 Relatórios Gerados

🖥️ Protheus — SP-SDB01 (DADOSADV12)

Relatório SQL Server — Análise Completa

Relatório SQL Server — Diário

🏁 Conclusão da POC

💬 Interação com o Cliente

Sem Feedback Formal