AIOps TOTVS Presentation

Desafios da Operação de TI

Problemas comuns que impactam a produtividade e a disponibilidade dos sistemas

⏱️

Diagnóstico Demorado

Horas gastas identificando a causa raiz de problemas de performance, sem visibilidade clara do que está consumindo recursos.

🔍

Falta de Visibilidade

É impossível saber qual usuário, rotina ou query está causando lentidão no ERP Protheus, sem uma análise manual complexa.

⚠️

Quedas Inesperadas

Serviços caem por consumo excessivo de memória RAM, antes que a equipe possa agir preventivamente.

📊

Análise Reativa

Problemas só são descobertos quando usuários reclamam, sem alertas proativos ou monitoramento em tempo real.

🔐

Acesso Complexo

Necessidade de VPN e acesso direto aos servidores, para visualizar logs e diagnosticar problemas.

⚙️

Operações Manuais

Atualizações, patches e deploys consomem horas de trabalho manual, com risco de erros humanos.

Solução Completa de Monitoramento

Tecnologia avançada para transformar sua operação de TI

📊

Monitoramento de Infra

Coleta detalhada de métricas de CPU e memória de cada serviço, identificando saturação de cores dos servidores.

CPU por core em tempo real
Memória RAM por serviço
Disco (IOPS, throughput, latência e fila por partição)
Rede e serviços Windows/Linux

🔍

Análise Ponta a Ponta

Conexão completa entre servidor, serviço, usuário, rotina e banco de dados para identificar problemas de forma integrada.

Identifica rotinas com alto consumo de RAM
Queries com custo elevado de CPU/memória
Rotina e Usuário responsável por cada query
Análise automática (sem trabalho manual)

🚨

Alertas Inteligentes

Notificações em tempo real via email e WhatsApp, com informações contextualizadas sobre o problema.

Grupos de email e WhatsApp
Alertas contextualizados
Identificação do serviço/rotina ofensora
Histórico completo para auditoria

🤖

Ações Automáticas

Prevenção de quedas através da eliminação automática de threads ofensoras, antes que o servidor fique indisponível.

Elimina threads antes da queda total
Reinicialização automática de serviços
Prevenção de paralisação
Redução de downtime

💾

Análise de Banco de Dados

Monitoramento completo do banco com identificação de queries ofensoras, e análise de deadlocks.

Queries com alto custo de CPU/memória
Tempo de execução por query
Identificação de deadlocks
Identifica e permite eliminar uma transação bloqueadora (Em Breve)

☁️

SaaS Simplificado

Solução 100% web, sem necessidade de VPN ou liberação de portas especiais nos servidores.

Implantação em minutos
Sem investimento em infraestrutura
Apenas porta HTTPS necessária
Acesso aos logs via web

SVS Monitor em Ação

Visualize em tempo real o consumo de recursos e identifique problemas antes que impactem seus usuários

MEMÓRIA RAM

Consumo de Memória por Serviço

Visualize o consumo de memória RAM de cada servidor em tempo real, identificando os serviços ofensores que estão consumindo mais recursos. A tabela mostra detalhes como CPU, Peak Working, Memory e Thread Count de cada processo.

CPU

Porcentagem de Uso de CPU

Monitore o consumo de CPU com visão de saturação de cores. O gráfico mostra picos de CPU, média e saturação, permitindo identificar rapidamente quando os servidores estão sobrecarregados. Ao unir consumo de infraestrutura e processos em um só painel, a tela reduz horas de análises manuais, entregando ao time informações claras e prontas para decisão.

USUÁRIOS

Conexões de Usuários nos AppServers

Visão clara das conexões de usuários dentro dos AppServers de aplicação. Identifique consumos por rotina e serviço, com detalhes de memória, ThreadID, ambiente e instruções por segundo de cada usuário conectado.

LOGS

Logs de Serviço via Web

Acesse logs de serviço totalmente via web, sem conexão direta à infraestrutura do cliente. Visualize consumos de todas as rotinas conectadas, APO Map List, Thread Count e detalhes de processos em tempo real.

⚡

Detecção de Congelamento em Tempo Real

O SVS Monitor detecta congelamento de serviços em tempo real, identificando automaticamente deadlocks, serviços travados e threads que não respondem. Mesmo em erros fatais, o sistema é capaz de restabelecer o serviço automaticamente, garantindo disponibilidade contínua para seus usuários.

Análise de Banco de Dados

Monitoramento inteligente e não intrusivo do SQL Server

Análise Automática de Saúde

A cada hora, o sistema realiza uma análise completa da base de dados, verificando automaticamente a saúde do banco. Como boa prática de administração, as análises de fragmentação de índices não são realizadas durante o horário comercial, evitando sobrecarga de I/O e garantindo que os recursos permaneçam disponíveis para transações críticas.

Além da execução de hora em hora, também ocorre uma análise em nível de instância que avalia fragmentações de índices, sempre em horário noturno planejado junto ao cliente.

🚨

Execução Inteligente por Demanda

O sistema é integrado com o monitoramento de infra. Caso o servidor de banco de dados apresente baixa performance, a análise é executada automaticamente, dando uma visão imediata do problema.

Execução quando há saturação de cores e consumo elevado de CPU (acima de 85%)
Intervalo de 10 minutos respeitado entre execuções
Novo relatório gerado se o pico continuar
Botão para geração manual do relatório

🛡️ Script SEGURO para Execução

O script segue as melhores práticas de monitoramento não intrusivo:

Risco Nulo

Segurança dos Dados

Opera estritamente em modo de leitura. Não há comandos INSERT, UPDATE, DELETE ou DROP.

Risco Baixo

Impacto na Performance

Utiliza parâmetro 'LIMITED' na fragmentação de índices, evitando travamentos ou I/O excessivo.

Protegido

Gerenciamento de Memória

Limitação de strings e tratamento de erros com TRY...CATCH para execução segura.

Relatórios Gerados

Relatório Diário

Principais Esperas (Wait Stats)

Análise das principais esperas do SQL Server com tempo total, tempo de recurso, contagem e URLs de ajuda.

Relatório Diário

Plano de Energia e Histórico CPU

Verificação do plano de energia ativo e histórico de CPU das últimas 2 horas com alertas.

Hora em Hora

Locks, Blocks e Deadlocks

Monitoramento de locks em objetos, sessões bloqueadas, deadlocks, top queries por CPU e muito mais.

Start, Stop e Status de Serviços

Gerenciamento completo de serviços Windows/Linux

Controle total dos seus serviços em um único painel. Inicie, pare e monitore o status de todos os serviços de forma centralizada, com ações em massa e alertas automáticos.

Dashboard

Visão Global de Servidores

Visão consolidada de todos os servidores com status de ativos, parados e falhas em tempo real.

Gerenciamento

Dashboard de Serviços

Controle individual de cada serviço com ações de Start, Stop e Restart. Ações em massa disponíveis.

Alertas

Alertas e Notificações

Notificações automáticas quando um serviço para e não consegue reiniciar após tentativas.

MallocIO

Avaliação do tempo de resposta de servidores virtuais

O que é o MallocIO?

A função malloc (memory allocation) aloca espaço para um bloco de bytes consecutivos na memória RAM do computador, e devolve o endereço desse bloco. Esta é uma função da biblioteca padrão das linguagens C e C++.

O programa MallocIO utiliza esta função para mensurar a latência de alocação de um bloco de memória e da alocação em disco, retornando os respectivos tempos e informando a viabilidade para a aplicação.

Tabela de Referência

🖥️ Alocação de Bloco de Memória

Ótimo: até 10s

Bom: até 16s

Ruim: até 26s

Péssimo: a partir de 27s

💾 Leitura em Disco

Ótimo: até 10s

Bom: até 20s

Ruim: até 30s

Péssimo: a partir de 31s

Retorno Sobre o Investimento

"Quanto custa o tempo e esforço para análise e identificação de problemas?"

⏱️

87% Redução no Tempo de Análise

20-40 min Análise manual

→

< 3 min Com SVS Monitor

💰

+1 Analista Economizado/Mês

Considerando análises diárias, a ferramenta provavelmente economizará o trabalho de mais de 1 analista por mês, reduzindo custos com horas técnicas em diagnósticos manuais.

🌙

-70% Horas Extras Noturnas

Redução significativa em GMUDs noturnas que exigem horas extras, com automação de processos e identificação proativa de problemas.

✅

99.9% Disponibilidade Média

Aumento na disponibilidade com kill de threads sem quedas de serviço, identificação de deadlocks e serviços travados. Mesmo em erros fatais, restabelece o serviço, notificando conforme o log.

☁️

-30% Custos de Infraestrutura

Com melhor aproveitamento da infra: menos armazenamento, menos esforços e custos reduzidos. Tudo acessível e organizado na nuvem.

🧠

IA Correlação Inteligente

Inteligência para correlacionar eventos de infraestrutura e aplicação, identificando falhas, registrando motivos e sugerindo ações corretivas com alertas contextualizados.

📈

Economia Mensal Comprovada

Alto consumo de horas técnicas em diagnósticos manuais, análises complexas e GMUDs noturnas que exigem horas extras, são drasticamente reduzidos. O SVS Monitor transforma horas de trabalho manual, em minutos de visualização inteligente.

Benefícios para sua Operação

Resultados concretos que transformam a gestão de TI

Redução Drástica de Downtime

Com ações automáticas e alertas proativos, problemas são resolvidos antes de impactar os usuários. A eliminação automática de threads ofensoras evita quedas totais dos serviços.

O tempo de resposta a incidentes cai de horas para minutos, garantindo maior disponibilidade do ERP e satisfação dos usuários.

90 % Redução de quedas

5 minutos Tempo de resposta

⚡

Zero Downtime

Diagnóstico Acelerado

A análise que antes levava 4 horas agora é feita em minutos. A ferramenta identifica automaticamente a conexão entre servidor, serviço, usuário, rotina e banco de dados.

No ERP Protheus, onde todas as conexões aparecem com um único usuário no banco, a ferramenta descobre automaticamente quem é o responsável por cada query.

87 % Menos tempo de análise

100% Controle do Ambiente

🔍

Visibilidade Total

Operação Simplificada

Acesso aos logs e métricas via web, sem necessidade de VPN ou conexão direta aos servidores. Toda a operação é gerenciada através de uma interface intuitiva.

A solução SaaS não requer liberação de portas especiais - apenas HTTPS. Implantação em minutos, sem investimento em infraestrutura.

100% Seguro

100% Web-based

☁️

SaaS Completo

Log Server - Inteligência em Logs

Monitore qualquer log e gere alertas automáticos para eventos críticos do negócio

📊

Alertas de Performance

Detecte lentidão em integrações calculando automaticamente o tempo entre início e fim de processos. Alerte quando ultrapassar limites definidos.

PERFORMANCE

🔄

Detecção de Loops

Identifique tentativas excessivas e loops de integração. Se o mesmo processo aparecer múltiplas vezes em curto período, um alerta automático é gerado.

CRÍTICO

❌

Falhas de Integração

Monitore status de retorno de APIs e integrações. Alerte imediatamente quando houver falhas de comunicação ou códigos de erro.

CRÍTICO

👤

Alertas de Desligamento

Detecte automaticamente quando um funcionário é demitido para acionar bloqueio de acessos imediatamente. Segurança da informação em tempo real.

SEGURANÇA

📦

Estoque Negativo

Gere alertas automáticos quando o estoque ficar negativo, permitindo ação imediata da equipe de logística ou compras.

NEGÓCIO

💰

Queda de Faturamento

Monitore indicadores de faturamento e alerte quando houver queda significativa, permitindo investigação rápida de problemas.

NEGÓCIO

🔗

Integração Parada

Detecte quando integrações param de funcionar por ausência de logs esperados. Alerte antes que o problema impacte o negócio.

CRÍTICO

📈

Tendências e Padrões

Identifique padrões e tendências antes que se tornem problemas. Análise preditiva para ação preventiva.

INTELIGÊNCIA

Case de Uso

Casos de uso reais de inteligência em logs para operações de RH e Integração

Alertas de Performance e Estabilidade

Lógica: Calcular diferença de tempo entre início e fim do processo.

Exemplo Real:

Chapa 023740: Iniciou 9:16:42, terminou 9:17:34 (~52 seg)
Chapa 029554: Iniciou 9:24:12, terminou 9:24:20 (8 seg)

Regra: Se (Fim - Início) > 30 seg → Alerta "Lentidão na Integração RM x TSA"

Alerta de Loop ou Retentativa Excessiva

Lógica: Contar quantas vezes o mesmo UUID aparece em intervalo curto.

Observação: Chapa 030285 gerou logs às 09:25:38, 09:26:49, 09:27:58 e 09:31:39 - indica reenvio repetido.

Regra: Se mesmo UUID > 3 vezes em 5 min → Alerta "Loop de Integração Detectado"

Alertas de Erros de Integração

Lógica: Buscar mensagens de falha ou status diferente de sucesso.

Regra: Se statusCode ≠ 00100 ou Exception/Error no bloco CR Information → Alerta Crítico

Alertas de Desligamento (RH)

Lógica: Detectar quando funcionário é demitido para cortar acessos.

Exemplo Real:

Chapa 030285: <DATADEMISSAO>2026/01/02 12:00:00</DATADEMISSAO>
Chapa 023740: <DATADEMISSAO>2026/01/07 12:00:00</DATADEMISSAO>

Regra: Se DATADEMISSAO preenchida → Alerta "Desligamento Processado - Bloquear Acessos"

Alerta de Admissão / Novo Funcionário

Lógica: Identificar novos cadastros para preparação de infraestrutura.

Gatilho: Transação EMPLOYEE com OperationType = I (Inclusão) ou DATAADMISSAO próxima à data atual.

Regra: Alertar TI/Facilities para preparar equipamentos e acessos

Alerta de Afastamento Médico/INSS

Lógica: Identificar afastamentos longos para gestão de risco financeiro.

Exemplo Real:

Chapa 030176: De 05/01 a 07/01 (Curto prazo)
Chapa 029554: De 07/01 a 10/01

Regra: Se TIPO = P E duração > 15 dias → Alerta "Afastamento INSS - Validar Previdência"

Alerta de Afastamento Atípico

Lógica: Detectar tipos de afastamento incomuns que podem indicar erro.

Exemplo: Chapa 029554 teve TIPO = U (Outros/Suspensão).

Regra: Se TIPO ≠ P (Doença) e ≠ F (Férias) → Alerta "Afastamento Atípico Lançado"

Alerta de Segurança: Demitido com Acesso Ativo

Lógica: Cruzar dados de demissão com status de acesso físico.

Cenário Perigoso:

Chapa 023740: Demissão em 2026/01/07
Log: AcessoLivre: True

Regra: Se DATADEMISSAO ≠ Vazio E AcessoLivre = True → ALERTA CRÍTICO "Demitido com Acesso Físico Ativo"

🚀 Em Breve - 2º Semestre 2026

Deploy Automatizado

Transforme horas de execução manual em cliques estratégicos

📅

Agendamento Inteligente

Agende atualizações (Patches, RPO, Dicionário) via interface web, executadas automaticamente no horário programado.

💾

Backup Automático

Backup parametrizável antes de qualquer ação crítica, garantindo proteção dos dados em cada mudança.

↩️

Rollback em Segundos

Se algo der errado, reverta a operação em segundos por meio da aplicação, sem trabalho manual.

📋

Auditoria Completa

Registro detalhado e rastreável de quem alterou o ambiente, quando e qual mudança foi realizada.

AIOps – Automação e Inteligência para sua Operação em TI

Desafios da Operação de TI

Diagnóstico Demorado

Falta de Visibilidade

Quedas Inesperadas

Análise Reativa

Acesso Complexo

Operações Manuais

Solução Completa de Monitoramento

Monitoramento de Infra

Análise Ponta a Ponta

Alertas Inteligentes

Ações Automáticas

Análise de Banco de Dados

SaaS Simplificado

SVS Monitor em Ação

Consumo de Memória por Serviço

Porcentagem de Uso de CPU

Conexões de Usuários nos AppServers

Logs de Serviço via Web

Detecção de Congelamento em Tempo Real

Análise de Banco de Dados

Análise Automática de Saúde

Execução Inteligente por Demanda

🛡️ Script SEGURO para Execução

Segurança dos Dados

Impacto na Performance

Gerenciamento de Memória

Relatórios Gerados

Principais Esperas (Wait Stats)

Plano de Energia e Histórico CPU

Locks, Blocks e Deadlocks

Modelo de Alertas

Alerta por E-mail

Alerta por WhatsApp

Start, Stop e Status de Serviços

Visão Global de Servidores

Dashboard de Serviços

Alertas e Notificações

MallocIO

O que é o MallocIO?

Tabela de Referência

🖥️ Alocação de Bloco de Memória

💾 Leitura em Disco

Retorno Sobre o Investimento

Economia Mensal Comprovada

Benefícios para sua Operação

Redução Drástica de Downtime

Diagnóstico Acelerado

Operação Simplificada

Log Server - Inteligência em Logs

Alertas de Performance

Detecção de Loops

Falhas de Integração

Alertas de Desligamento

Estoque Negativo

Queda de Faturamento

Integração Parada

Tendências e Padrões

Case de Uso

Alertas de Performance e Estabilidade

Alerta de Loop ou Retentativa Excessiva

Alertas de Erros de Integração

Alertas de Desligamento (RH)

Alerta de Admissão / Novo Funcionário

Alerta de Afastamento Médico/INSS

Alerta de Afastamento Atípico

Alerta de Segurança: Demitido com Acesso Ativo

Deploy Automatizado

Agendamento Inteligente

Backup Automático

Rollback em Segundos

Auditoria Completa

Implementação Simples e Rápida

Instalação do Agente

Configuração

Monitoramento Ativo

Pronto para Transformar sua Operação de TI?