Pontos principais
- Monitoramento proativo de MSP: Implemente a automação para a integridade do dispositivo, aplicativos, rede, unidades e segurança para evitar tempo de inatividade, reduzir a fadiga de alertas e melhorar a prestação de serviços de TI.
- Verificações de integridade do dispositivo: Monitore o tempo de atividade, os endpoints off-line, as reinicializações inesperadas e as alterações de hardware para detectar problemas antecipadamente e automatizar a correção quando possível.
- Automação de unidades e armazenamento: Acompanhe as falhas de disco SMART, a integridade do RAID, o uso do disco e os limites de espaço livre para evitar a perda de dados e os gargalos de desempenho.
- Monitoramento de aplicativos: Garanta que os aplicativos e serviços comerciais essenciais (Exchange, SQL, AD, ferramentas de produtividade) estejam instalados, em execução e não consumam recursos em excesso.
- Visibilidade da rede: Monitore picos de largura de banda, portas abertas, tempo de atividade do dispositivo e disponibilidade do site do cliente para manter a conectividade confiável.
- Automação de segurança: Detecte o status do firewall, a instalação e as ameaças de AV/EDR, tentativas de login com falha, alterações não autorizadas de conta e conformidade com a criptografia de disco.
- Monitoramento de backup: Automatize alertas para trabalhos de backup com falha no Ninja Data Protection, Veeam, Acronis e outras soluções para garantir a proteção dos dados.
- Reduzir a fadiga do alerta: Use alertas acionáveis, categorize tíquetes, automatize a correção de problemas comuns e ajuste os limites para reduzir o ruído.
- Práticas recomendadas de MSP: Crie modelos de monitoramento de linha de base, alinhe-se com as prioridades do cliente, rastreie problemas recorrentes e realize sessões regulares de manutenção de alertas.
O monitoramento e os alertas de endpoints são uma parte central do gerenciamento de TI. Se você é um MSP, boas práticas de monitoramento e alerta permitem identificar problemas de forma proativa, resolvê-los mais rapidamente e economizar tempo e frustração para você e seus usuários no futuro.
O desafio é saber
- o que deve ser monitorado,
- o que requer um alerta,
- quais problemas podem ser resolvidos automaticamente e
- que precisam de um toque pessoal.
Esse conhecimento pode levar anos para ser desenvolvido e, mesmo assim, as melhores equipes de TI ainda podem ter dificuldades para reduzir afadiga de alertas e o ruído de tíquetes em suas redes e dispositivos.
Para ajudar a condensar esse tempo de aceleração e restringir seu foco, elaboramos esta lista de ideias de condições a serem monitoradas, juntamente com sugestões de acionadores e ações para automação. Eles se baseiam nas recomendações de nossos clientes e na experiência da NinjaOne em ajudar as equipes de TI a criar um monitoramento mais eficaz e acionável.
Como usar a lista de verificação de monitoramento de MSP abaixo
Para cada condição, descrevemos o que está sendo monitorado, como configurar o monitor no NinjaOne e quais ações devem ser tomadas se a condição for acionada. Algumas sugestões de monitoramento são concretas, enquanto outras podem exigir uma pequena quantidade de personalização para adequá-las ao seu caso de uso.
Observação: Embora tenhamos elaborado essa lista de verificação tendo em mente o NinjaOne e nossos clientes, essas ideias de monitoramento devem ser facilmente adaptáveis a qualquer solução de gerenciamento de endpoint ou RMM.
Obviamente, essa lista também não é exaustiva e pode não se aplicar a todas as situações ou circunstâncias.
Depois de começar a criar seu plano de monitoramento com base nessas sugestões, você deverá desenvolver uma estratégia de monitoramento mais personalizada e robusta, específica para suas necessidades. Encerraremos esta postagem com recomendações adicionais para ajudar nesse esforço e tornar o monitoramento, os alertas e os tíquetes mais simplificados e eficazes.
Monitoramento da saúde do dispositivo
Monitoramento de eventos críticos contínuos
- Condição: Eventos críticos
- Limite: 80 eventos críticos em 5 minutos
- Observação: O limite pode precisar de um ajuste fino ou de filtros de exclusão, pois pode criar ruído em ambientes com registros de conversas.
- Ação: Ticket e investigação
Identificar quando um dispositivo é reinicializado de forma não intencional
- Condição: Evento Windows
- Fonte do evento: Microsoft-Windows-Kernel-Power
- ID do evento: 41
- Observação: Essa condição é mais adequada para servidores, pois as estações de trabalho e os laptops podem criar esse erro devido à intervenção do usuário.
- Ação: Bilhete e investigação
Identificar dispositivos que precisam ser reiniciados
- Condição: Tempo de atividade do sistema
- Recomendação do Threshold R: 30 ou 60 dias (embora possa ser agressivo para servidores com cargas de trabalho estáveis)
- Ação: Reinicie o dispositivo em uma janela apropriada. A correção automatizada pode funcionar para estações de trabalho.
Monitoramento de pontos de extremidade off-line
- Condição: Dispositivo indisponível
- Recomendação de limite:
- 10 minutos ou menos (servidores).
- mais de 24 horas (estações de trabalho)
- Ação:
- Bilhete e investigação
- Wake-on-LAN (somente servidores)
Monitorar as alterações de hardware
- Atividade: Sistema
- Nome: Adaptador adicionado/alterado, CPU adicionada/removida, unidade de disco adicionada/removida, memória adicionada/removida
- Ação: Ticket e investigação
Monitoramento da unidade
Monitoramento de possíveis falhas de disco
- Condição: Status do Windows SMART degradado e/ou Evento do Windows
- Fonte do evento: Disco
- IDs de eventos: 7, 11, 29, 41, 51, 153
- Ação: Ticket e investigação
Identificar quando o espaço em disco está se aproximando da capacidade
- Condição: Espaço livre em disco
- Limite: 20% e novamente a 10%
- Ação: Executar a limpeza do disco e excluir arquivos temporários
Monitoramento de possíveis falhas de RAID
- Condição: Status de integridade do RAID
- Limiares: Crítico e não crítico para todos os atributos
- Ação: Ticket e investigação
Monitorar o uso prolongado e intenso do disco
- Condição: Uso de disco
- Limiares: 90% ou mais para reduzir o ruído, sendo que 95% ou mais também é comum em períodos de 30 ou 60 minutos
- Ação: Bilhete e investigação
Monitorar a alta taxa de atividade do disco
- Condição: Tempo de atividade do disco
- Limiares: Mais de 90% por 15 minutos
- Ação: Ticket e investigação
Monitorar o alto uso de memória
- Condição: Utilização da memória
- Limiares: Mais de 90% por 15 minutos
- Ação: Ticket e investigação
Monitoramento de aplicativos
Identifique se os aplicativos necessários existem em um endpoint
- Condição: Software
- Uso:
- Aplicativos de linha de negócios do cliente (por exemplo, AutoCAD, SAP, Photoshop)
- Soluções de produtividade do cliente (por exemplo, Zoom, Microsoft Teams, DropBox, Slack, Office, Acrobat)
- Ferramentas de suporte ao cliente (por exemplo, TeamViewer, CCleaner, AutoElevate, BleachBit)
- Ação: Sinalizar aplicativos ausentes para revisão ou implementação automática, quando apropriado
Monitore se os aplicativos essenciais estão em execução (especialmente para servidores)
- Condição: Processo ou serviço
- Limite: Abaixo por pelo menos 3 minutos
- Exemplo de processos:
- Para estações de trabalho: TeamViewer, RDP, DLP
- Para um servidor Exchange: MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3
- Para um servidor do Active Directory: Netlogon, dnscache, rpcss
- Para um servidor SQL: mssqlserver, sqlbrowser, sqlwriter
- Ação: Reiniciar o serviço ou processo
Monitorar o uso de recursos para aplicativos conhecidos por causar problemas de desempenho
- Condição: Recurso do processador
- Limite: 90%+ por pelo menos 5 minutos
- Exemplo de processos: Outlook, Chrome e TeamViewer
- Ação:
- Ticket e investigação
- Desativar na inicialização
Monitorar falhas no aplicativo
- Condição: Evento Windows
- Fonte: Aplicação Hang
- ID do evento: 1002
- Ação: Ticket e investigação
Monitoramento de rede
Monitorar o uso inesperado da largura de banda
- Condição: Utilização de rede
- Direção: Saída
- Limite: Determinado pelo tipo de endpoint e pela capacidade da rede
- Cada servidor deve ter seu próprio limite com base em seu caso de uso
- Os limites do monitor de rede da estação de trabalho devem ser altos o suficiente para serem acionados somente quando a rede de um cliente estiver em risco
- Ação: Bilhete e investigação
Garantir que os dispositivos de rede estejam funcionando
- Condição: Dispositivo indisponível
- Duração: 3 minutos
Monitorar quais portas estão abertas
- Condição: Monitores da nuvem
- Portos: 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)
Monitorar a disponibilidade do site do cliente
- Monitor: Ping
- Alvo: Site do cliente
- Condição: Falha (5 vezes)
- Ação: Bilhete e investigação
Monitoramento básico de segurança
Identificar se o Firewall do Windows foi desativado
- Condição: Evento Windows
- Fonte do evento: Sistema
- ID do evento: 5025
- Ação: Ativar o Firewall do Windows
Identificar se as ferramentas antivírus e de segurança estão instaladas e/ou em execução em um endpoint
- Condição: Software
- Presença: Não existe
- Exemplos de software: Huntress, Cylance, Threatlocker, Sophos
- Ação: Automatize a instalação do software de segurança ausente
- Condição: Processo ou serviço
- Estado: Indisponíveis
- Exemplo de processos: threatlockerservice.exe, EPUpdateService.exe
- Ação: Reiniciar o processo
Monitoramento de ameaças detectadas por AV/EDR não integrados
- Condição: Evento Windows
- Exemplo: Sophos
- Fonte do evento: Antivírus Sophos
- IDs de eventos: 6, 16, 32, 42
Monitoramento de tentativas de logon de usuário com falha
- Condição: Evento Windows
- Fonte do evento: Auditoria de segurança do Microsoft-Windows
- IDs de eventos: 4625, 4740, 644 (contas locais); 4777 (login de domínio)
- Ação: Bilhete e investigação
Monitorar a criação, a elevação ou a remoção de usuários em um endpoint
- Condição: Evento Windows
- Fonte do evento: Auditoria de segurança do Microsoft-Windows
- IDs de eventos: 4720, 4732, 4729
- Ação: Bilhete e investigação
Identificar se as unidades em um endpoint estão criptografadas/não criptografadas
- Condição: Resultado do script
- Script (personalizado): Verificar o status da criptografia
- Ação: Bilhete e investigação
Monitorar falhas de backup (Ninja Data Protection)
- Atividade: Ninja Data Protection
- Nome: Falha na tarefa de backup
Monitorar falhas de backup (outros fornecedores de backup)
- Condição: Evento Windows
- Exemplo de fontes/IDs (Veeam):
- Fonte do evento: Agente Veeam
- ID do evento: 190
- O texto contém: Falha
- Exemplo de fonte/IDs (Acronis):
- Fonte do evento: Sistema de backup on-line
- ID do evento: 1
- O texto contém: Falha
4 chaves para aumentar o nível de seu monitoramento de MSP
- Crie um modelo de monitoramento da integridade do dispositivo de linha de base.
- Converse com os clientes sobre suas prioridades.
- Quais servidores e estações de trabalho são importantes?
- Quais são seus aplicativos essenciais de linha de negócios ou de produtividade?
- Onde estão os pontos problemáticos de TI?
- Monitore seusistema de PSA/ticketing quanto a problemas recorrentes. Além disso, ajuste o alerta para evitar o ruído do tíquete.
- Monitore os registros de eventos dos clientes em busca de problemas recorrentes.
Práticas recomendadas de emissão de tíquetes e alertas
- Alerte somente sobre informações acionáveis. Se você não tiver uma resposta específica associada a um monitor, não o monitore.
- Categorize seus alertas para que sejam enviados a diferentes quadros de serviço em seu PSA com base no tipo ou na prioridade.
- Organize reuniões regulares de alerta de manutenção da casa para responder às seguintes perguntas:
- Quais alertas estão causando mais ruído? Elas podem ser removidas ou ter seu escopo reduzido?
- O que não está sendo monitorado ou criando notificações que deveriam estar?
- Quais alertas comuns podem ser corrigidos automaticamente?
- Há algum projeto futuro que possa gerar alertas?
- Limpe seus tíquetes e alertas quando eles forem resolvidos.
- No NinjaOne, muitas condições têm a opção “Reset when no longer true” (Redefinir quando não for mais verdadeiro) ou “Reset when not true for x period” (Redefinir quando não for verdadeiro por um período x) para ajudá-lo a resolver e limpar as notificações que podem se resolver sozinhas.
Mais ideias de monitoramento de MSP
Consulte a excelente série de Kelvin Tegelaar sobre monitoramento remoto usando o PowerShell. Ele aborda como monitorar tudo, desde o tráfego de rede até a integridade do Active Directory, logins com falha no Office 365, resultados do Shodan e muito mais. O melhor de tudo é que ele compartilha scripts do PowerShell que foram projetados para serem independentes do RMM. Você também pode ler nossa postagem no blog sobre as diferenças entre o PowerShell e o CMD Prompt e quando usar cada um deles.
Apresentamos regularmente as postagens do blog de Tegelaar, além de muitas ferramentas e recursos adicionais, em nosso boletim informativo semanal MSP Bento. Assine agora para receber a edição mais recente, além de uma lista especial das ferramentas e dos recursos mais populares que compartilhamos.
Além disso, se você estiver procurando um software que o ajude a automatizar o monitoramento de todos os seus ativos de TI, a solução de gerenciamento de ativos de TI da NinjaOne oferece uma visão completa e em tempo real dos seus recursos, além de permitir que você gerencie o software em seus terminais em escala. Assista a uma demonstração do NinjaOne em ação ou inscreva-se para uma avaliação gratuita do software.






