/
/

28 exemplos essenciais de automação de TI para monitoramento, alerta e correção proativos de MSP

by Peter Bretton, VP, Product Strategy
MSP Monitoring

Resumo instantâneo

Esta postagem do blog NinjaOne oferece uma lista abrangente de comandos CMD básicos e um mergulho profundo nos comandos do Windows, com +70 comandos CMD essenciais para usuários iniciantes e avançados. Explicamos sobre comandos práticos de prompt de comando para gerenciamento de arquivos, navegação em diretórios, solução de problemas de rede, operações de disco e automação, tudo com exemplos reais para maximizar a produtividade. Seja para aprender comandos básicos CMD ou dominar ferramentas avançadas de CLI do Windows, este guia ajuda você a usar o prompt de comando com mais eficiência.

Pontos principais

  • Monitoramento proativo de MSP: Implemente a automação para a integridade do dispositivo, aplicativos, rede, unidades e segurança para evitar tempo de inatividade, reduzir a fadiga de alertas e melhorar a prestação de serviços de TI.
  • Verificações de integridade do dispositivo: Monitore o tempo de atividade, os endpoints off-line, as reinicializações inesperadas e as alterações de hardware para detectar problemas antecipadamente e automatizar a correção quando possível.
  • Automação de unidades e armazenamento: Acompanhe as falhas de disco SMART, a integridade do RAID, o uso do disco e os limites de espaço livre para evitar a perda de dados e os gargalos de desempenho.
  • Monitoramento de aplicativos: Garanta que os aplicativos e serviços comerciais essenciais (Exchange, SQL, AD, ferramentas de produtividade) estejam instalados, em execução e não consumam recursos em excesso.
  • Visibilidade da rede: Monitore picos de largura de banda, portas abertas, tempo de atividade do dispositivo e disponibilidade do site do cliente para manter a conectividade confiável.
  • Automação de segurança: Detecte o status do firewall, a instalação e as ameaças de AV/EDR, tentativas de login com falha, alterações não autorizadas de conta e conformidade com a criptografia de disco.
  • Monitoramento de backup: Automatize alertas para trabalhos de backup com falha no Ninja Data Protection, Veeam, Acronis e outras soluções para garantir a proteção dos dados.
  • Reduzir a fadiga do alerta: Use alertas acionáveis, categorize tíquetes, automatize a correção de problemas comuns e ajuste os limites para reduzir o ruído.
  • Práticas recomendadas de MSP: Crie modelos de monitoramento de linha de base, alinhe-se com as prioridades do cliente, rastreie problemas recorrentes e realize sessões regulares de manutenção de alertas.

O monitoramento e os alertas de endpoints são uma parte central do gerenciamento de TI. Se você é um MSP, boas práticas de monitoramento e alerta permitem identificar problemas de forma proativa, resolvê-los mais rapidamente e economizar tempo e frustração para você e seus usuários no futuro.

O desafio é saber

  • o que deve ser monitorado,
  • o que requer um alerta,
  • quais problemas podem ser resolvidos automaticamente e
  • que precisam de um toque pessoal.

Esse conhecimento pode levar anos para ser desenvolvido e, mesmo assim, as melhores equipes de TI ainda podem ter dificuldades para reduzir afadiga de alertas  e o ruído de tíquetes em suas redes e dispositivos.

Para ajudar a condensar esse tempo de aceleração e restringir seu foco, elaboramos esta lista de ideias de condições a serem monitoradas, juntamente com sugestões de acionadores e ações para automação. Eles se baseiam nas recomendações de nossos clientes e na experiência da NinjaOne em ajudar as equipes de TI a criar um monitoramento mais eficaz e acionável.

Como usar a lista de verificação de monitoramento de MSP abaixo

Para cada condição, descrevemos o que está sendo monitorado, como configurar o monitor no NinjaOne e quais ações devem ser tomadas se a condição for acionada. Algumas sugestões de monitoramento são concretas, enquanto outras podem exigir uma pequena quantidade de personalização para adequá-las ao seu caso de uso.

Observação: Embora tenhamos elaborado essa lista de verificação tendo em mente o NinjaOne e nossos clientes, essas ideias de monitoramento devem ser facilmente adaptáveis a qualquer solução de gerenciamento de endpoint ou RMM.

Obviamente, essa lista também não é exaustiva e pode não se aplicar a todas as situações ou circunstâncias.

Depois de começar a criar seu plano de monitoramento com base nessas sugestões, você deverá desenvolver uma estratégia de monitoramento mais personalizada e robusta, específica para suas necessidades. Encerraremos esta postagem com recomendações adicionais para ajudar nesse esforço e tornar o monitoramento, os alertas e os tíquetes mais simplificados e eficazes.

Monitoramento da saúde do dispositivo

Lista de verificação do monitoramento da integridade do dispositivo

Monitoramento de eventos críticos contínuos

  • Condição: Eventos críticos
  • Limite: 80 eventos críticos em 5 minutos
  • Observação: O limite pode precisar de um ajuste fino ou de filtros de exclusão, pois pode criar ruído em ambientes com registros de conversas.
  • Ação: Ticket e investigação

Identificar quando um dispositivo é reinicializado de forma não intencional

  • Condição: Evento Windows
  • Fonte do evento: Microsoft-Windows-Kernel-Power
  • ID do evento: 41
  • Observação: Essa condição é mais adequada para servidores, pois as estações de trabalho e os laptops podem criar esse erro devido à intervenção do usuário.
  • Ação: Bilhete e investigação

Identificar dispositivos que precisam ser reiniciados

  • Condição: Tempo de atividade do sistema
  • Recomendação do Threshold R: 30 ou 60 dias (embora possa ser agressivo para servidores com cargas de trabalho estáveis)
  • Ação: Reinicie o dispositivo em uma janela apropriada. A correção automatizada pode funcionar para estações de trabalho.

Monitoramento de pontos de extremidade off-line

  • Condição: Dispositivo indisponível
  • Recomendação de limite:
    • 10 minutos ou menos (servidores).
    • mais de 24 horas (estações de trabalho)
  • Ação:
    • Bilhete e investigação
    • Wake-on-LAN (somente servidores)

Monitorar as alterações de hardware

  • Atividade: Sistema
  • Nome: Adaptador adicionado/alterado, CPU adicionada/removida, unidade de disco adicionada/removida, memória adicionada/removida
  • Ação: Ticket e investigação

Monitoramento da unidade

Lista de verificação de monitoramento da unidade

Monitoramento de possíveis falhas de disco

  • Condição: Status do Windows SMART degradado e/ou Evento do Windows
  • Fonte do evento: Disco
  • IDs de eventos: 7, 11, 29, 41, 51, 153
  • Ação: Ticket e investigação

Identificar quando o espaço em disco está se aproximando da capacidade

  • Condição: Espaço livre em disco
  • Limite: 20% e novamente a 10%
  • Ação: Executar a limpeza do disco e excluir arquivos temporários

Monitoramento de possíveis falhas de RAID

  • Condição: Status de integridade do RAID
  • Limiares: Crítico e não crítico para todos os atributos
  • Ação: Ticket e investigação

Monitorar o uso prolongado e intenso do disco

  • Condição: Uso de disco
  • Limiares: 90% ou mais para reduzir o ruído, sendo que 95% ou mais também é comum em períodos de 30 ou 60 minutos
  • Ação: Bilhete e investigação

Monitorar a alta taxa de atividade do disco

  • Condição: Tempo de atividade do disco
  • Limiares: Mais de 90% por 15 minutos
  • Ação: Ticket e investigação

Monitorar o alto uso de memória

  • Condição: Utilização da memória
  • Limiares: Mais de 90% por 15 minutos
  • Ação: Ticket e investigação

pronto para se tornar um banner Ninja de TI

Monitoramento de aplicativos

Lista de verificação de monitoramento de aplicativos

Identifique se os aplicativos necessários existem em um endpoint

  • Condição: Software
  • Uso:
    • Aplicativos de linha de negócios do cliente (por exemplo, AutoCAD, SAP, Photoshop)
    • Soluções de produtividade do cliente (por exemplo, Zoom, Microsoft Teams, DropBox, Slack, Office, Acrobat)
    • Ferramentas de suporte ao cliente (por exemplo, TeamViewer, CCleaner, AutoElevate, BleachBit)
  • Ação: Sinalizar aplicativos ausentes para revisão ou implementação automática, quando apropriado

Monitore se os aplicativos essenciais estão em execução (especialmente para servidores)

  • Condição: Processo ou serviço
  • Limite: Abaixo por pelo menos 3 minutos
  • Exemplo de processos:
    • Para estações de trabalho: TeamViewer, RDP, DLP
    • Para um servidor Exchange: MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3
    • Para um servidor do Active Directory: Netlogon, dnscache, rpcss
    • Para um servidor SQL: mssqlserver, sqlbrowser, sqlwriter
  • Ação: Reiniciar o serviço ou processo

Monitorar o uso de recursos para aplicativos conhecidos por causar problemas de desempenho

  • Condição: Recurso do processador
  • Limite: 90%+ por pelo menos 5 minutos
  • Exemplo de processos: Outlook, Chrome e TeamViewer
  • Ação:
    • Ticket e investigação
    • Desativar na inicialização

Monitorar falhas no aplicativo

  • Condição: Evento Windows
  • Fonte: Aplicação Hang
  • ID do evento: 1002
  • Ação: Ticket e investigação

 

Monitoramento de rede

Lista de verificação de monitoramento de rede

Monitorar o uso inesperado da largura de banda

  • Condição: Utilização de rede
  • Direção: Saída
  • Limite: Determinado pelo tipo de endpoint e pela capacidade da rede
    • Cada servidor deve ter seu próprio limite com base em seu caso de uso
    • Os limites do monitor de rede da estação de trabalho devem ser altos o suficiente para serem acionados somente quando a rede de um cliente estiver em risco
  • Ação: Bilhete e investigação

Garantir que os dispositivos de rede estejam funcionando

  • Condição: Dispositivo indisponível
  • Duração: 3 minutos

Monitorar quais portas estão abertas

  • Condição: Monitores da nuvem
  • Portos: 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)

Monitorar a disponibilidade do site do cliente

  • Monitor: Ping
  • Alvo: Site do cliente
  • Condição: Falha (5 vezes)
  • Ação: Bilhete e investigação

 

Monitoramento básico de segurança

Lista de verificação básica de monitoramento de segurança

Identificar se o Firewall do Windows foi desativado

  • Condição: Evento Windows
  • Fonte do evento: Sistema
  • ID do evento: 5025
  • Ação: Ativar o Firewall do Windows

Identificar se as ferramentas antivírus e de segurança estão instaladas e/ou em execução em um endpoint

  • Condição: Software
  • Presença: Não existe
  • Exemplos de software: Huntress, Cylance, Threatlocker, Sophos
  • Ação: Automatize a instalação do software de segurança ausente
  • Condição: Processo ou serviço
  • Estado: Indisponíveis
  • Exemplo de processos: threatlockerservice.exe, EPUpdateService.exe
  • Ação: Reiniciar o processo

Monitoramento de ameaças detectadas por AV/EDR não integrados

  • Condição: Evento Windows
  • Exemplo: Sophos
  • Fonte do evento: Antivírus Sophos
  • IDs de eventos: 6, 16, 32, 42

Monitoramento de tentativas de logon de usuário com falha

  • Condição: Evento Windows
  • Fonte do evento: Auditoria de segurança do Microsoft-Windows
  • IDs de eventos: 4625, 4740, 644 (contas locais); 4777 (login de domínio)
  • Ação: Bilhete e investigação

Monitorar a criação, a elevação ou a remoção de usuários em um endpoint

  • Condição: Evento Windows
  • Fonte do evento: Auditoria de segurança do Microsoft-Windows
  • IDs de eventos: 4720, 4732, 4729
  • Ação: Bilhete e investigação 

Identificar se as unidades em um endpoint estão criptografadas/não criptografadas

  • Condição: Resultado do script
  • Script (personalizado): Verificar o status da criptografia
  • Ação: Bilhete e investigação

Monitorar falhas de backup (Ninja Data Protection)

  • Atividade: Ninja Data Protection
  • Nome: Falha na tarefa de backup

Monitorar falhas de backup (outros fornecedores de backup)

  • Condição: Evento Windows
  • Exemplo de fontes/IDs (Veeam):
    • Fonte do evento: Agente Veeam
    • ID do evento: 190
    • O texto contém: Falha
  • Exemplo de fonte/IDs (Acronis):
    • Fonte do evento: Sistema de backup on-line
    • ID do evento: 1
    • O texto contém: Falha

4 chaves para aumentar o nível de seu monitoramento de MSP

  1. Crie um modelo de monitoramento da integridade do dispositivo de linha de base.
  2. Converse com os clientes sobre suas prioridades.
    1. Quais servidores e estações de trabalho são importantes?
    2. Quais são seus aplicativos essenciais de linha de negócios ou de produtividade?
    3. Onde estão os pontos problemáticos de TI?
  3. Monitore seusistema de PSA/ticketing quanto a problemas recorrentes. Além disso, ajuste o alerta para evitar o ruído do tíquete.
  4. Monitore os registros de eventos dos clientes em busca de problemas recorrentes.

Práticas recomendadas de emissão de tíquetes e alertas 

  1. Alerte somente sobre informações acionáveis. Se você não tiver uma resposta específica associada a um monitor, não o monitore.
  2. Categorize seus alertas para que sejam enviados a diferentes quadros de serviço em seu PSA com base no tipo ou na prioridade.
  3. Organize reuniões regulares de alerta de manutenção da casa para responder às seguintes perguntas:
    • Quais alertas estão causando mais ruído? Elas podem ser removidas ou ter seu escopo reduzido?
    • O que não está sendo monitorado ou criando notificações que deveriam estar?
    • Quais alertas comuns podem ser corrigidos automaticamente?
    • Há algum projeto futuro que possa gerar alertas?
  1. Limpe seus tíquetes e alertas quando eles forem resolvidos.
    • No NinjaOne, muitas condições têm a opção “Reset when no longer true” (Redefinir quando não for mais verdadeiro) ou “Reset when not true for x period” (Redefinir quando não for verdadeiro por um período x) para ajudá-lo a resolver e limpar as notificações que podem se resolver sozinhas.

Mais ideias de monitoramento de MSP

Consulte a excelente série de Kelvin Tegelaar sobre monitoramento remoto usando o PowerShell. Ele aborda como monitorar tudo, desde o tráfego de rede até a integridade do Active Directory, logins com falha no Office 365, resultados do Shodan e muito mais. O melhor de tudo é que ele compartilha scripts do PowerShell que foram projetados para serem independentes do RMM. Você também pode ler nossa postagem no blog sobre as diferenças entre o PowerShell e o CMD Prompt e quando usar cada um deles.

Apresentamos regularmente as postagens do blog de Tegelaar, além de muitas ferramentas e recursos adicionais, em nosso boletim informativo semanal MSP Bento. Assine agora para receber a edição mais recente, além de uma lista especial das ferramentas e dos recursos mais populares que compartilhamos.

Além disso, se você estiver procurando um software que o ajude a automatizar o monitoramento de todos os seus ativos de TI, a solução de gerenciamento de ativos de TI da NinjaOne oferece uma visão completa e em tempo real dos seus recursos, além de permitir que você gerencie o software em seus terminais em escala. Assista a uma demonstração do NinjaOne em ação ou inscreva-se para uma avaliação gratuita do software.

pronto para se tornar um banner Ninja de TI

FAQs

O monitoramento proativo do MSP usa a automação para rastrear a integridade do dispositivo, as redes, os aplicativos e os eventos de segurança em tempo real. Ao identificar os problemas com antecedência, os MSPs reduzem o tempo de inatividade, diminuem o ruído dos tíquetes e resolvem os problemas antes que eles afetem os usuários finais.

As principais áreas de monitoramento incluem tempo de atividade do sistema, integridade do disco, uso da CPU e da memória, picos de largura de banda, backups com falha, status do firewall e do antivírus, tentativas de login com falha e alterações não autorizadas na conta do usuário. Essas condições ajudam os MSPs a manter ambientes de TI confiáveis.

A automação reduz a fadiga de alertas acionando apenas alertas acionáveis, categorizando os tíquetes por prioridade e corrigindo automaticamente problemas comuns, como a reinicialização de serviços ou a limpeza do espaço em disco. Isso garante que os MSPs se concentrem em incidentes de alta prioridade.

Os MSPs podem automatizar o monitoramento de firewalls desativados, ferramentas antivírus/EDR ausentes ou inativas, unidades não criptografadas, tentativas de login com falha e eventos de segurança sinalizados por ferramentas como Sophos ou ThreatLocker. A correção automatizada fortalece a proteção de endpoints.

As plataformas de monitoramento e gerenciamento remoto (RMM), como o NinjaOne, permitem que os MSPs automatizem o monitoramento de dispositivos, detectem riscos de segurança, acompanhem a integridade do software e corrijam problemas comuns de TI em escala, reduzindo as cargas de trabalho manuais.

Recomendados para você

Pronto para simplificar as partes mais difíceis da TI?