Sei già un cliente NinjaOne? Effettua il login per visualizzare le altre guide e gli ultimi aggiornamenti.

Endpoint Monitoring and Alerting Playbook

Indice

Questa guida fornisce consigli per la creazione di una strategia di monitoraggio degli endpoint e avvisi, oltre a istruzioni passo per passo per la creazione di oltre 30 condizioni di monitoraggio personalizzate degli endpoint in NinjaOne.

 

Introduzione

Come deve essere un monitoraggio per funzionare?

Il monitoraggio e gli avvisi sono fondamentali per l'uso efficace di un RMM. Attraverso best practice di monitoraggio puoi identificare in modo proattivo i problemi, risolverli più velocemente ed essere più efficace. Un monitoraggio migliore può avere un ruolo chiave anche nel generare ulteriori profitti e nel garantire la soddisfazione dei tuoi clienti.

La sfida consiste nel sapere cosa monitorare, per cosa richiedere un avviso, quali problemi possono essere risolti automaticamente e quali invece richiedono un intervento manuale. Per capire tutto questo possono volerci degli anni e, anche avendo molta esperienza, i migliori team possono trovarsi a dover continuare a cercare un modo per ridurre lo stress da avvisi e l'eccessiva quantità di ticket nei dispositivi dei clienti.

Per aiutare le persone alle prime armi a velocizzare la loro preparazione e a concentrare la loro attenzione sulle cose importanti, abbiamo stilato questo elenco di idee per più di 25 condizioni da monitorare. Queste raccomandazioni si basano sui suggerimenti dei nostri partner e sull'esperienza di NinjaOne nell'aiutare gli MSP a creare un monitoraggio efficace e utile.

Per ogni condizione viene descritto cosa viene monitorato, come impostare il monitoraggio in NinjaOne e quali azioni devono essere intraprese se la condizione viene attivata. Alcuni suggerimenti per il monitoraggio possono essere applicati immediatamente, mentre altri potrebbero richiedere un livello minimo di personalizzazione per adattarsi al caso d'uso specifico.

Queste idee di monitoraggio non sono ovviamente esaustive e potrebbero non essere applicabili a tutte le situazioni o circostanze. Dopo aver iniziato a configurare il tuo sistema di monitoraggio in base a questi suggerimenti, dovrai sviluppare una strategia di monitoraggio più complessa e personalizzata secondo le caratteristiche e le esigenze dei tuoi clienti. Alla fine di questa guida ci saranno ulteriori raccomandazioni per aiutarti a rendere monitoraggio, avvisi e ticketing elementi di un vantaggio competitivo per il tuo MSP.

 

Monitoraggio dell’integrità del dispositivo

Monitoraggio degli eventi critici continui

  • Condizione: Eventi critici
  • Soglia: 80 eventi critici in 5 minuti
  • Azione: Ticket e analisi:

Monitoraggio per capire quando un dispositivo viene riavviato involontariamente

  • Condizione: Evento di Windows
  • Fonte dell'evento: Microsoft-Windows-Kernel-Power
  • ID evento: 41
  • Nota: Questa condizione è più adatta ai server, poiché le workstation e i laptop possono creare questo errore a causa dell'intervento dell'utente
  • Azione: Ticket e analisi:

Monitoraggio per identificare i dispositivi che richiedono un riavvio

  • Condizione: Tempo di funzionamento del sistema
  • Soglia suggerita: 30 o 60 giorni
  • Azione: Riavvia il dispositivo durante una finestra appropriata. La correzione automatizzata potrebbe funzionare per le workstation.

Monitoraggio degli endpoint offline

  • Condizione: Dispositivo non disponibile
  • Soglia suggerita:
    • 10 minuti o meno (server)
    • 5 giorni o più (workstation)
  • Azione:
    • Ticket e analisi:
    • Wake-on-lan (solo server)

Monitoraggio delle modifiche hardware

  • Attività: Sistema
  • Nome: Scheda aggiunta/modificata, CPU aggiunta/rimossa, Unità disco aggiunta/rimossa, Memoria aggiunta/rimossa
  • Azione: Ticket e analisi:

Monitoraggio dell'utilizzo prolungato della CPU

  • Condizione: Soglie CPU: 90% o più per ridurre  la quantità di notifiche/ticket, con una soglia di oltre il 95% che viene a sua volta comunemente usata, per un periodo di 15 minuti o più lungo
  • Azione: Ticket e analisi:

 

Monitoraggio dell'unità

Monitoraggio di potenziali errori delle unità
  • Condizione: Stato di Windows SMART Degradato
  • Condizione: Evento di Windows
  • Fonte dell'evento: Disco
  • ID evento: 7, 11, 29, 41, 51, 153
  • Azione: Ticket e analisi:
Monitoraggio per identificare quando sta per essere raggiunta la capacità massima dello spazio sul disco
  • Condizione: Spazio disponibile su disco
  • Soglia: 20% e di nuovo al 10%
  • Azione: Eseguire la pulizia del disco ed eliminare i file temporanei
Monitoraggio di potenziali errori RAID
  • Condizione: Stato di integrità RAID
  • Soglie: Critico e non critico per tutti gli attributi
  • Azione: Ticket e analisi:
Monitoraggio di un elevato e prolungato utilizzo del disco
  • Condizione: Utilizzo del disco
  • Soglie: 90% o più per ridurre la quantità di notifiche/ticket, con una soglia di oltre il 95% che viene a sua volta usata comunemente, per periodi di 30 o 60 minuti
  • Azione: Ticket e analisi:
Monitoraggio della percentuale elevata di attività del disco
  • Condizione: Tempo di attività disco
  • Soglie: Superiore al 90% per 15 minuti
  • Azione: Ticket e analisi:
Monitoraggio dell'utilizzo elevato della memoria
  • Condizione: Tempo di attività disco
  • Soglie: Superiore al 90% per 15 minuti
  • Azione: Ticket e analisi:

 

Monitoraggio delle applicazioni

Monitoraggio per identificare se esistono le applicazioni richieste in un endpoint
  • Condizione: Software
  • Utilizzo:
    • Applicazioni line-of-business del cliente (esempi: AutoCAD, SAP, Photoshop)
    • Soluzioni per la produttività del cliente (esempi: Zoom, Microsoft Teams, DropBox, Slack, Office, Acrobat)
    • Strumenti di supporto per il cliente (esempi: TeamViewer, CCleaner, AutoElevate,
    • BleachBit)
  • Azione: Installare automaticamente l'applicazione se manca e se è necessaria
Monitoraggio per verificare se le applicazioni critiche sono in esecuzione (soprattutto per i server)
  • Condizione: Processo/Servizio
  • Soglia: Non attiva per almeno 3 minuti
  • Processi di esempio:
    • Per le postazioni di lavoro: TeamViewer, RDP, DLP
    • Per un server Exchange: MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3, ecc.
    • Per un server Active Directory: Netlogon, dnscache, rpcss, ecc
    • Per un server SQL: mssqlserver, sqlbrowser, sqlwriter, ecc.
  • Azione: Riavviare il servizio o il processo
Monitoraggio dell'utilizzo delle risorse per le applicazioni che possono causare
problemi relativi alle prestazioni
  • Condizione: Risorse dei processi
  • Soglia: Superiore al 90% per almeno 5 minuti
  • Processi di esempio: Outlook, Chrome e TeamViewer
  • Azione:
    • Ticket e analisi:
    • Disattivazione all'avvio
Monitoraggio di arresti anomali delle applicazioni
  • Condizione: Evento di Windows
  • Origine Hang Applicazione
  • ID evento: 1002
  • Azione: Ticket e analisi:

 

Monitoraggio della rete

Monitoraggio dell'utilizzo imprevisto della larghezza di banda
  • Condizione: Utilizzo della rete
  • Direzione: Out
  • Soglia: le soglie saranno determinate dal tipo di endpoint e dalla capacità della rete
    • Ogni server deve avere una propria soglia in base al suo caso d'uso specifico
    • Le soglie di monitoraggio della rete per le workstation devono essere abbastanza elevate, in modo da attivarsi solo quando la rete di un cliente è a rischio
  • Azione: Ticket e analisi:
Monitoraggio per garantire il corretto funzionamento dei dispositivi di rete
  • Condizione: Dispositivo non disponibile
  • Durata: 3 minuti
Monitoraggio delle porte aperte
  • Condizione: Monitoraggio cloud
  • Porte: 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)
Monitoraggio
della disponibilità del sito Web del cliente
  • Monitoraggio: Ping
  • Destinazione: Sito web del cliente
  • Condizione: Non riuscito (5 volte)
  • Azione: Ticket e analisi:

 

Monitoraggio della sicurezza

Monitoraggio per identificare se Windows Firewall è stato disattivato
  • Condizione: Evento di Windows
  • Fonte dell'evento: Sistema
  • ID evento: 5025
  • Azione: Attivare il firewall di Windows
Monitoraggio per capire se l'antivirus e gli strumenti di sicurezza sono installati e/o in esecuzione su un endpoint
  • Condizione: Software
  • Presenza: Non esiste
  • Software (esempi): Huntress, Cylance, Threatlocker, Sophos
  • Azione: Automatizzare l'installazione del software di sicurezza mancante

    E

  • Condizione: Processo/Servizio
  • Stato Non disponibile
  • Processo (esempi): threatlockerservice.exe, EPUpdateService.exe
  • Azione: Riavviare il processo
Monitoraggio di minacce rilevate da AV/EDR non integrati
  • Condizione: Evento di Windows
  • Esempio: (Sophos)
    • Fonte dell'evento: Sophos Anti-Virus
    • ID evento: 6, 16, 32, 42
Monitoraggio di tentativi di accesso non riusciti degli utenti
  • Condizione: Errore di Windows
  • Fonte dell'evento: Microsoft-Windows-Security-Auditing
  • ID evento: 4625, 4740, 644 (account locali); 4777 (login al dominio)
  • Azione: Ticket e analisi
Monitoraggio della creazione, dell'elevazione o della rimozione degli utenti
su un endpoint
  • Condizione: Errore di Windows
  • Fonte dell'evento: Microsoft-Windows-Security-Auditing
  • ID evento: 4720, 4732, 4729
  • Azione: Ticket e analisi
Monitoraggio per identificare se le unità in un endpoint sono
crittografate/decrittografate
  • Condizione: Risultato dello script
  • Script (personalizzato): Controllare lo stato della crittografia
  • Azione: Ticket e analisi
Monitoraggio dei backup non riusciti (NinjaOne Backup)
  • Attività: NinjaOne Backup
  • Nome: Processo di backup non riuscito
Monitoraggio dei backup non riusciti (altri fornitori di soluzioni per il backup)
  • Condizione: Evento di Windows
  • Origine/ID di esempio (Veeam):
    • Fonte dell'evento: Agente Veeam
    • ID evento: 190
  • Il testo contiene: Non riuscito
  • Origine/ID di esempio (Acronis):
    • Fonte dell'evento: Sistema di backup online
    • ID evento: 1
    • Il testo contiene: Non riuscito

 

4 punti chiave per portare il tuo monitoraggio al livello successivo

  1. Crea un modello di base per il monitoraggio dell'integrità dei dispositivi.
  2. Parla con i clienti delle loro priorità.
    • Quali server e workstation sono importanti?
    • Quali sono le loro applicazioni per la produttività o line-of-business critiche?
    • Quali criticità hanno riscontrato nell'ambito dell'IT?
  3. Monitora il tuo sistema di creazione dei ticket/PSA per individuare eventuali problemi ricorrenti.
    • Configura gli avvisi in modo da evitare una quantità eccessiva di ticket.
  4. Monitora i log eventi dei clienti per individuare eventuali problemi ricorrenti.

 

Best practice di ticketing e avvisi

  1. Attiva avvisi solo in caso di informazioni che richiedono un'azione: se non hai a disposizione un’azione di risposta specifica associata a un monitoraggio, non abilitare il monitoraggio.
  2. Suddividi gli avvisi in categorie, in modo che siano indirizzati a diverse schede di servizio del tuo PSA.
  3. Organizza riunioni frequenti sulla gestione degli avvisi per discutere di quanto segue:
    • Quali avvisi stanno causando gran parte delle notifiche? Possono essere rimossi o limitati?
    • Cosa non viene sottoposto a monitoraggio o non sta creando le notifiche che dovrebbe creare?
    • Quali avvisi comuni possono essere risolti automaticamente?
    • Ci sono dei progetti in arrivo che potrebbero generare avvisi?
  4. Elimina i ticket e gli avvisi una volta risolti. 
    • In NinjaOne, molte condizioni hanno un parametro di "Azzeramento quando non è più vero" o di "Azzeramento quando non è vero per un periodo x" per aiutare a risolvere e ripulire le notifiche che possono risolversi da sole.

 

 

 

Domande frequenti

Passi successivi