Endpoint Monitoring and Alerting Playbook

Indice

Introduzione
- Come deve essere un monitoraggio per funzionare?
Monitoraggio dell’integrità dei dispositivi
Monitoraggio delle unità
Monitoraggio delle applicazioni
Monitoraggio della rete
Monitoraggio della sicurezza
4 punti chiave per portare il tuo monitoraggio al livello successivo
Best practice per ticketing e avvisi

Questa guida fornisce consigli per la creazione di una strategia di monitoraggio degli endpoint e avvisi, oltre a istruzioni passo per passo per la creazione di oltre 30 condizioni di monitoraggio personalizzate degli endpoint in NinjaOne.

Introduzione

Come deve essere un monitoraggio per funzionare?

Il monitoraggio e gli avvisi sono fondamentali per l'uso efficace di un RMM. Attraverso best practice di monitoraggio puoi identificare in modo proattivo i problemi, risolverli più velocemente ed essere più efficace. Un monitoraggio migliore può avere un ruolo chiave anche nel generare ulteriori profitti e nel garantire la soddisfazione dei tuoi clienti.

La sfida consiste nel sapere cosa monitorare, per cosa richiedere un avviso, quali problemi possono essere risolti automaticamente e quali invece richiedono un intervento manuale. Per capire tutto questo possono volerci degli anni e, anche avendo molta esperienza, i migliori team possono trovarsi a dover continuare a cercare un modo per ridurre lo stress da avvisi e l'eccessiva quantità di ticket nei dispositivi dei clienti.

Per aiutare le persone alle prime armi a velocizzare la loro preparazione e a concentrare la loro attenzione sulle cose importanti, abbiamo stilato questo elenco di idee per più di 25 condizioni da monitorare. Queste raccomandazioni si basano sui suggerimenti dei nostri partner e sull'esperienza di NinjaOne nell'aiutare gli MSP a creare un monitoraggio efficace e utile.

Per ogni condizione viene descritto cosa viene monitorato, come impostare il monitoraggio in NinjaOne e quali azioni devono essere intraprese se la condizione viene attivata. Alcuni suggerimenti per il monitoraggio possono essere applicati immediatamente, mentre altri potrebbero richiedere un livello minimo di personalizzazione per adattarsi al caso d'uso specifico.

Queste idee di monitoraggio non sono ovviamente esaustive e potrebbero non essere applicabili a tutte le situazioni o circostanze. Dopo aver iniziato a configurare il tuo sistema di monitoraggio in base a questi suggerimenti, dovrai sviluppare una strategia di monitoraggio più complessa e personalizzata secondo le caratteristiche e le esigenze dei tuoi clienti. Alla fine di questa guida ci saranno ulteriori raccomandazioni per aiutarti a rendere monitoraggio, avvisi e ticketing elementi di un vantaggio competitivo per il tuo MSP.

Monitoraggio dell’integrità del dispositivo

Monitoraggio degli eventi critici continui	Condizione: Eventi critici Soglia: 80 eventi critici in 5 minuti Azione: Ticket e analisi:
Monitoraggio per capire quando un dispositivo viene riavviato involontariamente	Condizione: Evento di Windows Fonte dell'evento: Microsoft-Windows-Kernel-Power ID evento: 41 Nota: Questa condizione è più adatta ai server, poiché le workstation e i laptop possono creare questo errore a causa dell'intervento dell'utente Azione: Ticket e analisi:
Monitoraggio per identificare i dispositivi che richiedono un riavvio	Condizione: Tempo di funzionamento del sistema Soglia suggerita: 30 o 60 giorni Azione: Riavvia il dispositivo durante una finestra appropriata. La correzione automatizzata potrebbe funzionare per le workstation.
Monitoraggio degli endpoint offline	Condizione: Dispositivo non disponibile Soglia suggerita: 10 minuti o meno (server) 5 giorni o più (workstation) Azione: Ticket e analisi: Wake-on-lan (solo server)
Monitoraggio delle modifiche hardware	Attività: Sistema Nome: Scheda aggiunta/modificata, CPU aggiunta/rimossa, Unità disco aggiunta/rimossa, Memoria aggiunta/rimossa Azione: Ticket e analisi:
Monitoraggio dell'utilizzo prolungato della CPU	Condizione: Soglie CPU: 90% o più per ridurre la quantità di notifiche/ticket, con una soglia di oltre il 95% che viene a sua volta comunemente usata, per un periodo di 15 minuti o più lungo Azione: Ticket e analisi:

Monitoraggio dell'unità

Monitoraggio di potenziali errori delle unità	Condizione: Stato di Windows SMART Degradato Condizione: Evento di Windows Fonte dell'evento: Disco ID evento: 7, 11, 29, 41, 51, 153 Azione: Ticket e analisi:
Monitoraggio per identificare quando sta per essere raggiunta la capacità massima dello spazio sul disco	Condizione: Spazio disponibile su disco Soglia: 20% e di nuovo al 10% Azione: Eseguire la pulizia del disco ed eliminare i file temporanei
Monitoraggio di potenziali errori RAID	Condizione: Stato di integrità RAID Soglie: Critico e non critico per tutti gli attributi Azione: Ticket e analisi:
Monitoraggio di un elevato e prolungato utilizzo del disco	Condizione: Utilizzo del disco Soglie: 90% o più per ridurre la quantità di notifiche/ticket, con una soglia di oltre il 95% che viene a sua volta usata comunemente, per periodi di 30 o 60 minuti Azione: Ticket e analisi:
Monitoraggio della percentuale elevata di attività del disco	Condizione: Tempo di attività disco Soglie: Superiore al 90% per 15 minuti Azione: Ticket e analisi:
Monitoraggio dell'utilizzo elevato della memoria	Condizione: Tempo di attività disco Soglie: Superiore al 90% per 15 minuti Azione: Ticket e analisi:

Monitoraggio delle applicazioni

Monitoraggio per identificare se esistono le applicazioni richieste in un endpoint	Condizione: Software Utilizzo: Applicazioni line-of-business del cliente (esempi: AutoCAD, SAP, Photoshop) Soluzioni per la produttività del cliente (esempi: Zoom, Microsoft Teams, DropBox, Slack, Office, Acrobat) Strumenti di supporto per il cliente (esempi: TeamViewer, CCleaner, AutoElevate, BleachBit) Azione: Installare automaticamente l'applicazione se manca e se è necessaria
Monitoraggio per verificare se le applicazioni critiche sono in esecuzione (soprattutto per i server)	Condizione: Processo/Servizio Soglia: Non attiva per almeno 3 minuti Processi di esempio: Per le postazioni di lavoro: TeamViewer, RDP, DLP Per un server Exchange: MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3, ecc. Per un server Active Directory: Netlogon, dnscache, rpcss, ecc Per un server SQL: mssqlserver, sqlbrowser, sqlwriter, ecc. Azione: Riavviare il servizio o il processo
Monitoraggio dell'utilizzo delle risorse per le applicazioni che possono causare problemi relativi alle prestazioni	Condizione: Risorse dei processi Soglia: Superiore al 90% per almeno 5 minuti Processi di esempio: Outlook, Chrome e TeamViewer Azione: Ticket e analisi: Disattivazione all'avvio
Monitoraggio di arresti anomali delle applicazioni	Condizione: Evento di Windows Origine Hang Applicazione ID evento: 1002 Azione: Ticket e analisi:

Monitoraggio della rete

Monitoraggio dell'utilizzo imprevisto della larghezza di banda	Condizione: Utilizzo della rete Direzione: Out Soglia: le soglie saranno determinate dal tipo di endpoint e dalla capacità della rete Ogni server deve avere una propria soglia in base al suo caso d'uso specifico Le soglie di monitoraggio della rete per le workstation devono essere abbastanza elevate, in modo da attivarsi solo quando la rete di un cliente è a rischio Azione: Ticket e analisi:
Monitoraggio per garantire il corretto funzionamento dei dispositivi di rete	Condizione: Dispositivo non disponibile Durata: 3 minuti
Monitoraggio delle porte aperte	Condizione: Monitoraggio cloud Porte: 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)
Monitoraggio della disponibilità del sito Web del cliente	Monitoraggio: Ping Destinazione: Sito web del cliente Condizione: Non riuscito (5 volte) Azione: Ticket e analisi:

Monitoraggio della sicurezza

Monitoraggio per identificare se Windows Firewall è stato disattivato	Condizione: Evento di Windows Fonte dell'evento: Sistema ID evento: 5025 Azione: Attivare il firewall di Windows
Monitoraggio per capire se l'antivirus e gli strumenti di sicurezza sono installati e/o in esecuzione su un endpoint	Condizione: Software Presenza: Non esiste Software (esempi): Huntress, Cylance, Threatlocker, Sophos Azione: Automatizzare l'installazione del software di sicurezza mancante E Condizione: Processo/Servizio Stato Non disponibile Processo (esempi): threatlockerservice.exe, EPUpdateService.exe Azione: Riavviare il processo
Monitoraggio di minacce rilevate da AV/EDR non integrati	Condizione: Evento di Windows Esempio: (Sophos) Fonte dell'evento: Sophos Anti-Virus ID evento: 6, 16, 32, 42
Monitoraggio di tentativi di accesso non riusciti degli utenti	Condizione: Errore di Windows Fonte dell'evento: Microsoft-Windows-Security-Auditing ID evento: 4625, 4740, 644 (account locali); 4777 (login al dominio) Azione: Ticket e analisi
Monitoraggio della creazione, dell'elevazione o della rimozione degli utenti su un endpoint	Condizione: Errore di Windows Fonte dell'evento: Microsoft-Windows-Security-Auditing ID evento: 4720, 4732, 4729 Azione: Ticket e analisi
Monitoraggio per identificare se le unità in un endpoint sono crittografate/decrittografate	Condizione: Risultato dello script Script (personalizzato): Controllare lo stato della crittografia Azione: Ticket e analisi
Monitoraggio dei backup non riusciti (NinjaOne Backup)	Attività: NinjaOne Backup Nome: Processo di backup non riuscito
Monitoraggio dei backup non riusciti (altri fornitori di soluzioni per il backup)	Condizione: Evento di Windows Origine/ID di esempio (Veeam): Fonte dell'evento: Agente Veeam ID evento: 190 Il testo contiene: Non riuscito Origine/ID di esempio (Acronis): Fonte dell'evento: Sistema di backup online ID evento: 1 Il testo contiene: Non riuscito

4 punti chiave per portare il tuo monitoraggio al livello successivo

Crea un modello di base per il monitoraggio dell'integrità dei dispositivi.
Parla con i clienti delle loro priorità.
- Quali server e workstation sono importanti?
- Quali sono le loro applicazioni per la produttività o line-of-business critiche?
- Quali criticità hanno riscontrato nell'ambito dell'IT?
Monitora il tuo sistema di creazione dei ticket/PSA per individuare eventuali problemi ricorrenti.
- Configura gli avvisi in modo da evitare una quantità eccessiva di ticket.
Monitora i log eventi dei clienti per individuare eventuali problemi ricorrenti.

Best practice di ticketing e avvisi

Attiva avvisi solo in caso di informazioni che richiedono un'azione: se non hai a disposizione un’azione di risposta specifica associata a un monitoraggio, non abilitare il monitoraggio.
Suddividi gli avvisi in categorie, in modo che siano indirizzati a diverse schede di servizio del tuo PSA.
Organizza riunioni frequenti sulla gestione degli avvisi per discutere di quanto segue:
- Quali avvisi stanno causando gran parte delle notifiche? Possono essere rimossi o limitati?
- Cosa non viene sottoposto a monitoraggio o non sta creando le notifiche che dovrebbe creare?
- Quali avvisi comuni possono essere risolti automaticamente?
- Ci sono dei progetti in arrivo che potrebbero generare avvisi?
Elimina i ticket e gli avvisi una volta risolti.
- In NinjaOne, molte condizioni hanno un parametro di "Azzeramento quando non è più vero" o di "Azzeramento quando non è vero per un periodo x" per aiutare a risolvere e ripulire le notifiche che possono risolversi da sole.

Endpoint Monitoring and Alerting Playbook

Indice

Introduzione

Come deve essere un monitoraggio per funzionare?

Monitoraggio dell’integrità del dispositivo

Monitoraggio dell'unità

Monitoraggio delle applicazioni

Monitoraggio della rete

Monitoraggio della sicurezza

4 punti chiave per portare il tuo monitoraggio al livello successivo

Best practice di ticketing e avvisi

Domande frequenti

Passi successivi

Risorse

Azienda

Informazioni di contatto