Come MSP, il monitoraggio e gli avvisi sono fondamentali per i servizi che offri. Attraverso buone pratiche di monitoraggio puoi identificare in modo proattivo i problemi, risolverli più velocemente ed essere più efficace. Un monitoraggio migliore può avere un ruolo chiave anche nel generare ulteriori profitti e nel garantire la soddisfazione dei tuoi clienti.
La sfida consiste nel sapere cosa monitorare, cosa richiede un avviso, quali problemi possono essere risolti automaticamente e quali invece richiedono un intervento manuale. Per capire tutto questo possono volerci degli anni e, anche in quel caso, i migliori team possono continuare a lottare per ridurre la desensibilizzazione agli allarmi e l'eccessiva quantità di ticket nei dispositivi dei clienti.
Ma cosa dovresti monitorare con il tuo RMM?
Per aiutare le persone alle prime armi a velocizzare la loro preparazione e a concentrare la loro attenzione, abbiamo stilato questo elenco di idee per più di 25 condizioni da monitorare. Questi consigli sono basati sui suggerimenti ricevuti dai nostri partner e derivanti dall'esperienza di NinjaOne nell'aiutare gli MSP a predisporre un monitoraggio efficace e fattibile.
Come usare gli elenchi di controllo di seguito
Per ogni condizione viene descritto cosa viene monitorato, come configurare il monitoraggio in NinjaOne e quali azioni devono essere effettuate se la condizione è attivata. Alcuni suggerimenti per il monitoraggio sono concreti, mentre altri potrebbero richiedere un livello minimo di personalizzazione per adattarsi al caso d'uso specifico.
Nota: questo elenco di controllo è stato creato pensando a NinjaOne e ai nostri clienti, ma queste idee per il monitoraggio dovrebbero essere facilmente applicabili a qualsiasi RMM.
Inoltre, questo elenco ovviamente non è esaustivo e potrebbe non adattarsi a qualsiasi situazione o circostanza.
Dopo aver iniziato a configurare il tuo sistema di monitoraggio in base a questi suggerimenti, dovrai sviluppare una strategia di monitoraggio più complessa e personalizzata secondo le caratteristiche e le esigenze dei tuoi clienti. Concluderemo questo post con ulteriori suggerimenti utili per realizzare tutto questo e per rendere il monitoraggio, gli avvisi e la creazione dei ticket un vantaggio competitivo per il tuo MSP.
Elenco di controllo per il monitoraggio dell'integrità dei dispositivi
Monitoraggio degli eventi critici continui
- Condizione: eventi critici
- Soglia: 80 eventi critici in 5 minuti
- Azione: ticket e analisi
Monitoraggio per identificare quando un dispositivo viene riavviato involontariamente
- Condizione: evento di Windows
- Origine dell'evento: Microsoft-Windows-Kernel-Alimentazione
- ID evento: 41
- Nota: questa condizione è più indicata per i server poiché workstation e portatili possono dare questo errore in seguito all'intervento dell'utente.
- Azione: ticket e analisi
Monitoraggio per identificare i dispositivi che richiedono un riavvio
- Condizione: periodo di disponibilità del sistema
- Soglia suggerita: 30 o 60 giorni
- Azione: riavvio del dispositivo in un momento appropriato. La correzione automatizzata potrebbe funzionare per le workstation.
Monitoraggio degli endpoint offline
- Condizione: dispositivo non disponibile
- Soglia suggerita:
- 10 minuti o meno (server)
- più di 24 ore (workstation)
- Azione:
- Ticket e analisi
- Riattivazione della LAN (solo server)
Monitoraggio delle modifiche dell'hardware
- Attività: sistema
- Nome: adattatore aggiunto/modificato, CPU aggiunta/rimossa, unità disco aggiunta/rimossa, memoria aggiunta/rimossa
- Azione: ticket e analisi
Elenco di controllo per il monitoraggio delle unità
Monitoraggio di potenziali errori delle unità
- Condizione: stato SMART di Windows degradato
e/o - Condizione: evento di Windows
- Origine dell'evento: disco
- ID eventi: 7, 11, 29, 41, 51, 153
- Azione: ticket e analisi
Monitoraggio per identificare quando sta per essere raggiunta la capacità massima dello spazio sul disco
- Condizione: spazio disponibile su disco
- Soglia: 20% e ancora al 10%
- Azione: pulizia del disco ed eliminazione dei file temporanei
Monitoraggio di potenziali errori RAID
- Condizione: stato di integrità RAID
- Soglie: critico e non critico per tutti gli attributi
- Azione: ticket e analisi
Monitoraggio di un elevato utilizzo del disco prolungato
- Condizione: utilizzo del disco
- Soglie: 90% o superiore per ridurre il rumore, con più del 95% comune in periodi di 30 o 60 minuti
- Azione: ticket e analisi
Monitoraggio della percentuale di attività del disco elevata
- Condizione: tempo di attività del disco
- Soglie: maggiore del 90% per 15 minuti
- Azione: ticket e analisi
Monitoraggio dell'utilizzo elevato della memoria
- Condizione: tempo di attività del disco
- Soglie: maggiore del 90% per 15 minuti
- Azione: ticket e analisi
Elenco di controllo per il monitoraggio delle applicazioni
Monitoraggio per identificare se esistono le applicazioni richieste in un endpoint
- Condizione: software
- Utilizzo:
- Applicazioni line-of-business del cliente (esempi: AutoCAD, SAP, Photoshop)
- Soluzioni per la produttività del cliente (esempi: Zoom, Microsoft Teams, DropBox, Slack, Office, Acrobat)
- Strumenti di supporto del cliente (esempi: TeamViewer, CCleaner, AutoElevate, BleachBit)
- Azione: installazione automatica dell'applicazione se è necessaria e risulta mancante
Monitoraggio per verificare se le applicazioni critiche sono in esecuzione (soprattutto per i server)
- Condizione: processo/servizio
- Soglia: non disponibile per almeno 3 minuti
- Processi di esempio:
- Per le workstation: TeamViewer, RDP, DLP
- Per un server Exchange: MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3, ecc.
- Per un server Active Directory: Netlogon, dnscache, rpcss, ecc.
- Per un server SQL: mssqlserver, sqlbrowser, sqlwriter, ecc.
- Azione: riavvio del servizio o del processo
Monitoraggio dell'utilizzo delle risorse per le applicazioni che possono causare problemi relativi alle prestazioni
- Condizione: risorsa di processo
- Soglia: più del 90% per almeno 5 minuti
- Processi di esempio: Outlook, Chrome e TeamViewer
- Azione:
- Ticket e analisi
- Disattivazione all'avvio
Monitoraggio di arresti anomali delle applicazioni
- Condizione: evento di Windows
- Origine: blocco dell'applicazione
- ID evento: 1002
- Azione: ticket e analisi
Elenco di controllo per il monitoraggio del Network
Monitoraggio dell'utilizzo imprevisto della larghezza di banda
- Condizione: utilizzo del Network
- Direzione: out
- Soglia: le soglie saranno determinate dal tipo di endpoint e dalla capacità di rete
- Ogni server deve avere una propria soglia in base al suo caso d'uso specifico
- Le soglie di monitoraggio del Network per le workstation devono essere abbastanza elevate da attivarsi solo quando la rete di un cliente è a rischio
- Azione: ticket e analisi
Monitoraggio per garantire il corretto funzionamento dei dispositivi di rete
- Condizione: dispositivo non disponibile
- Durata: 3 minuti
Monitoraggio delle porte aperte
- Condizione: monitoraggio cloud
- Porte: 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)
Monitoraggio della disponibilità del sito Web del cliente
- Monitoraggio: ping
- Target: sito Web del cliente
- Condizione: errore (5 volte)
- Azione: ticket e analisi
Elenco di controllo per il monitoraggio della sicurezza di base
Monitoraggio per identificare se Windows Firewall è stato disattivato
- Condizione: evento di Windows
- Origine dell'evento: sistema
- ID evento: 5025
- Azione: attivazione di Windows Firewall
Monitoraggio per identificare se l'antivirus e gli strumenti di sicurezza sono installati e/o in esecuzione in un endpoint
- Condizione: software
- Presenza: non esiste
- Software (esempi): Huntress, Cylance, Threatlocker, Sophos
- Azione: automatizzazione dell'installazione del software di sicurezza mancante
e - Condizione: processo/servizio
- Stato: non disponibile
- Processo (esempi): threatlockerservice.exe, EPUpdateService.exe
- Azione: riavvio del processo
Monitoraggio di minacce AV/EDR non integrate rilevate
- Condizione: evento di Windows
- Esempio: (Sophos)
- Origine dell'evento: antivirus Sophos
- ID eventi: 6, 16, 32, 42
Monitoraggio di tentativi di accesso non riusciti degli utenti
- Condizione: errore di Windows
- Origine dell'evento: Microsoft-Windows-Sicurezza-Controllo
- ID eventi: 4625, 4740, 644 (account locali); 4777 (accesso al dominio)
- Azione: ticket e analisi
Monitoraggio della creazione, dell'elevazione o della rimozione degli utenti in un endpoint
- Condizione: errore di Windows
- Origine dell'evento: Microsoft-Windows-Sicurezza-Controllo
- ID evento: 4720, 4732, 4729
- Azione: ticket e analisi
Monitoraggio per identificare se le unità in un endpoint sono crittografate/decrittografate
- Condizione: risultato dello script
- Script (personalizzato): verifica dello stato della crittografia
- Azione: ticket e analisi
Monitoraggio degli errori di backup (Ninja Data Protection)
- Attività: Ninja Data Protection
- Nome: processo di backup non riuscito
Monitoraggio degli errori di backup (altri fornitori di soluzioni per il backup)
- Condizione: evento di Windows
- Origine/ID di esempio (Veeam):
- Origine dell'evento: agente Veeam
- ID evento: 190
- Testo contenuto: non riuscito
- Origine/ID di esempio (Acronis):
- Origine dell'evento: sistema di backup online
- ID evento: 1
- Testo contenuto: non riuscito
4 punti chiave per ottimizzare il monitoraggio
- Crea un modello di monitoraggio dell'integrità dei dispositivi di base.
- Parla con i clienti delle loro priorità.
- Quali server e workstation sono importanti?
- Quali sono le loro applicazioni per la produttività o line-of-business critiche?
- Quali criticità hanno riscontrato nell'ambito dell'IT?
- Monitora il tuo sistema di creazione dei ticket/PSA per individuare eventuali problemi ricorrenti.
- Configura gli avvisi in modo da evitare una quantità eccessiva di ticket.
- Monitora i log eventi dei clienti per individuare eventuali problemi ricorrenti.
Procedure consigliate per la creazione dei ticket e gli avvisi
- Attiva avvisi solo su informazioni utilizzabili. Se non hai una risposta specifica per un monitoraggio, non eseguire il monitoraggio.
- Categorizza gli avvisi in modo da indirizzarli verso schede di servizio diverse nel PSA in base al tipo o alla priorità.
- Organizza riunioni frequenti sulla gestione degli avvisi per discutere di quanto segue:
-
- Quali avvisi stanno causando gran parte del rumore? Possono essere rimossi o limitati?
- Cosa non viene sottoposto a monitoraggio o non sta creando le notifiche che dovrebbe?
- Quali avvisi comuni possono essere risolti automaticamente?
- Ci sono dei progetti imminenti che potrebbero generare avvisi?
- Elimina i ticket e gli avvisi una volta risolti.
-
- In NinjaOne, molte condizioni presentano la dicitura "Reimposta quando non più vera" o "Reimposta quando non vera per un periodo x" per aiutarti a risolvere ed eliminare le notifiche che potrebbero essere risolte automaticamente.
Cerchi altre idee per il monitoraggio?
Non perdere la straordinaria serie di Kelvin Tegelaar (in inglese) sul monitoraggio da remoto tramite PowerShell. Descrive come monitorare qualsiasi cosa, come il traffico di rete, l'integrità di Active Directory, i tentativi di accesso non riusciti a Office 365, i risultati di Shodan e molto altro. Ma soprattutto, condivide gli script di PowerShell progettati per essere indipendenti da RMM. Puoi leggere anche il nostro post del blog sulle differenze tra PowerShell e il prompt dei comandi (in inglese) e su quando usarli.
Pubblichiamo regolarmente i suoi post del blog con un'ampia serie di risorse e strumenti aggiuntivi nella nostra newsletter settimanale MSP Bento (in inglese). Iscriviti ora per ricevere la versione più recente e un elenco speciale delle risorse e degli strumenti più popolari che abbiamo condiviso.