Lista di controllo del monitoraggio MSP con 28 raccomandazioni

Riepilogo

Questo post del blog NinjaOne offre un elenco completo di comandi CMD di base e un’analisi approfondita dei comandi di Windows con oltre 70 comandi cmd essenziali sia per i principianti che per gli utenti avanzati. La guida si propone si piegare in modo pratico i comandi del prompt dei comandi per la gestione dei file, la navigazione nelle directory, la risoluzione dei problemi di rete, le operazioni su disco e l’automazione, con esempi reali per migliorare la produttività. Che tu voglia imparare i comandi cmd fondamentali o padroneggiare gli strumenti avanzati della CLI di Windows, questa guida ti aiuterà a utilizzare il Prompt dei comandi in modo più efficace.

Il monitoraggio degli endpoint e gli avvisi sono una parte centrale della gestione IT. Le best practice di monitoraggio e avvisi ti consentono di identificare in modo proattivo i problemi, risolverli più rapidamente e risparmiare a te e ai tuoi utenti tempo e frustrazione in futuro.

La sfida consiste nel comprendere cosa bisogna monitorare, cosa richiede un avviso, quali problemi possono essere risolti automaticamente e quali necessitano un intervento manuale. Lo sviluppo di queste conoscenze può richiedere anni, e anche i team IT migliori possono avere difficoltà a ridurre la frequenza degli avvisi e l’eccessiva quantità di ticket nelle loro reti e nei loro dispositivi.

Per ridurre i tempi di avviamento e per restringere il campo d’azione, abbiamo messo insieme un elenco di idee sulle condizioni da monitorare, insieme ai trigger e alle azioni suggerite per l’automazione. Queste raccomandazioni si basano sui suggerimenti dei nostri partner e sull’esperienza di NinjaOne nell’aiutare i team IT a creare un monitoraggio efficace e fattibile.

Cosa monitorare e notificare: Come usare le checklist di seguito

Per ogni condizione viene descritto cosa viene monitorato, come configurare il monitoraggio in NinjaOne e quali azioni eseguire se la condizione è attivata. Alcuni suggerimenti per il monitoraggio sono concreti, mentre altri potrebbero richiedere un livello minimo di personalizzazione per essere adattati al tuo caso d’uso.

Nota: Questa checklist è stata creata pensando a NinjaOne e ai propri clienti, ma queste idee per il monitoraggio dovrebbero essere facilmente applicabili a qualsiasi soluzione RMM o endpoint management.

Inoltre, questo elenco ovviamente non è esaustivo e potrebbe non adattarsi a qualsiasi situazione o circostanza.

Dopo aver iniziato a configurare il tuo sistema di monitoraggio in base a questi suggerimenti, vorrai sviluppare una strategia di monitoraggio più complessa e personalizzata secondo le tue esigenze. Concluderemo questo post con ulteriori suggerimenti utili per realizzare tutto questo e per rendere il monitoraggio, gli avvisi e la creazione dei ticket più semplice ed efficace.

Monitoraggio dell’integrità dei dispositivi

Monitoraggio continuo degli eventi critici

Condizione: eventi critici
Soglia: 80 eventi critici in 5 minuti
Azione: ticket e analisi

Identificare quando un dispositivo viene riavviato involontariamente

Condizione: evento Windows
Origine dell’evento: Microsoft-Windows-Kernel-Power
ID evento: 41
Nota: Questa condizione è più indicata per i server poiché workstation e portatili possono dare questo errore in seguito all’intervento dell’utente.
Azione: ticket e analisi

Identificare i dispositivi che richiedono un riavvio

Condizione: tempo di attività del sistema
Soglia suggerita: 30 o 60 giorni
Azione: Riavvia il dispositivo in un intervallo appropriato. La correzione automatizzata potrebbe funzionare per le workstation.

Monitoraggio degli endpoint offline

Condizione: dispositivo non disponibile
Soglia suggerita:
- 10 minuti o meno (server)
- più di 24 ore (workstation)
Azione:
- ticket e analisi
- Riattivazione della LAN (solo server)

Monitoraggio delle modifiche dell’hardware

Attività: sistema
Nome: Scheda aggiunta/modificata, CPU aggiunta/rimossa, Unità disco aggiunta/rimossa, Memoria aggiunta/rimossa
Azione: ticket e analisi

Monitora l’unità

Monitora i potenziali errori del disco

Condizione: Stato SMART di Windows degradato
e/o
Condizione: evento Windows
Origine dell’evento: disco
ID evento: 7, 11, 29, 41, 51, 153
Azione: ticket e analisi

Individua quando lo spazio su disco sta finendo

Condizione: Spazio disponibile su disco
Soglia: 20% e ancora al 10%
Azione: pulizia del disco ed eliminazione dei file temporanei

Monitora i potenziali errori RAID

Condizione: Stato di integrità RAID
Soglie: critico e non critico per tutti gli attributi
Azione: ticket e analisi

Monitora l’utilizzo prolungato del disco

Condizione: utilizzo del disco
Soglie: 90% o superiore per ridurre il rumore, con più del 95% comune in periodi di 30 o 60 minuti
Azione: ticket e analisi

Monitora l’elevato tasso di attività del disco

Condizione: tempo di attività del disco
Soglie: più del 90% per 15 minuti
Azione: ticket e analisi

Monitoraggio di un utilizzo elevato della memoria

Condizione: tempo di attività del disco
Soglie: più del 90% per 15 minuti
Azione: ticket e analisi

Monitora le applicazioni

Identifica se esistono le applicazioni richieste su un endpoint

Condizione: Software
Utilizzo:
- applicazioni line-of-business del cliente (esempi: AutoCAD, SAP, Photoshop)
- Soluzioni per la produttività del cliente (esempi: Zoom, Microsoft Teams, DropBox, Slack, Office, Acrobat)
- Strumenti di supporto del cliente (esempi: TeamViewer, CCleaner, AutoElevate, BleachBit)
Azione: installazione automatica dell’applicazione se è necessaria e manca

Monitora se le applicazioni critiche sono in esecuzione (soprattutto per i server)

Condizione: processo/servizio
Soglia: non disponibile per almeno 3 minuti
Processi di esempio:
- Per le workstation: TeamViewer, RDP, DLP
- Per un server Exchange: MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3, ecc
- Per un server Active Directory: Netlogon, dnscache, rpcss, ecc
- Per un server SQL: mssqlserver, sqlbrowser, sqlwriter, ecc.
Azione: riavvio del servizio o del processo

Monitora l’utilizzo delle risorse per le applicazioni che possono causare problemi relativi alle prestazioni

Condizione: risorsa di processo
Soglia: più del 90% per almeno 5 minuti
Processi di esempio: Outlook, Chrome e TeamViewer
Azione:
- ticket e analisi
- Disattivazione all’avvio

Monitora gli arresti anomali delle applicazioni

Condizione: evento Windows
Source: blocco dell’applicazione
ID evento: 1002
Azione: ticket e analisi

Monitora la rete

Monitora l’utilizzo imprevisto della larghezza di banda

Condizione: utilizzo del Network
Direzione: out
Soglia: le soglie saranno determinate dal tipo di endpoint e dalla capacità di rete
- Ogni server deve avere una propria soglia in base al suo caso d’uso specifico
- Le soglie di monitoraggio della rete per le workstation devono essere abbastanza elevate da attivarsi solo quando la rete di un cliente è a rischio
Azione: ticket e analisi

Garantisci il corretto funzionamento dei dispositivi di rete

Condizione: dispositivo non disponibile
Durata: 3 minuti

Monitora le porte aperte

Condizione: Monitoraggio cloud
Porte: 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)

Monitora la disponibilità del sito Web del cliente

Monitora: ping
Destinazione: sito Web del cliente
Condizione: errore (5 volte)
Azione: ticket e analisi

Monitoraggio della sicurezza di base

Identifica se il firewall di Windows è stato disattivato

Condizione: evento Windows
Origine dell’evento: sistema
ID evento: 5025
Azione: attivazione di Windows Firewall

Identifica se l’antivirus e gli strumenti di sicurezza sono installati e/o in esecuzione su un endpoint

Condizione: Software
Presenza: non esiste
Software (esempi): Huntress, Cylance, Threatlocker, Sophos
Azione: Automatizza l’installazione del software di sicurezza mancante
dal vivo e
Condizione: processo/servizio
Stato: Inattivo
Processo (esempi): threatlockerservice.exe, EPUpdateService.exe
Azione: riavvio del processo

Controlla le minacce rilevate da AV/EDR non integrati

Condizione: evento Windows
Esempio: (Sophos)
Origine dell’evento: Sophos Anti-Virus
ID evento: 6, 16, 32, 42

Monitora i tentativi di accesso dell’utente non riusciti

Condizione: errore di Windows
Origine dell’evento: Microsoft-Windows-Sicurezza-Controllo
ID evento: 4625, 4740, 644 (account locali); 4777 (accesso al dominio)
Azione: ticket e analisi

Monitora la creazione, la modifica o la rimozione di utenti su un endpoint

Condizione: errore di Windows
Origine dell’evento: Microsoft-Windows-Sicurezza-Controllo
ID evento: 4720, 4732, 4729
Azione: Crea un ticket e indaga

Monitoraggio per identificare se le unità in un endpoint sono crittografate/decrittografate

Condizione: risultato dello script
Script (personalizzato): verifica dello stato della crittografia
Azione: ticket e analisi

Monitoraggio degli errori di backup (Ninja Data Protection)

Attività: Ninja Data Protection
Nome: processo di backup non riuscito

Monitora gli errori di backup (altri fornitori di soluzioni per il backup)

Condizione: evento Windows
Origine/ID dell’esempio (Veeam):
- Origine dell’evento: Agente Veeam
- ID evento: 190
- Contenuto del testo: non riuscito
Origine/ID dell’esempio (Acronis):
- Origine dell’evento: Sistema di backup online
- ID evento: 1
- Contenuto del testo: non riuscito

4 punti chiave per ottimizzare il monitoraggio

Crea un modello di monitoraggio dell’integrità dei dispositivi di base.
Parla con i clienti delle loro priorità.
1. Quali server e workstation sono importanti?
2. Quali sono le loro applicazioni per la produttività o line-of-business cruciali?
3. Quali criticità hanno riscontrato nell’ambito dell’IT?
Monitora il tuo sistema di creazione dei ticket/PSA per individuare eventuali problemi ricorrenti.
1. Configura gli avvisi in modo da evitare una quantità eccessiva di ticket.
Monitora i log eventi dei clienti per individuare eventuali problemi ricorrenti.

Best practice per la creazione di ticket e avvisi

Attiva avvisi solo su informazioni utilizzabili. Se non hai una risposta specifica per un monitoraggio, non eseguire il monitoraggio.
Categorizza gli avvisi in modo da indirizzarli verso schede di servizio diverse nel PSA in base al tipo o alla priorità.
Organizza riunioni frequenti sulla gestione degli avvisi per discutere di quanto segue:

- Quali avvisi causano gran parte del rumore? È possibile rimuoverli o limitarli?
- Cosa non viene sottoposto a monitoraggio o non sta creando le notifiche previste?
- Quali avvisi comuni è possibile risolvere automaticamente?
- Ci sono dei progetti imminenti che potrebbero generare avvisi?

Elimina i ticket e gli avvisi una volta risolti.

- In Ninjaone molte condizioni presentano la dicitura “Reimposta quando non più vera” o “Reimposta quando non vera per un periodo x” per aiutarti a risolvere ed eliminare le notifiche che potrebbero risolversi automaticamente.

Ulteriori idee sul monitoraggio per MSP

Non perdere la straordinaria serie di Kelvin Tegelaar sul monitoraggio da remoto tramite PowerShell. Descrive come monitorare qualsiasi cosa, come il traffico di rete, l’integrità di Active Directory, i tentativi di accesso non riusciti a Office 365, i risultati di Shodan e molto altro. Ma soprattutto, condivide gli script di PowerShell progettati per essere indipendenti da RMM. Puoi leggere anche il nostro post del blog sulle differenze tra PowerShell e il prompt dei comandi e su quando usarli.

Pubblichiamo regolarmente i suoi post del blog con un’ampia serie di risorse e strumenti aggiuntivi nella nostra newsletter settimanale MSP Bento. Iscriviti ora per ricevere la versione più recente e un elenco speciale delle risorse e degli strumenti più popolari che abbiamo condiviso.