Endpoint Monitoring and Alerting Playbook

Inhaltsverzeichnis

Einführung
- Was ist gutes Monitoring?
Geräteintegrität überwachen
Laufwerke überwachen
Programme und Anwendungen überwachen
Netzwerke überwachen
Sicherheit überwachen
4 wichtige Schritte zur Verbesserung des Monitorings
Ticketing und Benachrichtigungen: Best Practices

Dieser Leitfaden enthält Empfehlungen für den Aufbau Ihrer Strategie für das Endpunkt-Monitoring und Benachrichtigungen sowie eine Schritt-für-Schritt-Anleitung für das Erstellen von über 30 benutzerdefinierten Endpunkt-Monitoring-Bedingungen in NinjaOne.

Einführung

Was ist gutes Monitoring?

Monitoring und Benachrichtigungen sind von zentraler Bedeutung für den effektiven Einsatz eines RMM. Ein gutes Monitoring ermöglicht es Ihnen, Probleme proaktiv zu erkennen, sie schneller zu lösen und effektiver zu arbeiten. Ein verbessertes Monitoring kann darüber hinaus auch eine wichtige Rolle dabei spielen, zusätzliche Einnahmen zu generieren und die Zufriedenheit Ihrer Kunden zu steigern.

Die Herausforderung besteht darin, zu wissen, was genau überwacht werden muss. Was erfordert eine Benachrichtigung? Welche Probleme können automatisch gelöst werden und welche erfordern eine persönliche Bearbeitung? Es kann Jahre dauern, dieses Wissen zu entwickeln, und selbst dann haben die besten Teams noch Probleme damit, eine gewisse Meldungsmüdigkeit zu vermeiden und das Ticketaufkommen auf Endgeräten der Kunden zu reduzieren.

Um Neulinge zu unterstützen, die Anlaufzeit zu verkürzen und den Fokus auf das Wesentliche zu beschränken, haben wir diese Liste mit Ideen für 25+ zu überwachende Bedingungen zusammengestellt. Diese Empfehlungen basieren auf Vorschlägen unserer Partner und auf der Erfahrung von NinjaOne bei der Unterstützung von MSPs beim Aufbau eines effektiven, umsetzbaren Monitorings.

Für jede Bedingung beschreiben wir, was überwacht wird, wie Sie das Monitoring in NinjaOne einrichten und welche Maßnahmen ergriffen werden sollten, wenn die jeweilige Bedingung ausgelöst wird. Einige Monitoring-Vorschläge sind konkret, während andere möglicherweise etwas Anpassung erfordern, um sie auf Ihren konkreten Anwendungsfall zuzuschneiden.

Diese Monitoring-Vorschläge sind natürlich nicht vollständig und treffen möglicherweise nicht auf jede Situation oder jeden Umstand zu. Sobald Sie damit begonnen haben, Ihr Monitoring auf Grundlage dieser Vorschläge aufzubauen, müssen Sie eine individuellere und robuste Monitoring-Strategie entwickeln, die auf Ihre Kunden und deren spezielle Bedürfnisse zugeschnitten ist. Am Ende dieses Leitfadens finden Sie weitere hilfreiche Tipps, wie Sie Monitoring, Benachrichtigungen und Ticketing zu einem Wettbewerbsvorteil für Ihren MSP machen.

Geräteintegrität überwachen

Auf fortlaufende kritische Ereignisse überwachen	Bedingung: Kritische Ereignisse Schwellenwert: 80 kritische Ereignisse innerhalb von 5 Minuten Maßnahme: Ticket und Nachforschung
Feststellen, wenn auf einem Gerät unbeabsichtigt ein Reboot durchgeführt wird	Bedingung: Windows-Ereignis Ereignisquelle: Microsoft-Windows-Kernel-Power Ereignis-ID: 41 Hinweis: Diese Bedingung ist besser für Server geeignet, da Arbeitsstationen und Laptops diesen Fehler durch Benutzereingriffe verursachen können. Maßnahme: Ticket und Nachforschung
Geräte erkennen, die einen Reboot benötigen	Bedingung: Systembetriebszeit Vorgeschlagener Schwellenwert: 30 oder 60 Tage Maßnahme: Das Gerät zu einem geeigneten Zeitpunkt neu starten. Automatische Problemlösung kann bei Arbeitsstationen ausreichend sein.
Auf Endpunkte überwachen, die offline gehen	Bedingung: Gerät offline oder ausgefallen Vorgeschlagener Schwellenwert: 10 Minuten oder weniger (Server) 5 Tage oder länger (Arbeitsstationen) Maßnahme: Ticket und Nachforschung Wake-on-LAN (nur Server)
Auf Hardware-Veränderungen überwachen	Aktivität: System Name: Adapter hinzugefügt/geändert, CPU hinzugefügt/entfernt, Festplattenlaufwerk hinzugefügt/entfernt, Speicher hinzugefügt/entfernt Maßnahme: Ticket und Nachforschung
Auf längere hohe CPU-Auslastung überwachen	Bedingung: CPU• Schwellenwert: 90 % oder mehr zur Lärmreduzierung, wobei auch mehr als 95 % über einen Zeitraum von 15 Minuten oder mehr üblich sein können Maßnahme: Ticket und Nachforschung

Laufwerke überwachen

Auf potenzielle Laufwerkausfälle überwachen	Bedingung: Windows SMART-Status herabgesetzt UND/ODER Bedingung: Windows-Ereignis Ereignisquelle: Datenträger Ereignis-IDs: 7, 11, 29, 41, 51, 153 Maßnahme: Ticket und Nachforschung
Erkennen, wenn Speicherplatz knapp wird	Bedingung: Freier Festplattenspeicher Schwellenwert: 20 % und erneut bei 10 % Maßnahme: Fesplatten-Cleanup durchführen und temporäre Dateien löschen
Auf potenzielle RAID-Ausfälle überwachen	Bedingung: RAID-Betriebszustand Schwellenwert: Kritisch und nicht-kritisch für alle Attribute Maßnahme: Ticket und Nachforschung
Auf längere hohe Festplattennutzung überwachen	Bedingung: Festplattenauslastung Schwellenwert: 90 % oder mehr zur Lärmreduzierung, wobei auch mehr als 95 % über einen Zeitraum von 30 oder 60 Minuten üblich sein können Maßnahme: Ticket und Nachforschung
Auf hohe Festplattenaktivität überwachen	Bedingung: Aktive Festplattenzeit Schwellenwert: Mehr als 90 % über einen Zeitraum von 15 Minuten Maßnahme: Ticket und Nachforschung
Auf hohe Speicherbelastung überwachen	Bedingung: Aktive Festplattenzeit Schwellenwert: Mehr als 90 % über einen Zeitraum von 15 Minuten Maßnahme: Ticket und Nachforschung

Programme und Anwendungen überwachen

Erkennen, ob erforderliche Anwendungen am Endpunkt existieren	Bedingung: Software Nutzung: Geschäftsanwendungen des Kunden (Beispiele: AutoCAD, SAP, Photoshop) Produktivitätslösungen des Kunden (Beispiele: Zoom, Microsoft Teams, DropBox, Slack, Office, Acrobat) Support-Tools des Kunden (Beispiele: TeamViewer, CCleaner, AutoElevate, BleachBit) Maßnahme: Die Anwendung automatisch installieren, wenn sie fehlt und erforderlich ist
Überwachen, ob wichtige Anwendungen laufen (insbesondere bei Servern)	Bedingung: Prozess/Service Schwellenwert: Mindestens 3 Minuten inaktiv Beispiele für Prozesse: Bei Arbeitsstationen: TeamViewer, RDP, DLP Bei Exchange-Servern: MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3 usw. Bei einem Active Directory Server: Netlogon, dnscache, rpcss usw. Bei einem SQL Server: mssqlserver, sqlbrowser, sqlwriter usw. Maßnahme: Den Service oder Prozess neu starten
Überwachen auf die Ressourcennutzung von Anwendungen, die bekanntermaßen Leistungsprobleme verursachen	Bedingung: Prozessressource Schwellenwert: 90 %+ für mindestens 5 Minuten Beispiele für Prozesse: Outlook, Chrome und TeamViewer Maßnahme: Ticket und Nachforschung Beim Hochfahren deaktivieren
Auf Anwendungsabstürze überwachen	Bedingung: Windows-Ereignis Quelle: Absturz der Anwendung Ereignis-ID: 1002 Maßnahme: Ticket und Nachforschung

Netzwerke überwachen

Auf ungewöhnliche Bandbreitennutzung überwachen	Bedingung: Netzwerkauslastung Richtung: Raus Schwellenwert: Die Schwellenwerte werden durch die Art des Endpunkts und die Netzwerkkapazität bestimmt Jeder Server sollte einen eigenen Schwellenwert entsprechend der Nutzung des Servers haben Die Schwellenwerte für die Netzwerküberwachung von Arbeitsstationen sollten so hoch sein, dass sie nur dann ausgelöst werden, wenn das Netzwerk eines Kunden gefährdet ist Maßnahme: Ticket und Nachforschung
Sicherstellen, dass Netzwerkgeräte laufen	Bedingung: Gerät offline oder ausgefallen Dauer: 3 Minuten
Überwachen, welche Ports offen sind	Bedingung: Cloud-Überwachung Ports: 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)
Überwachen, dass Kunden-Website verfügbar ist	Überwachen: Ping Ziel: Kunden-Website Bedingung: Fehler (5 Mal) Maßnahme: Ticket und Nachforschung

Sicherheit überwachen

Überprüfen, ob Windows Firewall ausgeschaltet wurde	Bedingung: Windows-Ereignis Ereignisquelle: System Ereignis-ID: 5025 Maßnahme: Windows Firewall einschalten
Überprüfen, ob Antiviren- und Sicherheitstools auf einem Endpunkt installiert sind und/oder laufen	Bedingung: Software Anwesenheit: Existiert nicht Software (Beispiele): Huntress, Cylance, Threatlocker, Sophos Maßnahme: Installation der fehlenden Sicherheitssoftware automatisieren UND Bedingung: Prozess/Service Zustand: Inaktiv/down Prozess (Beispiele): threatlockerservice.exe, EPUpdateService.exe Maßnahme: Den Prozess neu starten
Auf nicht integrierte AV-/EDR-Bedrohungen überwachen	Bedingung: Windows-Ereignis Beispiel (Sophos) Ereignisquelle: Sophos Anti-Virus Ereignis-IDs: 6, 16, 32, 42
Auf fehlgeschlagene Einloggen-Versuche überprüfen	Bedingung: Windows-Fehler Ereignisquelle: Microsoft-Windows-Security-Auditing Ereignis-ID: 4625, 4740, 644 (lokale Konten); 4777 (Domain-Login) Maßnahme: Ticket und Nachforschung
Auf Erstellung, Anhebung oder Entfernung von Benutzern auf einem Endpunkt überwachen	Bedingung: Windows-Fehler Ereignisquelle: Microsoft-Windows-Security-Auditing Ereignis-ID: 4720, 4732, 4729 Maßnahme: Ticket und Nachforschung
Überprüfen, ob Laufwerke an einem Endpunkt verschlüsselt/unverschlüsselt sind	Bedingung: Skript-Ergebnis Skript (benutzerdefiniert): Verschlüsselungsstatus prüfen Maßnahme: Ticket und Nachforschung
Backup-Probleme (NinjaOne Backup) überwachen	Aktivität: NinjaOne Backup Name: Backupauftrag fehlgeschlagen
Backup-Probleme (andere Backups) überwachen	Bedingung: Windows-Ereignis Beispiel Quelle/IDs (Veeam): Ereignisquelle: Veeam Agent Ereignis-IDs: 190 Text enthält: Fehlgeschlagen Beispiel Quelle/IDs (Acronis): Ereignisquelle: Online-Backupsystem Ereignis-ID: 1 Text enthält: Fehlgeschlagen

4 wichtige Schritte zur Verbesserung des Monitorings

Eine Vorlage für die Überwachung des Gerätezustands erstellen.
Mit den Kunden über ihre Prioritäten sprechen.
- Welche Server und Arbeitsstationen sind wichtig?
- Welches sind die kritischen Geschäfts- oder
  Produktivitätsanwendungen?
- Wo liegen die IT-Schwachstellen?
Überwachen Sie Ihr PSA/Ticketing-System auf wiederkehrende Probleme.
- Passen Sie Benachrichtigungen an, um übermäßiges Ticket-Rauschen zu vermeiden.
Überwachen Sie Ereignisprotokolle der Kunden auf wiederkehrende Probleme.

Ticketing und Benachrichtigungen: Best Practices

Benachrichtigung nur bei verwertbaren Informationen senden – wenn keine spezifische Reaktion sichtbar ist, nicht überwachen.
Benachrichtigungen so kategorisieren, dass sie an verschiedene Service Boards im PSA gehen.
Regelmäßig Besprechungen zum Thema Wartung von Benachrichtigungen veranstalten, um das Thema zu diskutieren.
- Welche Benachrichtigungen verursachen das meiste Rauschen? Können diese entfernt oder in ihrem Umfang eingegrenzt werden?
- Was wird nicht überwacht bzw. was sollte gemeldet werden?
- Welche allgemeinen Benachrichtigungen können automatisch behoben werden?
- Gibt es ein anstehendes Projekt, das Benachrichtigungen auslösen könnte?
Bereinigen Sie Tickets und Benachrichtigungen, wenn sie behoben sind.
- In NinjaOne gibt es für viele Bedingungen die Option „Zurücksetzen, wenn nicht mehr zutreffend“ oder „Zurücksetzen, wenn für einen Zeitraum von x nicht zutreffend“, damit Sie Benachrichtigungen, die sich gegebenenfalls selbst lösen, automatisch bereinigen können.