Sie sind bereits NinjaOne-Kunde? Melden Sie sich an, um weitere Leitfäden und die neuesten Updates zu sehen.

Endpoint Monitoring and Alerting Playbook

Inhaltsverzeichnis

Dieser Leitfaden enthält Empfehlungen für den Aufbau Ihrer Strategie für das Endpunkt-Monitoring und Benachrichtigungen sowie eine Schritt-für-Schritt-Anleitung für das Erstellen von über 30 benutzerdefinierten Endpunkt-Monitoring-Bedingungen in NinjaOne.

 

Einführung

Was ist gutes Monitoring?

Monitoring und Benachrichtigungen sind von zentraler Bedeutung für den effektiven Einsatz eines RMM. Ein gutes Monitoring ermöglicht es Ihnen, Probleme proaktiv zu erkennen, sie schneller zu lösen und effektiver zu arbeiten. Ein verbessertes Monitoring kann darüber hinaus auch eine wichtige Rolle dabei spielen, zusätzliche Einnahmen zu generieren und die Zufriedenheit Ihrer Kunden zu steigern.

Die Herausforderung besteht darin, zu wissen, was genau überwacht werden muss. Was erfordert eine Benachrichtigung? Welche Probleme können automatisch gelöst werden und welche erfordern eine persönliche Bearbeitung? Es kann Jahre dauern, dieses Wissen zu entwickeln, und selbst dann haben die besten Teams noch Probleme damit, eine gewisse Meldungsmüdigkeit zu vermeiden und das Ticketaufkommen auf Endgeräten der Kunden zu reduzieren.

Um Neulinge zu unterstützen, die Anlaufzeit zu verkürzen und den Fokus auf das Wesentliche zu beschränken, haben wir diese Liste mit Ideen für 25+ zu überwachende Bedingungen zusammengestellt. Diese Empfehlungen basieren auf Vorschlägen unserer Partner und auf der Erfahrung von NinjaOne bei der Unterstützung von MSPs beim Aufbau eines effektiven, umsetzbaren Monitorings.

Für jede Bedingung beschreiben wir, was überwacht wird, wie Sie das Monitoring in NinjaOne einrichten und welche Maßnahmen ergriffen werden sollten, wenn die jeweilige Bedingung ausgelöst wird. Einige Monitoring-Vorschläge sind konkret, während andere möglicherweise etwas Anpassung erfordern, um sie auf Ihren konkreten Anwendungsfall zuzuschneiden.

Diese Monitoring-Vorschläge sind natürlich nicht vollständig und treffen möglicherweise nicht auf jede Situation oder jeden Umstand zu. Sobald Sie damit begonnen haben, Ihr Monitoring auf Grundlage dieser Vorschläge aufzubauen, müssen Sie eine individuellere und robuste Monitoring-Strategie entwickeln, die auf Ihre Kunden und deren spezielle Bedürfnisse zugeschnitten ist. Am Ende dieses Leitfadens finden Sie weitere hilfreiche Tipps, wie Sie Monitoring, Benachrichtigungen und Ticketing zu einem Wettbewerbsvorteil für Ihren MSP machen.

 

Geräteintegrität überwachen

Auf fortlaufende kritische Ereignisse überwachen

  • Bedingung: Kritische Ereignisse
  • Schwellenwert: 80 kritische Ereignisse innerhalb von 5 Minuten
  • Maßnahme: Ticket und Nachforschung

Feststellen, wenn auf einem Gerät unbeabsichtigt ein Reboot durchgeführt wird

  • Bedingung: Windows-Ereignis
  • Ereignisquelle: Microsoft-Windows-Kernel-Power
  • Ereignis-ID: 41
  • Hinweis: Diese Bedingung ist besser für Server geeignet, da Arbeitsstationen und Laptops diesen Fehler durch Benutzereingriffe verursachen können.
  • Maßnahme: Ticket und Nachforschung

Geräte erkennen, die einen Reboot benötigen

  • Bedingung: Systembetriebszeit
  • Vorgeschlagener Schwellenwert: 30 oder 60 Tage
  • Maßnahme: Das Gerät zu einem geeigneten Zeitpunkt neu starten. Automatische Problemlösung kann bei Arbeitsstationen ausreichend sein.

Auf Endpunkte überwachen, die offline gehen

  • Bedingung: Gerät offline oder ausgefallen
  • Vorgeschlagener Schwellenwert:
    • 10 Minuten oder weniger (Server)
    • 5 Tage oder länger (Arbeitsstationen)
  • Maßnahme:
    • Ticket und Nachforschung
    • Wake-on-LAN (nur Server)

Auf Hardware-Veränderungen überwachen

  • Aktivität: System
  • Name: Adapter hinzugefügt/geändert, CPU hinzugefügt/entfernt, Festplattenlaufwerk hinzugefügt/entfernt, Speicher hinzugefügt/entfernt
  • Maßnahme: Ticket und Nachforschung

Auf längere hohe CPU-Auslastung überwachen

  • Bedingung: CPU• Schwellenwert: 90 % oder mehr zur Lärmreduzierung, wobei auch mehr als 95 % über einen Zeitraum von 15 Minuten oder mehr üblich sein können
  • Maßnahme: Ticket und Nachforschung

 

Laufwerke überwachen

Auf potenzielle Laufwerkausfälle überwachen
  • Bedingung: Windows SMART-Status herabgesetzt UND/ODER
  • Bedingung: Windows-Ereignis
  • Ereignisquelle: Datenträger
  • Ereignis-IDs: 7, 11, 29, 41, 51, 153
  • Maßnahme: Ticket und Nachforschung
Erkennen, wenn Speicherplatz knapp wird
  • Bedingung: Freier Festplattenspeicher
  • Schwellenwert: 20 % und erneut bei 10 %
  • Maßnahme: Fesplatten-Cleanup durchführen und temporäre Dateien löschen
Auf potenzielle RAID-Ausfälle überwachen
  • Bedingung: RAID-Betriebszustand
  • Schwellenwert: Kritisch und nicht-kritisch für alle Attribute
  • Maßnahme: Ticket und Nachforschung
Auf längere hohe Festplattennutzung überwachen
  • Bedingung: Festplattenauslastung
  • Schwellenwert: 90 % oder mehr zur Lärmreduzierung, wobei auch mehr als 95 % über einen Zeitraum von 30 oder 60 Minuten üblich sein können
  • Maßnahme: Ticket und Nachforschung
Auf hohe Festplattenaktivität überwachen
  • Bedingung: Aktive Festplattenzeit
  • Schwellenwert: Mehr als 90 % über einen Zeitraum von 15 Minuten
  • Maßnahme: Ticket und Nachforschung
Auf hohe Speicherbelastung überwachen
  • Bedingung: Aktive Festplattenzeit
  • Schwellenwert: Mehr als 90 % über einen Zeitraum von 15 Minuten
  • Maßnahme: Ticket und Nachforschung

 

Programme und Anwendungen überwachen

Erkennen, ob erforderliche Anwendungen am Endpunkt existieren
  • Bedingung: Software
  • Nutzung:
    • Geschäftsanwendungen des Kunden (Beispiele: AutoCAD, SAP, Photoshop)
    • Produktivitätslösungen des Kunden (Beispiele: Zoom, Microsoft Teams, DropBox, Slack, Office, Acrobat)
    • Support-Tools des Kunden (Beispiele: TeamViewer, CCleaner, AutoElevate,
    • BleachBit)
  • Maßnahme: Die Anwendung automatisch installieren, wenn sie fehlt und erforderlich ist
Überwachen, ob wichtige Anwendungen laufen (insbesondere bei Servern)
  • Bedingung: Prozess/Service
  • Schwellenwert: Mindestens 3 Minuten inaktiv
  • Beispiele für Prozesse:
    • Bei Arbeitsstationen: TeamViewer, RDP, DLP
    • Bei Exchange-Servern: MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3 usw.
    • Bei einem Active Directory Server: Netlogon, dnscache, rpcss usw.
    • Bei einem SQL Server: mssqlserver, sqlbrowser, sqlwriter usw.
  • Maßnahme: Den Service oder Prozess neu starten
Überwachen auf die Ressourcennutzung von Anwendungen, die bekanntermaßen
Leistungsprobleme verursachen
  • Bedingung: Prozessressource
  • Schwellenwert: 90 %+ für mindestens 5 Minuten
  • Beispiele für Prozesse: Outlook, Chrome und TeamViewer
  • Maßnahme:
    • Ticket und Nachforschung
    • Beim Hochfahren deaktivieren
Auf Anwendungsabstürze überwachen
  • Bedingung: Windows-Ereignis
  • Quelle: Absturz der Anwendung
  • Ereignis-ID: 1002
  • Maßnahme: Ticket und Nachforschung

 

Netzwerke überwachen

Auf ungewöhnliche Bandbreitennutzung überwachen
  • Bedingung: Netzwerkauslastung
  • Richtung: Raus
  • Schwellenwert: Die Schwellenwerte werden durch die Art des Endpunkts und die Netzwerkkapazität bestimmt
    • Jeder Server sollte einen eigenen Schwellenwert entsprechend der Nutzung des Servers haben
    • Die Schwellenwerte für die Netzwerküberwachung von Arbeitsstationen sollten so hoch sein, dass sie nur dann ausgelöst werden, wenn das Netzwerk eines Kunden gefährdet ist
  • Maßnahme: Ticket und Nachforschung
Sicherstellen, dass Netzwerkgeräte laufen
  • Bedingung: Gerät offline oder ausgefallen
  • Dauer: 3 Minuten
Überwachen, welche Ports offen sind
  • Bedingung: Cloud-Überwachung
  • Ports: 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)
Überwachen, dass
Kunden-Website verfügbar ist
  • Überwachen: Ping
  • Ziel: Kunden-Website
  • Bedingung: Fehler (5 Mal)
  • Maßnahme: Ticket und Nachforschung

 

Sicherheit überwachen

Überprüfen, ob Windows Firewall ausgeschaltet wurde
  • Bedingung: Windows-Ereignis
  • Ereignisquelle: System
  • Ereignis-ID: 5025
  • Maßnahme: Windows Firewall einschalten
Überprüfen, ob Antiviren- und Sicherheitstools auf einem Endpunkt installiert sind und/oder laufen
  • Bedingung: Software
  • Anwesenheit: Existiert nicht
  • Software (Beispiele): Huntress, Cylance, Threatlocker, Sophos
  • Maßnahme: Installation der fehlenden Sicherheitssoftware automatisieren

    UND

  • Bedingung: Prozess/Service
  • Zustand: Inaktiv/down
  • Prozess (Beispiele): threatlockerservice.exe, EPUpdateService.exe
  • Maßnahme: Den Prozess neu starten
Auf nicht integrierte AV-/EDR-Bedrohungen überwachen
  • Bedingung: Windows-Ereignis
  • Beispiel (Sophos)
    • Ereignisquelle: Sophos Anti-Virus
    • Ereignis-IDs: 6, 16, 32, 42
Auf fehlgeschlagene Einloggen-Versuche überprüfen
  • Bedingung: Windows-Fehler
  • Ereignisquelle: Microsoft-Windows-Security-Auditing
  • Ereignis-ID: 4625, 4740, 644 (lokale Konten); 4777 (Domain-Login)
  • Maßnahme: Ticket und Nachforschung
Auf Erstellung, Anhebung oder Entfernung von Benutzern
auf einem Endpunkt überwachen
  • Bedingung: Windows-Fehler
  • Ereignisquelle: Microsoft-Windows-Security-Auditing
  • Ereignis-ID: 4720, 4732, 4729
  • Maßnahme: Ticket und Nachforschung
Überprüfen, ob Laufwerke an einem Endpunkt
verschlüsselt/unverschlüsselt sind
  • Bedingung: Skript-Ergebnis
  • Skript (benutzerdefiniert): Verschlüsselungsstatus prüfen
  • Maßnahme: Ticket und Nachforschung
Backup-Probleme (NinjaOne Backup) überwachen
  • Aktivität: NinjaOne Backup
  • Name: Backupauftrag fehlgeschlagen
Backup-Probleme (andere Backups) überwachen
  • Bedingung: Windows-Ereignis
  • Beispiel Quelle/IDs (Veeam):
    • Ereignisquelle: Veeam Agent
    • Ereignis-IDs: 190
  • Text enthält: Fehlgeschlagen
  • Beispiel Quelle/IDs (Acronis):
    • Ereignisquelle: Online-Backupsystem
    • Ereignis-ID: 1
    • Text enthält: Fehlgeschlagen

 

4 wichtige Schritte zur Verbesserung des Monitorings

  1. Eine Vorlage für die Überwachung des Gerätezustands erstellen.
  2. Mit den Kunden über ihre Prioritäten sprechen.
    • Welche Server und Arbeitsstationen sind wichtig?
    • Welches sind die kritischen Geschäfts- oder
      Produktivitätsanwendungen?
    • Wo liegen die IT-Schwachstellen?
  3. Überwachen Sie Ihr PSA/Ticketing-System auf wiederkehrende Probleme.
    • Passen Sie Benachrichtigungen an, um übermäßiges Ticket-Rauschen zu vermeiden.
  4. Überwachen Sie Ereignisprotokolle der Kunden auf wiederkehrende Probleme.

 

Ticketing und Benachrichtigungen: Best Practices

  1. Benachrichtigung nur bei verwertbaren Informationen senden – wenn keine spezifische Reaktion sichtbar ist, nicht überwachen.
  2. Benachrichtigungen so kategorisieren, dass sie an verschiedene Service Boards im PSA gehen.
  3. Regelmäßig Besprechungen zum Thema Wartung von Benachrichtigungen veranstalten, um das Thema zu diskutieren.
    • Welche Benachrichtigungen verursachen das meiste Rauschen? Können diese entfernt oder in ihrem Umfang eingegrenzt werden?
    • Was wird nicht überwacht bzw. was sollte gemeldet werden?
    • Welche allgemeinen Benachrichtigungen können automatisch behoben werden?
    • Gibt es ein anstehendes Projekt, das Benachrichtigungen auslösen könnte?
  4. Bereinigen Sie Tickets und Benachrichtigungen, wenn sie behoben sind. 
    • In NinjaOne gibt es für viele Bedingungen die Option „Zurücksetzen, wenn nicht mehr zutreffend“ oder „Zurücksetzen, wenn für einen Zeitraum von x nicht zutreffend“, damit Sie Benachrichtigungen, die sich gegebenenfalls selbst lösen, automatisch bereinigen können.

 

 

 

FAQ

Nächste Schritte