Endpoint Monitoring and Alerting Playbook

Table des matières :

Introduction
- À quoi ressemble une bonne surveillance ?
Surveillance de l'intégrité des appareils
Surveillance du disque
Surveillance des applications
Surveillance du réseau
Contrôle de la sécurité
4 clés pour améliorer votre surveillance
Bonnes pratiques pour la gestion des tickets et les alertes

Ce guide fournit des recommandations pour l'élaboration de votre stratégie de surveillance des terminaux et des alertes, ainsi que des instructions étape par étape pour créer plus de 30 conditions personnalisées de surveillance des terminaux dans NinjaOne.

Introduction

À quoi ressemble une bonne surveillance ?

La surveillance et les alertes sont essentielles à l'utilisation efficace d'un RMM. De bonnes pratiques de surveillance vous permettent d'identifier les problèmes de manière proactive, de les résoudre plus rapidement et d'être plus efficace. Un meilleur suivi peut également jouer un rôle clé dans la génération de revenus supplémentaires et la satisfaction de vos clients.

Le plus dur consiste à savoir ce qu'il faut surveiller, ce qui nécessite une alerte, les problèmes qui peuvent être résolus automatiquement et ceux qui nécessitent une intervention manuelle. Acquérir ces connaissances peut parfois prendre des années, et même les meilleures équipes peuvent encore avoir du mal à réduire la lassitude face aux alertes et les tickets non pertinents sur les appareils des clients.

C'est pour cela que nous vous avons préparé une liste de plus de 25 conditions à surveiller, dans le but d'aider celles et ceux qui se lancent à être opérationnels plus rapidement et à moins s'éparpiller. Ces recommandations sont basées sur les suggestions de nos partenaires et sur l'expérience de NinjaOne en matière d'assistance auprès des MSP lors de l'implémentation d'une surveillance efficace et exploitable.

Pour chaque condition, nous décrivons ce qui est surveillé, comment configurer le moniteur dans NinjaOne et quelles actions doivent être entreprises si la condition est déclenchée. Certaines suggestions de surveillance sont concrètes, tandis que d'autres peuvent nécessiter une légère adaptation à votre cas d'utilisation.

Ces idées de surveillance ne sont évidemment pas exhaustives et peuvent ne pas s'appliquer à tous les cas de figure possibles. Une fois que vous aurez commencé à implémenter votre surveillance sur la base de ces suggestions, vous devrez élaborer une stratégie de surveillance plus personnalisée et plus efficace, spécifique à vos clients et à leurs besoins. Vous trouverez également à la fin de ce guide des recommandations supplémentaires pour vous aider dans vos effort et faire de la surveillance, des alertes et de la gestion des tickets un avantage concurrentiel pour votre MSP.

Surveillance de l'intégrité des appareils

Surveiller les événements critiques continus	Condition : Événements critiques Seuil 80 événements critiques en 5 minutes Action : Ticket et analyse
Identifier le redémarrage involontaire d'un appareil	Condition : Événement Windows Source de l'événement : Microsoft-Windows-Kernel-Power ID de l’événement 41 Remarque : Cette condition est plus adaptée aux serveurs, car les postes de travail et les ordinateurs portables peuvent créer cette erreur à la suite d'une intervention de l'utilisateur Action : Ticket et analyse
Identifier les appareils nécessitant un redémarrage	Condition : Temps de fonctionnement du système Seuil recommandé : 30 ou 60 jours Action : Redémarrer l'appareil dans un intervalle de temps approprié. La remédiation automatisée peut fonctionner pour les postes de travail.
Surveiller les terminaux hors ligne	Condition : Appareil hors-ligne Seuil recommandé : 10 minutes ou moins (serveurs) 5 jours ou plus (postes de travail) Action : Ticket et analyse Wake on LAN (serveurs uniquement)
Surveiller les changements de matériel	Activité : Système Nom : Adaptateur ajouté/modifié, processeur ajouté/supprimé, disque dur ajouté/supprimé, mémoire ajoutée/supprimée Action : Ticket et analyse
Surveiller l'utilisation élevée et prolongée du processeur	Condition : Seuils du processeur : 90 % ou plus pour réduire les alertes non pertinentes , 95 % ou plus étant également courant sur une période d'au moins 15 minutes Action : Ticket et analyse

Surveillance du disque

Surveiller les potentielles défaillances du disque	Condition : Statut Windows SMART dégradé ET/OU Condition : Événement Windows Source de l'événement : Disque ID d’événement : 7, 11, 29, 41, 51, 153 Action : Ticket et analyse
Identifier quand l'espace disque approche de sa capacité limite	Condition : Espace libre sur le disque Seuil 20 % puis 10 % Action : Nettoyage du disque et suppression des fichiers temporaires
Surveiller les défaillances potentielles du RAID	Condition : Intégrité RAID Seuils : Critiques et non critiques pour tous les attributs Action : Ticket et analyse
Surveiller l'utilisation élevée et prolongée du disque	Condition : Utilisation du disque Seuils : 90 % ou plus pour réduire les alertes non pertinentes, 95 % ou plus étant également courant sur des périodes de plus de 30 ou de 60 minutes. Action : Ticket et analyse
Surveiller le taux d'activité élevé du disque	Condition : Temps d’activité du disque Seuils : Plus de 90 % pendant 15 minutes Action : Ticket et analyse
Surveiller l'utilisation de la mémoire	Condition : Temps d’activité du disque Seuils : Plus de 90 % pendant 15 minutes Action : Ticket et analyse

Surveillance des applications

Identifier si les applications requises existent sur un terminal	Condition : Logiciel Utilisation Applications relatives au secteur du client (exemples : AutoCAD, SAP, Photoshop) Solutions de productivité pour les clients (exemples : Zoom, Microsoft Teams, DropBox, Slack, Office, Acrobat) Outils d'assistance client (exemples : TeamViewer, CCleaner, AutoElevate, BleachBit) Action : Installer automatiquement l'application si elle est manquante et requise
Contrôler si les applications critiques fonctionnent (en particulier pour les serveurs)	Condition : Processus/Service Seuil Hors d'usage pendant au moins 3 minutes Exemples de processus : Pour les postes de travail : TeamViewer, RDP, DLP Pour un serveur Exchange : MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3, etc Pour un serveur Active Directory : Netlogon, dnscache, rpcss, etc Pour un serveur SQL : mssqlserver, sqlbrowser, sqlwriter, etc Action : Redémarrer le service ou le processus
Surveiller l'utilisation des ressources pour les applications connues pour causer des des problèmes de performance	Condition : Ressources du processus Seuil 90 % ou plus pendant au moins 5 minutes Exemples de processus : Outlook, Chrome et TeamViewer Action : Ticket et analyse Désactiver au démarrage
Surveiller les plantages d'application	Condition : Événement Windows Source Application hang ID de l’événement 1002 Action : Ticket et analyse

Surveillance du réseau

Surveiller l'utilisation inattendue de la bande passante	Condition : Utilisation du réseau Direction Sortant Seuil : les seuils seront déterminés par le type de terminal et la capacité du réseau Chaque serveur devrait avoir son propre seuil en fonction de son cas d'utilisation Les seuils de surveillance du réseau des stations de travail doivent être suffisamment élevés pour ne se déclencher que lorsque le réseau d'un client est menacé Action : Ticket et analyse
S'assurer que les appareils du réseau sont opérationnels	Condition : Appareil hors-ligne Durée 3 minutes
Contrôler les ports ouverts	Condition : Moniteur du Cloud Ports 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)
Surveiller la disponibilité du site web du client	Surveiller : Test ping Cible : Site web du client Condition : Échec (5 fois) Action : Ticket et analyse

Contrôle de la sécurité

Déterminer si le pare-feu Windows a été désactivé	Condition : Événement Windows Source de l'événement : Système ID de l’événement 5025 Action : Activer le pare-feu Windows
Déterminer si des outils antivirus et de sécurité sont installés et/ou fonctionnent sur un terminal	Condition : Logiciel Présence : N'existe pas Logiciels (exemples) : Huntress, Cylance, Threatlocker, Sophos Action : Automatiser l'installation des logiciels de sécurité manquants ET Condition : Processus/Service État Inactif Processus (exemples) : threatlockerservice.exe, EPUpdateService.exe Action : Redémarrer le processus
Surveillance des menaces AV/EDR non intégrées détectées	Condition : Événement Windows Exemple (Sophos) Source de l'événement : Sophos Anti-Virus ID d’événement : 6, 16, 32, 42
Contrôle des échecs de connexion utilisateur	Condition : Erreur Windows Source de l'événement : Microsoft-Windows-Security-Auditing ID de l’événement 4625, 4740, 644 (comptes locaux) ; 4777 (connexion au domaine) Action : Ticket et analyse
Surveiller la création, l'élévation ou la suppression d'utilisateurs sur un terminal	Condition : Erreur Windows Source de l'événement : Microsoft-Windows-Security-Auditing ID de l’événement 4720, 4732, 4729 Action : Ticket et analyse
Identifier si les disques d'un terminal sont chiffrés/non chiffrés	Condition : Résultat du script Script (personnalisé) : Vérifier l'état du chiffrement Action : Ticket et analyse
Surveiller les échecs de sauvegarde (NinjaOne Backup)	Activité : NinjaOne Backup Nom : La tâche de sauvegarde a échoué
Surveiller les défaillances des sauvegardes (autres fournisseurs de sauvegardes)	Condition : Événement Windows Exemple Source/IDs (Veeam) : Source de l'événement : Agent Veeam ID d’événement : 190 Le texte contient : Échoué Exemple Source / IDs (Acronis) : Source de l'événement : Système de sauvegarde en ligne ID de l’événement 1 Le texte contient : Échoué

4 clés pour améliorer votre surveillance

Créez un modèle de base pour le contrôle de l'état des appareils.
Discutez avec les clients de leurs priorités.
- Quels sont les serveurs et les postes de travail importants ?
- Quelles sont les applications essentielles
  à leur activité ou à leur productivité ?
- Quels sont leurs points faibles en informatique ?
Surveillez votre PSA/système de gestion des tickets pour détecter les problèmes récurrents.
- Ajustez les alertes pour éviter les tickets non pertinents.
Contrôlez les journaux d'événements des clients pour détecter les problèmes récurrents.

Bonnes pratiques pour la gestion des tickets et les alertes

N'alertez que sur des informations exploitables : si vous n'avez pas de réponse spécifique associée à un moniteur, ne le surveillez pas.
Classez vos alertes en fonction des différents tableaux de service de votre PSA.
Organisez régulièrement des réunions pour discuter du nettoyage des alertes.
- Quelles sont les alertes qui déclenchent le plus d'alertes ? Peut-on les supprimer ou en réduire le champ d'application ?
- Qu'est-ce qui n’est pas surveillé ou ne crée pas de notifications alors que cela devrait être le cas ?
- Quelles sont les alertes courantes qui peuvent faire l'objet d'une remédiation automatique ?
- Y a-t-il des projets à venir susceptibles de générer des alertes ?
Nettoyez vos tickets et envoyez des alertes lorsqu'ils sont résolus.
- Dans NinjaOne, de nombreuses conditions disposent d'une option « Réinitialiser lorsque ce n'est plus vrai » ou « Réinitialiser lorsque ce n'est pas vrai pendant une période x » pour vous aider à résoudre et à nettoyer les notifications qui peuvent se résoudre d'elles-mêmes.

Endpoint Monitoring and Alerting Playbook

Table des matières :

Introduction

À quoi ressemble une bonne surveillance ?

Surveillance de l'intégrité des appareils

Surveillance du disque

Surveillance des applications

Surveillance du réseau

Contrôle de la sécurité

4 clés pour améliorer votre surveillance

Bonnes pratiques pour la gestion des tickets et les alertes

FAQ

Pour aller plus loin

Ressources

Société

Contact

Endpoint Monitoring and Alerting Playbook

Table des matières :

Introduction

À quoi ressemble une bonne surveillance ?

Surveillance de l'intégrité des appareils

Surveillance du disque

Surveillance des applications

Surveillance du réseau

Contrôle de la sécurité

4 clés pour améliorer votre surveillance

Bonnes pratiques pour la gestion des tickets et les alertes

FAQ

Pour aller plus loin

Table des matières :

À quoi ressemble une bonne surveillance ?

4 clés pour améliorer votre surveillance