Vous êtes déjà client NinjaOne ? Connectez-vous pour consulter d'autres guides et les dernières nouvelles.

Endpoint Monitoring and Alerting Playbook

Table des matières :

Ce guide fournit des recommandations pour l'élaboration de votre stratégie de surveillance des terminaux et des alertes, ainsi que des instructions étape par étape pour créer plus de 30 conditions personnalisées de surveillance des terminaux dans NinjaOne.

 

Introduction

À quoi ressemble une bonne surveillance ?

La surveillance et les alertes sont essentielles à l'utilisation efficace d'un RMM. De bonnes pratiques de surveillance vous permettent d'identifier les problèmes de manière proactive, de les résoudre plus rapidement et d'être plus efficace. Un meilleur suivi peut également jouer un rôle clé dans la génération de revenus supplémentaires et la satisfaction de vos clients.

Le plus dur consiste à savoir ce qu'il faut surveiller, ce qui nécessite une alerte, les problèmes qui peuvent être résolus automatiquement et ceux qui nécessitent une intervention manuelle. Acquérir ces connaissances peut parfois prendre des années, et même les meilleures équipes peuvent encore avoir du mal à réduire la lassitude face aux alertes et les tickets non pertinents sur les appareils des clients.

C'est pour cela que nous vous avons préparé une liste de plus de 25 conditions à surveiller, dans le but d'aider celles et ceux qui se lancent à être opérationnels plus rapidement et à moins s'éparpiller. Ces recommandations sont basées sur les suggestions de nos partenaires et sur l'expérience de NinjaOne en matière d'assistance auprès des MSP lors de l'implémentation d'une surveillance efficace et exploitable.

Pour chaque condition, nous décrivons ce qui est surveillé, comment configurer le moniteur dans NinjaOne et quelles actions doivent être entreprises si la condition est déclenchée. Certaines suggestions de surveillance sont concrètes, tandis que d'autres peuvent nécessiter une légère adaptation à votre cas d'utilisation.

Ces idées de surveillance ne sont évidemment pas exhaustives et peuvent ne pas s'appliquer à tous les cas de figure possibles. Une fois que vous aurez commencé à implémenter votre surveillance sur la base de ces suggestions, vous devrez élaborer une stratégie de surveillance plus personnalisée et plus efficace, spécifique à vos clients et à leurs besoins. Vous trouverez également à la fin de ce guide des recommandations supplémentaires pour vous aider dans vos effort et faire de la surveillance, des alertes et de la gestion des tickets un avantage concurrentiel pour votre MSP.

 

Surveillance de l'intégrité des appareils

Surveiller les événements critiques continus

  • Condition : Événements critiques
  • Seuil 80 événements critiques en 5 minutes
  • Action : Ticket et analyse

Identifier le redémarrage involontaire d'un appareil

  • Condition : Événement Windows
  • Source de l'événement : Microsoft-Windows-Kernel-Power
  • ID de l’événement 41
  • Remarque : Cette condition est plus adaptée aux serveurs, car les postes de travail et les ordinateurs portables peuvent créer cette erreur à la suite d'une intervention de l'utilisateur
  • Action : Ticket et analyse

Identifier les appareils nécessitant un redémarrage

  • Condition : Temps de fonctionnement du système
  • Seuil recommandé : 30 ou 60 jours
  • Action : Redémarrer l'appareil dans un intervalle de temps approprié. La remédiation automatisée peut fonctionner pour les postes de travail.

Surveiller les terminaux hors ligne

  • Condition : Appareil hors-ligne
  • Seuil recommandé :
    • 10 minutes ou moins (serveurs)
    • 5 jours ou plus (postes de travail)
  • Action :
    • Ticket et analyse
    • Wake on LAN (serveurs uniquement)

Surveiller les changements de matériel

  • Activité : Système
  • Nom : Adaptateur ajouté/modifié, processeur ajouté/supprimé, disque dur ajouté/supprimé, mémoire ajoutée/supprimée
  • Action : Ticket et analyse

Surveiller l'utilisation élevée et prolongée du processeur

  • Condition : Seuils du processeur : 90 % ou plus pour réduire les alertes non pertinentes , 95 % ou plus étant également courant sur une période d'au moins 15 minutes
  • Action : Ticket et analyse

 

Surveillance du disque

Surveiller les potentielles défaillances du disque
  • Condition : Statut Windows SMART dégradé ET/OU
  • Condition : Événement Windows
  • Source de l'événement : Disque
  • ID d’événement : 7, 11, 29, 41, 51, 153
  • Action : Ticket et analyse
Identifier quand l'espace disque approche de sa capacité limite
  • Condition : Espace libre sur le disque
  • Seuil 20 % puis 10 %
  • Action : Nettoyage du disque et suppression des fichiers temporaires
Surveiller les défaillances potentielles du RAID
  • Condition : Intégrité RAID
  • Seuils : Critiques et non critiques pour tous les attributs
  • Action : Ticket et analyse
Surveiller l'utilisation élevée et prolongée du disque
  • Condition : Utilisation du disque
  • Seuils : 90 % ou plus pour réduire les alertes non pertinentes, 95 % ou plus étant également courant sur des périodes de plus de 30 ou de 60 minutes.
  • Action : Ticket et analyse
Surveiller le taux d'activité élevé du disque
  • Condition : Temps d’activité du disque
  • Seuils : Plus de 90 % pendant 15 minutes
  • Action : Ticket et analyse
Surveiller l'utilisation de la mémoire
  • Condition : Temps d’activité du disque
  • Seuils : Plus de 90 % pendant 15 minutes
  • Action : Ticket et analyse

 

Surveillance des applications

Identifier si les applications requises existent sur un terminal
  • Condition : Logiciel
  • Utilisation
    • Applications relatives au secteur du client (exemples : AutoCAD, SAP, Photoshop)
    • Solutions de productivité pour les clients (exemples : Zoom, Microsoft Teams, DropBox, Slack, Office, Acrobat)
    • Outils d'assistance client (exemples : TeamViewer, CCleaner, AutoElevate,
    • BleachBit)
  • Action : Installer automatiquement l'application si elle est manquante et requise
Contrôler si les applications critiques fonctionnent (en particulier pour les serveurs)
  • Condition : Processus/Service
  • Seuil Hors d'usage pendant au moins 3 minutes
  • Exemples de processus :
    • Pour les postes de travail : TeamViewer, RDP, DLP
    • Pour un serveur Exchange : MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3, etc
    • Pour un serveur Active Directory : Netlogon, dnscache, rpcss, etc
    • Pour un serveur SQL : mssqlserver, sqlbrowser, sqlwriter, etc
  • Action : Redémarrer le service ou le processus
Surveiller l'utilisation des ressources pour les applications connues pour causer des
des problèmes de performance
  • Condition : Ressources du processus
  • Seuil 90 % ou plus pendant au moins 5 minutes
  • Exemples de processus : Outlook, Chrome et TeamViewer
  • Action :
    • Ticket et analyse
    • Désactiver au démarrage
Surveiller les plantages d'application
  • Condition : Événement Windows
  • Source Application hang
  • ID de l’événement 1002
  • Action : Ticket et analyse

 

Surveillance du réseau

Surveiller l'utilisation inattendue de la bande passante
  • Condition : Utilisation du réseau
  • Direction Sortant
  • Seuil : les seuils seront déterminés par le type de terminal et la capacité du réseau
    • Chaque serveur devrait avoir son propre seuil en fonction de son cas d'utilisation
    • Les seuils de surveillance du réseau des stations de travail doivent être suffisamment élevés pour ne se déclencher que lorsque le réseau d'un client est menacé
  • Action : Ticket et analyse
S'assurer que les appareils du réseau sont opérationnels
  • Condition : Appareil hors-ligne
  • Durée 3 minutes
Contrôler les ports ouverts
  • Condition : Moniteur du Cloud
  • Ports 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)
Surveiller la
disponibilité du site web du client
  • Surveiller : Test ping
  • Cible : Site web du client
  • Condition : Échec (5 fois)
  • Action : Ticket et analyse

 

Contrôle de la sécurité

Déterminer si le pare-feu Windows a été désactivé
  • Condition : Événement Windows
  • Source de l'événement : Système
  • ID de l’événement 5025
  • Action : Activer le pare-feu Windows
Déterminer si des outils antivirus et de sécurité sont installés et/ou fonctionnent sur un terminal
  • Condition : Logiciel
  • Présence : N'existe pas
  • Logiciels (exemples) : Huntress, Cylance, Threatlocker, Sophos
  • Action : Automatiser l'installation des logiciels de sécurité manquants

    ET

  • Condition : Processus/Service
  • État Inactif
  • Processus (exemples) : threatlockerservice.exe, EPUpdateService.exe
  • Action : Redémarrer le processus
Surveillance des menaces AV/EDR non intégrées détectées
  • Condition : Événement Windows
  • Exemple (Sophos)
    • Source de l'événement : Sophos Anti-Virus
    • ID d’événement : 6, 16, 32, 42
Contrôle des échecs de connexion utilisateur
  • Condition : Erreur Windows
  • Source de l'événement : Microsoft-Windows-Security-Auditing
  • ID de l’événement 4625, 4740, 644 (comptes locaux) ; 4777 (connexion au domaine)
  • Action : Ticket et analyse
Surveiller la création, l'élévation ou la suppression d'utilisateurs
sur un terminal
  • Condition : Erreur Windows
  • Source de l'événement : Microsoft-Windows-Security-Auditing
  • ID de l’événement 4720, 4732, 4729
  • Action : Ticket et analyse
Identifier si les disques d'un terminal sont
chiffrés/non chiffrés
  • Condition : Résultat du script
  • Script (personnalisé) : Vérifier l'état du chiffrement
  • Action : Ticket et analyse
Surveiller les échecs de sauvegarde (NinjaOne Backup)
  • Activité : NinjaOne Backup
  • Nom : La tâche de sauvegarde a échoué
Surveiller les défaillances des sauvegardes (autres fournisseurs de sauvegardes)
  • Condition : Événement Windows
  • Exemple Source/IDs (Veeam) :
    • Source de l'événement : Agent Veeam
    • ID d’événement : 190
  • Le texte contient : Échoué
  • Exemple Source / IDs (Acronis) :
    • Source de l'événement : Système de sauvegarde en ligne
    • ID de l’événement 1
    • Le texte contient : Échoué

 

4 clés pour améliorer votre surveillance

  1. Créez un modèle de base pour le contrôle de l'état des appareils.
  2. Discutez avec les clients de leurs priorités.
    • Quels sont les serveurs et les postes de travail importants ?
    • Quelles sont les applications essentielles
      à leur activité ou à leur productivité ?
    • Quels sont leurs points faibles en informatique ?
  3. Surveillez votre PSA/système de gestion des tickets pour détecter les problèmes récurrents.
    • Ajustez les alertes pour éviter les tickets non pertinents.
  4. Contrôlez les journaux d'événements des clients pour détecter les problèmes récurrents.

 

Bonnes pratiques pour la gestion des tickets et les alertes

  1. N'alertez que sur des informations exploitables : si vous n'avez pas de réponse spécifique associée à un moniteur, ne le surveillez pas.
  2. Classez vos alertes en fonction des différents tableaux de service de votre PSA.
  3. Organisez régulièrement des réunions pour discuter du nettoyage des alertes.
    • Quelles sont les alertes qui déclenchent le plus d'alertes ? Peut-on les supprimer ou en réduire le champ d'application ?
    • Qu'est-ce qui n’est pas surveillé ou ne crée pas de notifications alors que cela devrait être le cas ?
    • Quelles sont les alertes courantes qui peuvent faire l'objet d'une remédiation automatique ?
    • Y a-t-il des projets à venir susceptibles de générer des alertes ?
  4. Nettoyez vos tickets et envoyez des alertes lorsqu'ils sont résolus. 
    • Dans NinjaOne, de nombreuses conditions disposent d'une option « Réinitialiser lorsque ce n'est plus vrai » ou « Réinitialiser lorsque ce n'est pas vrai pendant une période x » pour vous aider à résoudre et à nettoyer les notifications qui peuvent se résoudre d'elles-mêmes.

 

 

 

FAQ

Pour aller plus loin