28 recommandations de surveillance pour votre RMM

En tant que MSP, la surveillance et les alertes sont au cœur des services que vous fournissez. Les bonnes pratiques de surveillance vous permettent d’identifier de manière proactive les problèmes, de les résoudre plus rapidement et d’être plus efficace. Une meilleure surveillance peut également jouer un rôle clé dans la génération de revenus supplémentaires et la satisfaction de vos clients.

Le défi est de savoir ce qu’il faut surveiller, ce qui nécessite une alerte, quels problèmes peuvent être résolus automatiquement et lesquels nécessitent une touche personnelle. Ces connaissances peuvent prendre des années à se développer et, même dans ce cas, les meilleures équipes peuvent encore lutter pour réduire la fatigue des alertes et le bruit des tickets sur les appareils clients.

Pour aider les débutants à condenser ce temps de montée en puissance et à affiner leur objectif, nous avons rassemblé cette liste d’idées pour plus de 25 conditions à surveiller. Ces recommandations sont basées sur les suggestions de nos partenaires et sur l’expérience de NinjaOne dans l’aide de MSP à mettre en place un suivi efficace et exploitable.

Comment utiliser les listes de contrôle ci-dessous

Pour chaque condition, nous décrivons ce qui est surveillé, comment configurer le moniteur dans NinjaOne et quelles actions doivent être entreprises si la condition est déclenchée. Certaines suggestions de surveillance sont concrètes tandis que d’autres peuvent nécessiter une petite quantité de personnalisation pour les adapter à votre cas d’utilisation.

Remarque : bien que nous ayons rédigé cette liste de contrôle en pensant à NinjaOne et à nos clients, ces idées de surveillance devraient être facilement adaptables à n’importe quel RMM.

Cette liste n’est évidemment pas exhaustive et peut ne pas s’appliquer à toutes les situations ou circonstances.

Une fois que vous avez commencé à développer votre surveillance autour de ces suggestions, vous devrez développer une stratégie de surveillance plus personnalisée et plus robuste, spécifique à vos clients et à leurs besoins. Nous clôturerons cet article avec des recommandations supplémentaires pour vous aider dans cet effort et faire de la surveillance, des alertes et de la génération de tickets un avantage concurrentiel pour votre MSP.

Liste de contrôle pour la surveillance de l’état de santé des appareils

Surveiller les événements critiques continus

Condition : événements critiques
Seuil : 80 événements critiques en 5 minutes
Action : ticket et enquête

Identifier quand un appareil est redémarré involontairement

Condition : événement Windows
Source de l’événement : Microsoft-Windows-Kernel-Power
ID d’événement : 41
Remarque : cette condition est mieux adaptée aux serveurs car les postes de travail et les ordinateurs portables peuvent créer cette erreur suite à l’intervention de l’utilisateur.
Action : ticket et enquête

Identifier les appareils nécessitant un redémarrage

Condition : temps de disponibilité du système
Seuil de recommandation : 30 ou 60 jours
Action : redémarrez l’appareil pendant une fenêtre appropriée. La correction automatisée peut fonctionner pour les postes de travail.

Surveiller les terminaux hors ligne

Condition : appareil en panne
Recommandation de seuil :
- 10 minutes ou moins (serveurs)
- Plus de 24 heures (postes de travail)
Action :
- Ticket et enquête
- Réveil-sur-lan (serveurs uniquement)

Surveiller les changements matériels

Activité : système
Nom : adaptateur ajouté / modifié, processeur ajouté / retiré, disque dur ajouté / retiré, mémoire ajoutée / retirée
Action : ticket et enquête

Liste de contrôle pour la surveillance des disques

Surveiller les pannes potentielles de disques

Condition :statut SMART de Windows dégradé
et/ou
Condition : événement Windows
Source de l’événement : disque
ID d’événement : 7, 11, 29, 41, 51, 153
Action : ticket et enquête

Identifier quand l’espace disque approche de sa capacité maximale

Condition : espace libre sur le disque
Seuil : 20 % et encore à 10 %
Action : effectuez le nettoyage du disque et supprimez les fichiers temporaires

Surveiller les pannes RAID potentielles

Condition : état de santé du RAID
Seuils : critiques et non critiques pour tous les attributs
Action : ticket et enquête

Surveiller une utilisation prolongée du disque

Condition : utilisation du disque
Seuils : 90 % ou plus pour réduire le bruit, plus de 95 % étant également courant sur des périodes de 30 ou 60 minutes
Action : ticket et enquête

Surveiller le taux d’activité élevé du disque

Condition : temps actif du disque
Seuils : supérieurs à 90 % pendant 15 minutes
Action : ticket et enquête

Surveiller une utilisation élevée de la mémoire

Condition : temps actif du disque
Seuils : supérieurs à 90 % pendant 15 minutes
Action : ticket et enquête

Liste de contrôle pour la surveillance des applications

Identifier si les applications requises existent sur un terminal

Condition : logiciel
Utilisation :
- Applications métier client (exemples : AutoCAD, SAP, Photoshop)
- Solutions de productivité client (exemples : Zoom, Microsoft Teams, DropBox, Slack, Office, Acrobat)
- Outils de support client (exemples : TeamViewer, CCleaner, AutoElevate, BleachBit)
Action : installez automatiquement l’application si elle est manquante et requise

Surveiller si les applications critiques sont en cours d’exécution (en particulier pour les serveurs)

Condition : processus / service
Seuil : en panne pendant au moins 3 minutes
Exemples de processus :
- Pour les postes de travail : TeamViewer, RDP, DLP
- Pour un serveur Exchange : MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3, etc.
- Pour un serveur Active Directory : Netlogon, dnscache, rpcss, etc.
- Pour un serveur SQL : mssqlserver, sqlbrowser, sqlwriter, etc.
Action : redémarrez le service ou le processus

Surveiller l’utilisation des ressources pour les applications connues pour causer des problèmes de performances

Condition : ressource de processus
Seuil : supérieur à 90 % pendant au moins 5 minutes
Exemples de processus : Outlook, Chrome et TeamViewer
Action :
- Ticket et enquête
- Désactiver au démarrage

Surveiller les plantages d’application

Condition : événement Windows
Source : blocage d’applications
ID d’événement : 1002
Action : ticket et enquête

Liste de contrôle de la surveillance des réseaux

Surveiller l’utilisation inattendue de la bande passante

Condition : utilisation du réseau
Direction : extérieure
Seuil : les seuils seront déterminés par le type de terminal et la capacité du réseau
- Chaque serveur doit avoir son propre seuil en fonction de son cas d’utilisation
- Les seuils de surveillance du réseau du poste de travail doivent être suffisamment élevés pour se déclencher uniquement lorsque le réseau d’un client est à risque
Action : ticket et enquête

Assurez-vous que les périphériques réseau sont en place

Condition : appareil en panne
Durée : 3 minutes

Surveillez les ports ouverts

Condition : surveillance du cloud
Ports : 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)

Surveiller la disponibilité du site Internet du client

Surveillance : Ping
Cible : site Internet du client
Condition : défaillance (5 fois)
Action : ticket et enquête

Liste de contrôle de base de la surveillance de la sécurité

Identifier si le pare-feu Windows a été désactivé

Condition : événement Windows
Source de l’événement : système
ID d’événement : 5025
Action : activez le pare-feu Windows

Identifier si les outils antivirus et de sécurité sont installés et/ou en cours d’exécution sur un terminal

Condition : logiciel
Présence : n’existe pas
Logiciel (exemples) : Huntress, Cylance, Threatlocker, Sophos
Action : Automatisez l’installation du logiciel de sécurité manquantet
Condition : processus / service
État : en panne
Processus (exemples) : menacelockerservice.exe, EPUpdateService.exe
Action : redémarrez le processus

Surveiller les menaces AV / EDR non intégrées détectées

Condition : événement Windows
Exemple (Sophos)
Source de l’événement : antivurs Sophos
ID d’événement : 6, 16, 32, 42

Surveiller les tentatives de connexion des utilisateurs ayant échoué

Condition : erreur Windows
Source de l’événement : Microsoft-Windows-Security-Auditing
ID d’événement : 4625, 4740, 644 (comptes locaux) ; 4777 (connexion au domaine)
Action : ticket et enquête

Surveiller la création, l’élévation ou la suppression d’utilisateurs sur un terminal

Condition : erreur Windows
Source de l’événement : Microsoft-Windows-Security-Auditing
ID d’événement : 4720, 4732, 4729
Action : ticket et enquête

Identifier si les lecteurs sur un terminal sont chiffrés/non chiffrés

Condition : résultat du script
Script (personnalisé) : vérifier l’état du chiffrement
Action : ticket et enquête

Surveiller les échecs de sauvegarde (Ninja Data Protection)

Activité : Ninja Data Protection
Nom : la tâche de sauvegarde a échoué

Surveiller les échecs de sauvegarde (autres fournisseurs de sauvegarde)

Condition : événement Windows
Exemple de source / ID (Veeam) :
- Source de l’événement : agent Veeam
- ID d’événement : 190
- Le texte contient : échec
Exemple de source / ID (Acronis) :
- Source de l’événement : système de sauvegarde en ligne
- ID d’événement : 1
- Le texte contient : échec

4 points clés pour améliorer votre surveillance

Créez un modèle de surveillance de l’état des appareils de base.
Parlez aux clients de leurs priorités.
1. Quels serveurs et postes de travail sont importants ?
2. Quels sont leurs domaines d’activité ou leurs applications de productivité critiques ?
3. Où sont leurs problèmes informatiques ?
Surveillez votre PSA / système de création de ticket pour les problèmes récurrents.
1. Ajustez les alertes pour éviter le bruit des tickets.
Surveillez les journaux d’événements des clients pour les problèmes récurrents.

Bonnes pratiques de création de ticket et des alertes

Alerte uniquement sur les informations exploitables. Si vous n’avez pas de réponse spécifique associée à un moniteur, ne le surveillez pas.
Catégorisez vos alertes pour aller à différents tableaux de service dans votre PSA en fonction du type ou de la priorité.
Organisez régulièrement des réunions de gestion des alertes pour discuter de :

- Quelles alertes génèrent le plus de bruit ? Peuvent-elles être supprimées ou restreintes ?
- Qu’est-ce qui n’est pas surveillé ou ne crée pas de notifications qui devraient l’être ?
- Quelles alertes courantes peuvent être automatiquement corrigées ?
- Y a-t-il un projet à venir qui pourrait générer des alertes ?

Nettoyez vos tickets et alertes lorsqu’ils sont résolus.

- Dans NinjaOne, de nombreuses conditions ont un « Réinitialiser quand ce n’est plus vrai » ou « Réinitialiser quand ce n’est pas vrai pendant x période » pour vous aider à résoudre et à nettoyer les notifications qui peuvent se résoudre d’elles-mêmes.

Vous recherchez plus d’idées de surveillance ?

Voir l’excellente série de Kelvin Tegelaar (en anglais) sur la surveillance à distance à l’aide de PowerShell. Elle explique comment tout surveiller, du trafic réseau à l’intégrité d’Active Directory en passant par les échecs de connexion Office 365, les résultats Shodan, etc. Mieux encore, il partage des scripts PowerShell conçus pour être indépendants de RMM. Vous pouvez également lire notre article de blog sur les différences entre PowerShell et CMD Prompt (en anglais) et quand les utiliser.

Nous présentons régulièrement ses articles de blog ainsi que de nombreux outils et ressources supplémentaires dans notre newsletter hebdomadaire MSP Bento (en anglais). Abonnez-vous maintenant pour obtenir la dernière édition ainsi qu’une liste spéciale des outils et ressources les plus populaires que nous avons partagés.