Endpoint Monitoring and Alerting Playbook

Índice

Introducción
- ¿Qué es una buena supervisión?
Supervisión del estado del dispositivo
Supervisión de la unidad
Supervisión de aplicaciones
Supervisión de la red
Supervisión de la seguridad
4 claves para mejorar tu supervisión
Mejores prácticas de gestión de incidencias y alertas

Esta guía proporciona recomendaciones para la construcción de tu supervisión de endpoints y estrategia de alertas, así como instrucciones paso a paso para la construcción de más de 30 condiciones personalizadas de supervisión de endpoints en NinjaOne.

Introducción

¿Qué es una buena supervisión?

La supervisión y las alertas son fundamentales para el uso eficaz de un RMM. Las buenas prácticas de supervisión te permiten identificar los problemas de forma proactiva, resolverlos más rápidamente y ser más eficaz. Una mejor supervisión también puede desempeñar un papel clave a la hora de generar ingresos adicionales y mantener a tus clientes más satisfechos.

El reto es saber qué hay que supervisar, qué requiere una alerta, qué problemas pueden resolverse automáticamente y cuáles necesitan un toque personal. Estos conocimientos pueden tardar años en desarrollarse, e incluso entonces los mejores equipos pueden seguir teniendo problemas para reducir la saturación de las alertas y el tráfico de tickets en los dispositivos de los clientes.

Para ayudar a los que acaban de empezar a reducir el tiempo de puesta en marcha y a centrarse en un objetivo concreto, hemos elaborado esta lista de ideas sobre más de 25 condiciones que deben supervisarse. Estas recomendaciones se basan en las sugerencias de nuestros socios y en la experiencia de NinjaOne ayudando a los MSP a crear una supervisión eficaz y procesable.

Para cada condición se describe lo que está siendo supervisado, cómo configurar el monitor en NinjaOne y qué acciones deben tomarse si la condición se activa. Algunas sugerencias de supervisión son concretas, mientras que otras pueden requerir una pequeña personalización para adaptarlas a tu caso de uso.

Obviamente, estas ideas de supervisión no son exhaustivas y pueden no aplicarse a todas las situaciones o circunstancias. Una vez que hayas empezado a construir tu supervisión en torno a estas sugerencias, tendrás que desarrollar una estrategia de supervisión más personalizada y sólida, específica para tus clientes y sus necesidades. Concluimos esta guía con recomendaciones adicionales para ayudar en ese esfuerzo y hacer de la supervisión, las alertas y los tickets una ventaja competitiva para tu MSP.

Supervisión del estado del dispositivo

Supervisar eventos críticos continuos	Condición: Eventos críticos Umbral: 80 eventos críticos en 5 minutos Acción: Crear un ticket e investigar
Identificar cuando un dispositivo se reinicia involuntariamente	Condición: Evento de Windows Fuente del evento: Microsoft-Windows-Kernel-Power ID de evento: 41 Nota: Esta condición es más adecuada para los servidores, ya que las estaciones de trabajo y los ordenadores portátiles pueden crear este error a partir de la intervención del usuario. Acción: Crear un ticket e investigar
Identificar los dispositivos que necesitan un reinicio	Condición: Tiempo de actividad del sistema Recomendaciones sobre umbrales: 30 o 60 días Acción: Reiniciar el dispositivo durante una ventana apropiada. La reparación automatizada puede funcionar para las estaciones de trabajo.
Supervisar endpoints desconectados	Condición: Dispositivo desconectado Recomendaciones sobre umbrales: 10 minutos o menos (servidores) 5 días o más (estaciones de trabajo) Acción: Crear un ticket e investigar Wake-on-lan (solo servidores)
Supervisar cambios en el hardware	Actividad: Sistema Nombre: Adaptador añadido / modificado, CPU añadida / eliminada, Unidad de disco añadida / eliminada, Memoria añadida / eliminada Acción: Crear un ticket e investigar
Supervisar el uso prolongado de la CPU	Condición: CPU• Umbrales: 90% o más para reducir el tráfico , siendo más de un 95% también habitual en periodos de 15 minutos. Acción: Crear un ticket e investigar

Supervisión de la unidad

Supervisar posibles fallos de disco	Condición: Estado de Windows SMART degradado Y/O Condición: Evento de Windows Fuente del evento: Disco ID de evento: 7, 11, 29, 41, 51, 153 Acción: Crear un ticket e investigar
Identificar cuando el espacio en disco se acerca a su capacidad	Condición: Espacio libre en el disco Umbral: 20% y de nuevo al 10% Acción: Realizar limpieza de disco y eliminar archivos temporales
Supervisar posibles fallos del RAID	Condición: Estado de RAID Umbrales: Crítico y no crítico para todos los atributos Acción: Crear un ticket e investigar
Supervisar el uso prolongado del disco	Condición: Uso del disco Umbrales: 90% o más para reducir el tráfico, siendo más de un 95% también habitual en periodos de 30 o 60 minutos. Acción: Crear un ticket e investigar
Supervisión de alta actividad de disco	Condición: Tiempo activo del disco Umbrales: Superior al 90% durante 15 minutos Acción: Crear un ticket e investigar
Supervisar el uso de memoria	Condición: Tiempo activo del disco Umbrales: Superior al 90% durante 15 minutos Acción: Crear un ticket e investigar

Supervisión de aplicaciones

Identificar si las aplicaciones requeridas existen en un endpoint	Condición: Software Uso: Aplicaciones cliente de línea de negocio (Ejemplos: AutoCAD, SAP, Photoshop) Soluciones de productividad para clientes (Ejemplos: Zoom, Microsoft Teams, DropBox, Slack, Office, Acrobat) Herramientas de apoyo al cliente (Ejemplos: TeamViewer, CCleaner, AutoElevate, BleachBit) Acción: Instalar automáticamente la aplicación si falta y es necesaria
Supervisar si las aplicaciones críticas se están ejecutando (especialmente para servidores)	Condición: Proceso/Servicio Umbral: Caído durante al menos 3 minutos Ejemplo de procesos: Para estaciones de trabajo: TeamViewer, RDP, DLP Para un servidor Exchange: MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3, etc. Para un servidor Active Directory: Netlogon, dnscache, rpcss, etc. Para un servidor SQL: mssqlserver, sqlbrowser, sqlwriter, etc. Acción: Reiniciar el servicio o proceso
Supervisar el uso de recursos para aplicaciones conocidas por causar problemas de rendimiento	Condición: Recurso de proceso Umbral: Más del 90% durante al menos 5 minutos Ejemplo de procesos: Outlook, Chrome, y TeamViewer Acción: Crear un ticket e investigar Desactivar al inicio
Supervisión de caídas de la aplicación	Condición: Evento de Windows Origen: Aplicación Hang ID de evento: 1002 Acción: Crear un ticket e investigar

Supervisión de la red

Supervisar el uso inesperado del ancho de banda	Condición: Utilización de la red Dirección: Fuera Umbral: los umbrales se determinarán en función del tipo de endpoint y de la capacidad de la red Cada servidor debe tener su propio umbral basado en su caso de uso Los umbrales de supervisión de red de las estaciones de trabajo deben ser lo suficientemente altos como para activarse solo cuando la red de un cliente esté en peligro. Acción: Crear un ticket e investigar
Asegurarse de que los dispositivos de red están activos	Condición: Dispositivo desconectado Duración: 3 minutos
Supervisar qué puertos están abiertos	Condición: Monitor de la nube Puertos: 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)
Supervisar cliente disponibilidad del sitio web	Supervisión: Ping Objetivo: Sitio web del cliente Condición: Fallido (5 veces) Acción: Crear un ticket e investigar

Supervisión de la seguridad

Identificar si se ha desactivado el Firewall de Windows	Condición: Evento de Windows Fuente del evento: Sistema ID de evento: 5025 Acción: Activar el Firewall de Windows
Identificar si las herramientas antivirus y de seguridad están instaladas y/o en ejecución en un endpoint	Condición: Software Presencia: No existe Software (ejemplos): Huntress, Cylance, Threatlocker, Sophos Acción: Automatizar la instalación del software de seguridad que falta Y Condición: Proceso/Servicio Estado: Caído Proceso (ejemplos): threatlockerservice.exe, EPUpdateService.exe Acción: Reiniciar el proceso
Supervisión de amenazas AV / EDR no integradas detectadas	Condición: Evento de Windows Ejemplo (Sophos) Fuente del evento: Antivirus Sophos ID de evento: 6, 16, 32, 42
Supervisar los intentos fallidos de inicio de sesión	Condición: Error de Windows Fuente del evento: Microsoft-Windows-Security-Auditing ID de evento: 4625, 4740, 644 (cuentas locales); 4777 (iniciar sesión en el dominio) Acción: Crear un ticket e investigar
Supervisar la creación, elevación o eliminación de usuarios en un endpoint	Condición: Error de Windows Fuente del evento: Microsoft-Windows-Security-Auditing ID de evento: 4720, 4732, 4729 Acción: Crear un ticket e investigar
Identificar si las unidades de un endpoint están cifradas/no cifradas	Condición: Resultado de script Script (Personalizado): Comprobar estado de encriptación de disco Acción: Crear un ticket e investigar
Supervisar fallos de copia de seguridad (NinjaOne Backup)	Actividad: NinjaOne Backup Nombre: Error al crear copia de seguridad
Supervisar fallos de copia de seguridad (otros proveedores de copias de seguridad)	Condición: Evento de Windows Ejemplo de fuente / ID (Veeam): Fuente del evento: Agente Veeam ID de evento: 190 El texto contiene: Fallido Ejemplo de fuente / ID (Acronis): Fuente del evento: Sistema de copia de seguridad en línea ID de evento: 1 El texto contiene: Fallido

4 claves para mejorar tu supervisión

Crear una plantilla básica de supervisión del estado del dispositivo.
Hablar con los clientes sobre sus prioridades.
- ¿Qué servidores y estaciones de trabajo son importantes?
- ¿Cuáles son sus aplicaciones críticas de línea de negocio o productividad
  ?
- ¿Cuáles son sus puntos débiles en TI?
Supervisar tu PSA / sistema de tickets para problemas recurrentes.
- Ajuste la alerta para evitar el tráfico de los tickets.
Supervisar los registros de eventos de los clientes para detectar problemas recurrentes.

Mejores prácticas de gestión de incidencias y alertas

Alertar solo sobre información procesable: si no tienes una respuesta específica asociada a un monitor, no lo supervises.
Categoriza tus alertas para que se dirijan a diferentes tablones de servicios de tu PSA.
Organizar reuniones periódicas de mantenimiento de alerta para tratarlas.
- ¿Qué alertas causan más tráfico? ¿Se puede eliminar o reducir su alcance?
- ¿Qué es lo que no se supervisa o crea notificaciones que sí debería supervisarse?
- ¿Qué alertas comunes pueden corregirse automáticamente?
- ¿Hay algún proyecto próximo que pueda generar alertas?
Limpia tus tickets y avisa cuando estén resueltos.
- En NinjaOne, muchas condiciones tienen una opción "Restablecer cuando ya no es cierto", o "Restablecer cuando no es cierto durante un período x" para ayudarte a resolver y limpiar las notificaciones que pueden resolverse por sí mismas.