¿Ya eres cliente de NinjaOne? Inicia sesión para ver más guías y las últimas actualizaciones.

Endpoint Monitoring and Alerting Playbook

Índice

Esta guía proporciona recomendaciones para la construcción de tu supervisión de endpoints y estrategia de alertas, así como instrucciones paso a paso para la construcción de más de 30 condiciones personalizadas de supervisión de endpoints en NinjaOne.

 

Introducción

¿Qué es una buena supervisión?

La supervisión y las alertas son fundamentales para el uso eficaz de un RMM. Las buenas prácticas de supervisión te permiten identificar los problemas de forma proactiva, resolverlos más rápidamente y ser más eficaz. Una mejor supervisión también puede desempeñar un papel clave a la hora de generar ingresos adicionales y mantener a tus clientes más satisfechos.

El reto es saber qué hay que supervisar, qué requiere una alerta, qué problemas pueden resolverse automáticamente y cuáles necesitan un toque personal. Estos conocimientos pueden tardar años en desarrollarse, e incluso entonces los mejores equipos pueden seguir teniendo problemas para reducir la saturación de las alertas y el tráfico de tickets en los dispositivos de los clientes.

Para ayudar a los que acaban de empezar a reducir el tiempo de puesta en marcha y a centrarse en un objetivo concreto, hemos elaborado esta lista de ideas sobre más de 25 condiciones que deben supervisarse. Estas recomendaciones se basan en las sugerencias de nuestros socios y en la experiencia de NinjaOne ayudando a los MSP a crear una supervisión eficaz y procesable.

Para cada condición se describe lo que está siendo supervisado, cómo configurar el monitor en NinjaOne y qué acciones deben tomarse si la condición se activa. Algunas sugerencias de supervisión son concretas, mientras que otras pueden requerir una pequeña personalización para adaptarlas a tu caso de uso.

Obviamente, estas ideas de supervisión no son exhaustivas y pueden no aplicarse a todas las situaciones o circunstancias. Una vez que hayas empezado a construir tu supervisión en torno a estas sugerencias, tendrás que desarrollar una estrategia de supervisión más personalizada y sólida, específica para tus clientes y sus necesidades. Concluimos esta guía con recomendaciones adicionales para ayudar en ese esfuerzo y hacer de la supervisión, las alertas y los tickets una ventaja competitiva para tu MSP.

 

Supervisión del estado del dispositivo

Supervisar eventos críticos continuos

  • Condición: Eventos críticos
  • Umbral: 80 eventos críticos en 5 minutos
  • Acción: Crear un ticket e investigar

Identificar cuando un dispositivo se reinicia involuntariamente

  • Condición: Evento de Windows
  • Fuente del evento: Microsoft-Windows-Kernel-Power
  • ID de evento: 41
  • Nota: Esta condición es más adecuada para los servidores, ya que las estaciones de trabajo y los ordenadores portátiles pueden crear este error a partir de la intervención del usuario.
  • Acción: Crear un ticket e investigar

Identificar los dispositivos que necesitan un reinicio

  • Condición: Tiempo de actividad del sistema
  • Recomendaciones sobre umbrales: 30 o 60 días
  • Acción: Reiniciar el dispositivo durante una ventana apropiada. La reparación automatizada puede funcionar para las estaciones de trabajo.

Supervisar endpoints desconectados

  • Condición: Dispositivo desconectado
  • Recomendaciones sobre umbrales:
    • 10 minutos o menos (servidores)
    • 5 días o más (estaciones de trabajo)
  • Acción:
    • Crear un ticket e investigar
    • Wake-on-lan (solo servidores)

Supervisar cambios en el hardware

  • Actividad: Sistema
  • Nombre: Adaptador añadido / modificado, CPU añadida / eliminada, Unidad de disco añadida / eliminada, Memoria añadida / eliminada
  • Acción: Crear un ticket e investigar

Supervisar el uso prolongado de la CPU

  • Condición: CPU• Umbrales: 90% o más para reducir el tráfico , siendo más de un 95% también habitual en periodos de 15 minutos.
  • Acción: Crear un ticket e investigar

 

Supervisión de la unidad

Supervisar posibles fallos de disco
  • Condición: Estado de Windows SMART degradado Y/O
  • Condición: Evento de Windows
  • Fuente del evento: Disco
  • ID de evento: 7, 11, 29, 41, 51, 153
  • Acción: Crear un ticket e investigar
Identificar cuando el espacio en disco se acerca a su capacidad
  • Condición: Espacio libre en el disco
  • Umbral: 20% y de nuevo al 10%
  • Acción: Realizar limpieza de disco y eliminar archivos temporales
Supervisar posibles fallos del RAID
  • Condición: Estado de RAID
  • Umbrales: Crítico y no crítico para todos los atributos
  • Acción: Crear un ticket e investigar
Supervisar el uso prolongado del disco
  • Condición: Uso del disco
  • Umbrales: 90% o más para reducir el tráfico, siendo más de un 95% también habitual en periodos de 30 o 60 minutos.
  • Acción: Crear un ticket e investigar
Supervisión de alta actividad de disco
  • Condición: Tiempo activo del disco
  • Umbrales: Superior al 90% durante 15 minutos
  • Acción: Crear un ticket e investigar
Supervisar el uso de memoria
  • Condición: Tiempo activo del disco
  • Umbrales: Superior al 90% durante 15 minutos
  • Acción: Crear un ticket e investigar

 

Supervisión de aplicaciones

Identificar si las aplicaciones requeridas existen en un endpoint
  • Condición: Software
  • Uso:
    • Aplicaciones cliente de línea de negocio (Ejemplos: AutoCAD, SAP, Photoshop)
    • Soluciones de productividad para clientes (Ejemplos: Zoom, Microsoft Teams, DropBox, Slack, Office, Acrobat)
    • Herramientas de apoyo al cliente (Ejemplos: TeamViewer, CCleaner, AutoElevate,
    • BleachBit)
  • Acción: Instalar automáticamente la aplicación si falta y es necesaria
Supervisar si las aplicaciones críticas se están ejecutando (especialmente para servidores)
  • Condición: Proceso/Servicio
  • Umbral: Caído durante al menos 3 minutos
  • Ejemplo de procesos:
    • Para estaciones de trabajo: TeamViewer, RDP, DLP
    • Para un servidor Exchange: MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3, etc.
    • Para un servidor Active Directory: Netlogon, dnscache, rpcss, etc.
    • Para un servidor SQL: mssqlserver, sqlbrowser, sqlwriter, etc.
  • Acción: Reiniciar el servicio o proceso
Supervisar el uso de recursos para aplicaciones conocidas por causar
problemas de rendimiento
  • Condición: Recurso de proceso
  • Umbral: Más del 90% durante al menos 5 minutos
  • Ejemplo de procesos: Outlook, Chrome, y TeamViewer
  • Acción:
    • Crear un ticket e investigar
    • Desactivar al inicio
Supervisión de caídas de la aplicación
  • Condición: Evento de Windows
  • Origen: Aplicación Hang
  • ID de evento: 1002
  • Acción: Crear un ticket e investigar

 

Supervisión de la red

Supervisar el uso inesperado del ancho de banda
  • Condición: Utilización de la red
  • Dirección: Fuera
  • Umbral: los umbrales se determinarán en función del tipo de endpoint y de la capacidad de la red
    • Cada servidor debe tener su propio umbral basado en su caso de uso
    • Los umbrales de supervisión de red de las estaciones de trabajo deben ser lo suficientemente altos como para activarse solo cuando la red de un cliente esté en peligro.
  • Acción: Crear un ticket e investigar
Asegurarse de que los dispositivos de red están activos
  • Condición: Dispositivo desconectado
  • Duración: 3 minutos
Supervisar qué puertos están abiertos
  • Condición: Monitor de la nube
  • Puertos: 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)
Supervisar cliente
disponibilidad del sitio web
  • Supervisión: Ping
  • Objetivo: Sitio web del cliente
  • Condición: Fallido (5 veces)
  • Acción: Crear un ticket e investigar

 

Supervisión de la seguridad

Identificar si se ha desactivado el Firewall de Windows
  • Condición: Evento de Windows
  • Fuente del evento: Sistema
  • ID de evento: 5025
  • Acción: Activar el Firewall de Windows
Identificar si las herramientas antivirus y de seguridad están instaladas y/o en ejecución en un endpoint
  • Condición: Software
  • Presencia: No existe
  • Software (ejemplos): Huntress, Cylance, Threatlocker, Sophos
  • Acción: Automatizar la instalación del software de seguridad que falta

    Y

  • Condición: Proceso/Servicio
  • Estado: Caído
  • Proceso (ejemplos): threatlockerservice.exe, EPUpdateService.exe
  • Acción: Reiniciar el proceso
Supervisión de amenazas AV / EDR no integradas detectadas
  • Condición: Evento de Windows
  • Ejemplo (Sophos)
    • Fuente del evento: Antivirus Sophos
    • ID de evento: 6, 16, 32, 42
Supervisar los intentos fallidos de inicio de sesión
  • Condición: Error de Windows
  • Fuente del evento: Microsoft-Windows-Security-Auditing
  • ID de evento: 4625, 4740, 644 (cuentas locales); 4777 (iniciar sesión en el dominio)
  • Acción: Crear un ticket e investigar
Supervisar la creación, elevación o eliminación de usuarios
en un endpoint
  • Condición: Error de Windows
  • Fuente del evento: Microsoft-Windows-Security-Auditing
  • ID de evento: 4720, 4732, 4729
  • Acción: Crear un ticket e investigar
Identificar si las unidades de un endpoint están
cifradas/no cifradas
  • Condición: Resultado de script
  • Script (Personalizado): Comprobar estado de encriptación de disco
  • Acción: Crear un ticket e investigar
Supervisar fallos de copia de seguridad (NinjaOne Backup)
  • Actividad: NinjaOne Backup
  • Nombre: Error al crear copia de seguridad
Supervisar fallos de copia de seguridad (otros proveedores de copias de seguridad)
  • Condición: Evento de Windows
  • Ejemplo de fuente / ID (Veeam):
    • Fuente del evento: Agente Veeam
    • ID de evento: 190
  • El texto contiene: Fallido
  • Ejemplo de fuente / ID (Acronis):
    • Fuente del evento: Sistema de copia de seguridad en línea
    • ID de evento: 1
    • El texto contiene: Fallido

 

4 claves para mejorar tu supervisión

  1. Crear una plantilla básica de supervisión del estado del dispositivo.
  2. Hablar con los clientes sobre sus prioridades.
    • ¿Qué servidores y estaciones de trabajo son importantes?
    • ¿Cuáles son sus aplicaciones críticas de línea de negocio o productividad
      ?
    • ¿Cuáles son sus puntos débiles en TI?
  3. Supervisar tu PSA / sistema de tickets para problemas recurrentes.
    • Ajuste la alerta para evitar el tráfico de los tickets.
  4. Supervisar los registros de eventos de los clientes para detectar problemas recurrentes.

 

Mejores prácticas de gestión de incidencias y alertas

  1. Alertar solo sobre información procesable: si no tienes una respuesta específica asociada a un monitor, no lo supervises.
  2. Categoriza tus alertas para que se dirijan a diferentes tablones de servicios de tu PSA.
  3. Organizar reuniones periódicas de mantenimiento de alerta para tratarlas.
    • ¿Qué alertas causan más tráfico? ¿Se puede eliminar o reducir su alcance?
    • ¿Qué es lo que no se supervisa o crea notificaciones que sí debería supervisarse?
    • ¿Qué alertas comunes pueden corregirse automáticamente?
    • ¿Hay algún proyecto próximo que pueda generar alertas?
  4. Limpia tus tickets y avisa cuando estén resueltos. 
    • En NinjaOne, muchas condiciones tienen una opción "Restablecer cuando ya no es cierto", o "Restablecer cuando no es cierto durante un período x" para ayudarte a resolver y limpiar las notificaciones que pueden resolverse por sí mismas.

 

 

 

FAQ

Próximos pasos