Como MSP, la supervisión y alertas son fundamentales para los servicios que presta. Unos buenos consejos de control RMM le permitirían identificar proactivamente los problemas, resolverlos más rápidamente y ser más eficaz. Una mejor monitorización también puede desempeñar un papel clave a la hora de generar ingresos adicionales y mantener a sus clientes más satisfechos.
El reto consiste en saber qué hay que supervisar, qué requiere una alerta, qué problemas pueden resolverse automáticamente y cuáles necesitan un toque personal. Este conocimiento puede tardar años en desarrollarse, e incluso entonces los mejores equipos pueden seguir luchando para reducir la fatiga de las alertas y el ruido de los tickets en los dispositivos de los clientes.
Para ayudar a los que acaban de empezar a condensar ese tiempo de arranque y a limitar su enfoque, hemos elaborado esta lista de ideas para la "Supervisión RMM Recomendaciones", sobre más de 25 condiciones que hay que supervisar. Estas recomendaciones se basan en las sugerencias de nuestros socios y en la experiencia de NinjaOne ayudando a las MSP a crear una monitorización eficaz y procesable.
Cómo Utilizar las Listas de Control
Para cada condición describimos lo que se monitorea, cómo configurar el monitor en NinjaOne y qué acciones deben tomarse si la condición se activa. Para la Supervisión RMM Recomendaciones, algunas pueden ser más concretas mientras que otras pueden requerir una pequeña cantidad de personalización para adaptarlas a su caso de uso.
Nota: Aunque hemos escrito esta lista con NinjaOne y nuestros clientes en mente, esta Supervisión RMM Recomendaciones, deben ser fácilmente adaptables a cualquier RMM.
Esta lista obviamente no es exhaustiva y puede no aplicarse a todas las situaciones o circunstancias.
Una vez que haya comenzado a construir su monitoreo en torno a nuestra Supervisión RMM Recomendaciones, tendrá que desarrollar una estrategia de monitoreo más personalizada y robusta específica para sus clientes y sus necesidades. Finalizaremos este artículo con consejos adicionales para ayudar en este esfuerzo y hacer que la supervisión, las alertas y los tickets sean una ventaja competitiva para su MSP.
Lista de Control de la Salud del Dispositivo
Monitor de eventos críticos continuos
- Condición: Eventos críticos
- Umbral: 80 eventos críticos en 5 minutos
- Acción: Emisión de un ticket e investigación
Identificar cuando un dispositivo se reinicia involuntariamente
- Condición: Evento de Windows
- Fuente del Evento: Microsoft-Windows-Kernel-Power
- ID del Evento: 41
- Nota: Esta condición es más adecuada para los servidores, ya que las estaciones de trabajo y los portátiles pueden crear este error a partir de la intervención de usuario.
- Acción: Emisión de ticket e investigación
Identificar los dispositivos que necesitan un reinicio
- Condición: Tiempo de actividad del sistema
- Recomendación del Umbral: 30 o 60 días
- Acción: Reinicie el dispositivo durante una venta apropiada. La reparación automatizada puede funcionar para las estaciones de trabajo.
Supervisión de terminales fuera de línea
- Condición: Dispositivo fuera de servicio
- Recomendación del Umbral:
- 10 minutos or menos (servidores).
- Más de 24 hours (estaciones de trabajo)
- Acción:
- Emisión de ticket e investigación
- Wake-on-LAN (Activación del LAN): sólo servidores
Supervisión RMM Recomendaciones para cambios de hardware
- Actividad: Sistema
- Nombre: Adaptador añadido / cambiado, CPU añadida / eliminada, Unidad de Disco añadida / eliminada, Memoria añadida / eliminada
- Acción: Emisión de ticket e investigación
Lista de Comprobación para la Supervisión de la Unidad
Supervisión de posibles fallos de disco
- Condición: Estado de Windows SMART degradado y/o
- Condición: Evento de Windows
- Fuente del Evento: Disco
- IDs del Evento: 7, 11, 29, 41, 51, 153
- Acción: Emisión de ticket e investigación
Identificar cuando el espacio del disco se acerca al límite de su capacidad
- Condición: Espacio libre en disco
- Umbral: El 20% y de nuevo al 10%
- Acción: Realice una limpieza del disco y elimine los archivos temporales
Supervisar los posibles fallos del RAID
- Condición: Estado de salud del RAID
- Umbrales: Crítico y no crítico para todos los atributos
- Acción: Emisión de ticket e investigación
Supervisar el uso prolongado de los disco
- Condición: Uso del disco
- Umbrales: 90% o más para reducir el ruido, con 95% o más siendo común en periodos de 30 o 60 minutos
- Acción: Emisión de ticket e investigación
Supervisar la alta tasa de actividad del disco
- Condición: Tiempo de actividad del disco
- Umbrales: Más del 90% durante 15 minutos
- Acción: Emisión de ticket e investigación
Supervisar alto uso de la memoria
- Condición: Tiempo de actividad del disco
- Umbrales: Más del 90% durante 15 minutos
- Acción: Emisión de ticket e investigación
Lista de Control de la Aplicación
Identificar si las aplicaciones requeridas existen en una terminal
- Condición: Software
- Uso:
- Aplicaciones de línea de negocio del cliente (Ejemplos: AutoCAD, SAP, Photoshop)
- Soluciones de productividad para clientes (Ejemplos: Zoom, Microsoft Teams, DropBox, Slack, Office, Acrobat)
- Herramientas de asistencia al cliente (Ejemplos: TeamViewer, CCleaner, AutoElevate, BleachBit)
- Acción: Instalar automáticamente la aplicación si falta y es necesaria
Supervisar si las aplicaciones críticas se están ejecutando (especialmente para los servidores)
- Condición: Proceso / Servicio
- Umbral: Caída al menos 3 minutos
- Ejemplos de procesos:
- Para estaciones de trabajo: TeamViewer, RDP, DLP
- Para un servidor Exchange: MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3, etc
- Para un servidor de Directorio Activo: Netlogon, dnscache, rpcss, etc
- Para un servidor SQL: mssqlserver, sqlbrowser, sqlwriter, etc
- Acción: Reinicie el servicio o proceso
Supervisar el uso de recursos de las aplicaciones que se sabe que causan problemas de rendimiento
- Condición: Recurso de proceso
- Umbral: Más del 90% durante al menos 5 minutos
- Ejemplos de procesos: Outlook, Chrome, and TeamViewer
- Acción:
- Emisión de ticket e investigación
- Desactivar al inicio
Supervisar si la aplicación se bloquea
- Condición: Evento de Windows
- Fuente: Caída de la aplicación
- ID del Evento: 1002
- Acción: Emisión de ticket e investigación
Lista de control de la red
Supervisar el uso inesperado del ancho de banda
- Condición: Uso de la red
- Dirección: Fuera
- Umbral: Los umbrales serán determinados por el tipo de terminal y la capacidad de la red
- Cada servidor debería tener su propio umbral basado en su caso de uso
- Los umbrales de monitorización de la red de las estaciones de trabajo deben ser lo suficientemente altos como para que se activen sólo cuando la red de un cliente esté en riesgo
- Acción: Emisión de ticket e investigación
Asegúrese de que los dispositivos de red están en funcionamiento
- Condición: Dispositivo caída
- Duración: 3 Minutos
Supervisión qué puertos están abiertos
- Condición: Monitor de la nube
- Puertos: 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)
Supervisar la disponibilidad del sitio web del cliente
- Monitorizar: Ping
- Objetivo: Sitio web del cliente
- Condición: Fallo (5 veces)
- Acción: Emisión de ticket e investigación
Lista de Supervisión RMM Recomendaciones de seguridad básica:
Identificar si el Firewall de Windows ha sido desactivado
- Condición: Evento de Windows
- Fuente del Evento: Sistema
- ID del Evento: 5025
- Acción: Activar el Firewall de Windows
Identificar si el antivirus y las herramientas de seguridad están instalados y/o ejecutándose en una terminal
- Condición: Software
- Presencia: No existe
- Software (ejemplos): Huntress, Cylance, Threatlocker, Sophos
- Acción: Automatizar la instalación del software de seguridad que falta y
- Condición: Proceso / Servicio
- Estado: Abajo
- Proceso (ejemplos): threatlockerservice.exe, EPUpdateService.exe
- Acción: Reiniciar el proceso
Supervisión RMM Recomendaciones de amenazas AV / EDR no integradas detectadas
- Condición: Evento de Windows
- Ejemplo (Sophos)
- Fuente del Evento: Sophos Anti-Virus
- IDs del Evento: 6, 16, 32, 42
Supervisión de los intentos fallidos de inicio de sesión de los usuarios
- Condición: Error de Windows
- Fuente del Evento: Microsoft-Windows-Security-Auditing
- IDs del Evento: 4625, 4740, 644 (cuentas locales); 4777 (acceso al dominio)
- Acción: Emisión de ticket e investigación
Supervisión de la creación, elevación o eliminación de usuarios en una terminal
- Condición: Error de Windows
- Fuente del Evento: Microsoft-Windows-Security-Auditing
- ID del Evento: 4720, 4732, 4729
- Acción: Emisión de ticket e investigación
Identificar si las unidades de una terminal están encriptadas o no
- Condición: Resultado del Script
- Script (Personalizado): Comprobar el estado de cifrado
- Acción: Emisión de ticket e investigación
Supervisar los fallos en las copias de seguridad (Ninja Data Protection)
- Actividad: Ninja Data Protection
- Nombre: El trabajo de copia de seguridad ha fallado
Supervisar los fallos de las copias de seguridad (otros proveedores de copias de seguridad)
- Condición: Evento de Windows
- Ejemplo de Fuente / IDs (Veeam):
- Fuente del Evento: Agente Veeam
- IDs del Evento: 190
- El Texto Contiene: Falló
- Ejemplo de fuente / IDs (Acronis):
- Fuente del Evento: Sistema de copia de seguridad en línea
- ID del Evento: 1
- El Texto Contiene: Falló
Supervisión RMM Recomendaciones: 4 Claves para Optimizar
- Cree una plantilla de referencia para el control del estado de los dispositivos.
- Hable con los clientes sobre sus prioridades.
- ¿Qué servidores y estaciones de trabajo son importantes?
- ¿Cuáles son sus aplicaciones críticas de línea de negocio o de productividad?
- ¿Cuáles son sus puntos débiles en materia de TI?
- Supervise su sistema de PSA / Tickets para detectar problemas recurrentes.
- Ajuste las alertas para evitar el ruido de los tickets.
- Supervise los registros de eventos de los clientes en busca de problemas recurrentes.
Mejores Prácticas de Emisión de Tickets y Alertas
- Alerte sólo sobre información procesable. Si no tiene una respuesta específica asociada a un monitor, no lo monitorice.
- Clasifique sus alertas para que vayan a diferentes tableros de servicio en su PSA según el tipo o la prioridad.
- Organice reuniones periódicas de mantenimiento de alertas para discutirlas:
-
- ¿Qué alertas causan más ruido? ¿Pueden eliminarse o reducirse su alcance?
- ¿Qué no se está supervisando o creando notificaciones, que debería?
- ¿Qué alertas comunes pueden remediarse automáticamente?
- ¿Hay algún proyecto próximo que pueda generar alertas?
- Despeje sus tickets y alertas cuando estén resueltos.
-
- En NinjaOne, muchas condiciones tienen “Reiniciar cuando deja de ser cierto”, o “Reiniciar cuando no sea cierto durante un periodo X” para ayudarle a resolver y limpiar las notificaciones que pueden resolverse por sí mismas.
¿Buscando más ideas de monitorización?
Vea la excelente serie de Kelvin Tegelaar sobre monitoreo remoto usando PowerShell. Cubre cómo supervisar, todo desde el tráfico de red hasta el estado del Directorio Activo, los inicios de sesión fallidos de Office 365, los resultados de Shodan y mucho más. Lo mejor de todo es que comparte scripts de PowerShell que están diseñados para ser agnósticos de RMM. También puede leer nuestro blog post sobre las diferencias entre PowerShell y CMD Prompt y cuándo usar cada uno.
En nuestro informe semanal MSP Bento incluimos regularmente sus publicaciones en el blog, junto con muchas otras herramientas y recursos, además de la Supervisión RMM Recomendaciones. Suscríbase ahora para obtener la última edición junto con una lista especial de las herramientas y recursos más populares que hemos compartido.