Checklist de supervisión MSP: 28 recomendaciones

Resumen instantáneo

Este post ofrece una lista completa de comandos CMD básicos y una inmersión profunda en los comandos de Windows, con más de 70 comandos cmd esenciales tanto para principiantes como para usuarios avanzados. Explica comandos prácticos del símbolo del sistema para la gestión de archivos, la navegación por directorios, la solución de problemas de red, las operaciones de disco y la automatización con ejemplos reales para mejorar la productividad. Tanto si estás aprendiendo los comandos básicos de cmd como si ya dominas las herramientas avanzadas de la CLI de Windows, esta guía te ayudará a utilizar el Símbolo del sistema de forma más eficaz.

Como MSP, la supervisión y las alertas son fundamentales para los servicios que prestas. Unos buenos consejos de control RMM te permitirían identificar proactivamente los problemas, resolverlos más rápidamente y ser más eficaz. Una mejor monitorización también puede desempeñar un papel clave a la hora de generar ingresos adicionales y mantener a tus clientes más satisfechos.

El reto consiste en saber qué hay que supervisar, qué requiere una alerta, qué problemas pueden resolverse automáticamente y cuáles necesitan un toque personal. Este conocimiento puede tardar años en desarrollarse, e incluso entonces los mejores equipos pueden seguir luchando para reducir la fatiga de las alertas y el ruido de los tickets en los dispositivos de los clientes.

Para ayudar a los que acaban de empezar a condensar ese tiempo de arranque y a limitar su enfoque, hemos elaborado esta lista de ideas para la supervisión MSP, sobre más de 25 condiciones que exigen monitorización. Estas recomendaciones se basan en las sugerencias de nuestros socios y en la experiencia de NinjaOne ayudando a los MSP a crear una monitorización eficaz y procesable.

Cómo utilizar las checklists presentadas a continuación

Para cada condición describimos lo que se monitorea, cómo configurar el monitor en NinjaOne y qué acciones deben tomarse si la condición se activa. Algunas de estas recomendaciones pueden ser más concretas, mientras que otras pueden requerir una pequeña cantidad de personalización para adaptarlas a tu caso de uso.

Nota: aunque hemos elaborado esta checklist con NinjaOne y nuestros clientes en mente, estas recomendaciones deben ser fácilmente adaptables a cualquier RMM.

Esta lista no es exhaustiva y puede no aplicarse a todas las situaciones o circunstancias.

Una vez que hayas comenzado a construir tu monitoreo en torno a nuestras recomendaciones, tendrás que desarrollar una estrategia de monitoreo más personalizada y robusta específica para tus clientes y sus necesidades. Finalizaremos este artículo con consejos adicionales para ayudar en este esfuerzo y hacer que la supervisión, las alertas y los tickets sean una ventaja competitiva para tu MSP.

Checklist de la salud del dispositivo

Monitor de eventos críticos continuos

Condición: Eventos críticos
Umbral: 80 eventos críticos en 5 minutos
Acción: Emisión de un ticket e investigación

Identificar cuando un dispositivo se reinicia involuntariamente

Condición: Evento de Windows
Fuente del Evento: Microsoft-Windows-Kernel-Power
ID del Evento: 41
Nota: Esta condición es más adecuada para los servidores, ya que las estaciones de trabajo y los portátiles pueden crear este error a partir de la intervención de usuario.
Acción: Emisión de ticket e investigación

Identificar los dispositivos que necesitan un reinicio

Condición: Tiempo de actividad del sistema
Recomendación del Umbral: 30 o 60 días
Acción: Reinicia el dispositivo durante una venta apropiada. La reparación automatizada puede funcionar para las estaciones de trabajo.

Supervisión de terminales fuera de línea

Condición: Dispositivo fuera de servicio
Recomendación del Umbral:
- 10 minutos or menos (servidores)
- Más de 24 horas (estaciones de trabajo)
Acción:
- Emisión de ticket e investigación
- Wake-on-LAN (Activación del LAN): sólo servidores

Recomendaciones para cambios de hardware

Actividad: Sistema
Nombre: Adaptador añadido / modificado, CPU añadida / eliminada, Unidad de Disco añadida / eliminada, Memoria añadida / eliminada
Acción: Emisión de ticket e investigación

Checklist para la supervisión de la unidad

Supervisión de posibles fallos de disco

Condición: Estado de Windows SMART degradado y/o
Condición: Evento de Windows
Fuente del Evento: Disco
IDs del Evento: 7, 11, 29, 41, 51, 153
Acción: Emisión de ticket e investigación

Identificar cuando el espacio del disco se acerca al límite de su capacidad

Condición: Espacio libre en disco
Umbral: El 20% y de nuevo al 10%
Acción: Realiza una limpieza del disco y elimina los archivos temporales

Supervisar los posibles fallos del RAID

Condición: Estado de salud del RAID
Umbrales: Crítico y no crítico para todos los atributos
Acción: Emisión de ticket e investigación

Supervisar el uso prolongado de los discos

Condición: Uso del disco
Umbrales: 90% o más para reducir el ruido, con 95% o más siendo común en periodos de 30 o 60 minutos
Acción: Emisión de ticket e investigación

Supervisar la alta tasa de actividad del disco

Condición: Tiempo de actividad del disco
Umbrales: Más del 90% durante 15 minutos
Acción: Emisión de ticket e investigación

Supervisar alto uso de la memoria

Condición: Tiempo de actividad del disco
Umbrales: Más del 90% durante 15 minutos
Acción: Emisión de ticket e investigación

Checklist de control de la aplicación

Identificar si las aplicaciones requeridas existen en una terminal

Condición: Software
Uso:
- Aplicaciones de línea de negocio del cliente (Ejemplos: AutoCAD, SAP, Photoshop)
- Soluciones de productividad para clientes (Ejemplos: Zoom, Microsoft Teams, Dropbox, Slack, Office, Acrobat)
- Herramientas de asistencia al cliente (Ejemplos: TeamViewer, CCleaner, AutoElevate, BleachBit)
Acción: Instalar automáticamente la aplicación si falta y es necesaria

Supervisar si las aplicaciones críticas se están ejecutando (especialmente para servidores)

Condición: Proceso / Servicio
Umbral: Caída al menos 3 minutos
Ejemplos de procesos:
- Para estaciones de trabajo: TeamViewer, RDP, DLP
- Para un servidor Exchange: MSExchangeServiceHost, MSExchangeIMAP4, MSExchangePOP3, etc
- Para un servidor de Active Directory: Netlogon, dnscache, rpcss, etc
- Para un servidor SQL: mssqlserver, sqlbrowser, sqlwriter, etc
Acción: Reinicia el servicio o proceso

Supervisar el uso de recursos de las aplicaciones que se sabe que causan problemas de rendimiento

Condición: Recurso de proceso
Umbral: Más del 90% durante al menos 5 minutos
Ejemplos de procesos: Outlook, Chrome, and TeamViewer
Acción:
- Emisión de ticket e investigación
- Desactivar al inicio

Supervisar si la aplicación se bloquea

Condición: Evento de Windows
Fuente: Caída de la aplicación
ID del Evento: 1002
Acción: Emisión de ticket e investigación

Checklist de control de la red

Supervisar el uso inesperado del ancho de banda

Condición: Uso de la red
Dirección: Fuera
Umbral: Los umbrales serán determinados por el tipo de terminal y la capacidad de la red
- Cada servidor debería tener su propio umbral basado en su caso de uso
- Los umbrales de monitorización de la red de las estaciones de trabajo deben ser lo suficientemente altos como para que se activen sólo cuando la red de un cliente esté en riesgo
Acción: Emisión de ticket e investigación

Asegúrate de que los dispositivos de red están en funcionamiento

Condición: Dispositivo caída
Duración: 3 Minutos

Supervisar qué puertos están abiertos

Condición: Monitor de la nube
Puertos: 80 (HTTP), 443 (HTTPS), 25 (SMTP), 21 (FTP)

Supervisar la disponibilidad del sitio web del cliente

Monitorizar: Ping
Objetivo: Sitio web del cliente
Condición: Fallo (5 veces)
Acción: Emisión de ticket e investigación

Checklist de seguridad básica

Identificar si el Firewall de Windows ha sido desactivado

Condición: Evento de Windows
Fuente del Evento: Sistema
ID del Evento: 5025
Acción: Activar el Firewall de Windows

Identificar si el antivirus y las herramientas de seguridad están instalados y/o ejecutándose en una terminal

Condición: Software
Presencia: No existe
Software (ejemplos): Huntress, Cylance, Threatlocker, Sophos
Acción: Automatizar la instalación del software de seguridad que falta
Condición: Proceso / Servicio
Estado: Abajo
Proceso (ejemplos): threatlockerservice.exe, EPUpdateService.exe
Acción: Reiniciar el proceso

Supervisión de amenazas AV / EDR no integradas detectadas

Condición: Evento de Windows
Ejemplo (Sophos)
Fuente del Evento: Sophos Anti-Virus
IDs del Evento: 6, 16, 32, 42

Supervisión de los intentos fallidos de inicio de sesión de los usuarios

Condición: Error de Windows
Fuente del Evento: Microsoft-Windows-Security-Auditing
IDs del Evento: 4625, 4740, 644 (cuentas locales); 4777 (acceso al dominio)
Acción: Emisión de ticket e investigación

Supervisión de la creación, elevación o eliminación de usuarios en una terminal

Condición: Error de Windows
Fuente del Evento: Microsoft-Windows-Security-Auditing
ID del Evento: 4720, 4732, 4729
Acción: Emisión de ticket e investigación

Identificar si las unidades de una terminal están encriptadas o no

Condición: Resultado del Script
Script (Personalizado): Comprobar el estado de cifrado
Acción: Emisión de ticket e investigación

Supervisión de los fallos en las copias de seguridad (NinjaOne Backup)

Actividad: NinjaOne Backup
Nombre: El trabajo de copia de seguridad ha fallado

Supervisión de los fallos de las copias de seguridad (otros proveedores de copias de seguridad)

Condición: Evento de Windows
Ejemplo de Fuente / IDs (Veeam):
- Fuente del Evento: Agente Veeam
- IDs del Evento: 190
- El Texto Contiene: Falló
Ejemplo de fuente / IDs (Acronis):
- Fuente del Evento: Sistema de copia de seguridad en línea
- ID del Evento: 1
- El Texto Contiene: Falló

4 claves para optimizar

Crea una plantilla de referencia para el control del estado de los dispositivos.
Habla con los clientes sobre sus prioridades.
1. ¿Qué servidores y estaciones de trabajo son importantes?
2. ¿Cuáles son sus aplicaciones críticas de línea de negocio o de productividad?
3. ¿Cuáles son sus puntos débiles en materia de TI?
Supervisa tu sistema de PSA / Tickets para detectar problemas recurrentes.
1. Ajusta las alertas para evitar el ruido de los tickets.
Supervisa los registros de eventos de los clientes en busca de problemas recurrentes.

Mejores prácticas de emisión de tickets y alertas

Alerta sólo sobre información procesable. Si no tienes una respuesta específica asociada a un monitor, no lo monitorices.
Clasifica tus alertas para que vayan a diferentes tableros de servicio en tu PSA según el tipo o la prioridad.
Organiza reuniones periódicas de mantenimiento de alertas para discutirlas:

- ¿Qué alertas causan más ruido? ¿Pueden eliminarse o reducirse su alcance?
- ¿Qué no se está supervisando o creando notificaciones, que debería?
- ¿Qué alertas comunes pueden remediarse automáticamente?
- ¿Hay algún proyecto próximo que pueda generar alertas?

Despeja tus tickets y alertas cuando estén resueltos.

- En NinjaOne, muchas condiciones tienen “Reiniciar cuando deja de ser cierto”, o “Reiniciar cuando no sea cierto durante un periodo X” para ayudarte a resolver y limpiar las notificaciones que pueden resolverse por sí mismas.

Más ideas para la supervisión MSP

Descubre la excelente serie de Kelvin Tegelaar sobre monitoreo remoto usando PowerShell. Cubre cómo supervisar, todo desde el tráfico de red hasta el estado de Active Directory, los inicios de sesión fallidos de Office 365, los resultados de Shodan y mucho más. Lo mejor de todo es que comparte scripts de PowerShell que están diseñados para ser agnósticos de RMM. También puedes leer nuestro post sobre las diferencias entre PowerShell y CMD Prompt y cuándo usar cada uno.