Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Introducción al AIOps predictivo
- Panorama general del análisis predictivo en las operaciones de TI
- Fuentes de datos para la predicción (registros, métricas, eventos)
- Conceptos clave en la previsión de series temporales y patrones de anomalías
Diseño de modelos de predicción de incidentes
- Etiquetado de incidentes históricos y comportamiento del sistema
- Selección y entrenamiento de modelos (por ejemplo, LSTM, Bosque Aleatorio, AutoML)
- Evaluación del rendimiento del modelo y manejo de falsos positivos
Recopilación de datos e ingeniería de características
- Ingestión y alineación de registros y datos métricos para la entrada del modelo
- Extracción de características a partir de datos estructurados y no estructurados
- Manejo de ruido y datos faltantes en las tuberías operativas
Automatización del análisis de causa raíz (RCA)
- Correlación basada en grafos de servicios e infraestructura
- Uso de aprendizaje automático para inferir causas raíz probables a partir de cadenas de eventos
- Visualización del RCA mediante paneles conscientes de la topología
Remediación y automatización de flujos de trabajo
- Integración con plataformas de automatización (por ejemplo, Ansible, Rundeck)
- Activación de reversiones, reinicios o redirección de tráfico
- Auditoría y documentación de las intervenciones automatizadas
Escalado de tuberías inteligentes de AIOps
- MLOps para observabilidad: reentrenamiento y versionado de modelos
- Ejecución de predicciones en tiempo real a través de nodos distribuidos
- Mejores prácticas para la implementación de AIOps en entornos de producción
Estudios de caso y aplicaciones prácticas
- Análisis de datos reales de incidentes utilizando modelos de AIOps predictivo
- Implementación de tuberías RCA con datos sintéticos y de producción
- Revisión de casos de uso de la industria: interrupciones en la nube, inestabilidad de microservicios y degradación de la red
Resumen y próximos pasos
Requerimientos
- Experiencia con sistemas de monitorización como Prometheus o ELK
- Conocimiento práctico de Python y conceptos básicos de aprendizaje automático
- Familiaridad con flujos de trabajo de gestión de incidentes
Público objetivo
- Ingenieros senior de confiabilidad del sitio (SRE)
- Arquitectos de automatización de TI
- Responsables de plataformas DevOps y observabilidad
14 Horas