AIOPs: Cambiando el paradigma de operaciones de TI
En la economía actual, las organizaciones y tecnologías digitales están aumentando el volumen, la velocidad y la variedad de datos. Su operación crítica y modelo de negocio reposa directamente en la infraestructura de IT y el software, el tiempo de inactividad es costoso y la lentitud es sinónimo de pérdida. Una gestión proactiva y la mejora de la experiencia de las aplicaciones modernas, la nube o las infraestructuras y redes tradicionales son una necesidad imperante, pero esto no es fácil. Correlacionar y analizar datos o alertas de forma manual se está volviendo cada vez más difícil para nuevas generaciones de equipos de operaciones de TI con las herramientas en silos existentes distribuidas desde el móvil, la nube y la infraestructura “on premises”.
Para quienes hemos forjado carácter en las ardientes marmitas de las áreas de operaciones de IT en la banca y telcos de primera línea durante épocas de proyectos críticos, picos de procesamiento en temporadas altas y pasos a producción emergentes, entendemos que nuestra razón de ser radica en 3 tareas elementales: El monitoreo integral de las plataformas críticas, la implementación de proyectos de IT (sean normativos, o de vanguardia) y la resolución de incidentes o indisponibilidad de servicios tecnológicos (con afectación a las capacidades del negocio). La dura vida que escogimos (con gusto y satisfacción) durante esos años como ingenieros de soporte, conlleva trabajar en turnos/horas indeseables, soporte de especialistas y fabricantes con acentos arraigados y muchas veces incomprensión por parte de las áreas comerciales y otros “silos” de la organización del porqué no “se soluciona rápido” el problema.
La buena (o mala) noticia, es que este escenario de uso del talento de IT en operaciones está a punto de cambiar radicalmente en los próximos años. Al igual que muchas otras tendencias “en boga” durante estos últimos años (Léase Blockchain, Machine Learning y la IA), un nuevo paradigma de operación se está arraigando en los modelos de negocio y estrategias que tienen una dependencia critica en IT: El AIOps.
Una forma fácil de entender el AIOps es la aplicación práctica de 2 de las 3 tareas de operaciones mencionadas anteriormente: El monitoreo integral de las plataformas de IT críticas, y la resolución de incidentes a nivel tecnológico en dichas plataformas. Solo imaginen romper el paradigma actual y alejarse de la administración de operaciones (alejarse sin tener que delegar a algún país cerca del océano índico) proporcionando información inteligente que impulsa la automatización y la colaboración para la mejora continua. Gracias a que AIOps aprovecha el big data, el análisis de datos y el aprendizaje automático para proveer información y lograr un mayor nivel de automatización, los equipos de Operaciones de TI (o "IT Ops") ya no necesitarán depender ampliamente de operadores humanos para las tareas de administración que el software y la infraestructura modernas requieren. Las soluciones de AIOps recolectan datos de diferentes fuentes y luego las almacena para otorgar acceso a esos datos mediante análisis avanzado en el punto de ingesta y en el punto siguiente al acceso a los datos almacenados.
Sin lugar a dudas, en transformación digital, AIOPs es la cereza del pastel en una estrategia tecnológica exitosa. Este paradigma permite a los equipos de TI analizar automáticamente grandes volúmenes de datos digitales, lo que facilita la resolución de problemas críticos. Se trata de inteligencia operativa en todos los servicios de redes, usuarios, aplicaciones, API e infraestructuras. La información correlacionada entre diferentes niveles, aprendizaje automático y análisis predictivo y visibilidad/toma de desciciones con IA resulta esencial para que una empresa tenga la agilidad de resolución necesario ante eventos de seguridad e indisponibilidad. Esto significa estandarizar, correlacionar y analizar volúmenes masivos de datos sobre operaciones de TI en toda su cadena de entrega digital, con el objetivo de agilizar la entrega de servicios, aumentar la eficiencia de TI y ofrecer una experiencia de usuario superior.
Debo aclarar que todo esto no significa descuidar la operación, ¡sino todo lo contrario! Le da al negocio la capacidad de usar de algoritmos avanzados y técnicas de inteligencia artificial para analizar volúmenes de datos gigantescos de varias herramientas de operaciones críticas de TI cuyo objetivo es agilizar la entrega de servicios, aumentar la eficiencia y brindar una mejor disponibilidad de servicios a nuestros clientes.
¿Cuáles son las principales ventajas de reemplazar a un ejército de ingenieros de soporte con un equipo de AIOps especializado? Se puede resumir en 4 puntos:
Análisis de causa raíz y resolución efectiva con automatización inteligente
Hace muchos años, durante una primera prueba de un Mínimo Producto Viable de DR Site para uno de los “Big 4” de LATAM, no existía razón aparente para que un servicio transaccional expuesto de una capa a otra dejara de funcionar. Tardamos más de 4 horas en descubrir que la causa radicaba en no tener un servidor que orquestara la hora en la plataforma (NTP) y una mínima diferencia de minutos en la hora de uno de los servidores (ajustada manualmente por un operador) desencadenaría un problema que AIOps pudo haber diagnosticado y resuelto en segundos. Las soluciones AIOps pueden ayudar a los equipos de TI a comprender en segundos la causalidad de un problema que afecta a un determinado conjunto de servicios y contextualizar la información relevante para que pueda ejecutar la corrección sin intervención humana y adecuada activando procesos dentro de herramientas y colaboración para impulsar la resolución de problemas más rápida y en forma automatizada.
Predicción de problemas con alarmas inteligentes
De hecho, ya existen herramientas de seguridad y monitoreo (Broadcom/CA, Dynatrace y Cisco entre las mejores) que evalúan alertas basadas en valores de escenarios anormales (detección de anomalías). Detrás de cada escenario, algoritmos en las herramientas aprenden de datos e identifican eventos que no se ajustan a un patrón esperado. La diferencia con el AIOPs es que este patrón es comparado con eventos más allá de la operación, como un paso a producción no programado o un parche de software aplicado en ventana previa la afectación por ejemplo. Así notifica/gestiona la afectación al servicio en contexto con el evento registrado, incluso con un “roll back” automático de la implementación/parche de Software en caso de superar umbrales de rendimiento (de ser necesario).
Reducción de ruido algorítmico y correlación.
Para quien alguna vez recibe emails de alertas de monitoreo de una plataforma critica, es claro que el inbox puede llenarse de correos de alerta y notificación en cuestión de días. Muchas veces cuando sucede un incidente, la detección de problemas atípicos mediante una correlación de las alertas relacionadas es un skill que el ingeniero de soporte, debe desarrollar con el paso del tiempo. AIOPs puede acelerar este proceso, su diagnóstico efectivo y su solución.
Identificación predictiva de cuellos de botella de capacidad
Sea este a nivel de infraestructura, middleware o de aplicación (front o back-end), de cierto modo, todas las plataformas críticas en banca sufren de algún tipo de cuello de botella en algún momento. AIOps pueden ayudarlo a evitar interrupciones en el servicio y reducir el desperdicio al descubrir una capacidad infrautilizada o sobre utilizada en infraestructuras híbridas y generar proyecciones bajo escenarios futuros como picos de uso, puestas a punto de nuevos servicios, etc.
Por este motivo, AIOps tiene un valor increíble. Empresas como Nexthink aseguran una reducción del 35% de incidentes con su solución y teniendo un mundo donde hay pérdidas de más de 400 billones de dólares anuales solo por incidentes de seguridad/Indisponibilidad, el mercado para estas iniciativas se ve brillante. En el futuro, AIOps jugará un papel clave en la habilitación de nuevas eficiencias para los equipos de IT Ops. También tornará más práctica la incorporación de tecnologías complejas de última generación que no pueden administrarse correctamente con soluciones tradicionales. Pregunto a los nuevos (y "viejos") profesionales de TI que estan en los "entry level" de sus empresas o a la cabeza de áreas de operaciones en sus organizaciones. ¿Estamos preparados para este cambio de paradigma? Los más jóvenes diremos: "talvez" (me incluyo, no por jóven pero por adepto al cambio!), pero los mas ortodoxos posiblemente piensen que solo se trata de una "nueva moda" que pasará al igual que muchas otras que ya han visto desfilar desde sus ventanas... A todos ellos, los invito a cambiar nuestra mentalidad hoy, antes de que la obsolescencia no programada llegue a tocar nuestras puertas o la de los dueños de nuestras empresas!
Senior Software Project Manager | AI, ML, Digital Twins, IIoT
5 añosExcelente artículo! Muy interesante y actual. Lo quería leer desde hace rato pero acá en Rusia nos tienen semi bloqueado el LinkedIn. La pregunta es: Cómo hacerlo? En tu atículo dejas claro el What y el Why. How, When and Who son el problema por ahora. Sin duda será un diferenciador. Pero estamos como en el inicio de la carrera espacial o las armas nucleares.Todos quieren hacerlo, pocos pueden y por ahora es más fanfarronéo de los que pueden para asustar a la competencia. La Unión Soviética asustó a los EEUU en los 50s cuando mostró su primer misíl intercontionental. Los EEUU tenían planeado un bombardeo masivo a la URSS pues tenían una cantidad inmensa de bombarderos capaces de cargar bombas nucleares. Los Rusos hoy cuentan que si bien desarrollaron misiles capaces de alcanzar los EEUU, solo podían lanzar uno y les tomaba varios días lanzar otro. Los EEUU hubiesen podido fácilmente llevar a cabo su plan...
Director de Seguridad Informática en la Dirección Nacional de Registros Públicos - DINARP
5 añosExcelente artículo Alex, Felicitaciones...