Gerenciamento de Desastres #1
Alta disponibilidade não é igual a resiliência ou capacidade de recuperação

Gerenciamento de Desastres #1 Alta disponibilidade não é igual a resiliência ou capacidade de recuperação


Introdução

Como os últimos anos e dias demonstraram, desastres acontecem e afetam vidas e a sobrevivência das empresas.  Mesmo reconhecendo a enorme solidariedade e mobilização social e política para a recuperação e preservação do bem estar de seres vivos, não apenas humanos, é mister olhar um pouco adiante e questionar como será a recuperação dos entes econômicos (empresas e serviços públicos).  Os últimos anos nos fizeram aprender pela dor a relação simbiótica entre a sociedade e as empresas.  Sem o bem estar e estabilidade dos primeiros, não há combustível de consumo para os segundos.  Sem os segundos, não há renda e serviços para os primeiros.


Em meu post anterior ( LINK ), eu ilustrei diversos aspectos técnicos que fazem a garantia da disponibilidade um tema tão complexo e tão significativo do ponto de vista de custos.  Investir nessa dimensão dos sistemas de TI é um daqueles casos clássicos que exige a avaliação do custo de fazer versus o risco de não fazer.  Quanto tempo seus serviços podem ficar indisponíveis até que seus clientes optem por buscar seu concorrente, as redes sociais para atacar sua reputação, os orgãos fiscalizadores para reclamar ou o judiciário para buscar reparações?

 

Diante de tudo que estamos acompanhando na última semana, é inevitável abordar a questão complementar da prevenção e recuperação de desastres, eventos imprevistos e de grande impacto que comprometem o funcionamento normal dos sistemas e podem causar danos irreversíveis.  A consciência sobre a probabilidade, impacto e capacidade de prevenção de desastres varia significativamente entre setores da economia, grupos sociais e culturas.  Infelizmente, no Brasil, fora dos setores diretamente regulados e fiscalizados ainda há muitos que confiem apenas na nacionalidade do criador (Deus é Brasileiro) para prevenir maiores perdas.

 

Para mitigar os efeitos de desastres e garantir a continuidade dos serviços, as organizações devem criar, comunicar, testar regularmente e aperfeiçoar continuamente estratégias de #prevenção, #gerenciamento de crises e de #recuperação.  A doutrina e disciplina de gestão de desastres e emergências é um campo de estudo bastante abrangente e que lamentavelmente só recebe atenção sazonal no Brasil, quando ano após ano, diversas comunidades sofrem as consequências catastróficas de eventos climáticos severos, talvez imprevisíveis na intensidade, mas tão previsíveis na ocorrência quanto a sequência dos dias e das noites.  Infelizmente, ainda prosperam na sociedade brasileira aqueles que, no final das contas, se beneficiem política e financeiramente dessas recorrências e exposição midiática sem maiores responsabilizações.  Por outro lado, a responsabilização e consequências para empresas privadas de vários portes é inexorável, não fica impune.

 

Nesse documento, vamos abordar alguns dos aspectos da prevenção e da recuperação, deixando a questão da gestão dos eventos (emergências e desastres) para uma outra oportunidade. 


Análise de Riscos

 

Quando tratamos da prevenção de desastres o primeiro passo precisa ser uma análise abrangente dos riscos para a operação e continuidade da oferta dos serviços para o público consumidor.  Os elementos que mais frequentemente são considerados são os seguintes:

  • Riscos associados à falhas de componentes da arquitetura de TIC (abordados no artigo anterior)
  • Riscos associados com as instalações de onde se presta o serviço: prevenção de incêndios, descargas elétricas atmosféricas, inundações, ventos fortes, eventos geológicos e de localização.  Os últimos são frequentemente subvalorizados, mas há que se considerar as rotas de trens e aviões, proximidade de instalações indústriais e comerciais com riscos aumentados de incêndio ou explosões (produtores ou comércio de produtos químicos, combistíveis ou explosivos), proximidade de cursos d’água e barragens d’água ou de rejeitos, locais de difícil acesso ou frequentes manifestações populares, etc
  • Riscos associados à disponibilidade de utilidades (água, energia elétrica, combustíveis, comunicações): cada um desses elementos é essencial para a operação continua de grandes instalações de TIC e é necessário avaliar a disponibilidade, estabilidade e elasticidade do seu fornecimento.  Poderia ser contra-intuítivo até poucos meses atrás imaginar que o fornecimento de energia elétrica no centro de uma cidade como São Paulo fosse irregular, mas há anos que grandes instituições moveram seus Data Centers para outras localidades devido (a razões econômicas e financeiras, mas também) ao fornecimento limitado e irregular de força para alimentar seus equipamentos.  Para instalações com requisitos relevantes de disponibilidade, fontes redundantes de cada um desses elementos são um requisito absoluto
  • Riscos associados à disponibilidade dos recursos humanos: é intuitivo considerar a disponibilidade de profissionais capacitados na região, e os eventos dos últimos anos aumentaram a consciência da necessidade de avaliar diferentes rotas de acesso (devido à manifestações e bloqueios de vias), e a questão dos afastamentos compulsórios decorrentes de pandemias.  Uma instalação significativa de TIC precisará garantir os meios para acessos remotos dos profissionais, além de avaliar quem são aqueles em funções críticas, seus substitutos e sucessores, internos ou externos à organização.  É necessário estudar ainda a prioridade das várias atividades e quais poderiam ser reduzidas ou suspensas, a fim de liberar recursos para as atividades essenciais ou mais importantes.  Listas de contatos de emergência precisam ser colhidos para viabilizar a comunicação e operação em situações críticas
  • Riscos associados à segurança e cyber-segurança: podemos começar com a segurança nos acessos físicos e lógicos, ou seja, a garantia de quem precisa ter acesso e a restrição àqueles sem necessidade de acesso.  Também é importante considerar que nenhuma empresa é uma ilha e a fragilidade de clientes e fornecedores tecnicamente integrados podem ser a porta de entrada de agentes maliciosos.  Até mesmo a utilização de terceiros em atividades de suporte dentro das instalações pode ser um fator de vazamento de dados ou injeção de agentes maliciosos.  A engenharia social aplicada pelos hackers para engajar colaboradores desatentos em ações descuidadas é cada vez mais sofisticada.  Testes recorrentes em grandes empresas apontam que times pouco alertas ou pouco treinados chegam a engajar em >25% das ações simuladas de #phishing com mensagens urgentes de supostos executivos das mesmas empresas.

 

Análise de Impactos e Capacidades

Elaborados os cenários de risco, passamos à fase de Análise de Impacto dos Negócios, conhecido no setor como #BIA – Business Impact Analysis.  O que acontece para a empresa em cada um dos cenários?  Quais as reações possíveis e as capacidades que precisam ser construídas para reagir tempestiva e eficientemente ?


As capacidades necessárias para reagir às falhas na infraestrutura de TIC foram exploradas no artigo anterior.  Basicamente estão associadas a construção da necessária capacidade, redundância e manutenção dos diversos componentes.  É essencial, como sugere o título desse texto, lembrar que alta disponibilidade entretanto não é sinônimo de resiliência e capacidade de enfrentar desastres.  Um DC com todos os requisitos de redundância, situado exclusivamente em uma área de catástrofe não será de grande utilidade para sustentar a operação de uma empresa nos momentos subsequentes da ocorrência.  Dados e capacidade de processamento precisam ser distribuídos e contingenciados em outras localidades e instalações.  Um plano para movimentar o processamento para essas localidades alternativas precisa existir e ser viável tecnicamente.

 

As capacidades necessárias para tratar o contingênciamento de utilidades são amplamente conhecidos: baterias e geradores para energia elétrica, reservatórios e poços próprios para o abastecimento de água, estoques regulatórios e fornecedores para combustíveis e canais redundantes para comunicações.  Essas abordagens são habitualmente suficientes para a maioria dos incidentes, mas não necessariamente para grandes desastres em decorrência da duração da interrupção das fontes principais dessas utilidades.  Uma vez mais, a avaliação de locais e instalações alternativas, mesmo que com capacidade limitada, se apresentam como investimentos que podem se justificar em face da dependência da empresa dos recursos de TIC.

 

Quando pensamos em recursos humanos, aspectos emocionais podem dificultar o debate sobre a eleição de quem são os recursos críticos que precisam ser priorizados em termos de proteção, assistência e substituição.  Nem sempre a autoridades mais altas na hierarquia são necessariamente as mais essenciais, times de operação de centrais nucleares ou de segurança militar usualmente dispõe de instalações e procedimentos de emergência que são cuidadosamente elaborados e testados.  Cadeias de substituição são essenciais pois o componente humano é frágil e susceptível não apenas a eventos diretos, mas também aos impactos emocionais de eventos sobre entes próximos, familiares ou não. Esse tipo de racionalidade que não fere tantas suscetibilidades quando se trata de proteger autoridades públicas, responsáveis e capazes de gerenciar as crises e proteger sua população, precisa existir também no ambiente das empresas.  Quem são as pessoas que precisam ser deslocadas para uma sala de crise e preservadas para tomarem as decisões essenciais para a sobrevivência da empresa em caso de um desastre ? Considerando que elas não são máquinas que podem operar continuamente, quem pode substituí-las e sucede-las em caso de crises de longa duração ? Como operar se 10%, 25%, 50% … da força de trabalho (crítica) ficar indisponível ?

 

Em caso de invasão, vazamento, sequestro ou indisponibilidade dos dados e da infraestrutura, que tipo de cópias de segurança e onde elas precisam estar disponíveis a fim de permitir operação em contingência e recuperação ?  Cópias de dados em mídias mutáveis na mesma localidade física dificilmente são resposta para essa questão.  O tempo em que hackers sequestravam os dados de uma empresa e imediatamente anunciavam o ataque ficaram no passado.  Análises forenses de ataques cibernéticos de grandes proporções em instalações públicas e privada demonstram que frequentemente os agentes maliciosos estavam instalados e “proliferando” por meses, antes da invasão se tornar conhecida e anunciada. Daí a necessidade de avaliar cópias em medias de gravação permanente, com diferentes frequência e momento de gravação e naturalmente em localidades diversas.  Todas essas medidas implicam em custos adicionais relevantes, que precisam ser avaliadas sobre a mesma ótica da análise da propriedade e adequação da contratação de seguros.

 

Um Data Center, Centro de Operações, Centro de Monitoração ou Centros de Comunicação são muito pouco semelhantes a um smartphone que você desliga quando tem um comportamento indesejado, religa e frequentemente a falha se resolve sem interferências adicionais.   A movimentação de um ambiente de TIC para uma localidade alternativa ou mesmo a recuperação da operação após um desastre exige um planejamento detalhado, com a identificação de dependências, sequência de operações, garantia dos recursos em quantidade e tempestividade necessários.  O processo todo pode levar horas, dias ou semanas.  Falhas em desenhar e seguir os planos podem exigir a retomada dos processos desde o princípio e um tal de Murphy (Murphy’s Law) estará sempre à espreita, aguardando o momento para criar um desafio adicional inesperado. 


Identificados os riscos, analisados os impactos e requisitos para mitiga-los, é fundamental construir planos detalhados de movimentação e recuperação, considerando todas as dimensões, desde as instalações físicas, passando por utilidades, recursos humanos e as múltiplas complexas e numerosas camadas da arquitetura da solução de TIC.

 

Testes e Melhoria Contínua 

Aqueles que tiveram a oportunidade de viver em países mais conscientes experimentaram diretamente ou através de seus filhos e parentes o exercício regular, desde a infância, de exercícios de mobilização e evacuação de instalações escolares ou mesmo exercícios de grande vulto, de evacuação de comunidades.  Infelizmente, no Brasil, esses exercícios são levados a sério apenas por grandes empresas ou mercados regulados.  A única forma de executar as ações corretas, previamente planejadas, nos tempos e sequências corretas, em momentos de pressão, emoção, urgência ou ameaça é treinar, treinar, treinar até que não se precise pensar muito para executá-las com precisão.


A necessidade de testes, prática e aperfeiçoamento de procedimentos, vale tanto para as pessoas, quanto para os processos técnicos empresariais.  Empresas que constroem soluções e planos para contingência e recuperação de desastres e não as testam, frequentemente enfrentam consequências desagradáveis quando delas necessitam.  Quem nunca foi frustrado pela dificuldade de recuperar um backup de dados ?


A imprensa ainda está muito mobilizada com os impactos humanitários dos eventos climáticos que continuam a castigar o RGS.  São terríveis e infelizmente ainda não chegaram ao ponto em que começarão a arrefecer.  Mas sem muita atenção ou destaque, outros desastres estão ocorrendo, cujas consequências somente serão conhecidas e divulgadas depois que os impactos humanos e na propriedade privada superarem o pico de tensão e consternação.  Muitas empresas não tinham qualquer plano de contingência para o desastre climático, outras não tinham planos para tamanho desastre e outras ainda nunca realizaram qualquer teste dos seus planos que revelassem as fragilidades ou inviabilidade de alternativas.

 

Como movimentar grandes volumes de dados de uma instalação de TIC localizada em uma área de desastre para outra quando a queda de pontes e estradas interrompeu as infovias de fibras óticas e cabos de comunicação ? Mesmo onde ainda existem rotas alternativas, como movimentar esses mesmos volumes de dados antes que as instalações principais precisem ser desligadas devido ao risco de energização da água que invade as instalações? Existem instalações alternativas no adequado estado de prontidão e disponibilidade para receber a operação de todas as empresas afetadas ? Ainda essa manhã, lí notícias que um tribunal envolvido nas investigações da Lava Jato estava desativando suas instalações para evitar danos físicos aos equipamentos.  Estarão os dados daqueles processos seguramente armazenados para posterior reativação das operações, ou serão todos lavados permanentemente pelas águas do Guaíba ?

Parte relevante da imprevidência de não fazer as análises de riscos, não criar as alternativas e planos de contingência, não testar e não aperfeiçoar será lamentavelmente esquecida e ficará impune.  Os desastres de +10 anos na serra carioca, sem que até hoje os planos prometidos tenham sido concluídos e implementados, demonstram que as perdas não são suficientes para modificar o comportamento de entes públicos e privados.  Loas a outros estados, como o do Paraná e Santa Catarina, que construíram uma cultura robusta e internacionalmente reconhecida de prevenção e recuperação de desastres após sua quota de castigo por desastres naturais.  Mas uma visita a Teresópolis e Petropólis é instrutiva para qualquer observador minimamente atento: muitas empresas se foram e a economia ainda luta para se reerguer.  As ajudas milionárias dos planos emergenciais já se esgotaram, parte importante desviada pelos mesmos entes públicos imprevidentes, e a sociedade local luta para subsistir e superar.


O que foi aprendido ? Em que melhoraram os cenários de risco e a capacidade de reação ? Como mudou o estado de prontidão e consciência das empresas e da população ?

 

Conclusão

 

Desastres acontecem.  A dimensão humana é sempre terrível e ganha rapidamente o destaque e a atenção de todos.  A dimensão empresarial também deveria receber destaque.  A dependência direta e simbiótica entre sociedade e empresas que ecoa sobre a atenção aos temas #ESG deveria promover a importância de abordagens metódicas e metodológicas sobre o tema da prevenção e reação a desastres.

Na linha da prevenção, é importante investir em análises de riscos e impacto nos negócios, na documentação dos requisitos e planos para contingência e recuperação, na realização de testes e auditorias dos planos e na incorporação de aprendizados para melhoria de cada um dos aspectos anteriores. A disponibilidade dos ambientes de TI é um fator crítico para o sucesso e resiliência das organizações, não é algo que possa ser tratado apenas como custos que precisam ser contidos ou reduzidos ano após ano.  Economizar na fatura do seguro não é medida sábia.  Investimentos em resiliência e recursos de recuperação precisam ser vistos como “seguro” para a continuidade das operações e perenidade das organizações.

Não poderia terminar nenhum texto no momento que vivemos sem direcionar meus pensamentos e orações para o povo do Rio Grande do Sul, que enfrenta com valentia e resiliência uma calamidade climática sem precedentes.  Infelizmente os muitos esforços de preparação e prevenção não foram suficientes para a proporção dos eventos recentes.  Do mesmo modo, direciono minha empatia e esforços para o suporte às empresas da região que enfrentam desafios sem precedentes para preservar e sustentar suas operações.  Que as duras consequências e lições aprendidas, a seu tempo, permitam à nossa sociedade, agentes políticos e econômicos construir mais que resiliência aumentada.  Que os resultados resultem no final em uma sociedade mais forte e mais preparada para enfrentar os previsíveis imprevistos que virão no futuro.

#Resiliência #RecuperacaoDesastres #BIA, Board Academy Br #Disponibilidade #Board360 Eduardo Gomes, MBA, CCA IBGC Luciana Tannure

 

Que artigo completo. Ampla gestão de risco, avaliação de cenários e planos de contramedida fazem sentido em empresas de todos os portes. Ótimo poder ter acesso a suas publicações! 😉

Diogenes Carvalho Lima

Board Member | Conselheiro Consultivo | Mentor de Carreira e Negócios | Advisor | Diretor Comercial, Marketing e Suprimentos

7 m

Sergio da Motta parabéns. Excelente abordagem

Caroline Andrade

Business & Sales Operations @ Kyndryl | MBA | Driving Excellence in Sales Performance & Business Management

7 m

Artigo super completo sobre um tema que SEMPRE vai ser prioridade, a tecnologia precisa ser um respaldo para planos de ações estruturados com objetivo tanto de prevenção quanto de resolução quando se trata de desastres. No Brasil sofremos demais com enchentes, e outros países são assolados por diferentes tipos de desastres. Que a tecnologia possa ser um recurso de socorro para estas situações!

Adriana Festucci

Sales Business Operations Lead / Business Partner

7 m

Obrigada pela reflexão! Realmente precisamos estar cada vez mais preparados e ter um bom gerenciamento de desastres.

Sergio da Motta, bons pontos. Quando analisamos o cenário atual fica nítido a interdependência entre a sociedade e as organizações, principalmente quando o tema é prevenção e recuperação de desastres. Desta forma, ter uma abordagem metódica durante o processo de identificação de riscos e possíveis impactos é fundamental para criação de planos sustentáveis de contingência / continuidade de negócios para garantia da resiliência adequada nas organizações em situações imprevistas. Além disso, trabalhar as lições aprendidas (quando estas foram aprendidas...) é crucial para o tão falado "Aprendizado Contínuo", tendo como base a adaptação necessária para combate aos desafios inesperados.

Entre para ver ou adicionar um comentário

Outras pessoas também visualizaram

Conferir tópicos