Dicas para um bom troubleshooting

Dicas para um bom troubleshooting

Neste material será apresentado algumas dicas para solucionar problemas em qualquer cenário para garantir uma boa entrega e a melhoria continua dos processos.

Definição de Troubleshooting

O que é?

Esta é uma palavra que nós do TI, ouvimos muito no nosso dia a dia, principalmente em equipes que tratam assuntos mais técnicos, e se resume na identificação, análise e correção de problemas em sistemas, dispositivos e processos.

Por que é importante?

O troubleshooting identifica e soluciona problemas, garantindo a continuidade dos processos e minimizando a interrupção dos serviços.

Identificar e definir o problema

1-) Entenda o problema

Crie uma descrição clara do problema e suas circunstâncias, como quando e onde ocorre, aqui não existe uma regra de como tem que ser feito, o importante é que as informações sejam levantadas de forma clara, com anotações, print screen, logs(❤️) e até vídeo simulando-o.

2-) Avalie o impacto

Determine como o problema está afetando o sistema ou os usuários, é de suma importância este nível de analise, porque este é o que vai definir a prioridade para o envolvimento de outras equipes para resolução do problema.

3-) Estabeleça uma hipótese

Com base nas informações coletadas, crie uma suposição de algo que pode estar causando o problema, isso contribui para você ou a equipe na qual irá tratar, possa resolver de forma agil.

Coletar informações relevantes

1-) Pesquisa 🔍

Pesquise em fontes confiáveis por soluções semelhantes. Analise fóruns e perguntas frequentes dos usuários. Consulte manuais e documentação oficiais, hoje está ainda mais fácil com o uso de grupos nas redes sociais sobre determinados assuntos.

2-) Registre as informações 🙏

Registre o máximo de informações possível, incluindo a sequência de eventos e ações tomadas, para maior facilidade na análise posterior.

3-) Comunicação 🗣️

Identifique quem mais pode ser afetado por esta dificuldade. Comunique interna e externamente para minimizar a interrupção do serviço e permitir que outros planejem soluções alternativas.

📝 Analisar os dados

📌 Reveja as informações

Revise as informações coletadas até o momento. Confirme se as informações estão completas e corretas.

📌 Crie uma estratégia de teste

Crie uma estratégia de teste com uma lista de verificação e etapas que possam ser repetidas. Combine ferramentas, como diagnósticos, para acelerar o processo.

📌 Elimine possíveis causas

Com a estratégia de teste, tente eliminar as possíveis causas. Comece com as mais prováveis e progrida até encontrar a causa raiz.

📌 Documente o processo

Documente todas as etapas realizadas. Inclua detalhes como data e hora, ferramentas usadas e resultados obtidos. Use essa informação em troubleshooting futuros.

Aprender com o processo de troubleshooting

Aprenda com o problema 💡

Use as informações coletadas para aprender com a dificuldade e evitar que ele ocorra novamente.

Comprometimento da equipe 🤝

Assegure-se que a equipe está comprometida com o processo de troubleshooting e que todos estão cientes do papel que deve ser desempenhado.

Inove em soluções de problemas 🚀

Utilize a experiência adquirida para implementar melhorias nos processos para evitar problemas e resoluções mais rápidas quando surgirem.

A seguir será apresentado um exemplo:

O cenário que foi elaborado para simular uma dificuldade simples e bem comum na área de VoIP.


O fluxo acima apresenta um ambiente comum de um "Aparelho telefônico" do seu trabalho, ele se conecta através da sua operadora de internet ao PABX na Nuvem. Não se preocupe com as nomenclaturas técnicas não é o foco, para o TI da empresa, esse fluxo precisa fazer sentido, mesmo que o ambiente de telefonia não seja de gerencia da equipe de suporte local, para que isso tudo funcione, sim o TI precisa entender da comunicação, o que trafega e como manter isso funcionando sem impactos. Vamos pensar no ambiente que você ao realizar ligações e elas estão mudas, porque? Vamos usar a orientação deste documento "Item 1" entender o problema, isso é de suma importância para que tenhamos uma linha de analise e resolução da dificuldade.

Vamos as perguntas:

  1. Ligações entre ramais na rede local ocorre dificuldade?
  2. Ligações externas ocorre?
  3. A ligação está muda totalmente ou em algum dos sentidos?

Estas são perguntas simples para que possamos ter um ponto de partida, na pergunta 1, já nos direciona para entender se pode ocorrer alguma dificuldade na rede interna etc, digamos que as respostas para as nossas perguntas foram as seguintes:

  1. Ligações entre ramais na rede local ocorre a dificuldade? ❌Sim, ocorre.
  2. Ligações externas ocorre? ❌Sim, ocorre.
  3. A ligação está muda totalmente ou em algum dos sentidos? ❌ A chamada está muda totalmente.

Já temos algo para trabalhar, entendemos que a dificuldade é para qualquer tipo de ligações externas e já conseguimos simular a dificuldade, e precisaremos envolver neste primeiro momento a equipe de PBX para uma captura de pacotes e analise do fluxo de audio.

Dica: Estas capturas podem ser analisadas via TCPDUMP e/ou SNGREP.

A imagem acima utilizamos o SNGREP, realizamos uma chamada para simular uma ligação normal, fluxo de audio nos dois sentidos, no próximo vamos provocar a dificuldade.

A imagem acima temos 2 regras de iptables, nestas estamos criando uma restrição das portas de RTP de 10 mil a 20 mil , protocolo UDP a trafegar no sentido OUTPUT(saída) e ativamos um LOG para acompanhar, se necessário. Entenda que em VoIP é difícil ter um padrão de range de portas de voz, mas vamos levar em consideração que serão estas.

No primeiro teste, já temos o cenário provocado, áudio em apenas um sentido, o fluxo de RTP de ambos os ramais chegam até o PBX e não temos a resposta, pronto, sabemos que a dificuldade está servidor de telefonia, agora é atuar, corrigir e documentar.

Veja, neste exemplo relatado temos um ambiente que você tem autonomia em atuar, na maioria das vezes não será o mundo perfeito, por isso é de suma importância que saiba analisar para conduzir a investigação e envolver as respectivas equipes, é bem comum que neste meio você tenha um firewall de terceiro, que essa chamada passe por mais de uma central de telefonia ou Proxys SIP etc, mas não se assuste, entenda a topologia na qual esta trabalhando para ser efetivo na resolução de problemas.

Materiais de apoio sobre SIP:

RFC3550 - RTP: A Transport Protocol for Real-Time Applications

RFC3261 - SIP: Session Initiation Protocol

Conclusão

1-) A prática leva à perfeição

Pratique o troubleshooting para se tornar cada vez mais eficiente em reconhecer padrões e identificar soluções.

2-) Comunicação é a chave

Comunique-se com os usuários para explicar o problema e o que está sendo feito para resolvê-lo, isso fará com que todos estejam na mesma pagina para resolver problemas de forma ágil e eficiente.

3-) Documentação é fundamental

Mantenha documentação minuciosa sobre todos os processos de troubleshooting realizados para servir de referência, a material produzido hoje, irá apoiar na resolução de problemas no futuro.

Até a próxima. ✌️👊🚀

"Começar é a parte mais importante de qualquer trabalho" - Platão


Benedito Marques

DevOps | Git | Cloud | Kubernetes | Temporal | Observability | CI/CD | Voip specialyst

10 m

Muito top o artigo, parabéns Janduy Euclides - dCAA ✅, SCE ✅ 👏👏

Alexandre Junior

Suporte TI | Telecom | Asterisk | VoIP | Linux | Banco de Dados

1 a

Show 👏

Entre para ver ou adicionar um comentário

Outros artigos de Janduy Euclides - dCAA ✅, SCE ✅

  • VoIP: Como funciona o Registro SIP ?

    VoIP: Como funciona o Registro SIP ?

    O protocolo SIP (Protocolo de Inicialização de Sessão) é um protocolo de sinalização usado para iniciar, encerrar e…

    4 comentários

Outras pessoas também visualizaram

Conferir tópicos