4 passos para melhorar o desempenho da rede | NETSCOUT
White Paper
| White Paper |

4 passos para melhorar o desempenho da rede

Introdução
A rede de TI está no coração da maioria das empresas, fornecendo suporte a aplicativo críticos para a empresa, fornecendo dados com os quais as decisões de negócios são tomadas e facilitando comunicações com clientes, parceiros, fornecedores e colegas de trabalho. Mais do que nunca, é um recurso estratégico para a empresa e qualquer tempo ocioso ou degradação no desempenho da rede ou dos aplicativos terá um impacto direto nos lucros da organização. Para entregar os níveis de serviço acordados com a empresa, há dois desafios: melhorar e otimizar de maneira proativa o desempenho, para garantir que a rede proporcione o que os usuários precisam, e resolver todos os problemas que aparecerem o mais rapidamente possível, para minimizar o tempo ocioso. Este Documento técnico analisa a metodologia para resolver problemas de desempenho da rede e de aplicativos e apresenta uma nova abordagem para chegar à causa raiz mais rapidamente.

INTRODUÇÃO

Conhecer a causa-raiz de problemas de rede e aplicativos está cada vez mais difícil e demorado nas redes corporativas atuais. A virtualização está se estendendo do data center ao desktop, serviços em nuvem estão crescendo em popularidade e BYOD (Traga seu próprio dispositivo) chegou para ficar, refletindo novos padrões de trabalho e a mudança cultural.

Podem acontecer problemas, como resultado da proliferação de dispositivos Wi-Fi, do uso excessivo da largura de banda por aplicativos não autorizados, de erros da configuração, de uma infraestrutura deficiente de entrega de aplicativos ou de muitas outras fontes. A crescente inclusão de voz e vídeo adiciona mais complexidade e força a largura de banda até seus limites.

A resolução de problemas de desempenho ficou mais difícil e demorada, devido ao desafio de tentar apurar de quem é a responsabilidade, particularmente quando todos os grupos estão relatando KPIs verdes.


O processo para resolver problemas de desempenho de rede


Para chegar à causa-raiz dos problemas de desempenho de rede, um processo de quatro passos para a resolução de problemas é seguido:

Figura 1: Fluxo de trabalho para a resolução de problemas.



As ferramentas disponíveis para auxiliar a resolução de problemas se dividem em duas categorias: sistemas de gerenciamento de rede (NMS) e ferramentas de captura e análise de pacotes.

O NMS principalmente desempenha um papel na fase de monitorar/estar alerta, acompanhando os roteadores e servidores da empresa e perguntando se estão trabalhando e respondendo conforme o esperado. Porém, alguns NMS têm uma configuração tão complexa que só podem gerenciar até dispositivos da Camada 3, assim, os comutadores não são monitorados na Camada 2. Dados de agrupamento são agregados durante muitos minutos e depois são arredondados, o que oculta o impacto dos picos de utilização. Além disso, uma vez que o NMS é centralizado, as medições feitas com a intenção de entender os tempos de resposta dos usuários finais são imprecisas, porque o teste está usando uma parte diferente da rede para alcançar o dispositivo que está sendo investigado.

Como um engenheiro de rede progride através do processo de resolução de problemas, a utilidade do NMS diminui e não fornece informações detalhadas necessárias para investigar problemas de desempenho plenamente.


Uma recente pesquisa da NETSCOUT® com aproximadamente 3.000 profissionais de rede, 82% dos respondentes classificaram os problemas de desempenho da rede e de aplicativos como uma preocupação ou questão crítica e 52% disseram que um NMS tem capacidades insuficientes para chegar à causa-raiz do problema, quase sempre ou sempre. Outros 51% dos entrevistados disseram que precisavam deixar sua mesa algumas ou muitas vezes para solucionar o problema.

Para obter informações mais detalhadas, o engenheiro de rede tem que utilizar ferramentas complexas de captura e análise de pacotes, freeware ou comerciais. Estas ferramentas têm um papel limitado na fase de alerta, pois apenas exibem um único ponto na rede, mas entram na etapa de análise da causa-raiz. A complexidade destas ferramentas de análise de pacotes exige engenheiros especializados e experientes, e sua utilização toma muito tempo, uma vez que o resultado pode ser um excesso de dados - milhões de pacotes para examinar, exibidos através de diferentes interfaces de usuário. Isso torna o processo de resolução de problemas muito mais difícil e demorado.


Onde problemas podem esconder na rede


A diferença entre estas ferramentas – um NMS sem informações abrangentes e complexas ferramentas de captura de pacotes – aumenta o MTTR. Problemas irritantes e intermitentes podem se "esconder" na rede, reduzindo a produtividade e a credibilidade do departamento de TI.

Para investigar e resolver problemas de desempenho rapidamente, o engenheiro precisa de visibilidade de ponta-a-ponta por toda a rede: uma solução dedicada para rede automatizada e análise de aplicação, que preenche a lacuna entre o tradicional NMS e a captura de pacotes.

As necessidades que devem ser abordadas:
  • Equipamentos não gerenciados, que podem ter sido comprados porque eram menos caros, mas custará mais para resolucionar problemas quando estes ocorrem, já que não há nenhuma visibilidade da saúde de cada segmento de rede e os níveis de utilização não podem ser monitorados. Em contraste, com um comutador gerenciado um engenheiro de rede pode ir a qualquer porta do comutador e ver quais são os erros, visualizar a utilização e ver quem está conectado àquela porta.
  • Redes sem documentação, um contínuo problema dado que mudanças frequentes em uma rede tornam qualquer documentação desatualizadas logo após a conclusão. Tentar traçar fisicamente o caminho levaria muito tempo, mas sem documentação precisa o engenheiro não sabe quais pacotes estão fluindo e para onde. Torna-se necessário um meio de descobrir o caminho em tempo real através da rede.
  • Muitos dados, quando o problema pode estar em apenas alguns pacotes. A resolução de problemas seria muito mais rápida com um método automatizado de peneirar os pacotes capturados para encontrar os ruins – uma análise centralizada no aplicativo, com abordagem de cima para baixo.
  • Problemas no passado, que só chamam a atenção do engenheiro horas depois que ocorreram. Seria necessário um meio de voltar no tempo, ao capturar e analisar grandes quantidades de dados granulares durante um período prolongado, digamos 24 horas, para capturar problemas intermitentes.
  • Novas tecnologias que não são monitoradas, como Ethernet 10 Gb ou Wi-Fi 802.11n. Muitas organizações não investiram em instrumentação para tais tecnologias, porque acreditam que o aumento substancial da capacidade superará qualquer problema.
  • Dispositivos sem fio – o engenheiro precisa de uma forma de identificar e monitorar dispositivos Wi-Fi, incluindo BYOD, e identificar as interferências de Wi-Fi e não Wi-Fi causadas por dispositivos Bluetooth, telefones sem fio, micro-ondas, etc. usando análise de espectro.
  • Problemas que estão fora da rede, para que o engenheiro possa identificá-los e repassar o problema de desempenho e suas provas para outras equipes de TI ou prestadores de serviços externos, com informações suficientes para permitir a investigação mais aprofundada e uma solução rápida.

Uma nova abordagem para a resolução de problemas

O que é necessário é uma rede holística e uma solução de desempenho de aplicativo que capture todos os dados na rede e forneça análise inteligente para permitir que os engenheiros isolem a causa-raiz mais rapidamente ou identifiquem se o problema real está fora da rede. É necessário coletar, agregar, correlacionar e mediar todas as informações, incluindo o fluxo, dados SNMP e informações recolhidas de outros dispositivos, com granularidade de até um milissegundo. Os dados devem ser exibidos através de um painel de controle configurável para um único usuário e, assim, os fluxos de trabalho guiados podem ser aplicados para isolar a causa-raiz do problema rapidamente. Ao eliminar a necessidade de fazer suposições e permitir que o usuário siga um processo lógico até que o problema ser identificado e resolvido, o MTTR é reduzido e o engenheiro de rede torna-se mais eficaz.

Uma solução de desempenho de rede e aplicação facilita todas as etapas do processo de resolução de problemas e fornece a visibilidade necessária para oferecer suporte à otimização da rede.


PRIMEIRO PASSO: MONITORAR/ESTAR ALERTA

O primeiro requisito ao abordar e resolver problemas de rede é um sistema que forneça um alerta oportuno de que ocorreu um problema. O pior cenário é descobrir por meio de uma chamada de um usuário, caso em que o engenheiro já está na defensiva. Muitos alertas das ferramentas de gerenciamento de rede têm de ser configurados manualmente para cada rede, configurando o sistema para ping ou para descobrir todos os dispositivos em cada domínio de transmissão. Com uma solução sempre ligada no desempenho da rede e de aplicativos, porém, fluxos de trabalho guiados e de descoberta automática agilizam e simplificam a visualização imediata de quais estão conectados. Isto reduz drasticamente o tempo necessário para configuração e monitoramento.

Dados de desempenho são continuamente coletados e armazenados em um banco de dados, sendo exibidos através de uma GUI em um painel de desempenho, que o usuário pode configurar conforme suas próprias necessidades. O desempenho é monitorado em relação a uma linha de base definida pelo usuário (por exemplo, o SLA) e qualquer coisa fora disso imediatamente é mostrado como um alarme. O usuário pode então visualizar o problema em diferentes graus de detalhe, ao iniciar a fase de investigação.

Sistemas de desempenho de rede e de aplicativo também podem ser integrados com os sistemas de gerenciamento de rede existentes, tais como HP OpenView ou Tivoli Netcool, e transmitir informações e alarmes para gerenciamento de serviços e soluções de painel de controle operacional.


SEGUNDO PASSO: INVESTIGAR

O engenheiro de rede agora precisa investigar o alcance do problema. Para facilitar a investigação rápida e precisa, a solução precisa ser capaz de coletar e armazenar todos os dados pertinentes, por exemplo, SNMP, fluxos, pacotes, tempo de resposta de usuários finais etc., e armazenar tais dados para análise futura. Uma solução de desempenho de rede e aplicação também fornece um método em tempo real de descobrir o caminho do cliente para o serviço ou aplicativo, reduzindo significativamente a quantidade de tempo necessário; o caminho entre os dois dispositivos pode ser encontrado e monitorado para todos os problemas através de redes internas e externas e os dispositivos no caminho. Os resultados são exibidos em um formato gráfico, para facilitar a compreensão e rápida análise da causa-raiz.

Para uma eficácia ótima, o sistema deve fornecer interfaces com conectividade de 1 Gbps e 10 Gbps e poder capturar dados em velocidade de linha no fio. Algumas soluções podem traçar um caminho através da rede de um cliente para um servidor, identificando dispositivos de Camada 2 e Camada 3 no caminho e fornecendo a granularidade necessária para identificar a fonte do problema.

Se o problema estiver em um cliente ou grupo de clientes, o engenheiro precisa realizar um teste de resposta de desempenho ou aplicativo para identificar se o problema é de rede cabeada ou sem fio. Ao fornecer ferramentas com e sem fio, integradas pela interface de usuário, o sismeta de rede e de aplicativo permite que um único teste identifique a origem do problema.

Surtos de malware também podem ser identificados como parte deste processo, incluindo o endereço IP de origem, permitindo que o engenheiro identifique causas de inatividade que outras ferramentas não conseguem.


TERCEIRO PASSO: ISOLAR

Nesta fase, o problema foi isolado a um punico segmento de rede, comutador, roteador, servidor ou aplicativo e o caminho, dispositivos e portas no caminho foram identificados. Agora o caminho precisa ser analisado, exigindo estatísticas de tráfego para cada link e assim determinar se o problema se deve a um dispositivo defeituoso, mídia de link, ruído, interferência ou sobrecarga de tráfego.

Uma das grandes vantagens do SNMP (Simple Network Management Protocol) é a sua capacidade de ajudar a isolar os domínios de falha. Usar o SNMP para consultar cada ponto de conexão ao longo do caminho irá determinar se um afunilamento do tráfego é a origem da desaceleração. Isso será simples, se os dispositivos no caminho forem gerenciados e o engenheiro tiver as senhas ou strings de comunidade para interrogar os dispositivos. Caso contrário, ele terá de se conectar a uma ferramenta em cada link, sem interromper a rede, para exibir os pacotes e as estatísticas de tráfego. Isso pode ser extremamente demorado, se houver muitos links sobre uma grande área geográfica e pode exigir várias ferramentas em locais diferentes.

Uma verificação automática da saúde da infraestrutura de rede, usando uma ferramenta de desempenho de rede e de aplicativo, torna possível monitorar todos os dispositivos SNMP suportados, olhando para os fluxos de aplicativo para aqueles mostrando perda de pacotes ou alta utilizando ao consultar os MIBs SNMP nos roteadores e reportando-se a intervalos regulares. Se houver dezenas ou centenas de comutadores na rede, o processo é simples e rápido.

Alguns problemas só serão visíveis por estarem no ponto onde o problema surgiu. Isto requer um dispositivo portátil com os recursos corretos de teste e a interface correta para se conectar ao ponto do problema, seja na frente de um cliente ou um link de 10 G em um centro de dados. Com muitas pessoas trabalhando remotamente, ter uma ferramenta que permite essa visibilidade é vital – e isso só vai aumentar em importância com o crescimento da BYOD.

Uma ferramenta portátil também pode ser enviada para um local remoto, para ver o que está acontecendo com equipamentos não gerenciados da rede sem a necessidade de um acompanhamento de engenheiro. O ideal é que possa realizar a análise de caminho, medir a saúde da infraestrutura de aplicação, assim como os fluxos de aplicação, e analisar o desempenho de WLAN, bem como revisar roaming e a capacidade de novas tentativas, e investigar qualquer interferência de dispositivos externos.

Se não houver links com excesso de assinatura ou com erros de quadro, então o problema provavelmente não seja a rede, mas isso só pode ser confirmado se o engenheiro tiver analisado os links em um tempo razoável e se o problema que estiver tentando conrrigir ainda existir. Isso requer os dados históricos, capturados pelo sistema de desempenho de rede e aplicação.


QUARTO PASSO: ANÁLISE DA CAUDA-RAIZ E RESOLUÇÃO

Nesta etapa, o engenheiro vai confirmar a causa do problema, formular e implementar uma correção e validar a solução. Se o problema não estiver localizado na rede e não for a resposta do servidor ou o resultado da sobrecarga de recursos, informações mais detalhadas serão necessárias ao capturar e analisar pacotes. É importante isolar o link ou fazer uma triagem do problema entre o servidor, a rede e o aplicativo primeiro, pois a análise de pacotes pode ser extremamente demorada e requer uma quantidade considerável de habilidade e experiência.

Para chegar mais rapidamente à causa-raiz, é melhor aplicar a abordagem de análise de cima para baixo, começando no nível do aplicativo. Por exemplo, se o caminho estiver bom, mas o tempo de resposta for ruim, o problema pode ser um servidor virtualizado, um aplicativo em execução em várias camadas ou um bug no aplicativo.

Uma opção é usar um analisador de pacotes que pode facilmente mostrar o nível de aplicação e o diagrama de escada do pacote. Conexões "span" ou "mirrored tap" são fáceis de configurar, mas pode, perder pacotes com altas cargas de tráfego e não mostrarão os erros na Camada 1, que são bloqueados pelo comutador da Camada 2 fornecendo o "span". "Taps" passivos são melhores, mas conectá-los quebra a conexão, o que vai interromper os serviços que este link fornece aos usuários. Se o desempenho estiver ruim, isto geralmente não causa um problema, mas pode afetar aqueles usando este link para se conectar a outros serviços.

Uma solução melhor é construir a rede com "taps" já colocados em posição estratégica na frente de grupos de servidores, centros de dados, roteadores para links externos e no núcleo da rede. Isso permite que as capturas sejam feitas sem prejudicar a rede. Se isto não for possível, o engenheiro pode ter de recorrer a "span" ou espelhamento de porta, tendo em conta os problemas e imprecisões que acompanham estes procedimentos.

Uma solução de desempenho de rede e de aplicativo fornece um método automatizado de peneirar os pacotes capturados, para encontrar os ruins. A solução usa uma abordagem centralizada no aplicativo, com uma interface gráfica que mostra cada fluxo de dados com um indicador visual para indicar problemas. O engenheiro simplesmente clicar nele para detalhar e ver exatamente qual pacote ou pacotes tem um problema. Isso pode ser ainda mais auxiliado através da captura de pacotes em vários pontos da infraestrutura, para determinar onde o problema está. Isso exige a capacidade de realizar análise de múltiplos segmentos, disparando a captura de dados em vários pontos ao mesmo tempo e em seguida mesclar os resultados para fornecer todo o contexto.

Uma análise de causa-raiz eficaz pode ser conduzida em locais remotos ou no centro de dados, para ver se os problemas estão relacionados ao servidor ou aplicativo. Algumas ferramentas podem extrair informações de gerenciamento de servidores físicos ou virtuais, para revelar problemas de desempenho e recursos.

Ao coletar e analisar dados históricos granulares, o sistema de desempenho de rede e de aplicativo também permite que o engenheiro volte no tempo para rever os sintomas que ocorreram quando o problema apareceu pela primeira vez, permitindo que problemas intermitentes sejam identificados e resolvidos.


Otimização de rede

Uma solução de desempenho de aplicação e de rede fornece a visibilidade que os engenheiros precisam para documentar e auditar a saúde de sua rede corporativa. A solução também permite que os engenheiros detectem desempenho deficiente e identifiquem onde os caminhos dos aplicativos ou dos servidores estão mais lentos, para que os trajetos mais lentos e críticos sejam abordados. As informações obtidas podem ser usadas para priorizar projetos, como upgrades de servidor e criar o caso de negócios para aprovação. Também podem suportar a instalação de novos equipamentos e aplicações, ao verificar que o que foi feito funcionou e garantindo que não teve um impacto negativo no desempenho em outro lugar. Os dados também podem provar (ou não) o impacto das alterações à rede, como virtualização, otimização de WAN ou consolidação do centro de dados.



Sobre a NETSCOUT

A NETSCOUT SYSTEMS, INC. (NASDAQ: NTCT) é líder de mercado em soluções de garantia de serviço e segurança cibernética em tempo real para as mais exigentes redes de prestadores de serviço, empresas e governo. A tecnologia de inteligência de serviço adaptável (ASI) da NETSCOUT continuamente monitora o ambiente de entrega de serviço para identificar problemas de desempenho e fornece insights sobre ameaças de segurança baseadas em rede, ajudando as equipes a resolver rapidamente problemas que podem causar interrupções dos negócios ou afetar a experiência do usuário. A NETSCOUT proporciona visibilidade incomparável do serviço e protege a infraestrutura digital que suporta nosso mundo conectado.
 
 
Powered By OneLink