01 - Falhas | NOTES Base

No contexto do modelo FCAPS (acrônimo para Fault, Configuration, Accounting, Performance and Security), a Gerência de Falhas é apresentada pelas fontes como uma das cinco áreas funcionais essenciais para o gerenciamento sistemático de qualquer infraestrutura de rede.

Abaixo, os detalhes sobre como as fontes descrevem esse pilar:

1. Definição e Objetivos

A gerência de falhas é a área especializada em quatro ações fundamentais para manter a estabilidade operacional da rede:

Detecção: Identificar que algo está errado ou fora do padrão esperado.
Isolamento: Localizar precisamente onde o problema está ocorrendo para evitar que ele afete outros segmentos.
Notificação: Alertar os administradores ou sistemas de monitoramento sobre a ocorrência do problema.
Correção: Executar os procedimentos técnicos necessários para restabelecer a normalidade dos serviços.

2. Importância do Monitoramento Contínuo

As fontes enfatizam que a gerência de falhas não deve ser um desejo, mas uma meta realizada por meio de um acompanhamento sistemático.

Isolamento Rápido: O acesso imediato e contínuo a ferramentas de monitoração é vital para isolar uma falha rapidamente, permitindo que medidas corretivas sejam tomadas com agilidade.
Visibilidade em Tempo Real: Dependendo da criticidade da rede (como em operadoras de telecomunicações), a gerência de falhas exige um regime 24x7x365 com suporte constante, utilizando ferramentas que mostrem o desenvolvimento da rede em tempo real.

3. Natureza das Falhas e Incidentes

As falhas que a gerência busca mitigar podem ter diversas origens, nem todas provocadas intencionalmente por agentes maliciosos. Elas são classificadas como:

Incidentes Naturais: Como enchentes, incêndios ou sismos que afetam o hardware físico.
Falhas Técnicas: Incluem falta de energia, falhas de hardware e bugs de software.
Erros Humanos: Entrada de dados incorreta ou falhas de procedimento por parte de usuários legítimos.

4. Ferramentas de Suporte

Para que a gerência de falhas seja efetiva, as fontes mencionam o uso de ferramentas de monitoração e diagnóstico que acompanham parâmetros como disponibilidade e latência:

PRTG, Nagios e Zabbix: Softwares que executam verificações periódicas em serviços (como HTTP ou SMTP) e recursos de hardware (como carga de CPU), alertando via e-mail ou SMS quando uma falha é detectada.
Protocolo SNMP: É o padrão universal utilizado por essas ferramentas para coletar informações de estado e erros dos equipamentos de rede de forma aberta e padronizada.

Em resumo, enquanto a Gerência de Segurança foca em restringir acessos e prevenir ataques, a Gerência de Falhas atua na linha de frente para garantir que a rede permaneça funcional, reagindo de maneira estruturada a qualquer interrupção técnica ou física.