Fundo em degradê azul e roxo com ilustração de um símbolo de urgência e pessoal com ferramentas para lidar com o incidente e o texto: Incidente grave em TI: o que é, como evitar e o que fazer

Incidentes de TI são inevitáveis, ainda mais quando se lida com tantas tecnologias no dia a dia, com cada vez mais dispositivos sendo necessários nos ambientes de trabalho.

É claro que quando um incidente ocorre, ele já deve ser considerado urgente, afinal, está prejudicando a continuidade de um serviço. Mas cada incidente tem suas peculiaridades, impactando mais ou menos a continuidade das atividades. Estes são os incidentes graves.

Neste artigo, vamos entender o que são os incidentes graves e quais os impactos que eles trazem para as empresas.

Incidente grave: o que é?  

É um dia de semana, meio da tarde, quando sua equipe de TI começa a receber diversos tickets de clientes reclamando que o site de compras da sua organização está instável, não possibilitando o fechamento de compras.

Se este caso acontecesse somente com 1 cliente, poderia ser algo relacionado especificamente a ele, como instabilidade em sua rede. Mas se há vários chamados sendo abertos, o problema não são os usuários, certo?

Essa situação é um incidente grave, definido como um evento não planejado que interrompe um serviço, podendo variar sua emergência para para alta ou crítica.

No exemplo acima, podemos dizer que é um incidente grave com urgência alta, uma vez que traz um impacto de perda para a empresa, já que vários usuários não estão conseguindo usar o serviço de compras.

Mas imagine a mesma situação na Black Friday, um dia de extremo lucro para empresas e de grande fluxo de clientes. O impacto seria muito maior, trazendo mais prejuízo financeiro e até de reputação para a empresa. Assim, o incidente passaria de emergência alta para crítica.

Um incidente grave pode afetar os serviços de uma corporação de duas formas: impedindo o acesso de clientes ou interrompendo a disponibilidade dos recursos dos colaboradores, impossibilitando que eles façam seu trabalho.

Um incidente grave sem uma equipe de TI bem preparada para lidar com a situação e a controlar para retomar os serviços o mais rápido possível pode gerar impactos grandiosos para empresas, principalmente financeiro quando a inatividade se estende por muito tempo.

Estágios de um incidente grave 

O processo de gerenciamento de incidentes graves pode ser dividido em alguns estágios, sendo 4 deles os principais.

Identificação

A primeira etapa é a identificação, ou seja, o processo de descoberta do incidente, que acontece em uma ferramenta de service desk com o recebimento de tickets. No momento que a equipe de TI identifica que há um ticket aberto, terá que verificar se é um ticket com incidente grave ou não. A partir deste reconhecimento, será analisada a urgência e então feito o encaminhamento para o técnico adequado.

É importante lembrar que o tempo de identificação é crucial para determinar o impacto que o incidente terá. Em um caso de invasão, por exemplo, segundos podem fazer toda a diferença no roubo de informações. Ter mecanismos de alertas de incidentes é essencial para uma detecção rápida.

Contenção 

Neste passo, o técnico ou equipe definida irá utilizar processos e ferramentas para conter o incidente. Ter um plano de resposta a incidentes já implementado é essencial, pois a equipe estará preparada e saberá o que fazer, quais passos seguir e como proceder na situação.

Este é o momento em que se deve isolar o incidente para que ele não se espalhe pelo ambiente. Existem dois tipos de contenção, a curta e longa. Enquanto a primeira se trata de uma ação mais imediata para conter os danos, a segunda são as ações que irão restabelecer a ordem no sistema.

Resolução 

Na etapa 3, é o momento de fazer as correções para que seja feita a resolução. Depois de toda a análise e definido o plano de ação, é o momento de colocar em prática para que os serviços sejam retomados em sua total funcionalidade o mais rápido possível.

Manutenção 

Por fim, aqui é o fechamento do ticket, certificando-se de que o usuário está satisfeito e o incidente resolvido. Depois, é o momento de fazer a análise geral do processo. O que ocasionou o incidente grave? Quais medidas foram tomadas? Havia algo que podia ser feito para ser evitado?

Com base na resolução, também é possível criar um processo para este tipo de incidente, tornando a ação mais rápida em caso de novos ocorrerem e até mesmo implementar ações proativas. Para a equipe técnica, é possível criar um passo a passo e inserir na base de conhecimento para tornar acessível para outros.

Equipe de incidentes graves: porque é importante ter?

Cada empresa possui uma cultura e organização própria, podendo variar uma da outra.  Porém, há algumas funções e responsabilidades que são centrais e essenciais para se lidar com incidentes graves.

 Técnico do service desk 

O técnico do service desk é o primeiro contato com o incidente, já que é ele que irá receber o ticket. É de sua responsabilidade analisar o chamado e distribuir para o gerente de incidentes.

Gerente de incidentes graves 

O gerente de incidentes graves é o responsável por ele. Seu papel é declarar o incidente como grave, assim como seu nível de urgência, e determinar o processo que será seguido para a sua resolução. Ele é ponto central para a equipe que está trabalhando no ticket.

Equipe técnica 

A equipe técnica é a responsável pela infraestrutura e operações da empresa. Assim, a equipe é essencial para auxiliar o gerente de incidentes na resolução do chamado, implementando uma que seja eficaz e processos que ajudem de mitigação de incidentes.

Gerente de mudanças 

O gerente de mudanças é proprietário da alteração criada para implementar a correção para o incidente grave. Seu papel é ser responsável por esta mudança, garantindo que ela foi aprovada.

Gerente de problemas 

O gerente do problema tenta determinar as causas-raiz do incidente e garantir que ele não ocorra novamente ou, se ocorrer, haja um processo para minimizar seus efeitos e um plano de ação rápido.

5 melhores práticas de gerenciamento de incidentes graves 

Em incidentes graves, o tempo é primordial. Há algumas práticas que são simples, mas que se aplicadas eficientemente, agilizam o processo de resolução.

Canais para relatar incidentes graves

A empresa deve oferecer aos usuários várias formas de relatar incidentes, facilitando a abertura de tickets. Quanto mais cedo um chamado for aberto e chegar até o gerente de incidentes, mais rápido o processo de resolução poderá ser iniciado. Criação de tickets por e-mail, portais na web ou para suspeita de incidentes graves, uma linha direta, facilitam para os clientes a abertura de chamados.

Automação de processos no service desk 

A automação no service desk traz maior eficiência, uma vez que evita tarefas repetidas e cria fluxos de trabalho de incidentes graves, tendo um processo definido para estes tickets que irão automaticamente para uma determinada equipe.

O ServiceDesk Plus da ManageEngine possui automação de regras de negócios com critérios pré-definidos e fluxos de trabalho em cascata e  atribuição automática de tickets para técnicos.

Comunicação precisa 

A comunicação durante o processo de resolução de um incidente grave é essencial, tanto para a equipe que está trabalhando em sua resolução, quanto para o usuário que espera pelo seu serviço ser restabelecido.

O gerente de incidentes precisa estar informado para obter aprovações e permissões necessárias para corrigir o incidente grave. A comunicação rápida garante que todo o time esteja na mesma página e permite uma colaboração eficaz. Para os usuários finais, a informação é necessária para saberem de tempos de inatividade e se o SLA está sendo mantido.

Criação de uma documentação clara 

Documentações claras auxiliam o gerente de incidentes a registrar tudo o que ocorreu com o incidente grave, desde a abertura do ticket até o seu fechamento, com detalhes como impacto, serviços afetados, o que foi feito para resolver, tempo para resolução e o que mais for relevante. Com isso, é possível criar um processo para incidentes parecidos no futuro.

Integrações com ferramentas de monitoramento de redes  

Ações proativas são uma das melhores linhas de defesa para incidentes. Ter ferramentas que façam a detecção de anomalias e sinalizem com antecedência é vital, pois uma pequena anomalia pode se transformar em um incidente grave. Soluções que monitoram redes, servidores, uso de aplicações e possuem uma visibilidade abrangente trará uma camada de proteção a mais.

Gerenciamento de incidentes graves com Service Desk Plus 

O Service Desk Plus da ManageEngine é uma solução completa de ITSM para o gerenciamento de serviços empresariais, possuindo o recurso de gerenciamento de incidentes.

Seu gerenciamento de incidentes possibilita a automação dos fluxos de trabalhos de tickets, suporte multicanal, atribuição de tickets automaticamente, atendimento de SLA dentro do prazo e possui base de conhecimento. Faça um teste gratuito agora mesmo!