Trusted by 1,000+ teams
Stop finding out about outages from your users. Monitor 6,320+ cloud services and get alerted the second something breaks.
Incidente resolvido.
Após monitoramento do produto foi possível constatar que todos os indicadores normalizaram e os relatos de lentidão cessaram completamente. Como próximos passos, vamos elaborar um relatório de post-mortem e atuar em ações para mitigar os riscos de recorrência de incidentes como o de hoje. Até o momento, a causa raiz provável é uma instabilidade interna na Azure.
Atualização do caso: o Hiper Gestão é hospedado em uma infraestrutura distribuída. São 14 clusters no total, cada cluster possui uma quantidade variável de servidores que escalam sob demanda. Para garantir a disponibilidade do produto, cada cluster conta com uma capacidade reservada e minimamente alocada que atende com folga o uso normal que temos. Se for necessário atender mais requisições, temos automações que garantem a escalabilidade de recursos.
O evento de agora à tarde impactou o cluster principal, por volta das 15h25, todos os servidores tiveram um consumo abrupto de CPU. Fato que é este consumo não veio acompanhado de um aumento de tráfego, evidenciando uma possível falha interna na Azure, que está sob análise neste momento.
Como o cluster apresentou falha, mesmo escalando mais servidores, os mesmos não atendiam adequadamente o tráfego. Para mitigar o impacto, utilizamos o cluster de redundância, ao alocar novos servidores e migrar o tráfego para o cluster de redundância, os indicadores começaram a normalizar por volta das 16h20.
Estamos atuando ainda para confirmar a causa raiz e tratar qualquer impacto residual deste incidente, tendo em vista que ao restabelecer o acesso ao produto, todo o tráfego que ficou "represado" passou a ser processado.
Vamos seguir atuando, mantendo a página de status atualizada. Sabemos o impacto que essas situações geram e estamos empenhados em garantir que essas situações não ocorram, e que se ocorram, que estejamos preparados para lidar com elas.
Impacto: sem impacto no momento.
Atualização do caso: após adotar as ações de contingência, foi possível normalizar os indicadores de CPU e tempo de resposta do produto. Seguimos atuando com o objetivo de identificar a causa raiz.
Impacto: lentidão no acesso ao Hiper Gestão.
Descrição do caso: identificamos um alto consumo de CPU nos servidores de hospedagem do Hiper Gestão à partir das 15h25 de hoje, estamos neste momento atuando para mitigar os impactos deste problema. Identificamos também uma falha na região da Azure onde os recursos estão hospedados que está impedindo a alocação de mais recursos.
Impacto: lentidão no acesso ao Hiper Gestão.
With IsDown, you can monitor all your critical services' official status pages from one centralized dashboard and receive instant alerts the moment an outage is detected. Say goodbye to constantly checking multiple sites for updates and stay ahead of outages with IsDown.
Start free trialNo credit card required · Cancel anytime · 6320 services available
Integrations with