Trusted by 1,000+ teams
Stop finding out about outages from your users. Monitor 6,320+ cloud services and get alerted the second something breaks.
Resumo Executivo Pós Incidente
Este incidente resultou em alta latência e erros intermitentes na funcionalidade de visualização de detalhes de processos, afetando a experiência de uso de uma parcela de nossos clientes.
A instabilidade foi detectada via monitoramento automático, que apontou uma degradação severa na performance das consultas ao banco de dados. Durante o período de ocorrência entre 15h22 e 16h15, os usuários enfrentaram lentidão significativa ou falhas ao tentar acessar informações específicas em nossa plataforma, embora as demais funcionalidades tenham permanecido operacionais.
Causa Raiz e Resolução:
A investigação identificou que a causa raiz foi a ativação de uma nova configuração de funcionalidade (feature flag) para um cenário de alto volume de dados. Esta configuração acionou uma consulta ao banco de dados que não utilizava os filtros de partição adequados, forçando o sistema a realizar varreduras completas em todas as tabelas a cada requisição, o que sobrecarregou a memória das réplicas de leitura. A situação foi mitigada através do redirecionamento do tráfego para réplicas secundárias e, definitivamente, resolvida com a desativação da configuração ofensora. O serviço foi totalmente estabilizado e o desempenho das consultas normalizado após a correção da lógica de busca.
Incidente sendo monitorado em fase de normalização
Resumo e Impacto: Informamos que o acesso à visualização de detalhes de processos passou por uma breve instabilidade, resultando em respostas mais lentas do que o habitual para alguns usuários.
Nossa equipe identificou o comportamento rapidamente e trabalhou para restabelecer a fluidez da plataforma.
Desde as 16:15, o sistema opera com estabilidade e o desempenho já retornou aos padrões de normalidade, garantindo uma experiência de uso adequada a todos os nossos clientes.
Causa e Resolução: A oscilação ocorreu devido à implementação de uma atualização que demandou um esforço de processamento acima do esperado em nossa base de dados.
Como medida imediata, pausamos a nova função e ajustamos a distribuição de carga entre nossos servidores para aliviar o sistema. Com essas ações, a navegação foi normalizada.
Seguimos monitorando o ambiente para assegurar a continuidade do serviço e a melhor performance em todas as funcionalidades.
Atualização do Incidente:
Identificamos uma sobrecarga na camada de dados que está causando latência e erros intermitentes nas funcionalidades de detalhes dos processos.
Como medida imediata, redirecionamos o tráfego para uma infraestrutura de banco de dados secundária e reiniciamos os serviços afetados.
O sistema ainda apresenta sinais de instabilidade e nossa engenharia segue em análise de causas e medidas corretivas.
Voltaremos em breve com atualizações.
Em investigação:
Nossa equipe de monitoramento identificou um aumento de latência a com impacto em todas as capacidades IDcloud.
Em breve voltamos com mais atualizações.
Atenciosamente, Equipe Unico
With IsDown, you can monitor all your critical services' official status pages from one centralized dashboard and receive instant alerts the moment an outage is detected. Say goodbye to constantly checking multiple sites for updates and stay ahead of outages with IsDown.
Start free trialNo credit card required · Cancel anytime · 6320 services available
Integrations with