Tecnologia

Microsoft registra perda de 30% na capacidade do Azure Front Door por erro em Kubernetes

Microsoft
Foto: Microsoft - Foto: bluestork / Shutterstock.com

Uma interrupção nos serviços da Microsoft Azure ocorreu na manhã desta quinta-feira, 9 de outubro de 2025, afetando o acesso ao Portal do Azure e ao Microsoft Entra em diversas regiões. A empresa identificou o problema como uma perda de capacidade de cerca de 30% nas instâncias do Azure Front Door, causada por falhas em dependências de Kubernetes. O incidente começou às 7h40 UTC, com impactos concentrados na Europa, Oriente Médio e África.

Engenheiros da Microsoft detectaram a anomalia por meio de monitoramento interno e iniciaram ações de correção imediata. Regiões como Norte da Europa, Oeste da Europa e África do Sul registraram atrasos e timeouts em conexões. Usuários relataram dificuldades para logar em portais administrativos e acessar recursos do Microsoft 365.

A falha não decorreu de uma atualização recente, mas de instâncias subjacentes do Kubernetes que entraram em colapso. A Microsoft descartou implantações como gatilho do evento e priorizou a restauração manual.

Regiões mais afetadas pela perda de capacidade

Clientes na Europa Ocidental enfrentaram timeouts prolongados ao tentar acessar o Portal do Azure. A rede de distribuição de conteúdo do Azure Front Door, responsável por rotear tráfego global, registrou instabilidade em pontos de presença locais.

África do Sul e Oriente Médio viram impactos semelhantes, com cerca de 30% das instâncias inoperantes. Serviços como balanceamento de carga e aceleração de aplicações web foram diretamente afetados.

A Microsoft informou que o monitoramento contínuo permitiu identificar a dependência problemática em Kubernetes rapidamente.

Kubernetes
Kubernetes – Foto: Laylistique / Shutterstock.com

Ações de engenharia para restauração

Equipes técnicas reiniciaram as instâncias afetadas do Kubernetes em etapas coordenadas. O processo incluiu verificações para evitar propagação de falhas a outros componentes.

  • Reinício sequencial de nós para minimizar downtime;
  • Monitoramento em tempo real de recuperação de capacidade;
  • Failover para instâncias redundantes em regiões adjacentes.

A maior parte dos serviços voltou ao normal em poucas horas, com 98% da capacidade restaurada até o meio-dia UTC.

Dependência do Kubernetes no Azure Front Door

O Azure Front Door utiliza Kubernetes para orquestrar componentes de controle e dados em sua infraestrutura de borda. Essa configuração permite escalabilidade global, mas expõe riscos quando instâncias falham simultaneamente.

Falhas em orquestradores como Kubernetes podem cascatear para roteamento de tráfego e acessos a portais. A Microsoft destacou que o design inclui redundâncias, mas a recuperação manual foi necessária neste caso.

Engenheiros validaram a estabilidade pós-reinício, garantindo que o tráfego flua sem interrupções adicionais. O serviço gerencia bilhões de requisições diárias, tornando a resiliência essencial para operações empresariais.

Impactos em serviços do Microsoft 365

Usuários do Microsoft 365 relataram erros de conexão em ferramentas administrativas. O Portal do Microsoft 365 sofreu atrasos, afetando tarefas como gerenciamento de assinaturas.

  • Acessos ao Entra ID apresentaram timeouts em autenticações;
  • Aplicativos web como Outlook e Teams tiveram lentidão intermitente;
  • Cancelamentos de serviços, como Game Pass, foram bloqueados temporariamente.

A interrupção destacou a interconexão entre CDN e ecossistema de produtividade.

Recuperação e status atual dos serviços

A Microsoft executou um failover no Portal do Microsoft 365 para acelerar a restauração. Até as 12h33 UTC, apenas 4% dos clientes inicialmente impactados permaneciam com restrições.

Engenheiros confirmaram a recuperação total da maioria dos recursos afetados. O monitoramento indica estabilidade, com capacidade plena em regiões europeias.

A empresa planeja uma análise interna para refinar mecanismos de recuperação automática em futuras instâncias de Kubernetes.

Lições de falhas anteriores em nuvem

Incidentes semelhantes ocorreram em julho de 2025, com problemas no Azure Front Door afetando rotas globais. Aquela falha envolveu configurações de rede e levou a mitigações em zonas de disponibilidade.

Em setembro, uma interrupção no Azure Kubernetes Service impactou operações de cluster em múltiplas regiões. Esses eventos reforçam a necessidade de testes rigorosos em orquestradores.

  • Ajustes em throttling para controlar picos de chamadas intra-serviço;
  • Ferramentas internas para drenagem de backlogs durante incidentes;
  • Alertas proativos via Azure Advisor para APIs depreciadas.

A recorrência sublinha a complexidade de arquiteturas híbridas em nuvem.