Em 30 de julho de 2024, a Microsoft enfrentou um apagão significativo em seus serviços Microsoft 365 e Azure, causado por um ataque de negação de serviço distribuído (DDoS). Este incidente, confirmado pela própria Microsoft, destacou vulnerabilidades críticas na infraestrutura da empresa e nos mecanismos de defesa implementados.
Dinâmica do Ataque DDoS
O ataque DDoS gerou um pico inesperado de utilização que afetou negativamente os componentes Azure Front Door (AFD) e Azure Content Delivery Network (CDN). Esses componentes experimentaram desempenho abaixo dos limites aceitáveis, resultando em erros intermitentes, tempo limite e picos de latência. Apesar dos mecanismos de proteção contra DDoS terem sido ativados, um erro na implementação das defesas amplificou o impacto do ataque em vez de mitigá-lo.
Serviços Afetados
Além do Microsoft 365 e PurView, o ataque impactou diversos outros serviços, incluindo:
-
Azure App Services
-
Application Insights
-
Azure IoT Central
-
Azure Log Search Alerts
-
Azure Policy
No total, o apagão durou cerca de 9 horas, afetando usuários globalmente e destacando a necessidade de uma revisão rigorosa das estratégias de mitigação de DDoS.
Resposta e Mitigação
A Microsoft implementou várias medidas para mitigar o impacto do ataque. Inicialmente, mudanças na configuração da rede foram realizadas para suportar os esforços de proteção contra DDoS. Failovers para caminhos de rede alternativos foram executados para fornecer alívio. Embora as alterações iniciais tenham mitigado a maior parte do impacto às 14:10 UTC, alguns clientes continuaram a relatar menos de 100% de disponibilidade até que uma abordagem de mitigação revisada fosse implementada em todas as regiões.
Revisão Pós-Incidente
A Microsoft anunciou que realizará uma Revisão Preliminar Pós-Incidente (PIR) dentro de aproximadamente 72 horas para compartilhar mais detalhes sobre o que aconteceu e como responderam ao incidente. Uma revisão final está prevista para ser publicada em duas semanas, com o objetivo de identificar o que deu errado e como melhorar as respostas futuras a tais incidentes.