terça-feira, 5 de outubro de 2021

O que derrubou o Facebook

Facebook Datacenter

Demorou cerca de seis horas, um novo recorde para o tempo de inatividade do Facebook, mas finalmente voltou. O que aconteceu?

O velho ditado sobre solução de problemas de rede é, quando algo dá errado, "é DNS". Desta vez, o  Domain Name Server (DNS) parece ser a causa raiz da falha global do Facebook.  A verdadeira causa é que não havia rotas do Border Gateway Protocol (BGP) funcionando para os sites do Facebook.

BGP é o protocolo de gateway externo padronizado usado para trocar informações de roteamento e acessibilidade entre os sistemas autônomos de nível superior (AS) da Internet. A maioria das pessoas, na verdade a maioria dos administradores de rede, nunca precisa lidar com o BGP.

Muitas pessoas perceberam que o Facebook não estava mais listado no DNS. Na verdade, houve postagens de piadas oferecendo a você o domínio do "Facebook.com"

Há relatos de que os funcionários do Facebook não puderam entrar em seus prédios porque seus crachás e portas "inteligentes" também foram desativados por essa falha de rede.

O usuário do Reddit u/ramenporn, que alegou ser um funcionário do Facebook trabalhando para trazer a rede social de volta dos mortos, relatou, antes de excluir sua conta e suas mensagens, que "DNS para serviços FB foi afetado e isso é provavelmente um sintoma do problema real, o peering de BGP com roteadores de peering do Facebook cairam, muito provavelmente devido a uma mudança de configuração que entrou em vigor pouco antes das interrupções acontecerem (começou aproximadamente 1540 UTC)."

Ele continuou: "Existem pessoas agora tentando obter acesso aos roteadores de peering para implementar correções, mas as pessoas com acesso físico são separadas das pessoas com conhecimento de como realmente se autenticar nos sistemas e as pessoas que sabem o que realmente fazer, portanto, agora há um desafio logístico de unificar todo esse conhecimento. Parte disso também se deve ao menor número de funcionários nos data centers devido às medidas pandêmicas."

Ramenporn também afirmou que não foi um ataque, mas uma alteração de configuração incorreta feita por meio de uma interface da web. O que realmente fede - e porque o Facebook ainda está fora do ar horas depois - é que, como o BGP e o DNS estão fora do ar, a "conexão com o mundo externo caiu, o acesso remoto a essas ferramentas não existe mais, então o procedimento de emergência é obter acesso físico aos roteadores de peering e fazer toda a configuração localmente." Obviamente, os técnicos no local não sabem fazer isso e os administradores de rede sênior não estão no local. Resumindo, esta é uma grande bagunça.

O Facebook não foi imediatamente informado sobre o que havia de errado e como o problema foi resolvido. Horas depois que o Facebook e todos os seus serviços relacionados foram desativados, o CTO do Facebook Mike Schroepfer twittou: "Estamos enfrentando problemas de rede e as equipes estão trabalhando o mais rápido possível para depurar e restaurar o mais rápido possível." Posteriormente, quando o Facebook começou a voltar, ele acrescentou: "Os serviços do Facebook estão voltando online agora - pode levar algum tempo para chegar a 100%. Para todas as pequenas e grandes empresas, famílias e indivíduos que dependem de nós, sinto muito."

Nenhum comentário:

Postar um comentário