Kluczowe dania na wynos
- Problemy techniczne Facebooka były niefortunne, ale problem prawdopodobnie zostałby rozwiązany znacznie szybciej, gdyby nie opierał się na tak wielu połączonych systemach.
- Nie ma sposobu, aby całkowicie zapobiec awariom systemu, ale są sposoby na zmniejszenie ich prawdopodobieństwa.
- Mając plany tworzenia kopii zapasowych na czas (nie wtedy, kiedy) system ulegnie awarii, może stanowić różnicę między „irytującym” a „katastrofalnym”.
Niedawna klęska Facebooka pokazuje, jak połączone systemy mogą zawieść i dlaczego nie powinniśmy ich używać do wszystkiego.
Utrata Facebooka, WhatsAppa i Instagrama na kilka godzin w poniedziałek była niewygodna, szkodliwa dla firm, a w niektórych przypadkach wręcz katastrofalna. Według Facebooka było to spowodowane zmianami w konfiguracji routerów koordynujących jego sieć.
To rozsądne wytłumaczenie, ale fakt, że jeden taki błąd może spowodować zatrzymanie nie tylko Facebooka, ale i innych systemów należących do Facebooka, jest nieco niepokojący.
Jedna nieprawidłowa zmiana konfiguracji routera spowodowała, że wiele usług, a nawet gogle VR, całkowicie przestały działać. Co więcej, jak sam przyznaje Facebook, miało to również kaskadowy wpływ na komunikację między centrami danych firmy, powodując zatrzymanie wszystkich usług.
„Poleganie na połączonych systemach niesie ze sobą nieodłączne ryzyko awarii systemu, a nawet usługi” – powiedział Francesco Altomare, starszy inżynier techniczny sprzedaży w GlobalDots, w rozmowie e-mailowej z Lifewire, "Aby przeciwdziałać temu zniechęcającemu ryzyku, firmy wykorzystują zasadę SRE (Inżynieria niezawodności systemu), a także inne narzędzia, które zajmują się różnymi poziomami nadmiarowości wbudowanymi w każdą warstwę infrastruktury systemu."
Co może pójść nie tak
Warto zauważyć, że gdy taki system zawiedzie, zwykle wymaga to doskonałej burzy rzeczy, które pójdą źle. To mniej jak domek z kart czekający na upadek, a bardziej jak odsłonięty wylot termiczny na stacji kosmicznej wielkości małego księżyca.
Większość firm podejmuje kroki, aby upewnić się, że jedyna rzecz, która może wprowadzić wszystko w chaos, nigdy się nie wydarzy - ale niezależnie od tego, może się wydarzyć.
„Nieoczekiwane awarie są częścią biznesu i mogą powstać w wyniku zaniedbań pracowników, usterek sieci dostawcy usług internetowych, a nawet problemów z usługami przechowywania w chmurze” - powiedziała Sally Stevens, współzałożycielka FastPeopleSearch, w wywiad e-mailowy.
"…Tak długo, jak zostaną podjęte niezbędne kroki w celu ochrony systemu, takie jak tworzenie kopii zapasowych, router na miejscu i dostęp warstwowy, awarie te są mało prawdopodobne." Chociaż nawet z armią bezpiecznych zabezpieczeń, nadal istnieje możliwość, że podpora zawiedzie.
Jeśli system kontrolujący takie rzeczy jak podstawowe formy kontaktu, urządzenia, drzwi itp. zawiedzie, wyniki mogą być znaczące. Od łagodnych niedogodności do katastrofalnych katastrof, w zależności od tego, jak bardzo ludzie i firmy polegają na tym wszystkim.
„Istnieje również ryzyko, że hakerzy dostaną się do systemu z najmniej chronionych urządzeń, takich jak lodówki i tostery”, dodał Stevens, „co może prowadzić do kradzieży danych i oprogramowania ransomware”.
Jak możemy się przygotować
Nie ma sposobu, aby zagwarantować, że system nigdy nie ulegnie awarii, ale istnieją kroki, które można podjąć, aby albo zmniejszyć prawdopodobieństwo awarii, albo sprawniej rozwiązać awarię. Idealne byłoby połączenie tych dwóch podejść, które łączą zabezpieczenia i środki zaradcze z planami awaryjnymi i systemami zapasowymi.
„W celu wyeliminowania tych zagrożeń stwarzanych przez produkty i usługi innych firm, które są skutecznie obsługiwane, należy ściśle określić role i obowiązki dotyczące zarządzania ryzykiem stron trzecich” - powiedziała Daniela Sawyer, założycielka i dyrektor ds. technologii FindPeopleFast, w e-mailowym wywiadzie: „Aby rozwijać się w tym nowym otoczeniu, menedżerowie ryzyka muszą uchwycić podstawowe elementy tak wyrafinowanego ekosystemu”.
To, co stało się z Facebookiem, WhatsApp i Instagramem, było niefortunne, ale miejmy nadzieję, że otworzyło oczy. Ludzie, którzy polegają na połączonych systemach, muszą zrozumieć, że właściwa rzecz może zakłócić wszystko. Należy wprowadzić środki (lub przeanalizować i udoskonalić), aby takie zakłócenia były mniej prawdopodobne i miały mniejszy wpływ.
W przypadku Facebooka jego problemem nie były problemy z routerem, ale raczej posiadanie prawie całego ekosystemu połączonego ze wszystkim innym. W związku z tym, gdy Facebook (usługa) nie działał, Facebook (firma) musiał poświęcić znacznie więcej czasu i energii na zwykłe zorganizowanie i rozwiązanie problemu. Gdyby albo nie korzystał z tak głęboko zakorzenionego, połączonego systemu, albo miał plany tworzenia kopii zapasowych, aby poradzić sobie z taką awarią, naprawa prawdopodobnie zajęłaby znacznie mniej czasu.