Rozgrzewka przed bootcampem edycja 2017.04 – część 2

Nasz fikcyjny opertor “BFD” z przydzielonym AS109 przeżywa bardzo gwałtowny rozwój. Jeszcze w zeszłym roku startował posługując się wzorcem wręcz skopiowanym z jednej z popularnych stron dla inżynierów sieciowych, a dzisiaj nie nadąża już z podłączaniem klientów w poszczególnych POPach. AS109 posiada dwa styki z operatorami nadrzędnymi – do AS100 i AS200. Jednym z bardziej istotnych elementów świadczonych usług przez AS109 i znajdujące się w nim DC jest AS70 – siedzi tam bardzo dużo “eyeballsów”, jak operatorzy popularnie (i nieco kolokwialnie) mówią na użytkowników. AS109 streamuje do nich bardzo dużo treści wideo, udostępnia również bardzo dużo innych usług “ciężkich” dla pasma. I robi na tym doskonały biznes.

Zadanie #2 - BGP

Zadanie #2 – BGP

Niestety, szybkiemu rozwojowi zaczęły towarzyszyć problemy.

Najpierw awarii uległ jeden z POPów (AS109 posiada ich już ponad 100), co spowodowało ogromne problemy w całym AS 109. Pośpiesznie zwołana komisja od kopiowania konfiguracji z internetu uznała, że połączenie EIGRP, OSPF i IS-IS w sieci szkieletowej to nie jest dobry pomysł. Przejście w całej sieci na IS-IS rozwiązało problem – dla zachowania najlepszych praktyk (znowu – tak pisali na jednym portalu) wszystkim połączeniom w AS109 ustawiono koszt 100. Sytuacja wydawała się ustabilizowana.

Problemem jednak z czasem zaczęło być obciążenie procesorów na DC-PE-S1 i DC-PE-S2. Routery te tradycyjnie w sieci AS 109 pełniły funkcje BGP Route Reflectorów (“nie idźcie w konfederacje, straszny syf z migracją potem” – jak doradził im jeden z utytułowanych inżynierów od popularnego producenta). Od czasu do czasu zaczęły jednak dobijać do 100% obciążenia a rzekoma separacja control od data plane (obiecywana przez producenta na wielu sesjach przy pizzy i dużej ilości kuszących swoją elegancją slajdów) skończyła się wielokrotną wizytą w serwerowni o najróżniejszych godzinach dnia i nocy z misją “znajdź i zrestartuj, bo już nawet konsola nie działa”.

Za namową innego dostawcy CEO (przy niechętnych spojrzeniach CFO i COO) zainwestował w wirtualny BGP Route Reflector i serwery, na których został on zainstalowany w DC. Z czasem jednak okazało się, że po kolejnych zmianach sieć niby pracuje, ale nawet podwójny link między AS109 a AS200 jest ciągle przeciążony.

Jakie jesteś w stanie wskazać najbardziej prawdopodobne źródło problemu?

Jak powinno się problem rozwiązać?

Facebooktwittergoogle_plusredditpinterestlinkedinmail