Amazon krizi: Bulut sunucusundaki hata otomasyon yazılımı kaynaklı
Amazon, bu hafta yaşanan ve çevrimiçi bankacılık, bir hükümet sitesi, sosyal medya platformları ile yemek sipariş servisleri gibi birçok hizmeti saatlerce durduran bulut bilişim kesintisinin nedenini açıkladı.
Amazon Web Services'in (AWS) internet sitesinde yayınlanan ayrıntılı bir açıklamada, "otomasyon yazılımındaki bir hatanın zincirleme sorunlara yol açtığı" belirtildi.
Sorunun kökeninde, müşterilerin –Signal gibi şirketler dahil– müşteri verilerini depolayan DynamoDB sistemine bağlanamaması yatıyordu.
AWS, bu durumun “servisin otomatik DNS [alan adı sistemi] yönetim sistemindeki gizli bir hata” nedeniyle meydana geldiğini ifade etti.
DNS, internetin telefon rehberi olarak düşünülebilir. www.amazon.com gibi website adlarını, bilgisayarların ağ üzerinde birbirini bulmak için kullandığı IP adreslerine çeviriyor.
Fakat AWS’nin otomasyon sistemi, bölgesel uç noktası için DNS kayıtlarını sildi ve bu nedenle DynamoDB ile diğer hizmetlere bağlantı kurulamadı.
Hata, otomatik olarak düzelmedi ve manuel müdahale gerektirdi.
Bu sorunlar, Amazon’un Kuzey Virginia bölgesindeki birçok temel AWS hizmetini etkiledi; bu bölgede Amazon’un bir merkezi de bulunuyor.
Sorunlar birkaç saat içinde çözülse de web siteleri ve uygulamalar üzerindeki toplam etki 14,5 saat sürdü. Sekiz milyondan fazla kişi sorun bildirdi.
Downdetector’a göre, Signal, Roblox, Snapchat ve İngiltere'ye ait bir kamu kurumunun web sitesi, diğer iki bin kurum arasındaydı.
Bu olay, kısaca “bulut” olarak da bilinen bulut bilişime yönelik aşırı bağımlılığın günümüz sistemlerini ne kadar kırılgan hale getirdiğini gözler önüne seriyor.
Today