In der Nacht von Dienstag auf Mittwoch (06.02.24 - 07.02.24) ist in der Wurzner Straße der Strom ausgefallen und hat uns eine ungeplante Downtime geschenkt.
Unser Kernnetz, sowie die Kundenanschlüsse, sind nach dem Stromausfall von selbst wieder hochgefahren.
Allerdings mussten wir bei beiden Hosting-Servern manuell eingreifen und bis in die Mittagsstunden des Folgetages Entstörungen durchführen.
Seit 2024.02.07 14:30 CET ist das Reudnetz wieder uneingeschränkt online.
sol ist nach dem Freischalten der full-disk-encryption
ohne Netzwerkkonnektivität gebootet.
Eine fehlkonfigurierte Boot-Partiton hat einen veralteten Linux-Kernel gebootet für den das OS keine Kernel-Module mehr bereitgestellt hat.
Durch die fehlenden Module konnte sol seinen Netzwerk-Stack nicht konfigurieren da hierfür (unteranderem) das bonding
Modul für 802.3ad (LACP) benötigt wird.
sol konnte über das IPMI entstört werden.
Der Grund für die defekte Boot-Partiton war eine Wartung im Juni 2023.
Beim Austausch der HDDs in sol gegen SSDs wurde die Bootpartition per dd
kopiert.
Durch die gleichen FS/UU-IDs hat der Kernel das /boot auf der SSD gemountet, welches nicht in der Firmware als Boot-Device hinterlegt war.
Somit haben sich das Boot-Device und die eigentliche /boot-Partition immer weiter voneinander entfernt.
Die Festplattenverschlüsselung von hyper01 und sol musste manuell durch einen admin freigeschaltet werden.
Das ist 11 Stunden nach Ende des Stromausfalls passiert.
Aufgrund von Netzteilproblemen ist hyper01 nicht automatisch gestartet.
Weder die Betätigung des power-buttons
, noch das IPMI konnten den Server starten.
Aus Energieeffiziengründen wird hyper01 nur mit einem Netzteil betrieben. Der Wechsel auf das Ersatznetzteil hat dem Server dann zum Starten verholfen.
In den folgenden Pläna werden wir erarbeiten an welchen Stellen wir Verbesserungen erzielen können um diese Form von Ausfall zu verhindern.
mail [at] reudnetz [dot] org