Rechenzentren und Corona: Welche Lehren sind zu ziehen?

0
937
(Foto: Michael Jarmoluk, pixabay.com)

Die Pandemie hat die Schwächen des klassischen Rechenzentrumsbetriebs offengelegt. Beschaffung, Implementierung und Skalierung dauern zu lange und erfordern einen zu großen personellen Aufwand. Das muss sich ändern.

Die vergangenen Monate waren für die Betreiber öffentlicher Rechenzentren eine permanente Stresssituation. In kürzester Zeit mussten Heimarbeitsplätze eingerichtet und ausgebaut werden, waren Umgebungen für Fachverfahren und Lernplattformen zu skalieren. Das bedeutete oft auch die Beschaffung von Hardware – Server, Storage, Netzwerkkomponenten, Racks etc. – und Lizenzen für Hypervisoren und Datenbanken, um die Kapazitäten dem Bedarf entsprechend zu erhöhen.

Wie zeitraubend dieser Prozess ist, haben nicht zuletzt die Ausfälle der Lernplattformen in mehreren Bundesländern zum Beginn des zweiten Lockdowns vor Weihnachten gezeigt. Denn die einzelnen Komponenten der Infrastruktur, wenn sie einmal eingetroffen sind, müssen aufwändig aufeinander abgestimmt werden, damit die erforderliche Leistung durch optimierte Zugriffszeiten und optimale Bandbreiten, intern wie extern, tatsächlich erreicht wird. Bei diesem Vorgehen gibt es jedoch zwei Grenzen: Geld und personelle Ressourcen.

Beides sind für die Betreiber öffentlicher Rechenzentren knappe Ressourcen. Es dauert Wochen und teilweise Monate, um zum Beispiel eine Datenbankumgebung zu beschaffen, zu implementieren und in Betrieb zu nehmen. Dabei müssen die Administratoren darauf achten, dass die verschiedenen Komponenten so gut zusammenspielen, dass möglichst wenig Datenverkehr über das Netzwerk läuft und dass die Leistungsfähigkeit der Speicherhardware mit den Lastanforderungen auch bei steigender Nutzung mithalten kann.

Gerade wenn die Server, auf denen die Applikationen laufen, virtualisiert sind, also von ein und derselben Serverhardware viele Zugriffe auf unterschiedliche Datenbestände erfolgen, muss das Zusammenspiel mit den Speichermedien und dem Netzwerk sehr gut geplant und umgesetzt sein. Das erfordert Zeit und Spezialwissen. Beides treibt die Kosten und beansprucht die in öffentlichen Rechenzentren dünne Personaldecke in Zeiten wie diesen bis zum Zerreißen.

Die klassische Architektur hat ausgedient

In den allermeisten öffentlichen Rechenzentren sind klassische Drei-Schichten-In-frastrukturen im Einsatz. Das bedeutet, dass die einzelnen Schichten Speicher, Netzwerk und Server (nicht im Sinne von Hardware, sondern Dienstprogrammen) einerseits voneinander getrennt sind, andererseits perfekt aufeinander abgestimmt sein müssen. Zudem sind die einzelnen Schichten je für sich mit der Hardware fest verdrahtet. Daher können die Komponenten einer traditionellen Rechenzentrumsinfrastruktur nicht unabhängig voneinander modifiziert und modernisiert werden. Sie bilden Blöcke, die nur als Ganzes ersetzt werden können. Diese Blöcke sind Infrastruktursilos, die – wie ihre einzelnen Komponenten – aufeinander abgestimmt werden müssen.

Das erhöht die Komplexität und so die Anfälligkeit des Gesamtsystems, erhöhter Administrationsaufwand inklusive. Nur mit viel Geld, Personal und Zeit lassen sich die Ziele Skalierbarkeit und unterbrechungsfreier Betrieb mit solchen Silos erreichen. Außerdem ziehen sich die Planungs- und Beschaffungsprozesse in die Länge, denn in einer klassischen 3-Schichten-Architektur müssen die IT-Anforderungen in der Regel drei bis fünf Jahre im Voraus definiert werden – das Gegenteil von Flexibilität und dynamischer Anpassung an unvorhergesehene und unvorhersehbare Anforderungen.

Diese Hardwareabhängigkeit der traditionellen Drei-Schichten-Architektur von Rechenzentren ist die eigentliche Ursache dafür, sich nicht schnell genug und nur unzureichend an heutige Anforderungen anpassen zu können. Die Hardwareabhängigkeit ist der Flaschenhals in öffentlichen Rechenzentren. Da sie sich in einer klassischen Architektur nicht beseitigen lässt, hat das Drei-Schichten-Modell ausgedient.

Die Lösung des Problems besteht darin, die Komponenten einer Infrastruktur von der Hardware zu lösen und als Funktionalitäten einer von der Hardware abstrahierten Softwareschicht bereitzustellen. Das entsprechende Konzept heißt Hyperkonvergenz. Es hat zwei entscheidende Vorteile: Zum einen können Rechenzentrumsbetreiber selbst für höchste Arbeitslasten auf die Beschaffung von Spezialhardware verzichten und komplett auf Standardhardware setzen. Zum anderen stehen sämtliche Ressourcen nicht mehr als einzelne Silos, sondern als einheitlicher Pool zur Verfügung. Fällt eine Hardwarekomponente aus, leitet die Software die Arbeitslast einfach auf andere Ressourcen im Pool um. Um den Netzwerkverkehr zu reduzieren, verschiebt sie die von den Applikationen verarbeiteten Daten in deren Nähe und hält sie dort, solange sie benötigt werden. All diese Dinge erledigt eine moderne hyperkonvergente Software automatisch, denn sie stellt die Infrastruktur nicht nur bereit, sondern steuert sie auch.

Muss die Infrastruktur skalieren, stehen neu hinzugefügte Hardwareressourcen unmittelbar als Teil des gesamten Pools zur Verfügung. Die hinderlichen Silogrenzen zwischen einzelnen Blöcken gehören damit der Vergangenheit an. Dateiserver, Block- und Objektspeicher, Backup und Disaster Recovery, Datenbankumgebungen etc. lassen sich dank Hardwareunabhängigkeit und Softwaresteuerung völlig unabhängig als Dienste bereitstellen.

Mit Hilfe einer hyperkonvergenten Infrastruktursoftware können die Betreiber öffentlicher Rechenzentren sämtliche Dienste implementieren, bereitstellen, über eine zentrale Managementoberfläche verwalten und nutzen wie in der Public Cloud. Es entsteht eine Private Cloud, in der die ganze Cloud steckt. Damit wird auch klar, was die Cloud eigentlich ist: kein Ort, sondern ein hoch effizientes Betriebsmodell, das von Routineaufgaben entlastet, die Produktivität des IT-Personals massiv erhöht und die Anforderungen und Zufriedenheit der Nutzer in den Mittelpunkt stellt.

Diese und andere Konsequenzen stehen im Mittelpunkt der Podiumsdiskussion “Betrieb öffentlicher Rechenzentren – Erfahrungen und Lehren aus der Corona-Krise” am 21. Januar 2021 von 9.30 Uhr bis 11 Uhr. Eine Anmeldemöglichkeit findet sich hier.

Der Autor des Gastbeitrags ist Dr. Markus Pleier, CTO und Senior Director System Engineering DE und AT bei Nutanix.

Kommentieren Sie den Artikel

Please enter your comment!
Please enter your name here