Kopieren und Speichern riesiger Datenmengen: Einblicke in die optimale Technologie

ban we systems.jpg

Komplexe Herausforderungen erfordern besondere Lösungen. Bereits im ersten Teil unseres Blog-Beitrags haben wir die Situation des großen Automobilzulieferers dargestellt und über unsere Lösung berichtet.

Doch starten wir mit einem kleines Recap: Worum ging es bei diesem Projekt?

Ein Kunde von we.Systems stand der Herausforderung gegenüber einen großen Datenpool, den er auf eigenen Speichersystemen vorhält, in einen externen, schnellen Speicher auslagern zu müssen, um lokal Platz für neue Daten zu schaffen.

Gleichzeit bestand der Bedarf, auch kurzfristig auf die ausgelagerten Daten zugreifen zu können. Der Restore muss also sehr schnell erfolgen. Der Datentransfer zum externen schnellen Speichersystem sollte nicht über ein neues Netzwerk, sondern über das Corporate WAN erfolgen. Im letzten Schritt sollten die Daten in einem Langzeitarchiv für bis zu 30 Jahre aufbewahrt werden.

Als Antwort auf diese Herausforderung entwickelten wir gemeinsam mit we.Systems ein 3-stufiges Backup- und Archivierungssystem.

***

In diesem zweiten Blogpost gehen wir nun etwas technischer in die Tiefe und zeigen auf, welche Technologien wir eingesetzt haben, um die Anforderungen des Kunden zu erfüllen.

Das Projekt im Überblick:

> 2 Petabyte (PB) Datenvolumen pro Monat
Über 4 Standorte & 2 Kontinente hinweg
10 Gbit/s Übertragungsgeschwindigkeit
Kosten- & Zeitersparnis bei Restore und Archivierung

Lösungsdesign

Das neue, zukunftstaugliche Design sieht vor, alle Daten der Standorte auf einen zentralen Multi-Petabyte Ceph Cluster zu übertragen, in der zentralen Datenbank zu katalogisieren und letztendlich auf dem Cloud Archiv Storage zu archivieren.

TECHNOLOGIE

Da die Standorte stets redundant an das Corporate Netzwerk angebunden sind, wird meist eine Leitung nicht aktiv genutzt. Dies ermöglicht eine Startkonfiguration für jeden Standort ohne Netzwerkerweiterung und spart Kosten.

An jedem Standort mit Storages übernehmen mehrere Atempo Miria Datamover das Einlesen der Daten vom Quell Storage. Datamover sind physikalische oder virtuelle Server mit leistungsstarken CPUs zur Hash Berechnung und gleichzeitig breitbandiger Anbindung zur schnellen Übertragung der Daten.

Beim Einlesen der Daten werden bereits Hash Werte der Dateien erstellt, die einerseits zum Einsparen der Bandbreite mittels Deduplication und andererseits zur Sicherstellung der Datenkonsistenz durch die Verifizierung der übertragenen Daten am Ziel verwendet werden.

Durch die Deduplication werden ausschließlich Daten zum Ceph Storage im zentralen Rechenzentrum übertragen, die dort oder auf dem Cloud Speicher noch nicht existieren. Dies führt zu einer Einsparung von Bandbreite, die dann zur Übertragung neuer Daten bereitsteht.

Die Übertragung der Daten vom Quell Storage zum zentralen Ceph Storage verläuft zwischen den Miria Datamovern des Standortes, die die Daten einlesen sowie den Miria Datamovern des zentralen Rechenzentrums, die die Daten auf das Ceph Storage schreiben.

Periodisch werden neue Daten auf dem zentralen Ceph Storage in die Cloud übertragen – ebenfalls zwischen den Miria Datamovern des zentralen Rechenzentrums, die die Rollen nun tauschen und die Daten einlesen sowie den Miria Datamovern in der Cloud, die die Daten in den Archiv Speicher schreiben.

Die Übertragung zwischen Datamovern erfolgt stets verschlüsselt und schützt so zusätzlich die Daten bei der Übertragung.

Die Plattform im zentralen Rechenzentrum stellt die Datendrehscheibe dar. Das zentrale Ceph Storage wird als Cache Speicher genutzt, der bei Erreichen eines definierten Füllstandes automatisch die ältesten Dateien unter der Bedingung löscht, dass diese bereits vollständig auf dem Cloud Archiv Storage gesichert wurden. Es werden nur so viele Dateien gelöscht, bis ein definierter Mindest-Füllstand erreicht wird.

Bei der Wiederherstellung von Dateien ermittelt unsere Software Miria automatisch die beste Wiederherstellungsquelle und startet den passenden Wiederherstellungsprozess. Sind die Dateien noch auf dem zentralen Ceph Storage gespeichert, können sie sofort wiederhergestellt werden. Werden die Daten bereits ausschließlich im Cloud Archiv Storage vorgehalten, wird die Bereitstellung der Dateien beim Cloud Archiv Storage mittels API angefragt und anschließend automatisch die Wiederherstellung zum Quellsystem gestartet.

Die Kombination des zentralen Ceph Storages als Cache Speicher für schnelle Wiederherstellungen der neuesten Dateien in Kombination mit dem Archiv Cloud Speicher für kostengünstige Langzeitarchivierung der Daten bietet die Vorteile beider Storagetypen in einer intelligenten Lösung – Zeitersparnis bei der Wiederherstellung und Kosteneinsparung bei der Langzeitarchivierung.

***

Sie stehen auch vor der Herausforderung, sehr große Datenmengen sicher speichern und archivieren zu müssen? Vor der Herausforderung, eine Lösung zu implementieren, die dem stetigen Datenwachstum auch in Zukunft gerecht wird und nicht jedes Jahr wieder neu gedacht werden muss?

Dann melden Sie sich bei uns für ein unverbindliches Gespräch.

More information:

Wie das Kopieren und Speichern von riesigen Datenmengen zum Kinderspiel wird