Datenspeicher Auffangbecken für die IoT-Datenflut

Autor / Redakteur: Rainer W. Käse* / Sebastian Human

Um mehrere Milliarden Terabyte wächst die weltweite Datenmenge jedes Jahr, weil immer mehr Maschinen und Geräte neue Daten liefern. Doch wohin damit? Auch im IoT-Zeitalter führt kein Weg an Festplatten vorbei.

Firmen zum Thema

Festplatten, also HDDs, erweisen sich auch für die großen Datenmengen des Internet of Things als probates Speichermedium.
Festplatten, also HDDs, erweisen sich auch für die großen Datenmengen des Internet of Things als probates Speichermedium.
(Bild: Toshiba Electronics Europe)

In den vergangenen Jahrzehnten sind die Datenmengen schnell gewachsen, doch die wahre Datenexplosion steht erst noch bevor. Kamen bislang vor allem Daten hinzu, die von Menschen erstellt wurden, etwa Fotos, Videos und Dokumente, so steigen mit dem beginnenden IoT-Zeitalter nun Maschinen, Geräte und Sensoren zu den größten Datenproduzenten auf.

Von ihnen gibt es bereits jetzt weit mehr, als es Menschen gibt, und sie generieren Daten viel schneller als diese. Ein einziges autonomes Auto liefert beispielsweise mehrere Terabyte pro Tag – der Teilchenbeschleuniger des CERN erzeugt sogar ein Petabyte pro Sekunde, auch wenn für spätere Analysen „nur“ rund 10 Petabyte im Monat aufbewahrt werden.

Neben dem autonomen Fahren und der Forschung tragen vor allem die Videoüberwachung und die Industrie zur Datenflut bei. Das Marktforschungsunternehmen IDC geht davon aus, dass die weltweite Datenmenge von 45 Zettabyte im vergangenen Jahr auf 175 Zettabyte im Jahr 2025 anwachsen wird. Binnen sechs Jahren werden also dreimal so viele Daten generiert, wie 2019 insgesamt existierten, nämlich 130 Zettabyte – das sind 130 Milliarden Terabyte.

Viele dieser Daten werden direkt dort ausgewertet, wo Sensoren sie erzeugen, um etwa ein autonomes Fahrzeug oder Produktionsanlagen zu steuern. Hier kommt es auf schnelle Ergebnisse und Reaktionen in Echtzeit an – eine Übertragung und zentrale Analyse würden zu viel Zeit kosten. Allerdings sind der Speicherplatz und die Rechenleistung vor Ort begrenzt, sodass die meisten Daten früher oder später dann doch in einem Rechenzentrum landen. Dort können sie nachbearbeitet und mit Daten aus anderen Quellen zusammengeführt, weiter analysiert und archiviert werden.

Auf die Storage-Infrastrukturen von Unternehmen und Forschungseinrichtungen kommen damit enorme Herausforderungen zu. Sie müssen in der Lage sein, einen steten Zufluss großer Datenmengen aufzufangen und zuverlässig zu speichern. Das geht nur mit Scale-out-Architekturen, die Speicherkapazitäten von einigen Dutzend Petabyte bereitstellen und kontinuierlich erweitert werden können. Und sie benötigen verlässliche Storage-Lieferanten, die den fortwährenden Speicherbedarf stillen, schließlich dürfen die Daten nicht ins Leere fließen – eine Umleitung in die Cloud, weil der lokale Speicherplatz knapp wird, ist wegen der notwendigen Bandbreiten und Datenmengen meist nicht möglich oder zumindest sehr teuer.

Für Organisationen, die IoT-Daten speichern, wird Storage dadurch in gewisser Weise zu einem Verbrauchsgut. Er wird zwar nicht im eigentlichen Sinne verbraucht, wohl aber wie andere Verbrauchsgüter regelmäßig bezogen und erfordert kontinuierliche Investitionen. Eine Blaupause, wie Storage-Infrastrukturen und Storage-Bezugsmodelle im IoT-Zeitalter aussehen können, liefern Forschungseinrichtungen wie das CERN, die schon heute riesige Datenmengen verarbeiten und speichern müssen. Das europäische Forschungszentrum für Teilchenphysik beispielsweise ergänzt in seinem Rechenzentrum kontinuierlich neue Storage-Erweiterungseinheiten, in denen mehrere hundert Festplatten der jeweils neuesten Generation stecken. Insgesamt wird so mit 100.000 Festplatten mittlerweile eine Gesamtspeicherkapazität von 350 Petabyte erreicht.

Der Preis entscheidet über das Speichermedium

Das Beispiel CERN zeigt, dass bei der Speicherung solch enormer Datenmengen kein Weg an Festplatten vorbeiführt: HDDs (Hard Disk Drives) sind das günstigste Medium, das die Anforderungen an Speicherplatz und Zugriffe erfüllt. Tape ist sehr preiswert, scheidet als Offline-Medium jedoch aus und eignet sich lediglich für die Archivierung der Daten. Flash-Speicher wiederum sind aktuell pro Kapazitätseinheit noch acht bis zehn Mal so teuer wie Festplatten. Die Preise für SSDs (Solid State Drives) sinken zwar, doch das tun sie in ähnlichem Maße auch im HDD-Bereich. Zudem sind Festplatten in solchen großen Storage-Umgebungen sehr gut geeignet, die Performance-Anforderungen zu erfüllen. Eine einzelne HDD mag einer einzelnen SSD unterlegen sein, doch Konfigurationen mit mehreren schnell drehenden Festplatten können ebenfalls sehr hohe IOPS-Werte (Input/Output Operations Per Second) erreichen und Analytics-Anwendungen zuverlässig mit Daten versorgen.

Damit ist letztlich allein der Preis das entscheidende Kriterium – zumal sich die zu speichernden Datenmengen in der IoT-Welt nur geringfügig durch Datenreduktionsmechanismen verkleinern lassen, um wertvollen Speicherplatz einzusparen. Eine Komprimierung findet, wenn sie denn möglich ist, bereits auf dem Endpoint oder an der Edge statt, um die zu übertragenden Datenmengen zu reduzieren. Im Rechenzentrum treffen die Daten in komprimierter Form ein und werden ohne weitere Kompression abgelegt. Eine Deduplizierung bietet darüber hinaus nur wenig Potenzial, da anders als auf typischen Fileshares von Unternehmen oder im Backup-Bereich kaum identische Daten anfallen.

Wegen der Datenflut des Internet of Things und der daraus resultierenden sehr großen Zahl an benötigten Datenträgern, kommt der Zuverlässigkeit der eingesetzten Festplatten eine große Bedeutung zu. Gar nicht so sehr wegen möglicher Datenverluste – die lassen sich durch Sicherungsmechanismen gut verhindern. Vielmehr wird der Aufwand für den Austausch defekter Datenträger bei hohen Ausfallraten schnell sehr hoch: Eine Annualized Failure Rate (AFR) von 0,7 Prozent statt der 0,35 Prozent, die das CERN mit ihren Festplatten erreicht, bedeutet, dass bei 100.000 Festplatte pro Jahr 350 Laufwerke mehr ersetzt werden müssen – im Schnitt fast eines zusätzlich jeden Tag.

Festplatten bleiben auf Jahre hinaus unersetzbar

Auch in den kommenden Jahren wird sich wenig daran ändern, dass die Hauptlast der IoT-Datenspeicherung von Festplatten getragen wird – die Flash-Produktionskapazitäten sind schlicht zu gering, als dass SSDs den HDDs den Rang ablaufen könnten. Allein um den aktuellen Speicherbedarf mit SSDs zu decken, müsste man die Flash-Produktion vervielfachen – angesichts von Baukosten von mehreren Milliarden Euro für eine einzige Flash-Fabrik ein nicht zu finanzierendes Unterfangen, das überdies erst in rund zwei Jahren in einem höheren Flash-Ausstoß münden und dann auch nur den Bedarf von 2020 und nicht den von 2022 decken würde.

Die Produktion von Festplatten lässt sich dagegen deutlich leichter erhöhen, weil weniger Reinraumfertigung als bei der Halbleiterherstellung notwendig ist. Zudem schreitet die Festplattenentwicklung kontinuierlich voran und sorgt durch neue Technologien wie HAMR (Heat-Assisted Magnetic Recording) und MAMR (Microwave-Assisted Magnetic Recording) für stetig steigende Kapazitäten.

Experten gehen davon aus, dass die Speicherkapazität von HDDs noch einige Jahre um etwa 2 Terabyte pro Jahr bei gleichbleibenden Kosten zulegen wird. Und so prognostiziert IDC, dass bis Ende 2025 weiterhin mehr als 80 Prozent der im Enterprise-Bereich für Core- und Edge-Rechenzentren benötigten Kapazitäten in Form von Festplatten bezogen werden und weniger als 20 Prozent auf SSDs und anderen Flash-Medien.

Dieser Beitrag erschien zuerst auf unserem Partnerportal Industry-of-Things.de.

* Rainer W. Käse arbeitet als Senior Manager Business Development Storage Products bei Toshiba Electronics Europe.

(ID:47151035)