Speichermodule RDIMMs für mehr Server-Performance

Autor / Redakteur: Tomek Jasionowski * / Holger Heller

Die wichtigsten Faktoren bei der Wahl von Enterprise-Hardware sind Performance, Zuverlässigkeit und Skalierbarkeit. DRAM-Module beeinflussen alle diese Faktoren. Welche Module sind die richtigen?

Firmen zum Thema

DDR3-Register für mehr Leistungsfähigkeit: RDIMMs erhöhen die Server-Performance in virtualisierten Cloud-Computing-Umgebungen
DDR3-Register für mehr Leistungsfähigkeit: RDIMMs erhöhen die Server-Performance in virtualisierten Cloud-Computing-Umgebungen
(IDT)

IT-Manager können in Plattformen, die DDR3-Protokolle unterstützen, zwischen zwei Arten von DRAM-Modulen wählen: Error-Correcting Code (ECC) Unregistered Dual In-Line Memory Module (UDIMMs) und Registered Dual In-Line Memory Module (RDIMMs). In den meisten Fällen bieten RDIMMs eine höhere Leistungsfähigkeit, ermöglichen eine bessere Skalierbarkeit und stellen umfassendere RAS-Funktionen (Reliability, Availability, Serviceability) als ECC UDIMMs zur Verfügung. Mit RDIMMs können Unternehmen die Anzahl ihrer Server und damit verbundenen Betriebskosten verringern. RDIMMs sind damit die bevorzugte Wahl für die meisten Enterprise-/Unternehmensanwendungen.

Bildergalerie

ECC UDIMMs sind auf Anwendungen begrenzt, die bis zu 48 GByte Speicher benötigen [1]. Übersteigt die geschätzte DRAM-Spitzennutzung im Laufe der Zeit mehr als 48 GByte, sind RDIMMs erforderlich, um Performance-Engpässe zu vermeiden. Mit RDIMMs lassen sich Systeme auf bis zu 192 GByte Speicherkapazität skalieren. Diese hohen Werte sind durch die in RDIMMs integrierten DDR3-Register möglich.

Diese Register sind spezielle ICs, die Takt-, Befehls- und Adress-Signale vom Memory Controller puffern. Sie ermöglichen die Integration von mehr DRAM-Chips auf jedem RDIMM und mehr RDIMMs pro Speicherkanal, was die Performance und Skalierbarkeit in Endanwendungen erhöht.

Um besser zu verstehen, wie DDR3-Register eine höhere Leistungsfähigkeit ermöglichen und die Speicherkapazität im Vergleich zu ECC UDIMMs vervierfachen, muss untersucht werden, wie Speichermodule die Datenleitungslast beeinflussen. Jedes Speichermodul – egal ob RDIMM oder ECC UDIMM – kommuniziert mit einem Memory Controller über die Signale Data (DQ), Data Strobe (DQS), Address, Command, Clock und Chip Select (CS).

Ein 16-GByte-RDIMM besteht z.B. aus 36 einzelnen 4-GBit-DRAM-Chips und enthält vier DRAMs für die Fehlerkorrektur. Die gesamte Anordnung nimmt vier Reihen mit je neun DRAM-Chips ein. Eine Speicherreihe ist eine Gruppe, die über den 72-Bit-Datenbus eines Speichermoduls kommuniziert und über das Chip-Select-Signal unabhängig wählbar ist.

Kritische DRAM-Kapazität für Enterprise-Systeme

Das Blockdiagramm dieses Beispiels (Bild 1) zeigt, dass der Memory Controller eine Last am DDR3-Register an jeder Takt-, Befehls-, Adress- und CS-Leitung hat, und vier Lasten an DQ- und DQS-Leitungen. Ohne DDR3-Register würde der Controller neun Lasten auf den CS-Leitungen sehen. Zudem erhöhen sich die Takt-, Befehls- und Adress-Lasten auf den hohen Wert 36, da die DRAM-Chips direkt angeschlossen sind. Diese höhere Last würde bei hohen Geschwindigkeiten zu einem Kommunikationsausfall des Memory Controllers führen. Darum sind ECC UDIMMs bezüglich der DRAM-Kapazität um den Faktor vier gegenüber RDIMMs eingeschränkt.

Eine höhere DRAM-Kapazität in speicherhungrigen Enterprise-Plattformen mit RDIMMs ist meist der effizienteste und kostengünstigste Weg, um die Server-Performance zu erhöhen. Verfügt ein Server nicht über genügend installierten Speicher, um die Applikation zu unterstützen, müssen seine Prozessoren dies ausgleichen, indem sie den um ein Vielfaches langsameren Festplatten-Speicherplatz oder Solid-State-Drive-Speicher (SSD) nutzen (Bild 2). Damit verlängert sich die Rechenzeit, selbst wenn nur ein kleiner Prozentsatz von Speicher-Transaktionen auf Speicherlaufwerke ausgelagert werden muss.

Mehr Zuverlässigkeit und Systemverfügbarkeit mit RDIMMs

Bei Ausstattungen im Unternehmensbereich spielen die Speicher-RAS-Anforderungen eine wichtige Rolle, was Ausfallzeiten und Reparaturkosten drastisch reduzieren kann. Die Wahl der richtigen Speichermodule macht einen erheblichen Unterschied bei den verfügbaren RAS-Stufen. ECC UDIMMs bieten eine begrenzte Zuverlässigkeit und können durch Einzelbitfehler und einzelne DRAM-Fehler Daten beschädigen und Systeme zum Absturz bringen. RDIMMs bieten eine umfassende RAS-Lösung, einschließlich Parität und erweitertem ECC, um diese Art von Problemen zu minimieren.

Einzelbitfehler sind die hauptsächliche Fehlerursache bei der DRAM-Kommunikation. Eine 2,5-jährige Studie von DIMMs auf Zehntausenden von Google-Servern kam zu dem Schluss, dass DIMM-Fehlerraten Hunderte bis Tausende Mal höher sind als gedacht. Dies entspricht einem Mittelwert von jährlich 3751 Einzelbitfehlern pro DIMM [3].

Einzelbitfehler können auf den 64 Daten- und 26 Adress- und Befehlsleitungen zwischen den DRAMs und dem Memory Controller auftreten. ECC UDIMMs können über ECC nur Einzelbitfehler auf den 64 Datenleitungen erkennen und korrigieren. Tritt ein Einzelbitfehler auf einer der 26 Befehls- oder Adressleitungen auf, können ECC UDIMMs diesen weder erkennen noch melden.

Diese Fehlererkennungslücke in fast einem Drittel aller internen DRAM-Verbindungen kann mehrere beschädigte Speicheroperationen pro Jahr verursachen und zu schweren unternehmensweiten Datenverlusten, Unterbrechungen, Server-Abstürzen und Reparaturkosten führen.

RDIMMs mit ECC-Funktion

RDIMMs bieten Schutz gegen Einzelbitfehler auf Daten-, Adress- und Befehlsleitungen. Sie verwenden eine ECC-Funktion zur Korrektur von Datenfehlern und eine Paritätsfunktion zur Erkennung von Einzelfehlern auf Adress- und Befehlsleitungen. Tritt auf diesen Leitungen ein Fehler auf, sendet das RDIMM ein Paritätsfehlersignal zurück an den Memory Controller. Dieser kann dann das Ereignis festhalten und eine Korrektursequenz aufrufen, wie z.B. das erneute Senden des letzten Befehls.

Ein weiterer Vorteil von RDIMMs ist, dass sie einen erweiterten ECC unterstützen, auch Chipkill oder Chipspare genannt [4]. Dabei bleibt der Systembetrieb bei voller Geschwindigkeit erhalten, selbst wenn ein Einzel-DRAM-Chipfehler oder Multi-Bit-Fehler auf einem beliebigen Teil eines einzelnen Speicherchips auftritt. Zusammen minimieren die Paritätsprüfung und der erweiterte ECC Systemausfallzeiten sowie Wartungszeiten und machen Einrichtungen mit RDIMMs wesentlich zuverlässiger als solche mit ECC UDIMMs.

Speicherkanal-Ausnutzung mit RDIMMs

Server-Hersteller bieten DDR3-Speicherlösungen, die Architekturen mit bis zu drei DIMMs pro Kanal und bis zu drei Kanäle pro CPU-Core ermöglichen. Während RDIMMs die volle Nutzung aller DIMM-Sockel ermöglichen, sind ECC UDIMMs auf ein oder zwei DIMMs pro Kanal begrenzt. Die verbleibenden Sockel können nicht verwendet werden und müssen leer bleiben (Bild 3).

Performance-Steigerungen durch RDIMMs sind der größte Vorteil in speicherhungrigen Anwendungen. Darunter fallen hochleistungsfähige Rechenumgebungen wie die 3-D-Bildgebung, Videobearbeitung und CAD-Simulation auf professionellen Servern, die von Technikern, Architekten und Ingenieuren verwendet werden. RDIMMs sind auch unverzichtbar für Unternehmens-Datenbanken und deren Programme, die auf Servern installiert sind.

Die populärsten Softwarepakete sind hier das Enterprise Resource Planning (ERP) und Customer Relationship Management (CRM), die vor allem in den Märkten Finanzwesen, Logistik, Marketing und Vertrieb zum Einsatz kommen. Auch virtualisierte Umgebungen und das Cloud Computing in Datenzentren profitieren erheblich durch höhere DRAM-Kapazitäten. Eine ausreichende DRAM-Kapazität spiegelt sich in solchen Umgebungen direkt in der Verringerung der Server-Einheiten wider.

Hauptanwendungsbereiche für RDIMMs

RDIMMs bieten auch in Anwendungen, die nicht durch die Speicherkapazität begrenzt sind, eine hervorragende Datenbandbreite-Performance. Basierend auf einer Studie von Intel bieten ECC UDIMMs und RDIMMs eine ähnliche Speicherbandbreite in einer 1-DIMM-pro-Kanal-Konfiguration mit einem 6-GByte-Speichersystem (1-GByte-Module, zwei CPUs und drei Kanäle pro CPU).

RDIMMs übertreffen ECC UDIMMs um etwa 9% in gängigeren Konfigurationen mit zwei DIMMs pro Kanal in einem 12- oder 24-GByte-Speichersystem (1- oder 2-GByte-Module, zwei CPUs und drei Kanäle pro CPU). RDIMMs eignen sich also für Anwendungen mit sehr geringem Speicherverbrauch und werden zu einer hochleistungsfähigen Lösung in Servern, die mit Speicherkapazitäten unter 12 GByte arbeiten.

Referenzen

[1] Die DRAM-Grenzen basieren auf 2-GBit-DRAM-Chips in Servern mit Intel-Xeon-Prozessoren der 5500-Serie. Siehe www.intel.com/cd/channel/reseller/asmo-na/eng/products/server/410406.htm und www.intel.com/cd/channel/reseller/asmo-na/eng/products/server/410405.htm. Die maximalen Server-Speicher-Grenzwerte sollen auf den Intel-Romley-Plattformen mit 4-GBit-DRAM-Chips auf 128 GByte für ECC UDIMMs und 512 GByte für RDIMMs erhöht werden. Die maximalen Speicher-Grenzwerte sind viermal höher mit RDIMMs auf Servern mit Xeon-Prozessoren der 5500-Serie oder auf Servern mit Romley-Plattform.

[2] Basierend auf einem 2-Core-Server mit Intel-Xeon-Prozessor der 5500-Serie und mit sechs Speicherkanälen, die jeweils mit zwei 4er-Reihen 16-GByte-RDIMMs mit 2-Gbit-DRAMs ausgestattet sind.

[3] „DRAM Errors in the Wild: A Large-Scale Field Study“; Bianca Schroeder, Eduardo Pinheiro, Wolf-Dietrich Weber.

[4] Extended ECC, Chipkill oder Chipspare wird von einigen RDIMM-Herstellern angeboten. Dies erfordert Motherboards, die diese Funktionen in Servern unterstützen. Dies ist bei der Auswahl von RDIMMs und Motherboards zu beachten.

* * Tomek Jasionowski ist Program Manager der Enterprise Computing Division bei Integrated Device Technology

(ID:37812560)