Telekommunikation Erfolgreiche Sparmaßnahmen

Redakteur: Martina Hafner

Den Leistungsbedarf in einem System, und insbesondere die Verlustleistungsabfuhr, in den Griff zu bekommen, ist ein vorrangiges Thema in der Kommunikation. AdvancedTCA beeinflusst hier bereits...

Firmen zum Thema

( Archiv: Vogel Business Media )

Den Leistungsbedarf in einem System, und insbesondere die Verlustleistungsabfuhr, in den Griff zu bekommen, ist ein vorrangiges Thema in der Kommunikation. AdvancedTCA beeinflusst hier bereits signifikant die Entwicklung neuer Mikroprozessoren. Für diese Architektur entworfene Multi-Core-Bausteine ermöglichen die Entwicklung äußerst leistungsfähiger Systeme mit sehr hoher Rechendichte.

Das Thema Leistungsmanagement bestimmt heute mehr denn je die Entwicklung von Embedded-Systemen und Elektronikkomponenten. Systemarchitekten gehen neue Wege, um den Leistungsbedarf und insbesondere die Verlustleistungsabfuhr in den Griff zu bekommen. Eine Möglichkeit besteht darin, physikalisch größere Systeme zu bauen, wie in der AdvancedTCA-Spezifikation für Kommunikationsinfrastruktur beschrieben. Die gleiche Spezifikation beeinflusst aber in zunehmendem Maße auch das Design neuer Generationen von Mikroprozessoren. Höhere Taktfrequenzen sorgen bei Kommunikationschips für Probleme mit der Leistungsbilanz. Aufgrund einer höheren Betriebsspannung nehmen die Prozessoren mehr Leistung auf bzw. geben mehr Verlustleistung in Form von Wärme ab. Höherfrequente Prozessoren, die längere Pipelines für die Datenübertragung an den Prozessor-Core benötigen, weisen darüber hinaus längere Interrupt-Latenzzeiten auf. Deshalb geht der Trend hin zu Architekturen mit mehreren Prozessor-Cores, um so die Sys-temleistung zu steigern und gleichzeitig die Stromaufnahme zu reduzieren. Solche Multicore-Bausteine, ursprünglich für Server konzipiert, werden derzeit als Strom sparende Varianten für AdvancedTCA entwickelt.

Bildergalerie

Fat-Pipes auf dem Chip integriertAdvancedTCA sorgt für ein höheres Maß an Funktionalität auf dem Chip. Speicher-Controller und Bridges werden auf einem einzelnen Stück Silizium mit mehreren Prozessor-Cores kombiniert. Dies reduziert Engpässe bei Bandbreite und Latenzzeiten. On-Chip-Speicher-Controller können zum Beispiel die Latenzzeiten zwischen Prozessor und Speicher um drei Viertel verkürzen. Zusätzlich lässt sich Layoutfläche einsparen. Ein höherer Integrationsgrad ist besonders wichtig, wenn es darum geht, mehr Rechenleistung im kleineren Format bereitzustellen, beispielsweise für AdvancedMCs (Advanced Mezzanine Cards).Eindrucksvolle RechenleistungenAdvancedTCA setzt auch Maßstäbe bei der Entwicklung von auf dem Chip integrierten Pipes mit hoher Bandbreite. Eine der großen Stärken der Architektur liegt in ihrer Fähigkeit, gleich mehrere breitbandige Verbindungen über die Backplane herzustellen. Bisher waren für jede solcher Verbindungen zusätzliche externe Chips erforderlich. Neue, für AdvancedTCA konzipierte Prozessoren besitzen auf dem Chip integrierte breitbandige Pipes, wie der auf zwei Cores basierende Prozessor PowerPC MPC8641D oder der PowerQUICC-III-Kommunikationsprozessor MPC8548 von Freescale. Beide Bausteine verfügen über eine serielle RapidIO- und eine PCI-Express-Schnittstelle. Über diese lässt sich eine direkte Verbindung zwischen Backplane und Prozessor herstellen, ohne dass dafür externe Bausteine benötigt werden. Mit speziell für AdvancedTCA konzipierten Prozessoren erreichen Systementwickler eindrucksvolle Rechendichten. Als bevorzugte Konfiguration etablieren sich Systeme, die auf zwei Prozessor-Cores und vier normal hohen AdvancedMCs pro Grundplatine basieren. Für die Einschätzung der zur Verfügung stehenden Rechenleistung wird an dieser Stelle zu Grunde gelegt, dass jede AdvancedMC im System mit einem auf zwei Cores basierenden MPC8641D bestückt ist. Jeder Prozessor taktet mit 1,5 GHz. Werden die Karten in eine AdvancedTCA-Grundplatine mit einem weiteren MPC8641D als Host eingesteckt, ergibt dies zehn Hochleistungs-Prozessor-Cores, die etwa mit der Hälfte der für AdvancedTCA vorgegebenen Verlustleistung auskommen. Jede AdvancedMC könnte theoretisch auch mit zwei MPC8641D bestückt werden. Eindrucksvolle Resultate lassen sich auch durch Software mithilfe von SIMD Engines (Single Instruction Multiple Data) erzielen, die auf dem Chip integriert werden. Die höhere Leistung kann mit minimalen Auswirkungen auf die Stromaufnahme realisiert werden. SIMD Engines unterstützen ein Höchstmaß an Parallelaktivität. Mithilfe von Instruction Level Execution Units, die parallel zu vorhandenen Integer- und Floating-Point-Einheiten arbeiten, können mehrere Operationen in einem einzigen Taktzyklus ausgeführt werden. Das EEMBC (Embedded Microprocessor Benchmark Consortium) maß mithilfe von Telekom-Benchmarks eine Geschwindigkeitssteigerung um den Faktor 12 gegenüber einer skalaren Ver-arbeitung. Die Benchmarks beinhalten Algorithmen wie einen Viterbi-Decoder und einen Konvolutions-Encoder, wie sie bei der Basisbandverarbeitung in Basisstationen zum Einsatz kommen. 12-fach schnellere VerarbeitungDie Ergebnisse konnten mit C-Codierung realisiert werden. Eine manuelle Programmierung in Assembler spielt somit keine Rolle mehr. Die meisten Entwickler versuchen, eine Programmierung in Assembler zu vermeiden und bevorzugen Lösungen, die auf einem Mix aus ihrem eigenen C-Code und in Assembler optimierten Bibliotheken der CPU-Hersteller basieren. Die Leistungssteigerung durch SIMD-Engines geht mit einer lediglich um 5 bis 10% höheren Stromaufnahme einher. Auch dank intelligenter Speicherkonzepte reduziert sich die Stromaufnahme. Das zentrale Booten und Steuern der als Cluster angeordneten CPUs spart Leis-tung ein, die in einem Speicherbaustein und seinen Abschlusswiderständen verbraucht würde. Hochgeschwindigkeitsschnittstellen und -Strukturen wie RapidIO erlauben es, die CPU-Knoten komplett über ihre Anbindung an die Infrastruktur zu steuern. Flash für den Bootvorgang und PLDs zur Ansteuerung von Resets und Interrupts erübrigen sich. Inzwischen gibt es selbst bei etablierten Technologien wie Ethernet-Controllern die Möglichkeit, ohne zusätzlichen Flash über FTP zu booten. Bei einem 32-Line-DSLAM (Digital Subscriber Line Access Multiplexer) lassen sich z.B. durch den Wegfall von Flash auf jeder Linecard in etwa 3 W einsparen. Hilfreich ist es, Speicher dediziert anzusteuern. Intelligente Speichercontroller können das Taktaktivierungssignal aktiv negieren, wenn keine Speichertransaktionen anliegen und kein Refresh ansteht. Bis zu 20% Leistung lassen sich durch die Unterdrückung unnötiger Speichertaktzyklen sparen.

Energie sparen, wo möglichDer hohe Stellenwert der Batterielebensdauer hat zu einer Reihe von Energiesparfunktionen bei CPUs geführt, die auch Infrastrukturentwickler für sich nutzen können. Dank DFS (Dynamic Frequency Switching) ist es möglich, die Taktfrequenz eines Cores per Software in nur einem Taktzyklus umzustellen. Es müssen keine Leerlaufzyklen eingefügt oder der Baustein zurückgesetzt werden. Alle Prozessorfunktionen stehen durchgängig zur Verfügung – eine Leistungsersparnis von 45%. Als weitere Maßnahme zur Verringerung der Abwärme beinhalten einige neue CPUs eine DPM-(Dynamic-Power-Management-)Funktion, die automatisch die Versorgung von Datenverarbeitungsblöcken ausschaltet, solange diese nicht genutzt werden. Bei den Embedded-CPUs von heute stellt sich nicht mehr die Frage, ob sie „ein“ oder „aus“ sind. Sie bieten eine ganze Reihe von Betriebsarten wie Run, Doze, Nap, Sleep und Deep Sleep, jede mit entsprechenden Parametervorgaben. Im Sleep-Modus ist es z.B. gebräuchlich, dass die PLL aktiv bleibt, während alle internen Takte komplett abgeschaltet werden. Während Interrupts die volle Aktivierung des Prozessors zur Folge haben können, erfolgt oft überhaupt keine Reaktion auf Snoops. Durch den klugen Einsatz dieser verschiedenen Betriebsarten, kann der Prozessor flexibel auf Ereignisse reagieren, was die Leistungsbilanz deutlich verbessert. Verlässliche Zahlen für BenchmarkingDas EEMBC hat den Energiebedarf als wichtigen Aspekt für die Entwicklung von Embedded-Systemen aufgegriffen und untersucht jetzt parallel zur Benchmark-Messung auch die Stromaufnahme. Bisher mussten sich Entwickler auf die Angaben der CPU-Hersteller und deren eigene Verfahren zur Messung der „typischen“ Leistungsaufnahme unter einer Vielzahl von Bedingungen verlassen. Eine „typische“ Temperatur kann beispielsweise die Sperrschichttemperatur im Baustein, aber auch die Umgebungstemperatur sein, der ein Prozessor ausgesetzt ist. Das EEMBC plant daher, den Energiebedarf während der Ausführung der bereits existierenden Benchmarksuiten zu messen und die Ergebnisse dann in einfach nachvollziehbaren, verlässlichen Benchmark-Punkten zu bewerten. Als Plattform für Konzeptverifikation ist AdvancedTCA bereits ohne Vorbehalte akzeptiert. Welchen Einfluss es in der Stückzahlenproduktion haben wird, liegt noch im Dunkeln. Leistung, Layoutfläche und Kosten sind wesentliche Aspekte, insbesondere für hochvolumige Access-Technologien wie DSLAMs.

Richard Low verantwortet den Bereich Business Development der Networking & Computing Systems Group bei Freescale Semiconductor in Schottland

(ID:152269)