WISSEN

Big Data, Simulation und Numerik

Vorstellungen vom Aufbau der Welt begleiten die Menschheit seit Jahrtausenden. Auch die moderne Physik erlaubt es, ein Weltmodell zu konstruieren. Es beruht auf Einsteins allgemeiner Relativitätstheorie und auf der Beobachtung, dass bei weitem die meisten Galaxien sich von uns entfernen und dabei ihre Geschwindigkeit mit steigendem Abstand zunimmt.

Vorabversion

Neben der Elementarteilchenphysik und Astronomie liefern die Klimaforschung, Erdbeobachtung, Quantenoptik, Kernphysik oder die Fusionsplasmaphysik sehr große Datenmengen. Durch die fortschreitende Miniaturisierung der Di­gi­tal­elek­tro­nik erhöht sich kontinuierlich die Leistungsfähigkeit von Detektoren und Datenerfassung. Das Mooresche Gesetz (Seite 177) ist dabei gleichzeitig Fluch und Segen, denn die höheren Datenraten führen zu einem entsprechend starken Anwachsen des Datenvolumens und somit der erforderlichen Datenspeichergrößen. In diesem Zusammenhang wird gerne der Begriff Big Data verwendet. Auch die Datenrate sowie die Komplexität der Daten nehmen seit der Digitalisierung der Datenauslese drastisch zu.

Beispiele aus der Teilchen- und Astrophysik

Für die Interpretation der Daten werden wiederum hochaufgelöste Computersimulationen theoretischer Modelle verwendet, die zum Datenaufkommen noch zusätzlich beitragen. In der Elementarteilchenphysik stellt der Large Hadron Collider (LHC) des CERN (Seite 40) die bedeutendste Datenquelle dar. Das CERN ist entsprechend in der Big-Data-Forschung sehr erfahren. Dort wurde Anfang der 1990er-Jahre das World Wide Web ins Leben gerufen, wodurch die weltweite Kommunikation und Verteilung der Daten aus dem 200-Petabyte-Datenzentrum möglich wurde. Jüngst wurde die Luminosität des Teilchenstrahls im LHC erhöht und die Auflösung der Detektoren verbessert. Das zu erwartende Datenvolumen wird deswegen noch einmal stark anwachsen und erfordert Verbesserungen beim Datendurchsatz. Im OpenLab des CERN finden Public-Private-Partnerships zur Entwicklung von Quantencomputern und dafür geeigneten Algorithmen für die wissenschaftliche Datenanalyse statt.

Ein Petabyte (PB) enthält eine Billiarde Bytes. Das entspricht 100 zurzeit üblichen großen Festplatten mit zehn Terabyte (TB) Speicherkapazität – oder etwa der Datenmenge, die für 2,5 Millionen Spielfilmstreams übertragen werden muss. Ein Exabyte (EB) sind 1000 Petabyte.

Eine der bekanntesten Himmelsdurchmusterungen der Astronomie ist der Sloan Digital Sky Survey (SDSS). Die Daten umfassen insgesamt verhältnismäßig handliche 40 TB, die im Jahr 2024 auf nur zwei großen handelsüblichen Festplatten Platz finden würden. Die Daten sind über das SkyServer-Internet-Portal weltweit leicht und frei zugänglich. Der SDSS eignet sich hervorragend für Projekte der Bür­ger­wis­sen­schaf­ten oder für den Einsatz in Schulen und zeigt, wie Wissenschaften und die öffentliche Teilhabe daran modern kommuniziert werden können (Seite 333).

In wenigen Jahren wird das Square Kilometre Array (SKA) zur größten wissenschaftlichen Datenquelle werden. Das Radioteleskopfeld mit Standorten in Südafrika und Australien erreicht dann aufgrund seiner Größe bislang unerreichte Nachweisgrenzen für astronomische Objekte. Für die riesigen multidimensionalen Bilder werden allerdings Datenspeicher im Bereich von zehn Exabyte benötigt. Das SKA gewinnt aus den Rohdaten des Antennenfelds mit weltbester Netzwerktechnik mittels eines Supercomputers mit 250 Petaflops (eine Billiarde Fließkommarechnungen pro Sekunde) Rechenleistung wissenschaftliche Daten mit 300 Petabyte pro Jahr. In dieser Leistungsklasse finden sich die derzeit weltgrößten Superrechner, wie der Fugaku am RIKEN in Japan (415 PFLOPS), der europäische Leonardo am ­CINECA in Italien (250 PFLOPS) oder der Summit am Oak Ridge National Laboratory in den USA (200 PFLOPS). Um die aus den Rohdaten gewonnenen wissenschaftlichen Daten zu den Instituten in Europa zu übertragen, wird eine Internetverbindung mit einer durchgehenden Bandbreite von 100 Gigabit/s benötigt. Mit dem SKA sollen nach Fertigstellung vor allem Himmelsdurchmusterungen in verschiedenen Frequenzbändern des Radiobereichs durchgeführt werden.

Multifrequenzbeobachtungen mit dem ebenfalls datenintensiven Cherenkov Telescope Array (CTA) oder die Beobachtung von Tausenden von Pulsaren zum indirekten Nachweis von Gravitationswellen mit der Pulsar-Timing-Methode erfordern eine sehr leistungsfähige Forschungsdateninfrastruktur mit freiem Zugang für die Forschenden an den Universitäten. Gravitationswellenobservatorien wie das Einstein-Teleskop werden voraussichtlich Hunderttausende Verschmelzungen Schwarzer Löcher beobachten und benötigen für die aufwendige Datenanalyse ebenfalls Höchstleistungsrechner. Das Vera-Rubin-Observatorium soll den gesamten Himmel nach Supernovae und anderen kurzzeitigen Phänomenen im Bereich des sichtbaren Lichts absuchen. Dabei fallen Datenmengen in Höhe von 5 PB/Jahr an. Zusammen mit den Datenprodukten wächst die Gesamtdatenmenge nach zehn Jahren auf 500 PB. Weitere tiefe Durchmusterungen werden mit Satellitenobservatorien wie Euclid (gestartet 2024, erste Beispieldaten auf Seite 68 unten) im nahen infraroten Wellenlängenbereich, mit eROSITA im Röntgenbereich und ­Fermi-LAT im Gammastrahlenbereich durchgeführt. Sie ermöglichen eine viele Wellenlängenbereiche umfassende Gesamtschau auf das Universum mit seinen Schwarzen Löchern und Neutronensternen, Gaswolken und Exoplaneten bis hin zu den entferntesten Galaxien.

Für die Interpretation der Big Data aus der Astro- und Fusionsplasmaphysik werden Computersimulationen der (allgemein relativistischen) Magnetohydrodynamik und des Strahlungstransports durchgeführt. Letztlich geht es also darum, die Modelle aus physikalisch etablierten Theorien durch numerische Berechnungen in Vorhersagen zu überführen, die dann mit den Beobachtungsdaten abgeglichen werden. Abweichungen zwischen Modellvorhersage und Messdaten geben dann Hinweise darauf, wie die Modelle verändert werden müssen. Die Simulationen sind extrem rechenzeit- und datenintensiv und erfordern Zugang zu leistungsfähigen High-Performance-Computing-Zentren. Das Datenvolumen für astronomische Himmelsdurchmusterungen stellt eine Heraus­forde­rung für die Forschungsdateninfrastruktur dar.

Die Kamera des Vera-Rubin-Observatoriums besitzt über 3,2 Milliarden Pixel verteilt auf 189 CCD Chips. Man würde 378 4K-Bildschirme benötigen, um ein damit gewonnenes Bild vollständig Pixel für Pixel darzustellen.

Grenzen und neue Methoden

Big Data und Big Data Analytics erweisen sich leider schnell auch als zu groß, um sie zu handhaben. Sie erfordern eine Weiterentwicklung der Rechenzentren zu Hochdurchsatz-Zentren (High-Throughput-Computing, HTC). Für die Verteilung der Daten reicht die Bandbreite des Internets bald nicht mehr aus. Datenprodukte mit deutlich reduziertem Datenvolumen zu erzeugen, ist deswegen eine Kernaufgabe für Datenzentren. Der Rechenaufwand dafür ist bedeutend. Das CERN-Rechenzentrum benötigt beispielsweise vier Megawatt elektrische Leistung. Beim SKA-Mid in Südafrika ist die verfügbare Leistung aufgrund seiner Lage in der abgelegenen Karoo-Wüste auf 700 Kilowatt beschränkt. Die verfügbare elektrische Leistung könnte im Prinzip durch erneuerbare Energien erhöht werden. Man hofft auch auf stromsparende Green-Computing-Lösungen. Gegenwärtig ist damit allerdings meist nur die Nachnutzung der Abwärme der Rechenzentren gemeint. Einen echten Durchbruch in der Energie­effizienz um viele Größenordnungen könnte man erreichen, wenn man anstelle der üblichen Von-Neumannschen-Computerarchitektur neuronale Netze mit neuromorphen Chips und Memristoren nachbaut (Seite 184). Dazu müssen allerdings noch zahlreiche Probleme der Hochfrequenz-Elektronik überwunden werden. Ein weiterer Ansatz besteht im sogenannten Memory-Based-Computing, eine speziell für HTC zugeschnittene Hardware-Architektur.

Neben diesen Ansätzen mit bekannten elektrotechnischen Bauelementen stellen Quantencomputer eine revolutionäre Entwicklungslinie dar, um effizienter und schneller rechnen zu können. Eine signifikante Erhöhung der Bandbreite des Internets durch Quantentechnologien, zumindest für die ultraschnellen Datenleitungen zwischen den Rechenzentren, wäre ebenfalls eine Zukunftsvision. Die Vorprozessierung von Rohdaten kann mit künstlicher Intelligenz (KI) und speziellen Computerarchitekturen wirksam beschleunigt werden. In einigen Fällen können Detektoren mittels KI befähigt werden, als Smart Sensors nur relevante Informationen zu produzieren. Es ist bislang allerdings noch nicht vorstellbar, dass eine allgemeine KI die physikrelevanten Informationen selbstständig aus den Daten extrahieren kann.

Die Verteilung der Daten an die wissenschaftlichen Nutzer:innen bringt ein weiteres Problem mit sich. Sie arbeiten oft an Universitäten mit meist knappen Ressourcen. Selten kann dort eine ausreichend leistungsfähige IT-Infrastruktur zur Verfügung gestellt werden. Beispiele für Lösungsansätze sind cloudbasierte virtuelle Maschinen, mit denen die Nutzer:innen ihre wissenschaftlichen Analysen in großen räumlich verteilten Datenzentren erledigen können, oder die Bereitstellung von kleineren Kopien von in großen Datenzentren vorbearbeiteten Daten für die Weiterverarbeitung in weniger leistungsfähigen lokalen Arbeitsplatzumgebungen.

Kompetenzentwicklung

Letztlich sind die Big-Data-Skills der alles begrenzende Faktor, wenn man nicht auf kommerzielle Lösungen von Drittanbietern hofft. Nachwuchswissenschaftler:innen müssen grundlegende Kenntnisse im Bereich digitaler Datenverarbeitung und Datenanalyse erlernen. Aufgrund des weltweit sich beschleunigenden Fortschreitens der digitalen Transformation kann dies nicht mit traditionellen Lehrformaten erreicht werden. Die Latenzzeit veralteter Lehrinhalte und der Dozent:innen steht in krassem Gegensatz zu den Anforderungen. Die Universitäten müssen Kreativräume öffnen, in denen Studierende ungeachtet ihrer fachlichen Herkunft gemeinsam Datenprobleme mit modernen Methoden lösen. Diese Data-Labs müssen technisch gut ausgestattet sein und einen Zugang zu CPU/GPU-Rechnern mit mindestens 1000 Kernen und Netzwerke mit 100 Gb/s anbieten. Ein permanentes barrierefreies Coaching durch lokale IT-Expert:innen ist ebenso notwendig. Physik und Astronomie stehen an der Schwelle einer neuen, verheißungsvollen Ära der Entdeckungen durch die Steigerung ihrer Möglichkeiten durch Big Data und Big-Data-Analyse.

Karl Mannheim