Die physikalische Forschung ist seit jeher mit einer Menge an Daten konfrontiert. Nur eine detaillierte Analyse der Forschungsdaten führt zu einem grundlegenden Verständnis der in der Natur ablaufenden Prozesse und ist die Voraussetzung für jeglichen Erkenntnisgewinn. Waren bisher Experiment, Theorie und computergestützte Wissenschaft die drei Säulen – Paradigmen – der physikalischen Forschung, so werden diese gerade um ein Standbein – die datenzentrierte Forschung – erweitert. Sie hat zwei entscheidende Voraussetzungen: Erstens braucht es große Datenmengen, die über einzelne Studien hinausgehen – auch Big Data genannt. Dies wird durch das Zusammenführen und die Zugänglichkeit von Forschungsergebnissen in Dateninfrastrukturen nach den FAIR-Prinzipien ermöglicht.
FAIR-Prinzipien:
Daten sollen auffindbar (Findable), zugänglich (Accessible), miteinander austauschbar (Interoperable) und wiederverwendbar (Reusable) sein.
Die Herausforderungen der großen Datenmengen lassen sich mit vier englischen Schlagworten, den 4V, zusammenfassen:
Volume – die schiere Menge der Daten
Variety – die Vielfalt und Heterogenität der Daten in Form und Bedeutung
Velocity – die Geschwindigkeit, mit der Daten hinzukommen
Veracity – die Unsicherheit in der Datenqualität
Diese Herausforderungen von Big Data wirken sich auf die verschiedenen Fachgebiete innerhalb der Physik sehr unterschiedlich aus. Während man es zum Beispiel bei Signalen aus dem Universum mit enormen Datenmengen im Prinzip desselben Datentyps zu tun hat, sind die Messergebnisse aus der Quantenoptik nicht umfangreich, aber für jedes Experiment individuell. Hier kommen die Metadaten ins Spiel, also die Beschreibung der Daten. Ohne eine detaillierte Beschreibung, die uns erst ermöglicht, Zusammenhänge zu erkennen und den Grund für unterschiedliche Messergebnisse zu finden, sind unsere Daten nämlich so gut wie wertlos. Letztlich liegt es aber auch maßgeblich an der Qualität der Methoden der KI, ob wir Neuartiges finden können. Hier wird es von entscheidender Bedeutung sein, Algorithmen zu entwickeln, die genügend Vorhersagekraft haben, um über Bekanntes hinauszugehen.
Zweitens braucht es neuartige Analysemethoden, die es erlauben, Trends zu finden, die nur in solch großen Datenmengen ersichtlich werden. Dies ist ein Bereich, in dem die rasante Entwicklung von Methoden der künstlichen Intelligenz (KI) hilft.
Das vierte Paradigma der Materialwissenschaften
Die Zahl der aus verschiedenen Atomen zusammensetzbaren Materialien ist praktisch unendlich, und es besteht kein Zweifel daran, dass es Formen der kondensierten Materie gibt oder geben könnte, die bessere Eigenschaften und Funktionen aufweisen als die bereits bekannten. Doch selbst die bisher bekannten Materialien sind nicht ausreichend erforscht, und unser Wissen über ihre Eigenschaften und ihre Synthese ist für bahnbrechende Neuerungen oft nicht detailliert genug. Durch Hochdurchsatzscreening – sei es experimentell oder computergestützt – können wichtige Informationen über Eigenschaften zahlreicher Materialien gesammelt werden, die grundsätzlich zu neuen Entdeckungen führen können. Die unermessliche Zahl möglicher Materialien kann durch eine solche explizite Suche aber nicht abgedeckt werden. Neuartiges kann allerdings mit datenzentrierter Forschung gefunden werden.
Die Materialwissenschaften sind stark von allen vier der „4V“ von Big Data betroffen. Welcher dieser Aspekte – Volume, Variety, Velocity oder Veracity – am stärksten zutrifft, hängt von der jeweiligen fachlichen Ausrichtung und von den Untersuchungsmethoden ab. Die enorme Vielfalt an Eigenschaften und Materialien macht die Datenprozessierung und -analyse spannend, stellt aber eine große Herausforderung für jede Dateninfrastruktur dar. Den FAIR-Prinzipien zu genügen, erfordert eine eingehende Beschreibung der Art und Weise, was die Daten bedeuten und wie sie gewonnen wurden. Diese muss von den Wissenschaftler:innen zur Verfügung gestellt werden, und zwar über die in den Fachpublikationen hinaus enthaltenen Abbildungen und Daten.
Eine umfangreiche Dateninfrastruktur, die nicht nur all das leistet, sondern auch mit einfach zu bedienenden Up-/Download- und Suchfunktionen ausgestattet ist, ist Voraussetzung dafür, dass datenzentrierte Forschung in diesem extrem breiten Forschungsfeld überhaupt erfolgreich sein kann. Die Nationale Forschungsdateninfrastruktur (NFDI, nfdi.de/), deren Ziel es ist, Forschungsdaten aus allen Bereichen der Forschung, auch über die Naturwissenschaften hinaus, FAIR zu machen, ist gerade im Aufbau. Dabei entwickelt das Konsortium FAIRmat die webbasierte Software NOMAD (NOMAD-lab.eu), um dieses ambitionierte Ziel für das Feld der kondensierten Materie/der Materialwissenschaften in internationaler Kollaboration umzusetzen. NOMAD unterstützt die Forschenden auch dabei, aus den Daten Wissen zu generieren.
In den Materialwissenschaften geht es nicht nur darum, bekannte Materialien zu charakterisieren, sondern auch darum, neue zu finden. Diese könnten in diversen Anwendungen eingesetzt werden – von der Elektronik in unzähligen Geräten, über Solarzellen, Beleuchtung, Werkzeug, Transportmittel, bis hin zu Implantaten. Hier wiederum sind die unterschiedlichsten Eigenschaften entscheidend, seien es die atomare Struktur, elektronische, thermische, elastische Eigenschaften oder die Wechselwirkung von Materie mit Licht. KI kann helfen, neue Materialien oder Funktionen schneller zu finden. Eine besondere Bedeutung kommt hier den sogenannten Deskriptoren zu. Das sind Parameter, die eine Eigenschaft, eine Funktion, ein Material oder eine ganze Materialklasse wesentlich prägen. Darauf basierend lassen sich wiederum vielversprechende Materialien identifizieren oder vorhersagen. Lässt sich die Suche nach erfolgversprechenden Kandidaten dadurch eingrenzen, können damit auch Hochdurchsatzstudien effizienter gemacht werden. Big Data und KI werden damit das Forschungsfeld in Zukunft ergänzen und enorm bereichern. Sie werden auch dazu beitragen, einzelne, vor allem manuelle Arbeitsschritte zu vereinfachen oder gar überflüssig zu machen. Unsere Labore und etablierten wissenschaftlichen Methoden werden sie aber nicht ersetzen.
Big Data und KI am LHC
Die Detektoren am weltgrößten Teilchenbeschleuniger, dem Large Hadron Collider (LHC) am Forschungszentrum CERN in Genf, produzieren pro Sekunde mehrere Petabyte Rohdaten. Das sind Tausende Festplatten pro Sekunde, und das 24 Stunden am Tag. Um solche Datenmengen zu analysieren, hilft die Simulation: Das Standardmodell (SM) der Teilchenphysik sagt voraus, welche Teilchen mit welchen Energien und Impulsen wie oft und wo im Detektor erzeugt werden. Spannend sind die Daten, die Abweichungen von diesen Vorhersagen zeigen. Diese werden – teils in Echtzeit – aus den Rohdaten herausgepickt. Sowohl die Simulationen als auch die nachfolgenden Datenanalysen laufen verteilt auf Rechenzentren rund um die Welt.

Beantwortet werden sollen Fragen wie die nach der Entstehung des Higgs-Felds im leeren Raum, das den Elementarteilchen ihre Masse gibt. Auch die Tatsache, dass es im Universum sehr viel mehr Teilchen als Antiteilchen gibt, verlangt noch nach einer Erklärung. Und was sind der Ursprung und das Wesen Dunkler Materie und Dunkler Energie im Universum? Motiviert von diesen und anderen Fragen wird das LHC-Programm in den kommenden 15 Jahren die aktuelle Datenmenge mehr als verzehnfachen. Wie können wir damit umgehen?
KI-Methoden in der Teilchenphysik können drei strukturelle Ziele erreichen. Erstens können sie wichtige Bausteine einer Analyse besser, genauer und schneller machen. Als 2015 gezeigt wurde, dass Bildverarbeitungsnetzwerke die klassischen Analysemethoden für Hadronen im Detektor in allen Aspekten übertreffen, war die Richtung klar. Dasselbe gilt für KI-Simulationen in der Theorie.
Zweitens kann KI den Vergleich zwischen Simulationen und Messungen verbessern. Wenn wir klassisch experimentelle und simulierte Daten vergleichen, dann nutzen wir oft einzelne Messgrössen, deren Abweichung sich schon grafisch leicht erschließen lässt. Neuronale Netze können hingegen Datensätze komplett in beliebig vielen Dimensionen vergleichen und Abhängigkeiten entdecken, die sich rein menschlicher Analyse nicht oder nicht so leicht erschließen. Außerdem können wir wenig interessante Detektoreffekte schon vor der detailierten Analyse eliminieren. Diese inversen Simulationen revolutionieren gerade auch die Astrophysik und die Gravitationswellenphysik.
Drittens zeichnet sich durch unsere fundamentalen Fragen eine ganz neue Richtung ab. Wenn wir neue Teilchen und Wechselwirkungen in LHC-Daten suchen, kann ein neuronales Netzwerk die LHC-Kollisionen entsprechend auswählen. Auch die vielen Symmetrien, die die Teilchenphysik prägen, können von der KI genutzt werden – und möglicherweise könnten KI-Methoden in Zukunft eine ganz neue fundamentale Symmetrie entdecken.
Eine Datenrevolution in der Astronomie
Auch die Rätsel der Astronomie können mithilfe von Big Data und KI angegangen werden: Wie sah unser Universum vor mehr als zwölf Milliarden Jahren aus, als sich die ersten Galaxien gerade erst gebildet hatten? Wie haben sich Sterne, Galaxien und die Strukturen des intergalaktischen Mediums seitdem entwickelt? Um mehr über diese Fragestellungen zu lernen, werden in der Astronomie große Himmelsdurchmusterungen durchgeführt. Dabei vermessen Instrumente mehrere Milliarden Objekte am Nachthimmel durch Bildaufnahmen und die Messung der Energieverteilung der von ihnen ausgesendeten Strahlung. Für die Analyse dieser Milliarden von Karten und Spektren werden Algorithmen des maschinellen Lernens benutzt, die häufig ursprünglich für die Bilderkennung und Textanalyse entwickelt wurden. Modelle wie neuronale Netzwerke, auf denen KI aufbaut, sind zudem in der Lage, vielfältigere Informationen zu lernen als bisherige vereinfachte Modelle. So wurden zum Beispiel Formen und Helligkeitsverläufe von Galaxien in der Vergangenheit unter der Annahme einer Ellipsenform und einfachen Profilen analysiert, während Netzwerke auch Helligkeitsverläufe und Eigenschaften von sehr unregelmäßigen Galaxien zuverlässig vermessen können. Gleichzeitig liefert die Astrophysik als wissenschaftliche Anwendung Anreize für Entwicklungen, die in der Bildanalyse keine Priorität hatten, wie eine robuste Fehlerbestimmung und die Bestimmung hochdimensionaler Wahrscheinlichkeitsverteilungen für Modellparameter. Es ist nur eine Frage der Zeit, bis mithilfe von Netzwerkmodellen und KI in den riesigen zur Verfügung stehenden Datenmengen neue Entdeckungen gemacht werden, die zuvor nicht oder nur schwer möglich gewesen wären.
Square Kilometre Array (SKA)
Das Square Kilometre Array (SKA) Radio-Interferometer und seine Vorläuferexperimente vermessen einen Großteil des beobachtbaren Universums im Zentimeter- bis Meter-Wellenlängenbereich. Das Ziel ist, mehr über Radioquellen wie Galaxien, aktive Galaxienkerne und Pulsare zu lernen. Außerdem soll die großskalige Struktur von neutralem Wasserstoff, dem häufigsten Element im Universum, von heute bis zurück zur Zeit etwa 200–300 Millionen Jahre nach dem Urknall kartiert werden – der Zeit, als sich die allererste Generation von Sternen und Galaxien gebildet hat. Das SKA wird seit 2022 gebaut und soll ab 2029 wissenschaftliche Himmelsdurchmusterungen in 3D durchführen. Die Datenraten werden etwa 0,5–1 Terabyte pro Sekunde betragen, und einzelne tomografische 3D-Bilder werden typischerweise aus 215 Bildpunkten und 216 Frequenzkanälen bestehen. Für die ersten 15 Jahre sind insgesamt etwa 8,5 Exabyte, also eine Million Terabyte, an Daten geplant. Diese Daten zu filtern, zu sortieren und zu analysieren, überschreitet die Möglichkeiten langsamerer, traditionell genutzter Computeralgorithmen oder gar der menschlichen Betrachtung von Daten durch Astronom:innen. Für neue Entdeckungen, beispielsweise im frühen Universum, als Galaxien anders aussahen als Galaxien heute, brauchen wir daher Algorithmen, die sowohl schnell große Datenmengen bearbeiten können, als auch in der Lage sind, anhand neuer Daten zu lernen, d.h. ihre Modelle anzupassen. Genau das wird KI leisten können.

Bessere Quantencomputer
Quantencomputer und andere vielversprechende Quantentechnologien sind gegenwärtig noch in der Entwicklung. Die Anzahl der Recheneinheiten, also Quantenbits, die in einem Quantencomputer realisiert werden, steigt ständig.
Die Messung an einem einzelnen Quantenbit ergibt ein verrauschtes Signal, aus welchem der eigentliche Quantenzustand erst ermittelt werden muss. Dies ist eine Aufgabe, auf die neuronale Netze schon erfolgreich in Experimenten trainiert werden. Die Herausforderung steigt erheblich, wenn wir uns für den Quantenzustand von vielen Quantenbits interessieren, eben bei einem Quantencomputer. Die Beschreibung eines solchen Quantenzustands erfordert eine enorme Menge an Informationen, die exponenziell mit der Zahl der Quantenbits ansteigt. Zur Charakterisierung eines derartigen Quantenzustands kann man viele Messungen durchführen, von denen jede einzelne die Quantenbits zufällig in der einen oder anderen Konfiguration zeigt. Es ist möglich, ein neuronales Netz mit dieser sehr großen Menge an Messdaten zu trainieren, damit es später in der Lage ist, die Statistik der Messungen zu reproduzieren. Auch zur genauen und effizienten Charakterisierung eines experimentellen Aufbaus kann die KI in Zukunft herangezogen werden, z. B. um zu bestimmen, welche Kopplungen zwischen den Hunderten von Quantenbits vorliegen.
Die mit Abstand größte Herausforderung für zukünftige Quantencomputer ist der Zerfall der gespeicherten Quanteninformation. Dieser Zerfall wird durch das Rauschen der Umgebung bewirkt, z. B. durch Schwankungen in elektrischen und magnetischen Feldern, sowie dadurch, dass der Quantencomputer Energie abgibt. Um Quanteninformation dennoch zu schützen, wird die Quantenfehlerkorrektur angewendet. Dabei muss aus dem Ergebnis von Messungen abgelesen werden, welche Fehler passiert sind. Gerade bei der Quantenfehlerkorrektur ist die Interpretation dieser Messergebnisse aber sehr knifflig. Hier können neuronale Netze helfen, indem sie zu einem beobachteten Messresultat vorschlagen, welche Fehler möglicherweise dahinter stecken könnten.

Man kann aber noch einen Schritt weiter gehen: Anstatt von einem bekannten Ansatz zur Quantenfehlerkorrektur auszugehen und ihn durch neuronale Netze zu verbessern, gelingt es inzwischen auch, Fehlerkorrekturansätze komplett neu zu entdecken und zu optimieren. Der Schlüssel dazu liegt im verstärkenden Lernen. Dabei handelt es sich um einen Satz von KI-Methoden, welche dazu geeignet sind, optimierte Strategien von selbst zu entdecken. Damit lassen sich zum Beispiel menschliche Leistungen in Brettspielen wie Go oder Schach weit übertreffen. Dabei wird eine Belohnungsfunktion definiert (zum Beispiel ergibt der Gewinn eines Spiels eine hohe Belohnung) und auf diese wird dann automatisch optimiert, um zu einer möglichst guten Strategie zu gelangen. Diese Art von Verfahren wird inzwischen auch erfolgreich in der Quantenphysik angewendet, insbesondere auf solche komplexen Fragestellungen wie die Entdeckung neuer Fehlerkorrekturstrategien. Ganz allgemein können mit ähnlichen Methoden auch Kontrollsequenzen für Quantencomputer optimiert werden oder besonders sensitive Quantensensoren entwickelt werden.
Eine wichtige Herausforderung in der Anwendung solcher KI-Methoden in Quantenexperimenten ist oft die Geschwindigkeit. In manchen Szenarien muss das neuronale Netz aus den Messergebnissen rasch eine geeignete Kontrollsequenz für die Quantenbits generieren, und zwar schneller, als das Rauschen die Quanteninformation zerstört. Je nach physikalischer Plattform kann es sich dabei um Zeitskalen bis hinunter zu einzelnen Mikrosekunden handeln. Das erfordert dann die hochoptimierte Implementation neuronaler Netze auf der Hardware-Ebene nahe am Experiment, zum Beispiel in speziell dafür konstruierten Mikrochips.
Eine weitere attraktive Herausforderung in dem Bereich der Quantentechnologien ist das Design komplett neuer Quantenexperimente. In dem Fall gibt man ein Ziel vor, z. B. die Erzeugung eines besonderen, verschränkten Quantenzustandes vieler Photonen. Der Computer betrachtet dann viele verschiedene mögliche experimentelle Aufbauten, in diesem Falle bestehend aus einzelnen Komponenten wie Strahlteilern und Photonenquellen, und entscheidet, welche dieser Aufbauten besonders geeignet sind, um das Ziel zu erreichen. KI hilft, diesen hochgradig komplexen Optimierungsprozess effizient zu gestalten.
In Zukunft wird die Anwendung der KI auf Quantentechnologien eine Änderung der Denkweise erlauben, indem nicht detaillierte Strategien sondern eher übergeordnete Ziele definiert werden, welche dann von der KI erreicht werden.
Bessere KI dank Physik
Maschinelles Lernen und KI sind in vielen Bereichen der Physik sehr hilfreich. Umgekehrt kann aber auch die Physik zu diesen Gebieten beitragen. Auf der theoretischen Seite geschieht das schon seit Langem durch die Anwendung von Methoden der statistischen Physik, um zum Beispiel den Lernprozess in neuronalen Netzen besser zu verstehen. Auf der experimentellen Seite hat sich das Feld des neuromorphen Computing entwickelt. Dabei geht es darum, die üblichen künstlichen neuronalen Netzwerke, welche auf digitalen Computern implementiert sind, durch neuartige physikalische Systeme abzulösen. Die Motivation dafür ist das rasante Wachstum des maschinellen Lernens und der inzwischen enorm gestiegene Energieverbrauch der neuronalen Netze, insbesondere von solchen Anwendungen wie den großen Sprachmodellen, die Grundlage für Chatbots wie ChatGPT sind. Um dem zu begegnen, sollen neue hardwarenahe Lösungen entwickelt werden, die analog und hochgradig parallel sowie energieeffizient arbeiten. Beispiele dafür sind speziell entwickelte optische Systeme auf dem Chip sowie besondere elektrische Schaltkreise, jeweils mit vielen veränderlichen Parametern, die während des Trainings geändert werden. Hier hat sich für die Physik ein großer Bereich mit zahlreichen komplexen Herausforderungen (z. B. dem effizienten Training solcher Systeme, basierend auf physikalischen Prinzipien) eröffnet, aber auch potentiell sehr großer Auswirkung auf die Anwendungen der KI in allen anderen Bereichen von Technologie, Wissenschaft und Gesellschaft.