DFG-Projekt „Nichtlineare optimale Feedback-Regelung mit tiefen neuronalen Netzen ohne den Fluch der Dimension: Räumlich abnehmende Sensitivität und nichtglatte Probleme“
Projektstart: 2024, Projektende: 2027
Projektnummer: GR 1569/23-2
Geldgeber: DFG (Sachbeihilfen)
Im Rahmen des Schwerpunktprogramms 2298 „Theoretische Grundlagen von Deep Learning“
PROJEKTBETEILIGTE
Projektleiter
Projektmitglied
PROJEKTBESCHREIBUNG
Optimale Regelung mittels Feedback ist eines der Hauptanwendungsgebiete von Deep Learning. Deep Reinforcement Learning, eines der Verfahren zur Berechnung optimaler Feedbacks und wohl einer der erfolgreichsten Algorithmen der Künstlichen Intelligenz, steht hinter den spektakulären Erfolgen in Spielen wie Schach und Go, hat aber auch mannigfache Anwendungen in Wissenschaft, Technik und Wirtschaft.
Dieses Projekt erforscht die mathematischen Grundlagen dieses erfolgreichen Ansatzes. Wir konzentrieren uns auf die Identifikation von Bedingungen, unter denen die hochdimensionalen Funktionen, die in der optimalen Steuerung berechnet werden müssen, effizient (d.h. unter Vermeidung des Fluchs der Dimensionalität) durch tiefe neuronale Netze (TNNs) approximiert werden können. Insbesondere betrachten wir zum einen optimale Wertfunktionen, die als eindeutige Viskositätslösungen von Hamilton-Jacobi-Bellman-PDEs dargestellt werden. Andererseits betrachten wir Kontroll-Lyapunov-Funktionen (clfs), die die optimalen Wertfunktionen (nicht notwendigerweise auf optimale Weise) ersetzen, wenn der Zustand eines Systems asymptotisch auf einer gewünschten Menge oder in einem Sollwert stabilisiert werden soll. Diese Funktionen können als obere Viskositätslösungen von Hamilton-Jacobi-Bellman-PDEs charakterisiert werden und bieten etwas vereinfachte Rahmenbedingungen, in denen wir unsere Methoden entwickeln können. Mit beiden Funktionsansätzen kann die optimale oder asymptotisch stabilisierende Steuerung in Feedback-Form berechnet werden, was das eigentliche Ziel bei der Lösung von Steuerungsproblemen mit langen oder sogar unendlichen Zeithorizonten ist.
In der ersten Förderperiode haben wir verschiedene Bedingungen an die Problemdaten, d.h. an die Dynamik und die Kostenfunktion, identifiziert, unter denen die resultierenden Funktionen durch kompositionelle oder separierbare Funktionen approximiert werden können, die durch TNNs in hohen Dimensionen effizient darstellbar sind. Die wohl wichtigste Erkenntnis der ersten Förderperiode ist, dass eine räumlich abklingende Sensitivitätseigenschaft der Schlüssel zur Konstruktion einer überlappenden separierbaren Approximation einer optimalen Wertfunktion ist. Diese Eigenschaft wurde vor kurzem von einer Reihe von Autoren untersucht (in zeitlicher Formulierung auch vom Antragsteller dieses Projekts), und das Verständnis ihrer Auswirkung auf TNN-Apporoximationen wird einer der Schwerpunkte der zweiten Förderperiode sein.
Eine Einschränkung der Ergebnisse aus der ersten Förderperiode besteht darin, dass sie derzeit nur für glatte optimale Wertfunktionen oder clfs und für TNNs mit glatten Aktivierungsfunktionen gelten. Letzteres schließt die beliebten und recheneffizienten ReLu-TNNs aus, während ersteres alle Kontrollprobleme ausschließt, für die es keine glatte Lösung gibt, wie z. B. asymptotische Stabilisierungsprobleme mit Hindernissen. Für diese Art von Problemen ist bekannt, dass nur nichtglatte Approximanten die Berechnung sinnvoller Feedback-Gesetze erlauben. Der zweite Schwerpunkt der zweiten Förderperiode wird daher die Entwicklung von approximierenden ReLu-TNNs für Probleme mit nichtglatten Lösungen sein, aufbauend auf den Ergebnissen für glatte Probleme aus der ersten Förderperiode.
Siehe auch die GEPRIS-Seite des Projekts, die Webseite des DFG-Schwerpunktprogramms 2298 „Theoretische Grundlagen von Deep Learning“ [in Englisch] und die GEPRIS-Seite des SPP 2298.