DFG-Projekt „Nichtlineare optimale Feedback-Regelung mit tiefen neuronalen Netzen ohne den Fluch der Dimension. Ein Zugang über kompositionelle Funktionen und Hamilton-Jacobi-Bellman Gleichungen“
Projektstart: 2021, Projektende: 2024
Projektnummer: GR 1569/23-1
Geldgeber: DFG (Sachbeihilfen)
Im Rahmen des Schwerpunktprogramms 2298 „Theoretische Grundlagen von Deep Learning“
PROJEKTBETEILIGTE
Projektleiter
Projektmitglied
PROJEKTBESCHREIBUNG
Optimale Regelung mittels Feedback ist eines der Hauptanwendungsgebiete von Deep Learning. Deep Reinforcement Learning, eines der Verfahren zur Berechnung optimaler Feedbacks und wohl einer der erfolgreichsten Algorithmen der Künstlichen Intelligenz, steht hinter den spektakulären Erfolgen in Spielen wie Schach und Go, hat aber auch mannigfache Anwendungen in Wissenschaft, Technik und Wirtschaft. Die mathematische Kernfrage bei dieser Methode besteht darin, optimale Wertefunktionen – also die Funktionen, die jedem Zustand seinen Optimalwert zuordnen, im Reinforcement Learning auch cost-to-go Funktion genannt – mit tiefen neuronalen Netzen (TNN) effizient darzustellen. Das optimale Feedback kann dann mit Hilfe dieser Funktion berechnet werden. In stetiger Zeit sind die optimalen Wertefunktionen durch Hamilton-Jacobi-Bellmann partielle Differentialgleichungen (HJB PDGs) charakterisiert, was die Fragestellung mit der Lösung von PDGs durch TNNs verbindet. Da die Dimension der HJB PDG durch die Zustandsdimension der Dynamik des optimalen Regelungsproblems gegeben ist, sind diese Gleichungen in natürlicher Weise hochdimensional. Damit sind sie anfällig für den "Fluch der Dimension", der die Tatsache beschreibt, dass der Rechenaufwand exponentiell mit der Dimension wächst.Es ist bekannt, dass Funktionen mit gewissen nützlichen Strukturen, wie z.B. kompositionelle oder separable Funktionen, durch TNNs mit geeigneter Architektur unter Vermeidung des Fluchs der Dimension approximiert werden können. Für HJB PDGs zur Charakterisierung von Lyapunovfunktionen hat der Antragsteller kürzlich gezeigt, dass small-gain Bedingungen – also Bedingungen an die Dynamik des Problems – die Existenz separabler Unterlösungen garantieren, welche durch TNNs und Trainingsalgorithmen mit geeigneten Verlustfunktionen effizient berechnet werden können.Diese Resultate bereiten den Weg für Fluch-der-Dimensions-freie TNN-basierte Ansätze für allgemeine nichtlineare HJB Gleichungen. Neben der small-gain Theorie existieren viele weitere nichtlineare Feedback-Entwurfsmethoden, die kompositionelle (sub)optimale Wertefunktionen liefern. Diese sind einerseits mathematisch rigoros und auf viele reale Probleme anwendbar, führen andererseits aber auf ausgesprochen schwierige Rechnungen, wenn die optimalen Wertefunktionen oder Feedbacks tatsächlich ausgerechnet werden sollen. In diesem Projekt werden wir die strukturellen Einsichten aus diesen Methoden nutzen, um die Existenz von kompositionellen optimalen Wertefunktionen (oder von Approximationen davon) sicherzustellen, die den Methoden innewohnenden rechnerischen Schwierigkeiten aber durch geeignete Trainingsalgorithmen für TNNs umgehen. Auf diese Weise werden wir Klassen von optimalen Feedback-Regelungsproblemen charakterisieren, die (näherungsweise) Lösungen durch TNNs ohne den Fluch der Dimension erlauben und effiziente Netzwerkarchitekturen und Trainingsalgorithmen für diese Probleme entwickeln.
Siehe auch die GEPRIS-Seite des Projekts, die Webseite des DFG-Schwerpunktprogramms 2298 "Theoretische Grundlagen von Deep Learning" [in Englisch] und die GEPRIS-Seite des SPP 2298.