DFG-Projekt „Multilevel-Architekturen und -Algorithmen im Deep Learning“

Projektstart: 2021, Projektende: 2024

Projektnummer: SCHI 1379/8-1

Geldgeber: DFG (Sachbeihilfen)

Im Rahmen des Schwerpunktprogramms 2298 "Theoretische Grundlagen von Deep Learning"

PROJEKTBETEILIGTE

Projektleiter

Prof. Dr. Anton Schiela

Projektmitglied

M.Sc. Frederik Köhne

Externe Partner

Prof. Dr. Roland Herzog (Ruprecht-Karls-Universität Heidelberg, Interdisciplinary Center for Scientific Computing)

PROJEKTBESCHREIBUNG

Der Entwurf von tiefen neuronalen Netzen (DNNs) und deren Training ist ein zentrales Thema beim maschinellen Lernen. Fortschritte in diesen Bereichen sind eine der treibenden Kräfte für den Erfolg dieser Technologien. Trotzdem sind während des Lernprozesses häufig noch mühsame Experimente und menschliche Interaktion erforderlich, um eine geeignete Netzwerkstruktur und entsprechende Hyperparameter zu finden und so das gewünschte Verhalten eines DNNs zu erhalten.Das strategische Ziel des vorgeschlagenen Projekts besteht darin, algorithmische Techniken zur Verbesserung dieser Situation zu entwickeln. Unser methodischer Ansatz basiert auf gut etablierten mathematischen Strategien: Identifikation grundlegender algorithmischer Größen, Entwicklung geeigneter A-Posteriori-Schätzer, Identifikation eines geeigneten topologischen Rahmens für die gegebene Problemklasse und deren konsistente Nutzung sowie Einführung einer Multilevel-Struktur für DNNs basierend auf der Tatsache, dass DNNs lediglich eine diskrete Approximation einer kontinuierlichen nichtlinearen Abbildung darstellen, die Eingabe- auf Ausgabedaten abbildet. Durch Kombination dieser Idee mit neuartigen algorithmischen Steuerungsstrategien und Vorkonditionierern werden wir die neue Klasse adaptiver Multilevel-Algorithmen für Deep Learning etablieren, die nicht nur ein festes DNN optimieren, sondern die DNN-Architektur während der Optimierungsschleife adaptiv verfeinern und erweitern. Dieses Konzept ist nicht auf eine bestimmte Netzwerkarchitektur beschränkt, und wir werden vorwärtsgerichtete neuronale Netze, ResNets und PINNs als relevante Beispiele untersuchen.Unser integrierter Ansatz wird daher viele der derzeitigen manuellen Tuning-Techniken durch auf A-Posteriori-Schätzern basierende algorithmische Strategien ersetzen können. Darüber hinaus wird unser Algorithmus den Rechenaufwand für das Training und auch die Größe des resultierenden DNN im Vergleich zu einem manuell entworfenen Gegenstück reduzieren, wodurch die Verwendung von Deep Learning in vielerlei Hinsicht effizienter wird. Schließlich hat unser algorithmischer Ansatz auf lange Sicht das Potenzial, die Zuverlässigkeit und Interpretierbarkeit des resultierenden trainierten DNN zu verbessern.

Siehe auch die GEPRIS-Seite des Projekts, die Webseite des DFG-Schwerpunktprogramms 2298 "Theoretische Grundlagen von Deep Learning" [in Englisch] und die GEPRIS-Seite des SPP 2298.

responsible for the content: Lars Grüne

Mathematisches Institut