Druckansicht der Internetadresse:

Mathematisches Institut

Lehrstuhl für Angewandte Mathematik Prof. Dr. L. Grüne / Prof. Dr. A. Schiela

Seite drucken

News

zur Übersicht


MODUS-Vortrag von Giovanni Fantuzzi „Understanding transformers: hardmax attention, clustering, and perfect sequence classification“

Mittwoch, der 28. Mai 2025 um 12:15 Uhr

Am Mittwoch, den 28. Mai 2025 um 12:15 Uhr spricht im Seminarraum S 102, FAN, Gebäudeteil „FAN-B“

Herr Prof. Dr. Giovanni Fantuzzi [en],
(Alexander von Humboldt-Professur)
Lehrstuhl für Dynamics, Control, Machine Learning und Numerik [en],
Department Mathematik,
Naturwissenschaftliche Fakultät,
Friedrich-Alexander-Universität Erlangen-Nürnberg
(Gast am Lehrstuhl für Angewandte Mathematik
bei Herrn Prof. Dr. Lars Grüne)

im Rahmen des

Forschungszentrums für Modellierung und Simulation (MODUS)

über das Thema

„Understanding transformers: hardmax attention, clustering, and perfect sequence classification“.

Seine wissenschaftlichen Arbeitsfelder liegen im Bereich Optimierung, dynamische Systeme, mechanische Systeme mit Flüssigkeiten und partielle Differentialgleichungen.

ABSTRACT:

Transformers are an extremely successful machine learning model, famously known for powering platforms such as ChatGPT. What distinguishes them from classical deep neural networks is the presence of "attention" layers between standard "feed-forward" layers. In this talk, I will discuss how simple geometrical rules can explain the role of the attention layers and, consequently, the outstanding practical performance of transformers. Specifically, by focussing on a simplified class of transformers with "hardmax" attention, I will first show that attention layers induce clustering of the transformer's input data. I will then use this clustering effect to construct transformers that can perfectly classify a given set of input sequences with arbitrary but finite length, modelling, for example, books to be classified by a library. Crucially, the complexity of this construction is independent of the sequence length. This is in stark contrast to classical deep neural networks, explaining (at least in part) the superior performance of transformers for sequence classification tasks.

Weitere Einzelheiten erfahren Sie auf

des MODUS-Forschungszentrums.

Facebook Youtube-Kanal Instagram UBT-A Kontakt