Transformer (Maschinelles Lernen)

Ein Transformer ist eine von Google entwickelte Deep-Learning-Architektur, die einen sog. Aufmerksamkeitsmechanismus integriert, der erstmals in einem Artikel aus dem Jahr 2017 „Attention Is All You Need“ vorgestellt wurde. Dabei wird Text in numerische Darstellungen umgewandelt, die als Token bezeichnet werden, anschließend durch Worteinbettung in Vektoren umgewandelt. Dies kann z. B. benutzt werden, um Text von einer Sprache in eine andere zu übersetzen. Dazu wird ein Transformer mittels maschinellem Lernen auf einer (großen) Menge von Beispielstexten trainiert, bevor das trainierte Modell dann zur Übersetzung verwendet werden kann. Weitere Beispielanwendungen von Transformern sind die Textgenerierung oder die Zusammenfassung längerer Texte. Transformer weisen hierbei eine bessere Effizienz gegenüber Long-short-term-memory-Architekturen (LSTM) auf und sind die Grundarchitektur des generativen vortrainierten Transformers (GPT) und anderer vortrainierter Machine-Learning-Modelle. Lineare transformer sind eine Form von "fast weight programmers" welche 1991 vorgeschlagen wurden[1].

  1. Schmidhuber, Jürgen, and A. I. Blog. "Before 1991, no network learned by gradient descent to quickly compute the changes of the fast weight storage of another network or of itself. Such Fast Weight Programmers (FWPs) were published in 1991-93 [FWP0-2](Sec. 1, 2, 3, 4). They embody the principles found in certain types of what is now called attention [ATT](Sec. 4) and Transformers [TR1-6](Sec. 2, 3, 4, 5)." https://people.idsia.ch/~juergen/fast-weight-programmer-1991-transformer.html

© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search