<html> <header class=„article-header“><h1 class=„articleheading“>GPT-3 überflügeln: Quellcode des KI-Modells MAGMA steht auf GitHub</h1><div class=„publish-info“> Silke Hahn</div></header><figure class=„aufmacherbild“><img src=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/3/6/4/0/1/0/model.jpg-2e432478526fed6d.jpeg“ srcset=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/3/6/4/0/1/0/model.jpg-2e432478526fed6d.jpeg 700w, https://heise.cloudimg.io/width/1050/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/3/6/4/0/1/0/model.jpg-2e432478526fed6d.jpeg 1050w, https://heise.cloudimg.io/width/1202/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/3/6/4/0/1/0/model.jpg-2e432478526fed6d.jpeg 1202w“ alt=„Modell-Design des Vision-Language-KI-Modells MAGMA von Aleph Alpha“ class=„img-responsive“ referrerpolicy=„no-referrer“ /><figcaption class=„akwa-caption“>(Bild: Aleph Alpha)</figcaption></figure><p><strong>Aleph Alpha stellt wesentliche Teile des multimodalen KI-Modells der Community zur Verfügung – MAGMA kann Bilder und Text in beliebiger Kombination verarbeiten.</strong></p><p>Aleph Alpha stellt die Codebasis seines KI-Modells MAGMA ab sofort auf GitHub als Open Source bereit. Das Team des deutschen Machine-Learning-Unternehmens Aleph Alpha mit Sitz in Heidelberg und Berlin hatte gemeinsam mit Forscherinnen der Universität Heidelberg das Modell mit rund 200 Milliarden Parametern trainiert. Das Modell ist GPT-3 ähnlich, geht als Vision-Language-Modell mit multimodalen Fähigkeiten jedoch über das Sprachmodell hinaus und versteht laut seinen Herausgebern potenziell jegliche Kombination von Text und Bild. Optional lässt es sich weiterhin auch wie GPT-3 als reines Sprachmodell einsetzen.</p><h3 class=„subheading“ id=„nav_großes0“>Großes Sprachmodell, das auch Bilder versteht</h3><p>Aleph Alpha hat eine Methode entwickelt, um generierende Sprachmodelle durch adapterbasiertes Feintuning um zusätzliche Modalitäten wie die Bilderkennung zu erweitern. MAGMA steht für „Multimodal Augmentation of Generative Models through Adapter-based Finetuning“ – im Kern handelt es sich um selbstüberwachtes Lernen von Repräsentationen nach dem Transformer-Modell von Hugging Face. Das Team von Aleph Alpha machte sich den Ansatz des „Einfrierens“ von Sprachmodellen zunutze (gemeint ist das „Multimodal few-shot learning with frozen language models“, kurz: Frozen). Anders als Frozen hat MAGMA eine Reihe zusätzlicher Adapter-Layer erhalten, und als Encoder kommt die <a href=„https://www.heise.de/hintergrund/Ein-Avocado-Sessel-als-Zukunft-der-KI-5018147.html“><strong>visuelle Komponente von CLIP zum Einsatz [1]</strong></a> (einer von OpenAI Anfang 2021 vorgestellten Erweiterung von GPT-3, die frei Bilder zu Textbeschreibungen entwirft).</p><p>Ein Vortrainieren (Pretraining) im großen Stil gilt zunehmend als die Norm für das Modellieren großer Vision-Language-Modelle (VL). Allerdings stößt die herkömmliche Methode des Daten-Labelns im mehrstufigen Trainingsverfahren bei neuronalen Netzen mit wachsendem Umfang der Modelle an Grenzen. Hinsichtlich der Performance soll das VL-Modell MAGMA mit hoher Treffsicherheit punkten, dabei eine deutlich geringere Menge an gesampelten Daten für das Training benötigt haben als SimVLM („Simple visual language model pretraining with weak supervision“) – MAGMA benötigte laut Team nur 0,2 Prozent der für SimVLM eingesetzten Menge an Beispieldaten). Einem gängigen Benchmarkvergleich zufolge stellt das in Python geschriebene VL-Modell wohl auch den Vorgänger Frozen in den Schatten. Ein auf arXiv.org veröffentlichtes <a href=„https://arxiv.org/abs/2112.05253“ rel=„external noopener“ target=„_blank“><strong>Paper des Aleph-Alpha-Teams erläutert die Funktionsweise von MAGMA und präsentiert die Vergleichswerte [2]</strong></a>.</p><figure class=„a-inline-image a-u-inline“><div><img alt=„Bauplan des Vision-Language-Modells MAGMA von Aleph Alpha“ class=„legacy-img“ height=„376“ src=„https://heise.cloudimg.io/width/696/q85.png-lossy-85.webp-lossy-85.foil1/_www-heise-de_/imgs/18/3/3/6/4/0/1/0/model-47c3f980cd7af5f8.jpg“ srcset=„https://heise.cloudimg.io/width/336/q70.png-lossy-70.webp-lossy-70.foil1/_www-heise-de_/imgs/18/3/3/6/4/0/1/0/model-47c3f980cd7af5f8.jpg 336w, https://heise.cloudimg.io/width/1008/q70.png-lossy-70.webp-lossy-70.foil1/_www-heise-de_/imgs/18/3/3/6/4/0/1/0/model-47c3f980cd7af5f8.jpg 1008w, https://heise.cloudimg.io/width/1392/q70.png-lossy-70.webp-lossy-70.foil1/_www-heise-de_/imgs/18/3/3/6/4/0/1/0/model-47c3f980cd7af5f8.jpg 2x“ width=„696“ referrerpolicy=„no-referrer“ /></div><figcaption class=„a-caption“>Design des Vision-Language-Modells MAGMA von Aleph Alpha(Bild: Aleph Alpha)</figcaption></figure><h3 class=„subheading“ id=„nav_multimodales1“>Multimodales Modell herunterladen und adaptieren</h3><p>Wer MAGMA ausprobieren oder für eigene Zwecke abwandeln möchte, <a href=„https://github.com/Aleph-Alpha/magma“ rel=„external noopener“ target=„_blank“><strong>findet im GitHub-Repository von Aleph Alpha den Code [3]</strong></a> samt einer Anleitung zur Installation. Vorab müssen <a href=„https://pytorch.org/get-started/locally/“ rel=„external noopener“ target=„_blank“><strong>PyTorch und Torchvision [4]</strong></a> installiert sein, mit dem Befehl <code>pip install -r requirements.txt</code> lassen sich die darüber hinaus notwendigen Elemente installieren. Developer haben die Wahl zwischen den vortrainierten Weights von CLIP (als Default greifbar) oder denen von GPT-J. Zum Trainieren von MAGMA empfiehlt das Team den Weg über Deepspeed, und zwar mit folgendem Befehl: <code>deepspeed train.py –config path_to_my_config</code>.</p><p>Das Open-Source-Release eröffnet laut seinem Herausgeber die nächste Stufe der KI-Entwicklung nach GPT-3 und könnte sich zudem durch die zusätzlichen Fähigkeiten (Multimodalität) und die nun erfolgte Offenlegung des Codes als europäische Alternative zu dem Produkt von OpenAI etablieren. Weiterführende Informationen zum Modell <a href=„https://www.aleph-alpha.de/“ rel=„external noopener“ target=„_blank“><strong>lassen sich auch der Website von Aleph Alpha entnehmen [5]</strong></a>.</p><div class=„a-boxtarget a-boxcontent“ data-collapse-target=„“></div><p>() </p><hr /><p><strong>URL dieses Artikels:</strong><br /><small><code>https://www.heise.de/-6550590</code></small></p><p><strong>Links in diesem Artikel:</strong><br /><small><code><strong>[1]</strong> https://www.heise.de/hintergrund/Ein-Avocado-Sessel-als-Zukunft-der-KI-5018147.html</code></small><br /><small><code><strong>[2]</strong> https://arxiv.org/abs/2112.05253</code></small><br /><small><code><strong>[3]</strong> https://github.com/Aleph-Alpha/magma</code></small><br /><small><code><strong>[4]</strong> https://pytorch.org/get-started/locally/</code></small><br /><small><code><strong>[5]</strong> https://www.aleph-alpha.de/</code></small><br /><small><code><strong>[6]</strong> https://www.heise.de/news/Machine-Learning-Aleph-Alpha-feilt-mit-Oracle-und-Nvidia-an-transformativer-KI-6269269.html</code></small><br /><small><code><strong>[7]</strong> mailto:sih@ix.de</code></small><br /></p><p class=„printversioncopyright“><em>Copyright © 2022 Heise Medien</em></p> </html>