Qgelm

GPT-3 überflügeln: Quellcode des KI-Modells MAGMA steht auf GitHub

Originalartikel

Backup

<html> <header class=„article-header“><h1 class=„articleheading“>GPT-3 &#252;berfl&#252;geln: Quellcode des KI-Modells MAGMA steht auf GitHub</h1><div class=„publish-info“> Silke Hahn</div></header><figure class=„aufmacherbild“><img src=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/3/6/4/0/1/0/model.jpg-2e432478526fed6d.jpeg“ srcset=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/3/6/4/0/1/0/model.jpg-2e432478526fed6d.jpeg 700w, https://heise.cloudimg.io/width/1050/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/3/6/4/0/1/0/model.jpg-2e432478526fed6d.jpeg 1050w, https://heise.cloudimg.io/width/1202/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/3/6/4/0/1/0/model.jpg-2e432478526fed6d.jpeg 1202w“ alt=„Modell-Design des Vision-Language-KI-Modells MAGMA von Aleph Alpha“ class=„img-responsive“ referrerpolicy=„no-referrer“ /><figcaption class=„akwa-caption“>(Bild:&#160;Aleph Alpha)</figcaption></figure><p><strong>Aleph Alpha stellt wesentliche Teile des multimodalen KI-Modells der Community zur Verf&#252;gung &#8211; MAGMA kann Bilder und Text in beliebiger Kombination verarbeiten.</strong></p><p>Aleph Alpha stellt die Codebasis seines KI-Modells MAGMA ab sofort auf GitHub als Open Source bereit. Das Team des deutschen Machine-Learning-Unternehmens Aleph Alpha mit Sitz in Heidelberg und Berlin hatte gemeinsam mit Forscherinnen der Universit&#228;t Heidelberg das Modell mit rund 200 Milliarden Parametern trainiert. Das Modell ist GPT-3 &#228;hnlich, geht als Vision-Language-Modell mit multimodalen F&#228;higkeiten jedoch &#252;ber das Sprachmodell hinaus und versteht laut seinen Herausgebern potenziell jegliche Kombination von Text und Bild. Optional l&#228;sst es sich weiterhin auch wie GPT-3 als reines Sprachmodell einsetzen.</p><h3 class=„subheading“ id=„nav_gro&#223;es0“>Gro&#223;es Sprachmodell, das auch Bilder versteht</h3><p>Aleph Alpha hat eine Methode entwickelt, um generierende Sprachmodelle durch adapterbasiertes Feintuning um zus&#228;tzliche Modalit&#228;ten wie die Bilderkennung zu erweitern. MAGMA steht f&#252;r „Multimodal Augmentation of Generative Models through Adapter-based Finetuning“ &#8211; im Kern handelt es sich um selbst&#252;berwachtes Lernen von Repr&#228;sentationen nach dem Transformer-Modell von Hugging Face. Das Team von Aleph Alpha machte sich den Ansatz des „Einfrierens“ von Sprachmodellen zunutze (gemeint ist das „Multimodal few-shot learning with frozen language models“, kurz: Frozen). Anders als Frozen hat MAGMA eine Reihe zus&#228;tzlicher Adapter-Layer erhalten, und als Encoder kommt die <a href=„https://www.heise.de/hintergrund/Ein-Avocado-Sessel-als-Zukunft-der-KI-5018147.html“><strong>visuelle Komponente von CLIP zum Einsatz [1]</strong></a> (einer von OpenAI Anfang 2021 vorgestellten Erweiterung von GPT-3, die frei Bilder zu Textbeschreibungen entwirft).</p><p>Ein Vortrainieren (Pretraining) im gro&#223;en Stil gilt zunehmend als die Norm f&#252;r das Modellieren gro&#223;er Vision-Language-Modelle (VL). Allerdings st&#246;&#223;t die herk&#246;mmliche Methode des Daten-Labelns im mehrstufigen Trainingsverfahren bei neuronalen Netzen mit wachsendem Umfang der Modelle an Grenzen. Hinsichtlich der Performance soll das VL-Modell MAGMA mit hoher Treffsicherheit punkten, dabei eine deutlich geringere Menge an gesampelten Daten f&#252;r das Training ben&#246;tigt haben als SimVLM („Simple visual language model pretraining with weak supervision“) &#8211; MAGMA ben&#246;tigte laut Team nur 0,2 Prozent der f&#252;r SimVLM eingesetzten Menge an Beispieldaten). Einem g&#228;ngigen Benchmarkvergleich zufolge stellt das in Python geschriebene VL-Modell wohl auch den Vorg&#228;nger Frozen in den Schatten. Ein auf arXiv.org ver&#246;ffentlichtes <a href=„https://arxiv.org/abs/2112.05253“ rel=„external noopener“ target=„_blank“><strong>Paper des Aleph-Alpha-Teams erl&#228;utert die Funktionsweise von MAGMA und pr&#228;sentiert die Vergleichswerte [2]</strong></a>.</p><figure class=„a-inline-image a-u-inline“><div><img alt=„Bauplan des Vision-Language-Modells MAGMA von Aleph Alpha“ class=„legacy-img“ height=„376“ src=„https://heise.cloudimg.io/width/696/q85.png-lossy-85.webp-lossy-85.foil1/_www-heise-de_/imgs/18/3/3/6/4/0/1/0/model-47c3f980cd7af5f8.jpg“ srcset=„https://heise.cloudimg.io/width/336/q70.png-lossy-70.webp-lossy-70.foil1/_www-heise-de_/imgs/18/3/3/6/4/0/1/0/model-47c3f980cd7af5f8.jpg 336w, https://heise.cloudimg.io/width/1008/q70.png-lossy-70.webp-lossy-70.foil1/_www-heise-de_/imgs/18/3/3/6/4/0/1/0/model-47c3f980cd7af5f8.jpg 1008w, https://heise.cloudimg.io/width/1392/q70.png-lossy-70.webp-lossy-70.foil1/_www-heise-de_/imgs/18/3/3/6/4/0/1/0/model-47c3f980cd7af5f8.jpg 2x“ width=„696“ referrerpolicy=„no-referrer“ /></div><figcaption class=„a-caption“>Design des Vision-Language-Modells MAGMA von Aleph Alpha(Bild:&#160;Aleph Alpha)</figcaption></figure><h3 class=„subheading“ id=„nav_multimodales1“>Multimodales Modell herunterladen und adaptieren</h3><p>Wer MAGMA ausprobieren oder f&#252;r eigene Zwecke abwandeln m&#246;chte, <a href=„https://github.com/Aleph-Alpha/magma“ rel=„external noopener“ target=„_blank“><strong>findet im GitHub-Repository von Aleph Alpha den Code [3]</strong></a> samt einer Anleitung zur Installation. Vorab m&#252;ssen <a href=„https://pytorch.org/get-started/locally/“ rel=„external noopener“ target=„_blank“><strong>PyTorch und Torchvision [4]</strong></a> installiert sein, mit dem Befehl <code>pip install -r requirements.txt</code> lassen sich die dar&#252;ber hinaus notwendigen Elemente installieren. Developer haben die Wahl zwischen den vortrainierten Weights von CLIP (als Default greifbar) oder denen von GPT-J. Zum Trainieren von MAGMA empfiehlt das Team den Weg &#252;ber Deepspeed, und zwar mit folgendem Befehl: <code>deepspeed train.py –config path_to_my_config</code>.</p><p>Das Open-Source-Release er&#246;ffnet laut seinem Herausgeber die n&#228;chste Stufe der KI-Entwicklung nach GPT-3 und k&#246;nnte sich zudem durch die zus&#228;tzlichen F&#228;higkeiten (Multimodalit&#228;t) und die nun erfolgte Offenlegung des Codes als europ&#228;ische Alternative zu dem Produkt von OpenAI etablieren. Weiterf&#252;hrende Informationen zum Modell <a href=„https://www.aleph-alpha.de/“ rel=„external noopener“ target=„_blank“><strong>lassen sich auch der Website von Aleph Alpha entnehmen [5]</strong></a>.</p><div class=„a-boxtarget a-boxcontent“ data-collapse-target=„“></div><p>() </p><hr /><p><strong>URL dieses Artikels:</strong><br /><small><code>https://www.heise.de/-6550590</code></small></p><p><strong>Links in diesem Artikel:</strong><br /><small><code><strong>[1]</strong>&#160;https://www.heise.de/hintergrund/Ein-Avocado-Sessel-als-Zukunft-der-KI-5018147.html</code></small><br /><small><code><strong>[2]</strong>&#160;https://arxiv.org/abs/2112.05253</code></small><br /><small><code><strong>[3]</strong>&#160;https://github.com/Aleph-Alpha/magma</code></small><br /><small><code><strong>[4]</strong>&#160;https://pytorch.org/get-started/locally/</code></small><br /><small><code><strong>[5]</strong>&#160;https://www.aleph-alpha.de/</code></small><br /><small><code><strong>[6]</strong>&#160;https://www.heise.de/news/Machine-Learning-Aleph-Alpha-feilt-mit-Oracle-und-Nvidia-an-transformativer-KI-6269269.html</code></small><br /><small><code><strong>[7]</strong>&#160;mailto:sih@ix.de</code></small><br /></p><p class=„printversioncopyright“><em>Copyright &#169; 2022 Heise Medien</em></p> </html>

Cookies helfen bei der Bereitstellung von Inhalten. Diese Website verwendet Cookies. Mit der Nutzung der Website erklären Sie sich damit einverstanden, dass Cookies auf Ihrem Computer gespeichert werden. Außerdem bestätigen Sie, dass Sie unsere Datenschutzerklärung gelesen und verstanden haben. Wenn Sie nicht einverstanden sind, verlassen Sie die Website.Weitere Information