Qgelm

KI-Training mit synthetischen Daten: "Das Internet kommt ans Fördermaximum"

Originalartikel

Backup

<html> <figure class=„aufmacherbild“><img src=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/4/6/3/2/0/4/7/DocZet_a_roboter_surrounded_by_speech_bubbles_022169d6-a311-4a93-b14a-44b5ee161b23-9636f8fbfbc77d2c.png“ srcset=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/4/6/3/2/0/4/7/DocZet_a_roboter_surrounded_by_speech_bubbles_022169d6-a311-4a93-b14a-44b5ee161b23-9636f8fbfbc77d2c.png 700w, https://heise.cloudimg.io/width/1050/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/4/6/3/2/0/4/7/DocZet_a_roboter_surrounded_by_speech_bubbles_022169d6-a311-4a93-b14a-44b5ee161b23-9636f8fbfbc77d2c.png 1050w, https://heise.cloudimg.io/width/1500/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/4/6/3/2/0/4/7/DocZet_a_roboter_surrounded_by_speech_bubbles_022169d6-a311-4a93-b14a-44b5ee161b23-9636f8fbfbc77d2c.png 1500w, https://heise.cloudimg.io/width/1568/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/4/6/3/2/0/4/7/DocZet_a_roboter_surrounded_by_speech_bubbles_022169d6-a311-4a93-b14a-44b5ee161b23-9636f8fbfbc77d2c.png 1568w“ width=„1568“ height=„881“ sizes=„(min-width: 80em) 43.75em, (min-width: 64em) 66.66vw, 100vw“ alt=„Roboter umrundet von Sprechblasen“ class=„img-responsive“ referrerpolicy=„no-referrer“ /><figcaption class=„akwa-caption“>Roboter umrundet von Sprechblasen: Ohne Input kein Output.(Bild:&#160;Erstellt mit Midjourney durch heise online)</figcaption></figure><p><strong>Gro&#223;e Sprachmodelle werden immer gr&#246;&#223;er &#8211; und ben&#246;tigen mehr und mehr Trainingsdaten. Was passiert, wenn das gesamte Menschheitswissen abgegrast wurde?</strong></p><figure class=„a-u-inline-right a-inline-image a-u-inline“><div><img alt=„Forscher Villalobos.&#8203;“ class=„legacy-img c1“ height=„391“ sizes=„“ src=„https://heise.cloudimg.io/width/696/q85.png-lossy-85.webp-lossy-85.foil1/_www-heise-de_/imgs/18/4/6/3/2/0/4/7/villalobos-8dafdf9e14cd6051.png“ srcset=„https://heise.cloudimg.io/width/336/q70.png-lossy-70.webp-lossy-70.foil1/_www-heise-de_/imgs/18/4/6/3/2/0/4/7/villalobos-8dafdf9e14cd6051.png 336w, https://heise.cloudimg.io/width/1008/q70.png-lossy-70.webp-lossy-70.foil1/_www-heise-de_/imgs/18/4/6/3/2/0/4/7/villalobos-8dafdf9e14cd6051.png 1008w, https://heise.cloudimg.io/width/696/q70.png-lossy-70.webp-lossy-70.foil1/_www-heise-de_/imgs/18/4/6/3/2/0/4/7/villalobos-8dafdf9e14cd6051.png 696w, https://heise.cloudimg.io/width/1392/q70.png-lossy-70.webp-lossy-70.foil1/_www-heise-de_/imgs/18/4/6/3/2/0/4/7/villalobos-8dafdf9e14cd6051.png 1392w“ width=„696“ referrerpolicy=„no-referrer“ /></div><figcaption class=„a-caption“>Forscher Villalobos.</figcaption></figure><p>Pablo Villalobos ist Staff Researcher beim <a href=„https://epochai.org/team“ rel=„external noopener“ target=„_blank“><strong>KI-Forschungsinstitut Epoch AI [1]</strong></a> im kalifornischen San Jose. Er besch&#228;ftigt sich insbesondere mit der Frage, wie KI-Modelle effizient trainiert werden k&#246;nnen und welche Daten es daf&#252;r braucht. Im Interview mit heise online spricht er &#252;ber das Ph&#228;nomen „Peak Data“, das viele KI-Firmen besch&#228;ftigt.</p><p class=„frage rteabs–frage“>heise online: Das Internet ist riesig und jeden Tag werden scheinbar unz&#228;hlig viele Informationen hinzugef&#252;gt. Dennoch warnen Sie vor einem Informationsf&#246;rdermaximum, d.h. vor dem Tag, an dem es nichts mehr gibt, womit KI-Modelle trainiert werden k&#246;nnten. Sie vergleichen dieses „Peak Data“ mit „Peak Oil“, den Moment, wenn es kein &#214;l oder Gas mehr zu f&#246;rdern gibt. Ist Ihre Analyse nicht etwas &#252;berzogen?</p><p class=„antwort rteabs–antwort“>Pablo Villalobos: Nun, die Analogie zum &#214;lf&#246;rdermaximum mag dramatisch klingen, ebenso wie die Warnung, dass uns die Daten ausgehen k&#246;nnten. Dennoch kommt das Internet ans F&#246;rdermaximum. Letztendlich denke ich, dass wir an einem bestimmten Punkt mit einem &#220;bergang rechnen m&#252;ssen, wenn KI-Modelle also das meiste gelernt haben, was das Internet ihnen beibringen kann. Dann m&#252;ssen wir neue Wissensquellen finden, um die Modelle weiter zu verbessern.</p><p class=„frage rteabs–frage“>Wie weit sind wir von diesem Moment entfernt? L&#228;sst sich diese Entwicklung &#252;berhaupt verfolgen?</p><p class=„antwort rteabs–antwort“>Nach unseren aktuellen Sch&#228;tzungen sind wir noch ein paar Jahre von diesem Moment entfernt, es sind wohl zwischen zwei und sechs. Andere Forscher haben bereits Prognosen &#252;ber die Datenmenge im Internet aufgestellt und kommen dabei auf etwas h&#246;here oder auch niedrigere Zeitr&#228;ume. Aber solange sich die Datenmenge wie bisher pro Jahr ungef&#228;hr verdreifacht, wird es zwangsl&#228;ufig dazu kommen. Und ich bin sicher, dass die KI-Unternehmen selbst genaue Sch&#228;tzungen dar&#252;ber haben, auf wie viele Daten sie zugreifen k&#246;nnen und wann diese f&#252;r sie nicht mehr ausreichen werden.</p><p class=„frage rteabs–frage“>OpenAI, Anthropic und andere f&#252;hrende KI-Unternehmen haben erkl&#228;rt, dass sie auch synthetische Daten f&#252;r LLM-Trainingszwecke verwenden k&#246;nnten, d. h. sie einfach selbst wiederum von LLMs generieren lassen. Wie hat man sich das praktisch vorzustellen?</p><p class=„antwort rteabs–antwort“>Synthetische Daten sind im Grunde eine sehr einfache Idee, mit der Menschen beispielsweise in der Mathematik viel neues Wissen generieren. Wir denken intensiv &#252;ber ein Problem nach, probieren verschiedene Ans&#228;tze aus, verwerfen jene, die nicht funktionieren, und behalten die, die funktionieren &#8211; bis wir gelernt haben, das Problem zu l&#246;sen. Dann trainieren wir mit dem Rohoutput eines anderen Modellproblems und machen mit dem n&#228;chsten weiter.</p><p>Es gibt viele M&#246;glichkeiten, das zu tun. Grunds&#228;tzlich w&#252;rde es wahrscheinlich viele Instanzen eines Modells wie GPT-4 umfassen, die von anderen Instanzen verfasste Texte &#252;berpr&#252;fen und dann kuratieren. Zum Beispiel: Mehrere dieser Instanzen lesen ein Buch ein und erstellen eine Rezension, in der sie die St&#228;rken und Schw&#228;chen des Werkes beschreiben. Dann bewerten andere Instanzen diese Rezensionen und w&#228;hlen die besten aus, w&#228;hrend noch mehr Instanzen wiederum Feedback zu diesen Rezensionen geben. Schlie&#223;lich erstellen die Modelle eine gr&#252;ndlich &#252;berarbeitete Liste mit Verbesserungen und erstellen eine neue, verbesserte Version des Buches.</p><p class=„frage rteabs–frage“>Ein bisschen stelle ich mir das vor wie bei der ber&#252;hmten Schlange Ouroboros aus der Mystik, die sich selbst auffrisst. Was ist mit dem Problem des sogenannten Modellkollapses, bei dem die Modelle nur noch Unsinn schreiben, weil sie quasi auf sich selbst trainiert wurden?</p><p class=„antwort rteabs–antwort“>Der oben geschilderte Ansatz ist komplizierter, als wenn ein Modell einfach alles niederschreibt, was ihm in den Sinn kommt, und das n&#228;chste Modell dann darauf trainiert wird. Das ist der Preis, den man zahlen muss, wenn man die Degeneration vermeiden will, die Sie erw&#228;hnen.</p><p>Und es stimmt: Ein Modell, das direkt auf seinen eigenen Output trainiert wird, ist wie ein Sch&#252;ler, der seine eigene Pr&#252;fung selbst benotet, nachdem er sie gerade abgelegt hat: Im besten Fall lernt er nichts, und im schlimmsten Fall verst&#228;rkt er die Fehler, die er gemacht hat. Beim obigen Ansatz erinnert das Vorgehen aber eher an einen Experten, der seine eigenen und die Argumente anderer Experten kritisiert und damit sein Fachgebiet voranbringt.</p><p class=„frage rteabs–frage“>Wann kommt es zum Modellkollaps und wann nicht?</p><p class=„antwort rteabs–antwort“>Es gibt einige Studien dazu. Sie zeigen, dass das wiederholte Training von Modellen anhand der Rohdaten anderer Modelle <a href=„https://arxiv.org/abs/2305.17493“ rel=„external noopener“ target=„_blank“><strong>letztendlich zu einer Degeneration [2]</strong></a> f&#252;hrt.</p><p>Aber es gibt auch das Gegenbeispiel: AlphaZero etwa, das durch das Spielen gegen sich selbst ein Experte im Go-Spiel wurde. Und es gibt das Beispiel von AlphaGeometry, das lernt, Theoreme in der Geometrie zu beweisen, indem es aus seinen Fehlern und Erfolgen der Vergangenheit lernt.</p><p>Wenn Sie mich fragen: In der Praxis bezweifle ich, dass der Modellkollaps ein wirklich gro&#223;es Hindernis sein wird. Es geht nur darum, die richtige Kombination aus Versuch und Irrtum mit einer integrierten Selbstkorrektur zu finden. Aber auch das wird ziemlich viel Arbeit.</p><h3 class=„subheading“ id=„navder_hype_wird0“>„Der Hype wird sich nochmals verzehnfachen“</h3><p class=„frage rteabs–frage“>Tats&#228;chlich d&#252;rften auch die Modelle, die aus Internet-Inhalten trainiert werden, zunehmend auf KI-Inhalte sto&#223;en. Die sich <a href=„https://www.heise.de/hintergrund/Truegerisch-Die-automatische-Erkennung-von-ChatGPT-Texten-hat-viele-Schwaechen-7486556.html“><strong>nur schwer erkennen [3]</strong></a> lassen.</p><p class=„antwort rteabs–antwort“>Das Internet enth&#228;lt Hunderte von Billionen W&#246;rtern. OpenAI-Chef Sam Altman sagte, dass OpenAI derzeit 100 Milliarden W&#246;rter pro Tag oder etwa 36 Billionen W&#246;rter pro Jahr generiert. Selbst wenn all das im Internet landen w&#252;rde, w&#228;re es derzeit nur ein kleiner Prozentsatz der Gesamtmenge an Text. Vielleicht wird es in ein paar Jahren aber ein sp&#252;rbarerer Prozentsatz werden.</p><p>Hinzu kommt, dass die aus dem Internet gesammelten Daten vor der Verwendung f&#252;r das Training noch gereinigt werden. Wir k&#246;nnen zwar nicht zwischen KI-generierten Daten und qualitativ hochwertigen oder minderwertigen Daten unterscheiden, aber wir k&#246;nnen zwischen Daten unterscheiden, die sich wiederholen. Wenn also KI-generierte Daten von guter Qualit&#228;t sind, k&#246;nnten sie f&#252;r das Training verwendet werden. Wenn sie jedoch viel Spam enthalten, werden sie herausgefiltert und aus dem Trainingsdatensatz entfernt.</p><p class=„frage rteabs–frage“>Es gibt die Zeit, nach der Menschen mit dem Testen von Atomwaffen begonnen hatten &#8211; und es gab die Zeit davor. Das l&#228;sst sich in der Atmosph&#228;re messen. Kann man das mit der Zeit vor und nach dem Start der gro&#223;en Sprachmodelle vergleichen?</p><p class=„antwort rteabs–antwort“>Vielleicht. Wenn es so weitergeht, wird man in einigen Jahren das Alter von LLMs eindeutig anhand der Unterschiede im Stromverbrauch erkennen k&#246;nnen.</p><p class=„frage rteabs–frage“>Einige KI-Forscher sagen, dass die Zeit der immer gr&#246;&#223;er werdenden Modelle vorbei ist. Wir sollten lieber kleinere und effizientere Modelle entwickeln. Ist das eine L&#246;sungsm&#246;glichkeit?</p><p class=„antwort rteabs–antwort“>Kleine und effiziente Modelle k&#246;nnen definitiv einen gro&#223;en Mehrwert bieten, insbesondere f&#252;r einfachere Aufgaben. Wenn es jedoch um die allgemeine Leistungsf&#228;higkeit geht, sind gro&#223;e Modelle derzeit unschlagbar. Und das menschliche Gehirn ist immer noch gr&#246;&#223;er als die gr&#246;&#223;ten Modelle, die wir haben, wenn man die Parameter von KI-Modellen und die Synapsen des Gehirns als gleichwertig betrachtet. Ich gehe also davon aus, dass die meisten Anwendungen k&#252;nftig kleinere Modelle verwenden werden, aber f&#252;r komplexere kognitive Anforderungen werden immer noch immer gr&#246;&#223;ere Modelle ben&#246;tigt.</p><p class=„frage rteabs–frage“>Sie sprechen vom Traum einer Allgemeinen K&#252;nstlichen Intelligenz (AGI) oder gar einer Superintelligenz.</p><p class=„antwort rteabs–antwort“>Der h&#228;ngt immer noch von der Skalierung ab, ja. Es k&#246;nnte jedoch auch synthetische Daten ben&#246;tigen. Oder KI-Modelle, die direkt aus der realen Arbeit lernen, z. B. durch eigene Experimente. Es k&#246;nnte auch andere neue Lernformen erfordern, um dorthin zu gelangen.</p><p class=„frage rteabs–frage“>Was den praktischen Nutzen aktueller LLMs und Chatbots angeht, sind einige Beobachter <a class=„heiseplus-lnk“ href=„https://www.heise.de/hintergrund/LLMs-in-der-Softwareentwicklung-Was-sie-bringen-und-wo-sie-gescheitert-sind-9762874.html“><strong>inzwischen skeptischer [4]</strong></a> als noch vor wenigen Monaten. Wie lange wird der Hype noch anhalten?</p><p class=„antwort rteabs–antwort“>Jede weitere Gr&#246;&#223;enordnung der Skalierung wird da zu einem neuen Experiment. Die Entwicklung von Modellen der Gr&#246;&#223;enordnung eines OpenAI-GPT kostete schon Hunderte Millionen, als LLMs noch praktisch nutzlos und der breiten &#214;ffentlichkeit unbekannt waren. Ein paar Jahre sp&#228;ter erwirtschaften sie Milliardenums&#228;tze f&#252;r die Firma.</p><p>Jetzt werden Milliarden f&#252;r die Entwicklung der n&#228;chsten Generation ausgegeben. In ein paar Jahren werden wir sehen, ob diese neue Generation dann Ums&#228;tze in zweistelliger Milliardenh&#246;he erwirtschaften kann. Wenn nicht, wird der Hype wahrscheinlich stark abk&#252;hlen. Falls es klappt, dann werden wir ein weiteres Experiment sehen, dieses Mal im Ma&#223;stab von 100 Milliarden Dollar, und der Hype wird sich nochmals verzehnfachen. () </p><hr /><p><strong>URL dieses Artikels:</strong><br /><small>

https://www.heise.de/-9798049

</small></p><p><strong>Links in diesem Artikel:</strong><br /><small>

<strong>[1]</strong>&#160;https://epochai.org/team

</small><br /><small>

<strong>[2]</strong>&#160;https://arxiv.org/abs/2305.17493

</small><br /><small>

<strong>[3]</strong>&#160;https://www.heise.de/hintergrund/Truegerisch-Die-automatische-Erkennung-von-ChatGPT-Texten-hat-viele-Schwaechen-7486556.html

</small><br /><small>

<strong>[4]</strong>&#160;https://www.heise.de/hintergrund/LLMs-in-der-Softwareentwicklung-Was-sie-bringen-und-wo-sie-gescheitert-sind-9762874.html

</small><br /><small>

<strong>[5]</strong>&#160;mailto:bsc@heise.de

</small><br /></p><p class=„printversion__copyright“><em>Copyright &#169; 2024 Heise Medien</em></p> </html>

Cookies helfen bei der Bereitstellung von Inhalten. Diese Website verwendet Cookies. Mit der Nutzung der Website erklären Sie sich damit einverstanden, dass Cookies auf Ihrem Computer gespeichert werden. Außerdem bestätigen Sie, dass Sie unsere Datenschutzerklärung gelesen und verstanden haben. Wenn Sie nicht einverstanden sind, verlassen Sie die Website.Weitere Information