Qgelm

KI-Trainingsdaten enthalten private Informationen

Originalartikel

Backup

<html> <div class=„seitenkopf“><div class=„seitenkopfmedia columns twelve m-twelve ts-picturewrapper“><noscript><img class=„ts-image“ src=„https://images.tagesschau.de/image/c281fb7f-a960-4073-a4fb-7cea9953d84d/AAABiSsDtj4/AAABg8tMRzY/20x9-1280/monitor-daten-100.jpg“ alt=„Ein fiktives Programm ist auf zwei Bildschirmen eines Computers zu sehen.“ title=„Ein fiktives Programm ist auf zwei Bildschirmen eines Computers zu sehen. | picture alliance/dpa“ referrerpolicy=„no-referrer“ /></noscript></div></div><p class=„textabsatz columns twelve m-ten m-offset-one l-eight l-offset-two“><strong>Trainingsdaten sind der Rohstoff f&#252;r KI-Systeme. Sie bestehen aus riesigen Mengen an Bildern und Texten aus dem Netz. Eine <em>BR</em>-Recherche zeigt nun: Darunter sind viele privaten Daten - ein Problem f&#252;r den Datenschutz.</strong></p><p>Von Katharina Brunner und Elisa Harlan, BR</p><p class=„textabsatz m-ten m-offset-one l-eight l-offset-two columns twelve“>Das Nacktbild eines Niederl&#228;nders: In der Bildbeschreibung stehen sein Vor- und Nachname und die Geokoordinaten des Aufnahmeortes. Sucht man mit diesen Informationen im Internet nach dem Mann, ist er schnell gefunden.</p><p class=„textabsatz m-ten m-offset-one l-eight l-offset-two columns twelve“>Der Niederl&#228;nder ist kein Einzelfall. Bei der Analyse des weltweit wohl gr&#246;&#223;ten Trainingsdatensatzes f&#252;r KI-Bildgenerierung haben <em>BR-</em>Datenjournalistinnen massenweise Daten gefunden, mit denen sich Personen identifizieren lassen: Gesichter und Namen, Geokoordinaten oder E-Mails, sogar Kontonummern. Der LAION5B-Datensatz, eine Abk&#252;rzung f&#252;r „Large-scale Artificial Intelligence Open Network“, &#252;bersetzt: „Gro&#223; angelegtes offenes Netzwerk f&#252;r k&#252;nstliche Intelligenz“, besteht aus f&#252;nf Milliarden Links auf Bilder und ihren Beschreibungen im Internet. Er ist zugleich der einzige vergleichbare Trainingsdatensatz f&#252;r KI-Modelle, der &#246;ffentlich zug&#228;nglich ist.</p><h2 id=„Problematische-Daten-bereits-in-Stichprobe“ class=„meldungsubhead columns twelve m-ten m-offset-one l-eight l-offset-two liveblog–anchor“>Problematische Daten bereits in Stichprobe</h2><p class=„textabsatz m-ten m-offset-one l-eight l-offset-two columns twelve“>KI-Trainingsdatens&#228;tze bestehen &#252;blicherweise aus enormen Mengen an Texten und Bildern. Sie liefern den Rohstoff f&#252;r KI-Systeme, die Texte und Bilder generieren, und derzeit von Millionen Menschen auf der Welt benutzt werden. Sogenannte Bildgeneratoren wie Stable Diffusion, Midjourney oder Dall-e von OpenAI funktionieren alle &#228;hnlich: Menschen beschreiben mit kurzen Texteingaben, sogenannten Prompts, welches Motiv auf dem gew&#252;nschten Bild zu sehen sein soll. Die Programme erstellen dann mit Hilfe der Trainingsdaten ein neues Bild, oder so viele man m&#246;chte.</p><p class=„textabsatz m-ten m-offset-one l-eight l-offset-two columns twelve“>Ende Juni 2023 reichte in den USA eine anonyme Gruppe Klage gegen das Unternehmen OpenAI ein, das unter anderem auch ChatGPT betreibt: Sie wirft der Firma unter anderem massenhafte Verletzungen der Privatsph&#228;re vor.</p><p class=„textabsatz m-ten m-offset-one l-eight l-offset-two columns twelve“>Die <em>BR-Analyse</em> zeigt, dass sich auch im deutschsprachigen Teil der LAION-Datens&#228;tze f&#252;r 20 Millionen Bilder Zusatzinformationen finden, sogenannte Exif-Metadaten. Exif steht f&#252;r „Exchangeable Image File Format“ und bezeichnet Informationen, die in den Bilddateien gespeichert sind. Das Aufnahmeger&#228;t h&#228;lt zum Beispiel zus&#228;tzlich zum Bild den Zeitpunkt der Aufnahme fest, das Modell der Kamera und oft auch den genauen Standort. Solche Positionsangaben k&#246;nnen automatisch bei allen Aufnahmen entstehen.</p><p class=„textabsatz m-ten m-offset-one l-eight l-offset-two columns twelve“>Ein Ergebnis der <em>BR-Analyse</em>: Zu 310.000 Bildverweisen im deutschsprachigen LAION-Teil konnte das Team von <em>BR Data</em> den exakten Aufnahmeort auslesen.</p><p class=„textabsatz m-ten m-offset-one l-eight l-offset-two columns twelve“>Diese Exif-Daten, in denen die Ortsinformationen gespeichert sind, werden auch als „Restinformationen“ bezeichnet. Sofern es keine begr&#252;ndeten Argumente gibt, sollen solche Daten nach Meinung des Bundesamts f&#252;r Sicherheit und Informationstechnik (BSI) vernichtet werden, wenn Dateien weitergegeben werden.</p><h2 id=„Datenschuetzer-Kleinfeld-Hochproblematisch“ class=„meldungsubhead columns twelve m-ten m-offset-one l-eight l-offset-two liveblog–anchor“>Datensch&#252;tzer Kleinfeld: „Hochproblematisch&#8221;</h2><p class=„textabsatz m-ten m-offset-one l-eight l-offset-two columns twelve“>F&#252;r Eike Kleinfeld, t&#228;tig beim Hamburger Datenschutzbeauftragten, ist die massenhafte Verbreitung von Ortsinformationen aus Exif-Metadaten ein Problem, sofern es sich um sensible Informationen handelt, die einen R&#252;ckschluss auf nat&#252;rliche Personen erlauben: „Die absolute Zahl ist nat&#252;rlich hoch problematisch, wenn man sich vergegenw&#228;rtigt, dass da Millionen Bilder mit solchen Informationen liegen.“</p><p class=„textabsatz m-ten m-offset-one l-eight l-offset-two columns twelve“>LAION-Mitgr&#252;nder Christoph Schuhmann war sich bisher des Problems nicht bewusst: „Auf das Problem werden wir jetzt das erste Mal hingewiesen“, so Schuhmann gegen&#252;ber dem <em>BR</em>.</p><h2 id=„LAION-setzt-auf-Transparenz“ class=„meldungsubhead columns twelve m-ten m-offset-one l-eight l-offset-two liveblog–anchor“>LAION setzt auf Transparenz</h2><p class=„textabsatz m-ten m-offset-one l-eight l-offset-two columns twelve“>LAION ist ein Zusammenschluss von Freiwilligen aus Europa und Nordamerika. Schuhmann sagt: „Wir haben LAION aus Begeisterung f&#252;r diese KI-Technologie gegr&#252;ndet und dem Wunsch, dass das demokratisiert wird und es am Ende nicht nur zwei, drei gro&#223;en Firmen gibt.“</p><p class=„textabsatz m-ten m-offset-one l-eight l-offset-two columns twelve“>Die Methode der radikalen Transparenz unterscheidet LAION von der Konkurrenz wie Microsoft, Google, Midjourney oder OpenAI.&#160;&#220;ber deren Trainingsmaterial und Methodik ist wenig bekannt. Die vier Unternehmen lie&#223;en Fragen, wie Trainingsdaten zusammengesetzt und verwendet werden, unbeantwortet. Will man die Lieferkette von popul&#228;ren KI-Bildgeneratoren untersuchen, sind LAIONs Datens&#228;tze, Modelle und Werkzeuge aktuell die einzige M&#246;glichkeit - f&#252;r Wissenschaftler und Journalisten.</p><h2 id=„EU-Gesetzgebung-nimmt-Trainingsdaten-in-den-Blick“ class=„meldungsubhead columns twelve m-ten m-offset-one l-eight l-offset-two liveblog–anchor“>EU-Gesetzgebung nimmt Trainingsdaten in den Blick</h2><p class=„textabsatz m-ten m-offset-one l-eight l-offset-two columns twelve“>Mehr Transparenz in Sachen Trainingsdaten sieht die EU in der geplanten Gesetzgebung zur K&#252;nstlichen Intelligenz vor, dem sogenannten AI Act. Unklar ist aber, wie genau die k&#252;nftigen Regelungen aussehen sollen. Derzeit wird noch verhandelt: „Was im AI Act stehen wird, ist in Teilen noch offen. Momentan ist ein wichtiges Diskussionsthema, ob generative KI als Hochrisikogruppe gewertet und reguliert wird“, sagt Sandra Wachter, Professorin am Oxford Internet Institute. Bis Ende des Jahres sollen die EU-Regeln stehen und 2025 in Kraft treten. Bis dahin laufen die Systeme weiter wie bisher.</p> </html>

Cookies helfen bei der Bereitstellung von Inhalten. Diese Website verwendet Cookies. Mit der Nutzung der Website erklären Sie sich damit einverstanden, dass Cookies auf Ihrem Computer gespeichert werden. Außerdem bestätigen Sie, dass Sie unsere Datenschutzerklärung gelesen und verstanden haben. Wenn Sie nicht einverstanden sind, verlassen Sie die Website.Weitere Information