wallabag:wb2laion-5b-ki-trainingsdatensatz-enthielt-links-zu-missbrauchsbilder-von-kindern [Qgelm]

Zuletzt angesehen: › the-roads-of-the-roman-empire-as-a-subway-map › wb2ccc-ersteigert-ungeschtzte-biometrie-datenbank-des-us-militrs-auf-ebay › wb2ki_-studie-findet-viele-falsche-beschreibungen-in-machine-learning-datenstzen › 34c3_-auch-4g-mobilfunk-ist-einfach-abzuhren-und-zu-berwachen › wb220-jahre-agiles-manifest--definitiv-den-kinderschuhen-entwachsen › the-wuppertaler-schwebebahn_-the-oldest-electric-elevated-railway_-1913 › wb2polizei-und-ki_vom-iris-scan-bis-zum-automatischen-aufstandsmelder › wb2kommentar-zu-log4j_-es-funktioniert-wie-spezifiziert › cyberbit_-spyware-aus-israel-gegen-thiopische-oppositionelle-eingesetzt › wb2laion-5b-ki-trainingsdatensatz-enthielt-links-zu-missbrauchsbilder-von-kindern

LAION-5B KI-Trainingsdatensatz enthielt Links zu Missbrauchsbilder von Kindern

Originalartikel

<html> <figure class=„aufmacherbild“><img src=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/4/5/1/6/9/0/5/GAFA4-4c080a7125d0fcdd.jpeg“ srcset=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/4/5/1/6/9/0/5/GAFA4-4c080a7125d0fcdd.jpeg 700w, https://heise.cloudimg.io/width/1050/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/4/5/1/6/9/0/5/GAFA4-4c080a7125d0fcdd.jpeg 1050w, https://heise.cloudimg.io/width/1500/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/4/5/1/6/9/0/5/GAFA4-4c080a7125d0fcdd.jpeg 1500w, https://heise.cloudimg.io/width/2300/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/4/5/1/6/9/0/5/GAFA4-4c080a7125d0fcdd.jpeg 2300w“ width=„3840“ height=„2158“ sizes=„(min-width: 80em) 43.75em, (min-width: 64em) 66.66vw, 100vw“ alt=„Ai,(artificial,Intelligence),Concept.,Contents,Concept.,Social,Networking,Service.,Streaming“ class=„img-responsive“ referrerpolicy=„no-referrer“ /><figcaption class=„akwa-caption“>(Bild: metamorworks / Shutterstock.com)</figcaption></figure><p><strong>Stanford-Forscher haben Links zu Missbrauchsbildern von Kindern in dem LAION-5B-Trainingsdatensatz für KI-Bildgeneratoren gefunden.</strong></p><p>Der LAION-5B-Datensatz, der zum Trainieren Künstlicher Intelligenzen (KI) zur Erstellung von KI-Bilder verwendet wird, enthielt Links zu Bildern von Kindesmissbrauch. Das haben Wissenschaftler des Internet Observatory of Stanford herausgefunden. Das Trainigsset, das unter anderem von Stablity AI, dem Entwickler von Stable Diffusion verwendet worden war, könnte so für die Erstellung schädlicher Inhalte sorgen.</p><p>Konkret enthielt der LAION-5B-Datensatz insgesamt 1679 Links auf Bilder mit illegalem Inhalt. Die Bilder stammen aus Beiträgen von sozialen Medien sowie Websites für Erwachsene, <a href=„https://purl.stanford.edu/kh752sm9123“ rel=„external noopener“ target=„_blank“><strong>heißt es von den Stanford-Forschenden [1]</strong></a>. Aufgefallen war das bei einer Untersuchung des LAION-Datensatzes im September 2023. Die Erkenntnisse wurden dann an entsprechende Erkennungsplattformen geschickt, darunter PhotoDNA. Zusätzlich ließen die Wissenschaftler die Bilder vom Canadian Centre of Child Protection überprüfen.</p><h3 class=„subheading“ id=„nav_entfernung0“>Entfernung schwierig</h3><p>Die vollständige Entfernung der problematischen Inhalte sei laut Stanford-Forscher schwierig. Besonders sie aus den damit trainierten KI-Modellen zu entfernen. KI-Modelle, die mit dem LAION-5B-Datensatz trainiert worden sind, sollten nicht mehr weiterverbreitet werden, lautet deshalb ihre Empfehlung. Betroffen ist etwa Stable Diffusion 1.5. Neuere Versionen sollen mit einem anderen Datensatz trainiert worden sein, <a href=„https://www.theverge.com/2023/12/20/24009418/generative-ai-image-laion-csam-google-stability-stanford“ rel=„external noopener“ target=„_blank“><strong>sagte Stability AI gegenüber dem US-Tech-Magazin The Verge [2]</strong></a>. Welche das sind, verriet das Unternehmen jedoch nicht.</p><p>Unklar ist, wie groß die tatsächlichen Auswirkungen auf die generierten Bilder sind. Die Forscher schließen jedenfalls nicht aus, dass das Modell aus den Bildern mit Kindesmissbrauch etwas gelernt hat.</p><p>Die den LAION-5B-Datensatz verwaltende Non-Profit-Organisation LAION sagte, dass es die Datensätze zunächst aus dem Web entfernt, <a href=„https://www.bloomberg.com/news/articles/2023-12-20/large-ai-dataset-has-over-1-000-child-abuse-images-researchers-find“ rel=„external noopener“ target=„_blank“><strong>schreibt Bloomberg [3]</strong></a>. Stability AI gab an, dass es interne Richtlinien gegen die Verwendung solcher Fotos habe. LAION-5B sei zwar zum Training verwendet worden, allerdings habe man sich auf einen auf Sicherheit ausgelegten Teil des Datensatzes konzentriert.</p><p>() </p><hr /><p><strong>URL dieses Artikels:</strong><br /><small><code>https://www.heise.de/-9580014</code></small></p><p><strong>Links in diesem Artikel:</strong><br /><small><code><strong>[1]</strong> https://purl.stanford.edu/kh752sm9123</code></small><br /><small><code><strong>[2]</strong> https://www.theverge.com/2023/12/20/24009418/generative-ai-image-laion-csam-google-stability-stanford</code></small><br /><small><code><strong>[3]</strong> https://www.bloomberg.com/news/articles/2023-12-20/large-ai-dataset-has-over-1-000-child-abuse-images-researchers-find</code></small><br /><small><code><strong>[4]</strong> mailto:olb@heise.de</code></small><br /></p><p class=„printversioncopyright“><em>Copyright © 2023 Heise Medien</em></p> </html>