Qgelm

KI: Warum es nicht ausreicht, unethisch gewonnene Daten zu löschen

Originalartikel

Backup

<html> <header class=„article-header“><h1 class=„articleheading“>KI: Warum es nicht ausreicht, unethisch gewonnene Daten zu l&#246;schen</h1><div class=„publish-info“> Karen Hao</div></header><figure class=„aufmacherbild“><img src=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/1/5/4/1/6/6/AI-scrub2b-77876442f2fac79d.jpeg“ srcset=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/1/5/4/1/6/6/AI-scrub2b-77876442f2fac79d.jpeg 700w, https://heise.cloudimg.io/width/1050/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/1/5/4/1/6/6/AI-scrub2b-77876442f2fac79d.jpeg 1050w, https://heise.cloudimg.io/width/1500/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/1/5/4/1/6/6/AI-scrub2b-77876442f2fac79d.jpeg 1500w, https://heise.cloudimg.io/width/2064/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/1/5/4/1/6/6/AI-scrub2b-77876442f2fac79d.jpeg 2064w“ alt=„“ class=„img-responsive“ referrerpolicy=„no-referrer“ /><figcaption class=„akwa-caption“>(Bild:&#160;Ms Tech / Pixabay)</figcaption></figure><p><strong>Die KI-Community versucht, Fehler der Vergangenheit zu tilgen. Doch das Netz vergisst nicht.</strong></p><p>In der Hoffnung, die Entwicklung der Gesichtserkennung voranzutreiben, ver&#246;ffentlichte Microsoft 2016 die damals gr&#246;&#223;te Gesichtsdatenbank der Welt. Sie trug den Namen „MS-Celeb-1M“ und enthielt 10 Millionen Bilder von 100.000 Gesichtern prominenter Pers&#246;nlichkeiten. Der Begriff „Ber&#252;hmtheit“ war allerdings sehr vage definiert.</p><h3 class=„subheading“ id=„nav_prominent_oder0“>Prominent oder nicht</h3><p>Drei Jahre sp&#228;ter <a href=„https://exposing.ai/msceleb/“ rel=„external noopener“ target=„_blank“><strong>durchforsteten die Forscher Adam Harvey und Jules LaPlace [1]</strong></a> den Datensatz und fanden viele ganz gew&#246;hnliche Menschen wie Journalisten, K&#252;nstler, Aktivisten und Akademiker, die im Rahmen ihres Berufslebens einfach nur eine Online-Pr&#228;senz unterhalten. Keiner von ihnen hatte sein Einverst&#228;ndnis gegeben, in die Datenbank aufgenommen zu werden, und doch hatten ihre Gesichter ihren Weg in den Datensatz und dar&#252;ber hinaus gefunden. Unternehmen wie Facebook, IBM, Baidu und SenseTime, einer der gr&#246;&#223;ten chinesischen <a href=„https://www.heise.de/hintergrund/So-kann-man-Selfies-vor-KI-Missbrauch-schuetzen-6047713.html“><strong>Gesichtserkennungsfirmen [2]</strong></a>, die ihre Technologie an die chinesische Polizei verkauft, f&#252;hrten Studien und Projekte unter Verwendung der von Microsoft gesammelten Gesichter durch.</p><p>Kurz nach der Untersuchung von Harvey und LaPlace &#8211; und nach der Kritik von Journalisten &#8211; entfernte Microsoft den Datensatz mit einer simplen Erkl&#228;rung: „Die Forschungs-Challenge ist vorbei“. Aber die Bedenken hinsichtlich des Datenschutzes, die dadurch entstanden sind, bleiben im Internet f&#252;r immer bestehen. Keiner wei&#223;, wie viele Kopien noch herumfliegen. Und dieser Fall ist kaum der einzige.</p><p>Das Durchsuchen des Netzes nach Bildern und Texten galt einst als einfallsreiche Strategie zur Sammlung von Daten aus der realen Welt. Jetzt haben Gesetze wie die Europ&#228;ische Datenschutzverordnung (DSGVO) und die wachsende &#246;ffentliche Sorge um Datenschutz und &#220;berwachung diese Praxis rechtlich riskant und problematisch gemacht. Infolgedessen haben mehr und mehr KI-Forscher die auf diese Weise erstellten Datens&#228;tze zur&#252;ckgezogen.</p><h3 class=„subheading“ id=„nav_l&#246;schen_hilft1“>L&#246;schen hilft leider nicht</h3><p>Eine <a href=„https://arxiv.org/pdf/2108.02922.pdf“ rel=„external noopener“ target=„_blank“><strong>neue Studie zeigt jedoch, dass dies nur wenig dazu beigetragen hat, die Verbreitung und Nutzung der problematischen Daten zu verhindern [3]</strong></a>. Die Autoren w&#228;hlten drei der am h&#228;ufigsten in der Forschung zitierten Datens&#228;tze mit Gesichtern oder Personen aus, von denen zwei zur&#252;ckgezogen wurden &#8211; und sie verfolgten dann die Art und Weise, wie jeder dieser Datens&#228;tze kopiert, weiterverwendet wurde und in fast 1.000 Ver&#246;ffentlichungen zum Einsatz kam.</p><p>Im Fall von „MS-Celeb-1M“ existieren immer noch Kopien auf Websites Dritter und in <a href=„https://www.heise.de/hintergrund/Wie-synthetische-Datensaetze-KI-Systeme-verbessern-sollen-6071301.html“><strong>abgeleiteten Datens&#228;tzen [4]</strong></a>, die auf dem Original aufbauen. Open-Source-Modelle, die mit den Daten trainiert wurden, sind ebenfalls leicht verf&#252;gbar. Der Datensatz und seine Derivate wurden auch in Hunderten von Artikeln zitiert, die zwischen sechs und 18 Monaten nach der R&#252;cknahme ver&#246;ffentlicht wurden. DukeMTMC, eine Datenbank, die Bilder von Menschen enth&#228;lt, die auf dem Campus der Duke University spazieren gehen, und die im selben Monat wie MS-Celeb-1M zur&#252;ckgezogen wurde, ist ebenfalls in abgeleiteten Datens&#228;tzen und Hunderten von Zitaten in Ver&#246;ffentlichungen zu finden.</p><p>Die Liste der Orte, an denen die Daten verbleiben, ist „umfangreicher, als wir urspr&#252;nglich gedacht h&#228;tten“, sagt Kenny Peng, Student in Princeton und Mitautor der Studie. Und selbst das, sagt er, ist wahrscheinlich eine Untersch&#228;tzung, weil die Zitierungen in Forschungsarbeiten nicht immer die M&#246;glichkeiten der kommerziellen Nutzung der Daten ber&#252;cksichtigen. Laut der Princeton-Studie liegt ein Teil des Problems darin, dass diejenigen, die KI-Datenbanken zusammenstellen, schnell die Kontrolle &#252;ber ihre Kreationen verlieren.</p><h3 class=„subheading“ id=„nav_missbrauch_in2“>Missbrauch in anderen Bereichen</h3><p>Daten, die f&#252;r einen bestimmten Zweck freigegeben werden, k&#246;nnen schnell f&#252;r andere Zwecke verwendet werden, die von den urspr&#252;nglichen Sch&#246;pfern nie beabsichtigt oder erwogen wurden. MS-Celeb-1M zum Beispiel sollte die Gesichtserkennung von Prominenten verbessern, wurde aber inzwischen f&#252;r allgemeinere Gesichtserkennung und die Analyse von Gesichtsmerkmalen verwendet, so die Autoren. Es wurde auch in abgeleiteten Datens&#228;tzen wie „Racial Faces in the Wild“, das seine Bilder nach Rasse gruppiert, umbenannt oder andersartig verarbeitet, was die Tore zu kontroversen Anwendungen &#246;ffnet.</p><p>Die Analyse der Forscher deutet auch darauf hin, dass Labeled Faces in the Wild (LFW), eine 2007 eingef&#252;hrte KI-Datenbank, die als erste aus dem Internet gesammelte Gesichtsbilder verwendete, sich in den fast 15 Jahren der Nutzung mehrfach ver&#228;ndert hat. W&#228;hrend sie zun&#228;chst als Ressource zur Bewertung von Gesichtserkennungsmodellen f&#252;r die Forschung diente, wird sie heute fast ausschlie&#223;lich zur Bewertung von Systemen verwendet, die in der realen Welt eingesetzt werden sollen. Und das trotz eines Warnhinweises auf der Website des Datensatzes, der vor einer solchen Verwendung warnt! K&#252;rzlich wurde die Datenbank in einem Derivat namens SMFRD wiederverwendet, bei dem jedem der Bilder Gesichtsmasken hinzugef&#252;gt wurden, um die Gesichtserkennung w&#228;hrend der Pandemie zu verbessern. Die Autoren weisen darauf hin, dass dies neue ethische Probleme aufwerfen k&#246;nnte. Datensch&#252;tzer haben kritisiert, dass solche Anwendungen die &#220;berwachung vorantreiben und insbesondere die Identifizierung maskierter Demonstranten durch Beh&#246;rden erm&#246;glichen.</p><p>„Dies ist eine wirklich wichtige Arbeit, da die Komplexit&#228;t und die potenziellen Sch&#228;den und Risiken solcher Daten den Menschen im Allgemeinen nicht bewusst waren“, sagt Margaret Mitchell, eine KI-Ethikforscherin und f&#252;hrende Vertreterin einer verantwortungsvollen Datenpraxis, die nicht an der Princeton-Studie beteiligt war. „In der KI-Gemeinde wird seit langem davon ausgegangen, dass Daten existieren, um genutzt zu werden“, f&#252;gt sie hinzu. Die Studie zeige, dass dies im Nachhinein zu Problemen f&#252;hren kann. „Es ist wirklich wichtig, &#252;ber die verschiedenen Werte nachzudenken, die eine Datenbank kodiert.“</p><figure class=„branding“><a href=„https://www.heise.de/tr/“ name=„meldung.newsticker.inline.branding_tr“ title=„Mehr von MIT Technology Review“><strong> <img alt=„Mehr von MIT Technology Review“ height=„693“ src=„https://static.wallabag.it/7862d1b7aff4c3b00f37212fefade4e0e2c4cf00/64656e6965643a646174613a696d6167652f7376672b786d6c2c253343737667253230786d6c6e733d27687474703a2f2f7777772e77332e6f72672f323030302f7376672725323077696474683d273639367078272532306865696768743d2733393170782725323076696577426f783d2730253230302532303639362532303339312725334525334372656374253230783d273027253230793d27302725323077696474683d27363936272532306865696768743d273339312725323066696c6c3d27253233663266326632272533452533432f726563742533452533432f737667253345/“ class=„c1“ width=„1200“ referrerpolicy=„no-referrer“ /><img alt=„Mehr von MIT Technology Review“ class=„a-u-hide-from-tablet c2“ src=„https://heise.cloudimg.io/width/1200/q50.png-lossy-50.webp-lossy-50.foil1/_www-heise-de_/Magazin-Banner/tr_mobil.jpg“ srcset=„https://heise.cloudimg.io/width/2400/q30.png-lossy-30.webp-lossy-30.foil1/_www-heise-de_/Magazin-Banner/tr_mobil.jpg 2x“ referrerpolicy=„no-referrer“ /> <img alt=„Mehr von MIT Technology Review“ height=„500“ src=„https://static.wallabag.it/7862d1b7aff4c3b00f37212fefade4e0e2c4cf00/64656e6965643a646174613a696d6167652f7376672b786d6c2c253343737667253230786d6c6e733d27687474703a2f2f7777772e77332e6f72672f323030302f7376672725323077696474683d273639367078272532306865696768743d2733393170782725323076696577426f783d2730253230302532303639362532303339312725334525334372656374253230783d273027253230793d27302725323077696474683d27363936272532306865696768743d273339312725323066696c6c3d27253233663266326632272533452533432f726563742533452533432f737667253345/“ class=„c3“ width=„1830“ referrerpolicy=„no-referrer“ /><img alt=„Mehr von MIT Technology Review“ class=„a-u-show-from-tablet c2“ src=„https://heise.cloudimg.io/width/1830/q50.png-lossy-50.webp-lossy-50.foil1/_www-heise-de_/Magazin-Banner/tr_desktop.jpg“ srcset=„https://heise.cloudimg.io/width/3660/q30.png-lossy-30.webp-lossy-30.foil1/_www-heise-de_/Magazin-Banner/tr_desktop.jpg 2x“ referrerpolicy=„no-referrer“ /> [5]</strong></a></figure><p>() </p><hr /><p><strong>URL dieses Artikels:</strong><br /><small>

https://www.heise.de/-6166964

</small></p><p><strong>Links in diesem Artikel:</strong><br /><small>

<strong>[1]</strong>&#160;https://exposing.ai/msceleb/

</small><br /><small>

<strong>[2]</strong>&#160;https://www.heise.de/hintergrund/So-kann-man-Selfies-vor-KI-Missbrauch-schuetzen-6047713.html

</small><br /><small>

<strong>[3]</strong>&#160;https://arxiv.org/pdf/2108.02922.pdf

</small><br /><small>

<strong>[4]</strong>&#160;https://www.heise.de/hintergrund/Wie-synthetische-Datensaetze-KI-Systeme-verbessern-sollen-6071301.html

</small><br /><small>

<strong>[5]</strong>&#160;https://www.heise.de/tr/

</small><br /><small>

<strong>[6]</strong>&#160;mailto:bsc@heise.de

</small><br /></p><p class=„printversion__copyright“><em>Copyright &#169; 2021 Heise Medien</em></p> </html>

Cookies helfen bei der Bereitstellung von Inhalten. Diese Website verwendet Cookies. Mit der Nutzung der Website erklären Sie sich damit einverstanden, dass Cookies auf Ihrem Computer gespeichert werden. Außerdem bestätigen Sie, dass Sie unsere Datenschutzerklärung gelesen und verstanden haben. Wenn Sie nicht einverstanden sind, verlassen Sie die Website.Weitere Information