Wie synthetische Datensätze KI-Systeme verbessern sollen

Originalartikel

Backup

<html> <header class=„article-header“><h1 class=„articleheading“>Wie synthetische Datens&#228;tze KI-Systeme verbessern sollen</h1><div class=„publish-info“> Karen Hao</div></header><figure class=„aufmacherbild“><img src=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/1/2/1/4/1/6/ContactSheet-001-455b8139c499e9b3.jpeg“ srcset=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/1/2/1/4/1/6/ContactSheet-001-455b8139c499e9b3.jpeg 700w, https://heise.cloudimg.io/width/1050/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/1/2/1/4/1/6/ContactSheet-001-455b8139c499e9b3.jpeg 1050w, https://heise.cloudimg.io/width/1500/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/1/2/1/4/1/6/ContactSheet-001-455b8139c499e9b3.jpeg 1500w, https://heise.cloudimg.io/width/2063/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/1/2/1/4/1/6/ContactSheet-001-455b8139c499e9b3.jpeg 2063w“ alt=„“ class=„img-responsive“ referrerpolicy=„no-referrer“ /><figcaption class=„akwa-caption“>(Bild:&#160;Datagen)</figcaption></figure><p><strong>Deep Learning ben&#246;tigt gro&#223;e Informationsmengen. Aus realen Informationen abgeleitete Fake-Daten sollen helfen.</strong></p><p>Man kann die schwachen Stoppeln auf seiner Oberlippe sehen, die Falten auf seiner Stirn, die Unreinheiten seiner Haut. Er ist kein echter Mensch, aber er orientiert sich an ihnen &#8211; so wie Hunderttausende andere, die von Datagen hergestellt werden, einer Firma, die Fakes von Menschen verkauft.</p><p>Diese falschen Personen sind keine Spiel-Avatare oder animierte Figuren f&#252;r Filme. Sie dienen als k&#252;nstliche Daten, um damit Deep-Learning-Algorithmen zu f&#252;ttern. Firmen wie <a href=„https://www.datagen.tech/technology/“ rel=„external noopener“ target=„_blank“><strong>Datagen [1]</strong></a> wollen damit eine Alternative zum teuren und zeitaufw&#228;ndigen Sammeln von Daten aus der realen Welt anbieten. Das Unternehmen generiert die Informationen ma&#223;geschneidert f&#252;r den Kunden, wie und wann er es will &#8211; und das zu einem relativ g&#252;nstigen Preis.</p><p>Um seine synthetischen Menschen zu erzeugen, scannt Datagen zun&#228;chst reale Personen. Das Unternehmen arbeitet mit Zwischenh&#228;ndlern zusammen, die Menschen daf&#252;r bezahlen, in gro&#223;en Ganzk&#246;rperscannern jedes Detail von der Iris &#252;ber die Hautbeschaffenheit bis hin zur Kr&#252;mmung der Finger erfassen zu lassen. Aus diesen Rohdaten kreiert das Startup mit Hilfe einer ganzen Reihe von Algorithmen 3D-Darstellungen von K&#246;rper, Gesicht, Augen und H&#228;nden einer Person.</p><h3 class=„subheading“ id=„nav_nicht_einfach0“>Nicht einfach „Daumen hoch“</h3><p>Das Unternehmen mit Sitz in Israel arbeitet nach eigenen Angaben bereits mit vier gro&#223;en US-Tech-Giganten zusammen, will aber nicht verraten, mit welchen. Sein wichtigster Konkurrent, <a href=„https://synthesis.ai/“ rel=„external noopener“ target=„_blank“><strong>Synthesis AI [2]</strong></a>, bietet ebenfalls digitale Menschen auf Abruf an. Andere Unternehmen generieren Daten f&#252;r die Finanz-, Versicherungs- und Gesundheitsbranche. Es gibt mittlerweile zahlreiche Firmen auf dem Gebiet.</p><p>Einst galten synthetische Daten im Vergleich zu realen als minderwertig. Heute hingegen sieht so mancher Beobachter in ihnen ein Allheilmittel. Echte Daten sind un&#252;bersichtlich und mit Fehlern behaftet. Neue Datenschutzbestimmungen erschweren zudem ihr Sammeln. Im Gegensatz dazu lassen sich aus synthetischen Daten viel leichter die unterschiedlichsten Datens&#228;tze erstellen. So kann man daraus zum Beispiel perfekte Gesichter unterschiedlichen Alters, unterschiedlicher Form und ethnischer Zugeh&#246;rigkeit erzeugen. Damit l&#228;sst sich dann ein Programm zur Gesichtserkennung entwickeln, das f&#252;r alle Bev&#246;lkerungsgruppen funktioniert.</p><p>Aber synthetische Daten haben auch Nachteile. Spiegeln sie die Realit&#228;t nicht richtig wider, k&#246;nnte das zu schlechteren Ergebnissen f&#252;hren als weniger genaue Daten aus der realen Welt &#8211; oder zumindest zu den Problemen f&#252;hren, die diese haben. „Ich mag hier nicht einfach ein „Daumen hoch“ setzen und sagen: Oh, das wird so viele Probleme l&#246;sen“, sagt Cathy O'Neil, eine Datenwissenschaftlerin und Gr&#252;nderin der auf die &#220;berpr&#252;fung von Algorithmen spezialisierte Firma ORCAA. „Denn bei der Methode werden auch viele Dinge nicht beachtet.“</p><h3 class=„subheading“ id=„nav_realistisch1“>Realistisch, nicht real</h3><p>Deep Learning brauchte schon immer viele Daten. Aber in den letzten Jahren hat sich gezeigt, dass deren Qualit&#228;t wichtiger ist als ihre Menge. Selbst kleine Mengen richtiger, sauber zugeordneter Daten verbessern die Leistung eines KI-Systems mehr als die zehnfache Menge schlecht aufbereiteter Daten, selbst wenn man leistungsf&#228;higere Algorithmen verwendet.</p><p>Das sollten Unternehmen bei der Entwicklung ihrer KI-Modelle ber&#252;cksichtigen, sagt Ofir Chakon, CEO und Mitbegr&#252;nder von Datagen. Heute sammeln die Firmen zumeist erst einmal so viele Daten wie m&#246;glich und optimieren dann ihre Algorithmen. Stattdessen sollten sie das Gegenteil tun: Den selben Algorithmus verwenden, aber die Qualit&#228;t ihrer Daten verbessern.</p><p>Doch reale Daten f&#252;r solches iteratives Experimentieren zu sammeln, ist zu kostspielig und zeitintensiv. An dieser Stelle kommt Datagen ins Spiel. Mit einem Generator f&#252;r synthetische Daten k&#246;nnen Teams Dutzende von neuen Datens&#228;tzen pro Tag erstellen und sie testen, um herauszufinden, welche die Realit&#228;t am besten abbilden.</p><h3 class=„subheading“ id=„nav_hunderttausende2“>Hunderttausende Kombinationen</h3><p>Um die Realit&#228;tsn&#228;he der Daten zu gew&#228;hrleisten, gibt Datagen seinen Lieferanten detaillierte Anweisungen, wie viele Personen in jeder Alters- und Gewichtsklasse sowie ethnischer Zugeh&#246;rigkeit zu scannen sind. Hinzu kommt eine Liste von Aktionen, die sie ausf&#252;hren sollen, wie etwa in einem Raum herumlaufen oder eine Limonade trinken.</p><p>Die Hersteller senden sowohl hochaufl&#246;sende statische Bilder als auch Motion-Capture-Daten zur&#252;ck. Die Algorithmen von Datagen erstellen dann hunderttausende Kombinationen aus diesen Daten. Diese synthetisierten Daten werden dann manchmal noch einmal &#252;berpr&#252;ft, etwa k&#252;nstliche Gesichter mit echten verglichen, um zu sehen, wie realistisch sie wirken.</p><figure class=„branding“><a href=„https://www.heise.de/tr/“ name=„meldung.newsticker.inline.branding_tr“ title=„Mehr von MIT Technology Review“><strong> <img alt=„Mehr von MIT Technology Review“ height=„693“ src=„https://static.wallabag.it/7862d1b7aff4c3b00f37212fefade4e0e2c4cf00/64656e6965643a646174613a696d6167652f7376672b786d6c2c253343737667253230786d6c6e733d27687474703a2f2f7777772e77332e6f72672f323030302f7376672725323077696474683d273639367078272532306865696768743d2733393170782725323076696577426f783d2730253230302532303639362532303339312725334525334372656374253230783d273027253230793d27302725323077696474683d27363936272532306865696768743d273339312725323066696c6c3d27253233663266326632272533452533432f726563742533452533432f737667253345/“ class=„c1“ width=„1200“ referrerpolicy=„no-referrer“ /><img alt=„Mehr von MIT Technology Review“ class=„a-u-hide-from-tablet c2“ src=„https://heise.cloudimg.io/width/1200/q50.png-lossy-50.webp-lossy-50.foil1/_www-heise-de_/Magazin-Banner/tr_mobil.jpg“ srcset=„https://heise.cloudimg.io/width/2400/q30.png-lossy-30.webp-lossy-30.foil1/_www-heise-de_/Magazin-Banner/tr_mobil.jpg 2x“ referrerpolicy=„no-referrer“ /> <img alt=„Mehr von MIT Technology Review“ height=„500“ src=„https://static.wallabag.it/7862d1b7aff4c3b00f37212fefade4e0e2c4cf00/64656e6965643a646174613a696d6167652f7376672b786d6c2c253343737667253230786d6c6e733d27687474703a2f2f7777772e77332e6f72672f323030302f7376672725323077696474683d273639367078272532306865696768743d2733393170782725323076696577426f783d2730253230302532303639362532303339312725334525334372656374253230783d273027253230793d27302725323077696474683d27363936272532306865696768743d273339312725323066696c6c3d27253233663266326632272533452533432f726563742533452533432f737667253345/“ class=„c3“ width=„1830“ referrerpolicy=„no-referrer“ /><img alt=„Mehr von MIT Technology Review“ class=„a-u-show-from-tablet c2“ src=„https://heise.cloudimg.io/width/1830/q50.png-lossy-50.webp-lossy-50.foil1/_www-heise-de_/Magazin-Banner/tr_desktop.jpg“ srcset=„https://heise.cloudimg.io/width/3660/q30.png-lossy-30.webp-lossy-30.foil1/_www-heise-de_/Magazin-Banner/tr_desktop.jpg 2x“ referrerpolicy=„no-referrer“ /> [3]</strong></a></figure><p>Datagen generiert beispielsweise Gesichtsausdr&#252;cke zur &#220;berwachung der Aufmerksamkeit von Fahrerinnen und Fahrern in smarten Autos. Oder K&#246;rperbewegungen, um Kunden in kassenlosen Gesch&#228;ften zu verfolgen, sowie Iris und Handbewegungen, um die Augen- und Hand-Tracking-Funktionen von VR-Headsets zu verbessern. Laut dem Unternehmen dienten seine Daten bereits zur Entwicklung von Bilderkennungssystemen (Computer Vision), die mehrere Millionen Nutzerinnen und Nutzer verwenden.</p><h3 class=„subheading“ id=„nav_von3“>Von Fahrzeuginspektion bis zur Medizin</h3><p>Es werden nicht nur synthetische Menschen in Massenproduktion geschaffen. Das Startup <a href=„https://www.click-ins.com/“ rel=„external noopener“ target=„_blank“><strong>Click-Ins [4]</strong></a> verwendet zum Beispiel synthetische Daten f&#252;r automatische Fahrzeuginspektionen. Mithilfe von Design-Software werden alle Automarken und -modelle, die die KI erkennen muss, neu erstellt und dann mit verschiedenen Farben, Sch&#228;den und Verformungen unter verschiedenen Lichtverh&#228;ltnissen und vor verschiedenen Hintergr&#252;nden gerendert. Auf diese Weise kann das Unternehmen sein KI-Modell aktualisieren, wenn Autohersteller neue Fahrzeugvarianten auf den Markt bringen. Au&#223;erdem wird so kein Datenschutz verletzt in L&#228;ndern wie Deutschland, in denen Nummernschilder als private Informationen gelten und daher nicht in Fotos zum Training der KI enthalten sein d&#252;rfen.</p><p><a href=„https://mostly.ai/industries/“ rel=„external noopener“ target=„_blank“><strong>Mostly.ai [5]</strong></a> arbeitet wiederum mit Finanz-, Telekommunikations- und Versicherungsunternehmen zusammen, um Tabellen mit synthetischen Kundendaten bereitzustellen. Auf diese Weise k&#246;nnen die Unternehmen den Aufbau ihrer Kundendatenbank mit externen Dienstleistern auf rechtskonforme Weise teilen. Denn selbst wenn Daten anonymisiert werden, sch&#252;tzt dass zuweilen nicht ausreichend die Privatsph&#228;re der Menschen. Mit den synthetischen Daten lassen sich Datens&#228;tze mit den gleichen statistischen Eigenschaften wie die der echten Daten eines Unternehmens generieren. So k&#246;nnen auch Daten simuliert werden, die das Unternehmen noch gar nicht hat, zum Beispiel von hypothetischen zuk&#252;nftigen Kundengruppen oder Szenarien betr&#252;gerischer Aktivit&#228;ten.</p><p>Proponenten synthetischer Daten sagen, dass diese auch bei der Bewertung der F&#228;higkeiten von KI helfen k&#246;nnen. Ein Beispiel zeigten Suchi Saria, Professorin f&#252;r maschinelles Lernen und Gesundheitswesen an der Johns Hopkins University, und ihre Mitautoren, in einer k&#252;rzlich auf einer KI-Konferenz ver&#246;ffentlichten Arbeit: Mit Hilfe von Techniken zur Datengenerierung lie&#223;en sich verschiedene Patientengruppen aus einem einzigen Datensatz extrapolieren. Das k&#246;nnte n&#252;tzlich sein, wenn ein Unternehmen etwa nur Daten von der eher jugendlichen Bev&#246;lkerung von New York City vorliegen hat, aber verstehen m&#246;chte, wie seine KI bei einer alternden Bev&#246;lkerung mit einer h&#246;heren Diabetespr&#228;valenz funktioniert. Um solche medizinische KI-Systeme zu testen, gr&#252;ndet Saria nun ihr eigenes Unternehmen namens Bayesian Health.</p><h3 class=„subheading“ id=„nav_datenschutz4“>Datenschutz nicht automatisch gew&#228;hrleistet</h3><p>Doch gibt es um synthetische Daten einen unn&#246;tigen Hype? In Sachen Datenschutz „bedeutet die Tatsache, dass die Daten 'synthetisch' sind und nicht direkt den realen Benutzerdaten entsprechen, nicht, dass sie keine sensiblen Informationen &#252;ber reale Personen enthalten“, sagt Aaron Roth, Professor f&#252;r Computer- und Informationswissenschaften an der University of Pennsylvania. Es habe sich gezeigt, dass einige Datengenerierungstechniken Bilder oder Texte aus ihren (echten) Trainingsdaten einfach nur abkupfern.</p><p>Das mag f&#252;r eine Firma wie Datagen in Ordnung sein, deren synthetische Daten nicht dazu gedacht sind, die Identit&#228;t der Personen zu verbergen, denn die haben dem Scan zugestimmt. Aber es w&#228;re eine schlechte Nachricht f&#252;r Unternehmen, die in der Methode eine M&#246;glichkeit sehen, sensible Finanz- oder Patientendaten zu sch&#252;tzen.</p><p>Bisherige Forschung legt nahe, dass insbesondere die Kombination von zwei Techniken f&#252;r synthetische Daten &#8211; die sogenannte <a href=„https://www.heise.de/hintergrund/Kollektiver-Datenschutz-Was-dahinter-steckt-und-warum-er-noetig-ist-6054822.html“><strong>Differential Privacy [6]</strong></a> und <a href=„https://www.heise.de/hintergrund/Neuronales-Netz-erzeugt-attraktive-Gesichter-fuer-jeden-Geschmack-6018436.html“><strong>Generative Adversarial Networks [7]</strong></a> (GANs) &#8211; f&#252;r guten Schutz sorgen kann, sagt Bernease Herman, Datenwissenschaftler am University of Washington eScience Institute. Skeptiker bef&#252;rchten jedoch, dass dieser Aspekt im Marketing-Jargon der Anbieter synthetischer Daten verloren geht. Denn die sprechen nicht immer offen dar&#252;ber, welche Techniken sie verwenden.</p><h3 class=„subheading“ id=„nav_voreingenommenhe5“>Voreingenommenheit nicht ausgeschlossen</h3><p>Bislang deutet wenig darauf hin, dass synthetische Daten zuverl&#228;ssig vor Voreingenommenheit sch&#252;tzen. Ist ein Datensatz verzerrt, so kommt man durch ein „Hochrechnen“ nicht zu wirklich repr&#228;sentativen Daten. Die Rohdaten von Datagen enthalten zum Beispiel proportional weniger ethnische Minderheiten, was bedeutet, dass weniger reale Datenpunkte verwendet werden, um Fake-Menschen aus diesen Gruppen zu erzeugen. „Wenn Ihre Gesichter mit dunklerer Hautfarbe keine besonders guten Ann&#228;herungen an reale Gesichter sind, dann l&#246;sen Sie das Problem nicht wirklich“, sagt O'Neil.</p><p>Zum anderen f&#252;hren perfekt ausbalancierte Datens&#228;tze nicht automatisch zu perfekt fairen KI-Systemen, sagt Christo Wilson, au&#223;erordentlicher Professor f&#252;r Informatik an der Northeastern University. Wenn ein Kreditkartenanbieter versucht, einen KI-Algorithmus zur Bewertung potenzieller Kreditnehmer zu entwickeln, w&#252;rde er nicht alle m&#246;glichen Diskriminierungen beseitigen, indem er einfach Wei&#223;e genauso wie Schwarze in seinen Daten repr&#228;sentiert. Diskriminierung k&#246;nnte sich immer noch durch Unterschiede zwischen Bewerbern aus verschiedenen Gruppen einschleichen.</p><p>Um die Sache weiter zu verkomplizieren, zeigen erste Forschungsergebnisse, dass es in manchen F&#228;llen gar nicht m&#246;glich ist, mit synthetischen Daten sowohl die Privatsph&#228;re zu sch&#252;tzen als auch eine faire KI zu entwickeln. In einer k&#252;rzlich auf einer KI-Konferenz ver&#246;ffentlichten Arbeit versuchten Forscher der Universit&#228;t Toronto und des Vector-Instituts <a href=„https://dl.acm.org/doi/10.1145/3442188.3445879“ rel=„external noopener“ target=„_blank“><strong>dies mit R&#246;ntgenaufnahmen der Brust [8]</strong></a> zu erreichen. Sie fanden heraus, dass sie nicht in der Lage waren, ein akkurates medizinisches KI-System zu erstellen, als sie versuchten, einen synthetischen Datensatz durch Kombination von Differential Privacy und GANs zu erstellen.</p><p>All dies hei&#223;t nicht, dass synthetische Daten nicht verwendet werden sollten. In der Tat kann das durchaus notwendig werden. Da die Aufsichtsbeh&#246;rden KI-Systeme auf ihre Rechtskonformit&#228;t hin &#252;berpr&#252;fen m&#252;ssen, k&#246;nnen sie m&#246;glicherweise nur so bedarfsgerechte, gezielte Testdaten generieren, so O'Neil. Aber dadurch ist es noch wichtiger, die Grenzen der Methode zu hinterfragen. „Synthetische Daten werden mit der Zeit wahrscheinlich besser werden“, sagt sie, „aber nicht von alleine&#8220;.</p><p>() </p><hr /><p><strong>URL dieses Artikels:</strong><br /><small><code>https://www.heise.de/-6071301</code></small></p><p><strong>Links in diesem Artikel:</strong><br /><small><code><strong>[1]</strong>&#160;https://www.datagen.tech/technology/</code></small><br /><small><code><strong>[2]</strong>&#160;https://synthesis.ai/</code></small><br /><small><code><strong>[3]</strong>&#160;https://www.heise.de/tr/</code></small><br /><small><code><strong>[4]</strong>&#160;https://www.click-ins.com/</code></small><br /><small><code><strong>[5]</strong>&#160;https://mostly.ai/industries/</code></small><br /><small><code><strong>[6]</strong>&#160;https://www.heise.de/hintergrund/Kollektiver-Datenschutz-Was-dahinter-steckt-und-warum-er-noetig-ist-6054822.html</code></small><br /><small><code><strong>[7]</strong>&#160;https://www.heise.de/hintergrund/Neuronales-Netz-erzeugt-attraktive-Gesichter-fuer-jeden-Geschmack-6018436.html</code></small><br /><small><code><strong>[8]</strong>&#160;https://dl.acm.org/doi/10.1145/3442188.3445879</code></small><br /><small><code><strong>[9]</strong>&#160;mailto:bsc@heise.de</code></small><br /></p><p class=„printversioncopyright“><em>Copyright &#169; 2021 Heise Medien</em></p> </html>