Synthetische Daten für Datenschutz – Testlauf gebührenfrei möglich

Originalartikel

Backup

<html> <header class=„article-header“><h1 class=„articleheading“>Synthetische Daten f&#252;r Datenschutz &#8211; Testlauf geb&#252;hrenfrei m&#246;glich</h1><div class=„publish-info“> Daniel AJ Sokolov</div></header><figure class=„aufmacherbild“><img src=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/5/0/7/8/2/shutterstock_1231912174-92b4e24ad1f6607e.jpeg“ srcset=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/5/0/7/8/2/shutterstock_1231912174-92b4e24ad1f6607e.jpeg 700w, https://heise.cloudimg.io/width/1050/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/5/0/7/8/2/shutterstock_1231912174-92b4e24ad1f6607e.jpeg 1050w, https://heise.cloudimg.io/width/1500/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/5/0/7/8/2/shutterstock_1231912174-92b4e24ad1f6607e.jpeg 1500w, https://heise.cloudimg.io/width/2300/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/5/0/7/8/2/shutterstock_1231912174-92b4e24ad1f6607e.jpeg 2300w“ alt=„Zwei &#196;rztinnen an einem Touchscreen“ class=„img-responsive“ referrerpolicy=„no-referrer“ /><figcaption class=„akwa-caption“>Im Gesundheitsbereich k&#246;nnen synthetische Daten einerseits f&#252;r Datenschutz, andererseits zur Erzeugung hilfreicher Bildvarianten eingesetzt werden.(Bild:&#160;lenetstan/Shutterstock.com)</figcaption></figure><p><strong>Hilfe f&#252;r Datenschutz bei Big Data, Schuhl&#246;ffel f&#252;r autonome Autos, Forschung f&#252;r Kinderwunsch: Synthetische Daten und einschl&#228;gige Start-ups sind in.</strong></p><p>Synthetische Daten sind gro&#223; im Kommen, genauer gesagt von K&#252;nstlicher Intelligenz (KI) erzeugte, strukturierte synthetische Daten. Von der Klimaforschung zur Suizidverh&#252;tung, von selbstfahrenden Autos bis zur Big-Data-Datenschutzl&#246;sung &#8211; synthetische Daten ziehen in immer mehr Bereiche ein. F&#252;r Datenschutzprojekte sind Testl&#228;ufe mit strukturierten synthetischen Datens&#228;tzen dank des &#246;sterreichischen Start-ups Mostly.ai geb&#252;hrenfrei m&#246;glich.</p><p>Einsatz finden synthetische Daten insbesondere dort, wo es nicht gen&#252;gend (variantenreiche) Daten gibt, oder wo vorhandene Originaldaten aus Gr&#252;nden des Datenschutzes nicht direkt eingesetzt werden k&#246;nnen. Beispielsweise im Bereich der Entwicklung selbstfahrender Autos kommt synthetische Datenerzeugung zum Einsatz, um mehr Varianten &#228;hnlicher Situationen virtuell ausprobieren zu m&#252;ssen.</p><p>So k&#246;nnen einige bereits vorhandene Aufnahmen pl&#246;tzlich auf die Fahrbahn laufender Kinder um tausende synthetische Aufnahmen erweitert werden, in denen unterschiedlich aussehende Kinder aus unterschiedlichsten Richtungen zu unterschiedlichen Tageszeiten und Witterungsverh&#228;ltnissen auf Fahrbahnen unterschiedlicher Ausgestaltung laufen, ohne dass daf&#252;r echte Kinder aufgeopfert werden m&#252;ssten.</p><p>Software f&#252;r autonome Fahrzeuge kann dann mit allerlei synthetisch erzeugten Situationen virtuell konfrontiert werden und sich beweisen. Das US-Unternehmen Parallel Domain wurde 2017 dazu gegr&#252;ndet, virtuelle Welten aus echten Stra&#223;enkarten zu kreieren. Inzwischen f&#252;llt es diese Welten mit vielerlei Licht- und Wetterverh&#228;ltnissen sowie synthetischen Fahrzeugen und Menschen, die sich mitunter &#252;berraschend verhalten. Zu den Kunden z&#228;hlen beispielsweise Continental, Google, sowie Woven Planet (ehemals <a href=„https://www.heise.de/news/Lyft-gibt-selbstfahrende-Autos-auf-6028972.html“><strong>Toyota Research Institute, das Lyfts Selbstfahrtochter &#252;bernommen hat [1]</strong></a>). Bekanntere Beispiele synthetischer Daten f&#252;r mehr Vielfalt sind KI-generierte Bilder von Menschengesichtern oder Katzen.</p><h3 class=„subheading“ id=„nav_synthetische0“>Synthetische Daten f&#252;r Datenschutz</h3><p>F&#252;r Datenschutzbelange eingesetzt, ist Ziel von Datensynthetisierung, vorhandene Daten vollst&#228;ndig und unumkehrbar zu anonymisieren, ohne die N&#252;tzlichkeit und Nutzbarkeit der in den echten Daten enthaltenen statistischen Informationen zu verlieren. Die Anonymisierung durch synthetische Daten funktioniert allerdings nur korrekt, wenn wesentliche Schutzma&#223;nahmen gesetzt werden. Offensichtlichstes Beispiel: Die anhand der echten Daten trainierte KI darf die echten Daten (und Metadaten) nat&#252;rlich nicht zu exakt nachbilden, sonst k&#246;nnte man ja einfach die Datenbank kopieren.</p><p>Auch m&#252;ssen Originaldaten (samt Metadaten) meist leicht reduziert werden: Spezielle Ausrei&#223;er sind zu entfernen, bevor die KI daran trainiert wird (im Fachenglisch rare category protection genannt). Es gibt einfach nicht so viele Deutsche, die mehrfache Formel-1-Weltmeister sind und schwere Ski-Unf&#228;lle hatten. Das Risiko, Michael S. in synthetischen Daten neu anzulegen, w&#228;re zu gro&#223;. Weitere Schutzma&#223;nahmen m&#252;ssen bei der Erstellung von Datenbanken aus synthetischen Daten greifen &#8211; die Fortschritte, die KI-Experten bei De-Anonymisierung gemacht haben, sind beachtlich. Details dazu sprengen allerdings den Rahmen dieses Artikels.</p><h3 class=„subheading“ id=„nav_branchenstandard1“>Branchenstandards sind beabsichtigt</h3><figure class=„a-u-inline-right a-inline-image a-u-inline“><div><img alt=„Portr&#228;tfoto Alexandra Eberts“ class=„legacy-img“ height=„521“ src=„https://heise.cloudimg.io/width/696/q85.png-lossy-85.webp-lossy-85.foil1/_www-heise-de_/imgs/18/3/0/5/0/7/8/2/Alexandra_Ebert_w._background-0486191f8c0b6e47.jpg“ srcset=„https://heise.cloudimg.io/width/336/q70.png-lossy-70.webp-lossy-70.foil1/_www-heise-de_/imgs/18/3/0/5/0/7/8/2/Alexandra_Ebert_w._background-0486191f8c0b6e47.jpg 336w, https://heise.cloudimg.io/width/1008/q70.png-lossy-70.webp-lossy-70.foil1/_www-heise-de_/imgs/18/3/0/5/0/7/8/2/Alexandra_Ebert_w._background-0486191f8c0b6e47.jpg 1008w, https://heise.cloudimg.io/width/1392/q70.png-lossy-70.webp-lossy-70.foil1/_www-heise-de_/imgs/18/3/0/5/0/7/8/2/Alexandra_Ebert_w._background-0486191f8c0b6e47.jpg 2x“ width=„696“ referrerpolicy=„no-referrer“ /></div><figcaption class=„a-caption“>Alexandra Ebert, Vorsitzende der IEEE Synthetic Data Industry Connections(Bild:&#160;mostly.ai)</figcaption></figure><p>Solche synthetische Daten, die auf echten personenbezogenen Daten beruhen, sind rechtlich gesehen anonymisierte Daten, technisch gesehen aber vielleicht gar keine personenbezogenen Daten. Standards gibt es f&#252;r synthetische Daten und deren Einsatz f&#252;r Datenschutzzwecke noch keine. Bei der IT-Branchenorganisation IEEE Standards Association gibt es eine Arbeitsgruppe, die Vorarbeiten f&#252;r Standardisierung leistet. Sie hei&#223;t <a href=„https://standards.ieee.org/industry-connections/synthetic-data/“ rel=„external noopener“ target=„_blank“><strong>Synthetic Data Industry Connections [2]</strong></a> und wird von der &#214;sterreicherin Alexandra Ebert organisiert, die im Brotberuf Chief Trust Officer beim Unternehmen Mostly.ai mit Sitz in Wien und New York City ist. Die Firma erzeugt unter besonderer Ber&#252;cksichtigung des Datenschutzes synthetische Daten f&#252;r Unternehmen wie Nvidia, Telefonica, Versicherungen, Banken oder die Stadt Wien.</p><p>Im M&#228;rz war Ebert im <a href=„https://www.heise.de/hintergrund/Auslegungssache-58-EU-Datenstrategie-synthetische-Daten-Bias-und-Datenschutz-6336597.html“><strong>c't-Datenschutz-Podcast Auslegungssache 58 [3]</strong></a> zum Thema synthetische Daten zu Gast. „Synthetische Daten funktionieren so, dass Du im Gegensatz zu traditioneller Anonymisierung nicht am original Datensatz herumschraubst, versuchst etwas wegzul&#246;schen, zu &#228;ndern oder zu verf&#228;lschen, sondern Du nutzt den Originaldatensatz nur dazu, K&#252;nstliche Intelligenz zu trainieren. Diese KI hat dann vereinfacht gesagt die Aufgabe, herauszufinden, wie sich die (Erzeuger) der Daten verhalten. Was sind die Statistiken, die Muster, die zeitlichen Abh&#228;ngigkeiten“, erkl&#228;rte sie in der Auslegungssache 58.</p><div class=„opt-incontent-container“><h2 class=„opt-intitle“>Empfohlener redaktioneller Inhalt</h2><p class=„opt-indescription“>Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.</p><div class=„opt-incta-container“><label class=„opt-incta-persistence“><input class=„opt-inpersistence-checkbox“ data-should-persist=„“ type=„checkbox“ /> Podcasts immer laden</label> <button class=„opt-incta“ data-opt-in=„“>Podcast jetzt laden</button></div><p class=„opt-infootnote“>Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit k&#246;nnen personenbezogene Daten an Drittplattformen (Podigee GmbH) &#252;bermittelt werden. Mehr dazu in unserer <a href=„https://www.heise.de/Datenschutzerklaerung-der-Heise-Medien-GmbH-Co-KG-4860.html“><strong>Datenschutzerkl&#228;rung [4]</strong></a>.</p><noscript><div class=„podigee-podcast-container“></div></noscript></div><p>Traditionelle Anonymisierung nutzt destruktive Verfahren, die auf originalen Datens&#228;tzen beruhen und Teile wegstreichen. Oft bleibt nicht viel &#252;ber. Das schr&#228;nkt dann den Nutzen der Daten ein. „So etwas wie KI (auf traditionell anonymisierte Daten) zu trainieren, ist nicht mehr sinnvoll m&#246;glich“, stellte Ebert fest. Gleichzeitig bliebe das Risiko der Re-Identifizierung bestehen: Denn bei Verhaltensdaten aus Big Data, beispielsweise Banktransaktionen oder Gesundheitsdaten, funktioniere traditionelle Anonymisierung nicht mehr. KI sei einfach zu gut bei Re-Identifizierung.</p><h3 class=„subheading“ id=„nav_beispiel_projekt2“>Beispiel-Projekte</h3><p>Im Bereich Gesundheitsdaten sind leicht Beispiele zu finden. Zur F&#246;rderung k&#252;nstlicher Befruchtungen k&#246;nnte es helfen, die <a href=„https://www.softwarepark-hagenberg.com/partner-news/detail/news/schwanger-dank-kuenstlicher-intelligenz“ rel=„external noopener“ target=„_blank“><strong>Qualit&#228;t von Embryos im Fr&#252;hstadium (Blastoyzsten) besser zu bewerten [5]</strong></a>. An entsprechender KI forschen das Kinderwunschzentrum am Kepler Universit&#228;tsklinikum im ober&#246;sterreichischen Linz gemeinsam mit dem Software Competence Center Hagenberg,. Weil nicht so viele Bilder von Blastozysten zur Verf&#252;gung, hat eine KI (konkret Generative Adversarial Networks) weitere Varianten erzeugt. Nicht un&#228;hnlich hat BMW eine KI f&#252;r Qualit&#228;tssicherung in der Produktion &#8211; trainiert wurde sie anhand <a href=„https://www.heise.de/select/ct/2022/20/2221009185134215638“><strong>hunderttausender auf Knopfdruck erzeugter, synthetischer Bilder [6]</strong></a>.</p><p>Das US-Veteranenministerium hat mit dem Wettbewerb „<a href=„https://www.missiondaybreak.net/“ rel=„external noopener“ target=„_blank“><strong>Mission Daybreak [7]</strong></a>“ 20 Millionen Dollar ausgelobt, um Mittel und Wege zu finden, die Suizidraten unter Ex-Soldaten zu senken. In der ersten Runde des Wettbewerbs wurden 20 Projekte ausgesucht, die nun Zugriff auf synthetische Daten &#252;ber Veteranen und deren Gesundheit erhalten. Die Echtdaten k&#246;nnen aus Datenschutzgr&#252;nden nicht preisgegeben werden. Die Preistr&#228;ger des Wettbewerbs sollen dieser Tage bekanntgegeben werden. Dann wird sich zeigen, ob und wie sie die synthetischen Daten nutzen.</p><div class=„a-u-inline ho-text c3“><header class=„mb-4“><h3 class=„inline-flex pb-2 pr-8 text-xl font-bold leading-none border-b-4 border-gray-800 dark:border-white“>Lesen Sie auch</h3></header><section data-component=„TeaserList“ class=„grid gap-6 md:gap-y-8“ data-sneak-peek-elements-container=„true“><article data-component=„TeaserContainer“ data-cid=„6338468“ data-content-id=„3263590“ class=„flex ho-text“ data-teaser-name=„MinimalHorizontalTeaser“ data-upscore-object-id=„6338468“><a data-component=„TeaserLinkContainer“ href=„https://www.heise.de/news/Googles-Algorithmen-stufen-Ziffern-als-Copyright-Verletzung-ein-6338468.html“ class=„group flex“ data-google-interstitial=„true“ data-upscore-url=„true“><figure data-component=„Image“ class=„w-24 mr-2 md:w-40 shrink-0 md:mr-4“><div class=„ff-a-img“><img data-ff-replacement=„1“ width=„1280“ height=„720“ src=„https://www.heise.de/imgs/18/3/2/6/3/5/9/0/Copyright_Infringement_500-bffcb6624ba4d227.png“ alt=„Email: Your file violates Google Drive's Terms of Service Your file &#8216;500-nonewline.txt&#8217; contains content that violates Google Drive's Copyright Infringement policy and hence, some features related to this file may have been restricted. Thanks for helping Google keep the web safe. *Restricted file* 500-nonewline.txt A review cannot be requested for this restriction. Google LLC 1600 Amphitheatre Parkway, Mountain View, CA 94043, USA. You have received this email because one of your files violates Google Drive's Terms of Service.&quot;“ class=„c1“ referrerpolicy=„no-referrer“ /></div></figure><div class=„-translate-y-1“><header data-component=„TeaserHeader“><h3 class=„flex flex-col“>Googles Algorithmen stufen Ziffern als Copyright-Verletzung ein</h3></header></div></a></article></section></div><p>F&#252;r den Finanzbereich schildert Ebert im c&#8216;t-Podacst das Beispiel von Transaktionsdaten einer Bank. Daraus geht hervor, wie oft Pensionisten zum Bankomaten gehen oder wie h&#228;ufig Studenten bei Amazon einkaufen. „All das wird auf sehr granularer Ebene (von einer KI) erlernt; und dann, in einem komplett separaten Schritt, wird der Algorithmus genutzt, um neue synthetische Daten zu erzeugen“, sagte Ebert, „Ich habe dann synthetische Konsumenten und deren synthetische Finanztransaktionen. Da gibt es keinen 1:1-Bezug zwischen einem echten (Menschen) und irgendeinem synthetischen Individuum.“ Aber trotzdem seien im Datensatz die gleichen Statistiken zu finden wie in den Originaldaten. Die f&#252;r die Bank wertvollen Muster bleiben erhalten, jedoch ohne datenschutzrelevanten Personenbezug.</p><h3 class=„subheading“ id=„nav_kein_simpler3“>Kein simpler Remix</h3><p>Anders ausgedr&#252;ckt: Die Geschichten, die die synthetischen Daten erz&#228;hlen, &#228;hneln den Geschichten der Originaldaten sehr, aber die handelnden Charaktere sind andere. Allerdings soll es sich, richtig synthetisiert, nicht um einen simplen Remix echter Daten handeln, sondern um neu erstellte Datens&#228;tze. Mit Synthetisierung sollen &#252;ber 90% der in einem Datenkonvolut enthaltenen Information erhalten werden, verspricht die Branche. Mit traditioneller Anonymisierung, korrekt umgesetzt, w&#228;re es oft nur ein einstelliger Prozentwert.</p><p>Die synthetisierten Daten k&#246;nnen mit Dritten geteilt oder als Open Data ver&#246;ffentlicht werden. Und nat&#252;rlich kann das eigene Unternehmen die synthetischen Daten dort verwenden, wo es die Originaldaten nicht auswerten darf, weil diese zu anderen Zwecken erhoben wurden (juristisches Stichwort: Zweckbindung).</p><p>Um Unternehmen und Forschern den Einstieg in die Arbeit mit synthetischen Daten f&#252;r Datenschutzbelange zu erleichtern, stellt Mostly.ai einen <a href=„https://mostly.ai/synthetic-data-platform/generate-synthetic-data/“ rel=„external noopener“ target=„_blank“><strong>geb&#252;hrenfreien Generator [8]</strong></a> f&#252;r Versuche zur Verf&#252;gung. Mit dem Testdatengenerator kann jeder Nutzer eigene Daten einsetzen und daraus pro Tag bis zu 100.000 Zeilen synthetischer Daten generieren lassen.</p><p>() </p><p><strong>URL dieses Artikels:</strong><small><code>https://www.heise.de/-5045353</code></small></p><p><strong>Links in diesem Artikel:</strong><small><code><strong>[1]</strong>&#160;https://www.heise.de/news/Lyft-gibt-selbstfahrende-Autos-auf-6028972.html</code></small><small><code><strong>[2]</strong>&#160;https://standards.ieee.org/industry-connections/synthetic-data/</code></small><small><code><strong>[3]</strong>&#160;https://www.heise.de/hintergrund/Auslegungssache-58-EU-Datenstrategie-synthetische-Daten-Bias-und-Datenschutz-6336597.html</code></small><small><code><strong>[4]</strong>&#160;https://www.heise.de/Datenschutzerklaerung-der-Heise-Medien-GmbH-Co-KG-4860.html</code></small><small><code><strong>[5]</strong>&#160;https://www.softwarepark-hagenberg.com/partner-news/detail/news/schwanger-dank-kuenstlicher-intelligenz</code></small><small><code><strong>[6]</strong>&#160;https://www.heise.de/select/ct/2022/20/2221009185134215638</code></small><small><code><strong>[7]</strong>&#160;https://www.missiondaybreak.net/</code></small><small><code><strong>[8]</strong>&#160;https://mostly.ai/synthetic-data-platform/generate-synthetic-data/</code></small><small><code><strong>[9]</strong>&#160;mailto:ds@heise.de</code></small></p><p class=„printversioncopyright“><em>Copyright &#169; 2022 Heise Medien</em></p> </html>