Qgelm

Falsche Trainingsdaten verzerren Güte-Einschätzung von KI-Modellen

Originalartikel

Backup

<html> <header class=„article-header“><h1 class=„articleheading“>Falsche Trainingsdaten verzerren G&#252;te-Einsch&#228;tzung von KI-Modellen</h1><div class=„publish-info“> Karen Hao</div></header><figure class=„aufmacherbild“><img src=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/8/5/3/1/4/jeremy-lwanga-nzifw_VkkbA-unsplash-e1617287661192-7b0df58690fbfb27.jpeg“ srcset=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/8/5/3/1/4/jeremy-lwanga-nzifw_VkkbA-unsplash-e1617287661192-7b0df58690fbfb27.jpeg 700w, https://heise.cloudimg.io/width/1050/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/8/5/3/1/4/jeremy-lwanga-nzifw_VkkbA-unsplash-e1617287661192-7b0df58690fbfb27.jpeg 1050w, https://heise.cloudimg.io/width/1500/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/8/5/3/1/4/jeremy-lwanga-nzifw_VkkbA-unsplash-e1617287661192-7b0df58690fbfb27.jpeg 1500w, https://heise.cloudimg.io/width/2000/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/8/5/3/1/4/jeremy-lwanga-nzifw_VkkbA-unsplash-e1617287661192-7b0df58690fbfb27.jpeg 2000w“ alt=„“ class=„img-responsive“ referrerpolicy=„no-referrer“ /><figcaption class=„akwa-caption“>Nein, eine Elster ist das nicht.(Bild:&#160;Jeremy Lwanga / Unsplash)</figcaption></figure><p><strong>Laut einer neuen MIT-Studie sind die zehn am h&#228;ufigsten verwendeten KI-Datens&#228;tze mit vielen, teilweise eklatanten Etikettierungsfehlern behaftet.&#8203;</strong></p><p>Gro&#223;e Modelldatens&#228;tze bilden das R&#252;ckgrat der K&#252;nstlichen Intelligenz, aber einige sind wichtiger als andere. Denn mit bestimmten Kern-Datasets bewerten Forscher den Fortschritt von Maschinenlern-Modellen. Einer der bekanntesten ist der Bilderkennungsdatensatz ImageNet, der die moderne KI-Revolution mitausl&#246;ste. Und auch MNIST geh&#246;rt dazu: Es stellt Bilder von handgeschriebenen Zahlen von 0 bis 9 zusammen, was bei der Schrifterkennung hilft. Wieder andere Datasets testen Modelle, die darauf trainiert sind, Audio, Text oder Zeichnungen zu erkennen.</p><h3 class=„subheading“ id=„nav_tags_die0“>Tags, die daneben liegen</h3><p>Allerdings haben Studien in den letzten Jahren ergeben, dass diese Datens&#228;tze mit schwerwiegenden M&#228;ngeln behaftet sein k&#246;nnen. ImageNet enth&#228;lt beispielsweise <a href=„https://excavating.ai/“ rel=„external noopener“ target=„_blank“><strong>rassistische und sexistische Label [1]</strong></a> sowie <a href=„https://www.wired.com/story/researchers-blur-faces-launched-thousand-algorithms/“ rel=„external noopener“ target=„_blank“><strong>Fotos von Gesichtern, die ohne Zustimmung gesammelt wurden [2]</strong></a>. Die <a href=„https://arxiv.org/pdf/2103.14749.pdf“ rel=„external noopener“ target=„_blank“><strong>neueste MIT-Studie [3]</strong></a> zum Thema befasst sich nun mit einem weiteren Problem: Viele der Bildetiketten, die sogenannten Tags, sind schlicht und einfach falsch. So wird etwa ein Pilz als L&#246;ffel ausgewiesen, ein Frosch als Katze und ein hoher Ton der S&#228;ngerin Ariana Grande als Pfiff. Der ImageNet-Testsatz weist eine gesch&#228;tzte Etikettierfehlerrate von 5,8 Prozent auf. Der Testsatz f&#252;r QuickDraw, eine Zusammenstellung von Zeichnungen, kommt auf satte 10,1 Prozent.</p><figure class=„branding“><a href=„https://www.heise.de/tr/“ name=„meldung.newsticker.inline.branding_tr“ title=„Mehr von MIT Technology Review“><strong> <img alt=„Mehr von MIT Technology Review“ height=„693“ src=„https://static.wallabag.it/7862d1b7aff4c3b00f37212fefade4e0e2c4cf00/64656e6965643a646174613a696d6167652f7376672b786d6c2c253343737667253230786d6c6e733d27687474703a2f2f7777772e77332e6f72672f323030302f7376672725323077696474683d273639367078272532306865696768743d2733393170782725323076696577426f783d2730253230302532303639362532303339312725334525334372656374253230783d273027253230793d27302725323077696474683d27363936272532306865696768743d273339312725323066696c6c3d27253233663266326632272533452533432f726563742533452533432f737667253345/“ class=„c1“ width=„1200“ referrerpolicy=„no-referrer“ /><img alt=„Mehr von MIT Technology Review“ class=„a-u-hide-from-tablet c2“ src=„https://heise.cloudimg.io/width/1200/q50.png-lossy-50.webp-lossy-50.foil1/_www-heise-de_/Magazin-Banner/tr_mobil.jpg“ srcset=„https://heise.cloudimg.io/width/2400/q30.png-lossy-30.webp-lossy-30.foil1/_www-heise-de_/Magazin-Banner/tr_mobil.jpg 2x“ referrerpolicy=„no-referrer“ /> <img alt=„Mehr von MIT Technology Review“ height=„500“ src=„https://static.wallabag.it/7862d1b7aff4c3b00f37212fefade4e0e2c4cf00/64656e6965643a646174613a696d6167652f7376672b786d6c2c253343737667253230786d6c6e733d27687474703a2f2f7777772e77332e6f72672f323030302f7376672725323077696474683d273639367078272532306865696768743d2733393170782725323076696577426f783d2730253230302532303639362532303339312725334525334372656374253230783d273027253230793d27302725323077696474683d27363936272532306865696768743d273339312725323066696c6c3d27253233663266326632272533452533432f726563742533452533432f737667253345/“ class=„c3“ width=„1830“ referrerpolicy=„no-referrer“ /><img alt=„Mehr von MIT Technology Review“ class=„a-u-show-from-tablet c2“ src=„https://heise.cloudimg.io/width/1830/q50.png-lossy-50.webp-lossy-50.foil1/_www-heise-de_/Magazin-Banner/tr_desktop.jpg“ srcset=„https://heise.cloudimg.io/width/3660/q30.png-lossy-30.webp-lossy-30.foil1/_www-heise-de_/Magazin-Banner/tr_desktop.jpg 2x“ referrerpolicy=„no-referrer“ /> [4]</strong></a></figure><p>Wie wurde das untersucht? Jeder der zehn Datasets, die zur Bewertung von Modellen verwendet werden, verf&#252;gt &#252;ber einen eigenen Trainingsdatensatz. Curtis G. Northcutt und Anish Athalye, zwei MIT-Nachwuchsforscher sowie MIT-Absolvent Jonas Mueller entwickelten mithilfe der Trainingsdatens&#228;tze ein Modell f&#252;r maschinelles Lernen und lie&#223;en anschlie&#223;end die Testdaten erneut beschriften. Wenn das Modell-Etikett nicht mit dem des Originals &#252;bereinstimmte, wurde der Datenpunkt zur manuellen &#220;berpr&#252;fung markiert. F&#252;nf Rezensenten beim Online-Dienst Amazon Mechanical Turk wurden gebeten, dar&#252;ber abzustimmen, ob das Etikett des neuen Modells oder das Original richtig ist. Stimmte die Mehrheit der Pr&#252;fer f&#252;r die neue Modell-Beschriftung, wurde die des Originals als Fehler gewertet und korrigiert.</p><h3 class=„subheading“ id=„nav_einfach_ist1“>Einfach ist besser</h3><p>Die Forscher pr&#252;ften insgesamt 34 Modelle, deren Leistung zuvor anhand des ImageNet-Testsatzes gemessen worden war. Dabei lie&#223;en sie jedes Modell rund 1500 Beispiele mit falschen Datenbeschriftungen erneut beurteilen. Jene Modelle, die mit den urspr&#252;nglichen falschen Etiketten nicht so gut abgeschnitten hatten, geh&#246;rten nach der Korrektur zu den besten. Insbesondere die einfacheren Modelle schienen mit korrigierten Daten besser abzuschneiden als die komplizierteren Modelle, die von Technologiegiganten wie Google zur Bilderkennung verwendet werden und als die besten auf diesem Gebiet gelten. Mit anderen Worten: Wir haben m&#246;glicherweise eine &#252;bertrieben gute Ansicht davon, wie gut diese komplizierten Modelle tats&#228;chlich sind.</p><p>Als Fazit ermutigt Northcutt das KI-Feld, sauberere Datens&#228;tze zur Bewertung von Modellen und zur Verfolgung des Fortschritts des gesamten Forschungsfeldes zu erstellen. Er empfiehlt seinen Kollegen au&#223;erdem, ihre Datenhygiene zu verbessern. Andernfalls, so warnt er, k&#246;nnten sie das falsche Modell ausw&#228;hlen. Insbesondere dann, &#8222;wenn Sie einen Datensatz voller Rauschen haben und damit eine Reihe von KI-Modellen ausprobieren, um sie der realen Welt einzusetzen&#8220;. Zu diesem Zweck hat Northcutt den <a href=„https://github.com/cgnorthcutt/cleanlab“ rel=„external noopener“ target=„_blank“><strong>Code [5]</strong></a>, den er in seiner Studie zur Korrektur von Etikettierungsfehlern verwendet hat, als Open-Source-L&#246;sung bereitgestellt. Er sagt, dass er bereits bei einigen gro&#223;en Technologieunternehmen verwendet wird.</p><p>() </p><hr /><p><strong>URL dieses Artikels:</strong><br /><small><code>https://www.heise.de/-6010496</code></small></p><p><strong>Links in diesem Artikel:</strong><br /><small><code><strong>[1]</strong>&#160;https://excavating.ai/</code></small><br /><small><code><strong>[2]</strong>&#160;https://www.wired.com/story/researchers-blur-faces-launched-thousand-algorithms/</code></small><br /><small><code><strong>[3]</strong>&#160;https://arxiv.org/pdf/2103.14749.pdf</code></small><br /><small><code><strong>[4]</strong>&#160;https://www.heise.de/tr/</code></small><br /><small><code><strong>[5]</strong>&#160;https://github.com/cgnorthcutt/cleanlab</code></small><br /><small><code><strong>[6]</strong>&#160;mailto:office@technology-review.de</code></small><br /></p><p class=„printversioncopyright“><em>Copyright &#169; 2021 Heise Medien</em></p> </html>

Cookies helfen bei der Bereitstellung von Inhalten. Diese Website verwendet Cookies. Mit der Nutzung der Website erklären Sie sich damit einverstanden, dass Cookies auf Ihrem Computer gespeichert werden. Außerdem bestätigen Sie, dass Sie unsere Datenschutzerklärung gelesen und verstanden haben. Wenn Sie nicht einverstanden sind, verlassen Sie die Website.Weitere Information