<html> <header class=„article-header“><h1 class=„articleheading“>KI: Studie findet viele falsche Beschreibungen in Machine-Learning-Datensätzen</h1><div class=„publish-info“> Rainald Menge-Sonnentag</div></header><figure class=„aufmacherbild“><img src=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/7/9/2/8/7/shutterstock_638342005-1f62777814f31e4e.jpeg“ srcset=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/7/9/2/8/7/shutterstock_638342005-1f62777814f31e4e.jpeg 700w, https://heise.cloudimg.io/width/1050/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/7/9/2/8/7/shutterstock_638342005-1f62777814f31e4e.jpeg 1050w, https://heise.cloudimg.io/width/1500/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/7/9/2/8/7/shutterstock_638342005-1f62777814f31e4e.jpeg 1500w, https://heise.cloudimg.io/width/2300/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/7/9/2/8/7/shutterstock_638342005-1f62777814f31e4e.jpeg 2300w“ alt=„“ class=„img-responsive“ referrerpolicy=„no-referrer“ /><figcaption class=„akwa-caption“>(Bild: Shutterstock)</figcaption></figure><p><strong>Gut drei Prozent der Labels in zehn verbreiteten Audio-, Text-, und Bilddatensätzen für Machine Learning sind laut einer Untersuchung fehlerhaft.</strong></p><p>In einer Studie haben zwei Wissenschaftler vom MIT zusammen mit einem Amazon-Mitarbeiter die Zuverlässigkeit von Machine-Learning-Datensätzen untersucht. Dazu haben sie die Labels in zehn der am häufigsten verwendeten Datensätze zunächst selbst mit der Methoden des Confident Learning überprüft, und anschließend haben menschliche Prüfer die aufgespürten Fehler validiert.</p><p>Das Ergebnis der Untersuchung präsentiert das Team auf <a href=„https://labelerrors.com/“ rel=„external noopener“ target=„_blank“><strong>einer eigenen Website [1]</strong></a>. Im Fokus standen insgesamt sechs Bild- und drei Textdatensätze sowie ein Audiodatensatz. Bei Letzterem handelt es sich um AudioSet, Erstere umfassen ImageNet, CIFAR-10, CIFAR-100, Caltech-256, Quickdraw und MNIST. Die untersuchten Texte entstammen Datensätzen zu Amazon Reviews, IMDB und einem Datensatz zu 20 Newsgruppen.</p><h3 class=„subheading“ id=„nav_thema_verfehlt_0“>Thema verfehlt</h3><p>Im Durchschnitt hat die Untersuchung 3,4 Prozent fehlerhafte Labels gefunden. Die Zahl wirkt auf den ersten Blick nicht hoch, aber die Datensätze gelten häufig als Referenz für eigene Trainings. Der Lehrmeister vermittelt somit eine Fehlinformation. Die tatsächliche Fehlerquote variiert recht stark: Während die Untersuchung des MNIST-Datensatzes mit handgeschriebenen Ziffern lediglich auf 0,15 Prozent falsch gelabelter Daten kam, ergab die Analyse des QuickDraw-Datensatzes mit von Hand gezeichneten Doodles 10,12 Prozent falsch ausgezeichneter Inhalte. In dem für die Bildklassifikation häufig verwendete ImageNet-Datensatz hat die Prüfung eine Fehlerquote von 5,83 Prozent ausgemacht.</p><figure class=„a-inline-image a-u-inline“><div><figcaption class=„a-caption“>Die obere Tabelle gibt die Ergebnisse des Confident Learning wieder und die untere die anschließende Analyse durch menschliche Prüfer.</figcaption></div><p class=„a-captionsource“>(Bild: <a href=„https://labelerrors.com/paper.pdf“ rel=„external noopener“ target=„_blank“><strong>Abhandlung „Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks“ [2]</strong></a>)</p></figure><p>Die <a href=„https://arxiv.org/abs/1911.00068“ rel=„external noopener“ target=„_blank“><strong>Methode des Confident Learning [3]</strong></a> stammt unter anderem von Curtis G. Nothcutt, der auch an der aktuellen Studie beteiligt ist. Das Verfahren dient zum Aufspüren fehlerhafter Labels, um die Qualität der (Trainings-)Daten zu bewerten. Üblicherweise beschreibt die Konfidenz im Machine Learning quasi wörtlich übersetzt das Selbstvertrauen, das ein Modell in die eigenen Vorhersagen hat. Die Beschreibung des Confident Learning bezieht sich dagegen auf die Zuverlässigkeit der Labels.</p><p>Um sich nicht auf die ebenfalls maschinell ermittelten Untersuchungsergebnisse zu verlassen, hat die MIT-Studie die als fehlerhaft identifizierten Einträge einer menschlichen Untersuchung unterzogen und dabei Amazons Crowdsourcing-Marktplatz <a href=„https://www.mturk.com/“ rel=„external noopener“ target=„_blank“><strong>Mechanical Turk [4]</strong></a> genutzt. Die menschlichen Prüfer haben dabei wohl weitgehend die gefundenen Fehler bestätigt.</p><h3 class=„subheading“ id=„nav_der_jaguar_der1“>Der Jaguar, der zum Tiger wurde</h3><p>Die Labels sind teilweise schlicht falsch: Ein Dachs wird zum Wiesel, ein Murmeltier zum Biber oder ein Jaguar zum Tiger. Andere Labels wählen ein Objekt aus, das zwar auf dem Bild zu sehen ist, unterschlagen dabei aber andere womöglich wesentlichere Elemente: Ein Halloween-Kürbis wird auf die in ihm leuchtende Kerze reduziert und das Bild eines Bootanlegestegs auf ein im Vordergrund liegendes Küchenpapier.</p><figure class=„a-inline-image a-u-inline“><div><figcaption class=„a-caption“>Während manche Labels schlicht falsch sind, verpassen andere das Wesentliche.</figcaption></div><p class=„a-captionsource“>(Bild: <a href=„https://labelerrors.com/“ rel=„external noopener“ target=„_blank“><strong>labelerrors.com [5]</strong></a>)</p></figure><p>Bei der Untersuchung hat eine Erkenntnis das Team überrascht: Modelle mit einer niedrigeren Kapazität haben sich wohl für Real-World-Datensätzen mit Abbildungen aus der realen Welt als nützlicher erwiesen als solche mit hoher Kapazität. Vereinfacht ausgedrückt beschreibt die Kapazität die Komplexität eines ML-Modells. So hat wohl ResNet-18 beim Klassifizieren des ImageNet-Datensatzes mit korrigierten Labels besser abgeschnitten als ResNet-50. Dasselbe gilt für die Untersuchung des korrigierten CIFAR-10-Testdatensatzes, bei dem VGG-11 den großen Bruder VGG-19 ausgestochen hat.</p><p>Weitere Details <a href=„https://labelerrors.com/paper.pdf“ rel=„external noopener“ target=„_blank“><strong>lassen sich der Studie [6]</strong></a> „Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks“ von Curtis G. Northcutt, Anish Athalye und Jonas Mueller entnehmen. Die Ergebnisse präsentiert das Team <a href=„https://labelerrors.com/“ rel=„external noopener“ target=„_blank“><strong>auf der Website Label Errors in ML Test Sets [7]</strong></a>.</p><p>() </p><hr /><p><strong>URL dieses Artikels:</strong><br /><small>
https://www.heise.de/-6000541
</small></p><p><strong>Links in diesem Artikel:</strong><br /><small>
<strong>[1]</strong> https://labelerrors.com/
</small><br /><small>
<strong>[2]</strong> https://labelerrors.com/paper.pdf
</small><br /><small>
<strong>[3]</strong> https://arxiv.org/abs/1911.00068
</small><br /><small>
<strong>[4]</strong> https://www.mturk.com/
</small><br /><small>
<strong>[5]</strong> https://labelerrors.com/
</small><br /><small>
<strong>[6]</strong> https://labelerrors.com/paper.pdf
</small><br /><small>
<strong>[7]</strong> https://labelerrors.com/
</small><br /><small>
<strong>[8]</strong> mailto:rme@ix.de
</small><br /></p><p class=„printversion__copyright“><em>Copyright © 2021 Heise Medien</em></p> </html>