Qgelm

KI: Studie findet viele falsche Beschreibungen in Machine-Learning-Datensätzen

Originalartikel

Backup

<html> <header class=„article-header“><h1 class=„articleheading“>KI: Studie findet viele falsche Beschreibungen in Machine-Learning-Datens&#228;tzen</h1><div class=„publish-info“> Rainald Menge-Sonnentag</div></header><figure class=„aufmacherbild“><img src=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/7/9/2/8/7/shutterstock_638342005-1f62777814f31e4e.jpeg“ srcset=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/7/9/2/8/7/shutterstock_638342005-1f62777814f31e4e.jpeg 700w, https://heise.cloudimg.io/width/1050/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/7/9/2/8/7/shutterstock_638342005-1f62777814f31e4e.jpeg 1050w, https://heise.cloudimg.io/width/1500/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/7/9/2/8/7/shutterstock_638342005-1f62777814f31e4e.jpeg 1500w, https://heise.cloudimg.io/width/2300/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/3/0/7/9/2/8/7/shutterstock_638342005-1f62777814f31e4e.jpeg 2300w“ alt=„“ class=„img-responsive“ referrerpolicy=„no-referrer“ /><figcaption class=„akwa-caption“>(Bild:&#160;Shutterstock)</figcaption></figure><p><strong>Gut drei Prozent der Labels in zehn verbreiteten Audio-, Text-, und Bilddatens&#228;tzen f&#252;r Machine Learning sind laut einer Untersuchung fehlerhaft.</strong></p><p>In einer Studie haben zwei Wissenschaftler vom MIT zusammen mit einem Amazon-Mitarbeiter die Zuverl&#228;ssigkeit von Machine-Learning-Datens&#228;tzen untersucht. Dazu haben sie die Labels in zehn der am h&#228;ufigsten verwendeten Datens&#228;tze zun&#228;chst selbst mit der Methoden des Confident Learning &#252;berpr&#252;ft, und anschlie&#223;end haben menschliche Pr&#252;fer die aufgesp&#252;rten Fehler validiert.</p><p>Das Ergebnis der Untersuchung pr&#228;sentiert das Team auf <a href=„https://labelerrors.com/“ rel=„external noopener“ target=„_blank“><strong>einer eigenen Website [1]</strong></a>. Im Fokus standen insgesamt sechs Bild- und drei Textdatens&#228;tze sowie ein Audiodatensatz. Bei Letzterem handelt es sich um AudioSet, Erstere umfassen ImageNet, CIFAR-10, CIFAR-100, Caltech-256, Quickdraw und MNIST. Die untersuchten Texte entstammen Datens&#228;tzen zu Amazon Reviews, IMDB und einem Datensatz zu 20 Newsgruppen.</p><h3 class=„subheading“ id=„nav_thema_verfehlt_0“>Thema verfehlt</h3><p>Im Durchschnitt hat die Untersuchung 3,4 Prozent fehlerhafte Labels gefunden. Die Zahl wirkt auf den ersten Blick nicht hoch, aber die Datens&#228;tze gelten h&#228;ufig als Referenz f&#252;r eigene Trainings. Der Lehrmeister vermittelt somit eine Fehlinformation. Die tats&#228;chliche Fehlerquote variiert recht stark: W&#228;hrend die Untersuchung des MNIST-Datensatzes mit handgeschriebenen Ziffern lediglich auf 0,15 Prozent falsch gelabelter Daten kam, ergab die Analyse des QuickDraw-Datensatzes mit von Hand gezeichneten Doodles 10,12 Prozent falsch ausgezeichneter Inhalte. In dem f&#252;r die Bildklassifikation h&#228;ufig verwendete ImageNet-Datensatz hat die Pr&#252;fung eine Fehlerquote von 5,83 Prozent ausgemacht.</p><figure class=„a-inline-image a-u-inline“><div><figcaption class=„a-caption“>Die obere Tabelle gibt die Ergebnisse des Confident Learning wieder und die untere die anschlie&#223;ende Analyse durch menschliche Pr&#252;fer.</figcaption></div><p class=„a-captionsource“>(Bild:&#160;<a href=„https://labelerrors.com/paper.pdf“ rel=„external noopener“ target=„_blank“><strong>Abhandlung „Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks“ [2]</strong></a>)</p></figure><p>Die <a href=„https://arxiv.org/abs/1911.00068“ rel=„external noopener“ target=„_blank“><strong>Methode des Confident Learning [3]</strong></a> stammt unter anderem von Curtis G. Nothcutt, der auch an der aktuellen Studie beteiligt ist. Das Verfahren dient zum Aufsp&#252;ren fehlerhafter Labels, um die Qualit&#228;t der (Trainings-)Daten zu bewerten. &#220;blicherweise beschreibt die Konfidenz im Machine Learning quasi w&#246;rtlich &#252;bersetzt das Selbstvertrauen, das ein Modell in die eigenen Vorhersagen hat. Die Beschreibung des Confident Learning bezieht sich dagegen auf die Zuverl&#228;ssigkeit der Labels.</p><p>Um sich nicht auf die ebenfalls maschinell ermittelten Untersuchungsergebnisse zu verlassen, hat die MIT-Studie die als fehlerhaft identifizierten Eintr&#228;ge einer menschlichen Untersuchung unterzogen und dabei Amazons Crowdsourcing-Marktplatz <a href=„https://www.mturk.com/“ rel=„external noopener“ target=„_blank“><strong>Mechanical Turk [4]</strong></a> genutzt. Die menschlichen Pr&#252;fer haben dabei wohl weitgehend die gefundenen Fehler best&#228;tigt.</p><h3 class=„subheading“ id=„nav_der_jaguar_der1“>Der Jaguar, der zum Tiger wurde</h3><p>Die Labels sind teilweise schlicht falsch: Ein Dachs wird zum Wiesel, ein Murmeltier zum Biber oder ein Jaguar zum Tiger. Andere Labels w&#228;hlen ein Objekt aus, das zwar auf dem Bild zu sehen ist, unterschlagen dabei aber andere wom&#246;glich wesentlichere Elemente: Ein Halloween-K&#252;rbis wird auf die in ihm leuchtende Kerze reduziert und das Bild eines Bootanlegestegs auf ein im Vordergrund liegendes K&#252;chenpapier.</p><figure class=„a-inline-image a-u-inline“><div><figcaption class=„a-caption“>W&#228;hrend manche Labels schlicht falsch sind, verpassen andere das Wesentliche.</figcaption></div><p class=„a-captionsource“>(Bild:&#160;<a href=„https://labelerrors.com/“ rel=„external noopener“ target=„_blank“><strong>labelerrors.com [5]</strong></a>)</p></figure><p>Bei der Untersuchung hat eine Erkenntnis das Team &#252;berrascht: Modelle mit einer niedrigeren Kapazit&#228;t haben sich wohl f&#252;r Real-World-Datens&#228;tzen mit Abbildungen aus der realen Welt als n&#252;tzlicher erwiesen als solche mit hoher Kapazit&#228;t. Vereinfacht ausgedr&#252;ckt beschreibt die Kapazit&#228;t die Komplexit&#228;t eines ML-Modells. So hat wohl ResNet-18 beim Klassifizieren des ImageNet-Datensatzes mit korrigierten Labels besser abgeschnitten als ResNet-50. Dasselbe gilt f&#252;r die Untersuchung des korrigierten CIFAR-10-Testdatensatzes, bei dem VGG-11 den gro&#223;en Bruder VGG-19 ausgestochen hat.</p><p>Weitere Details <a href=„https://labelerrors.com/paper.pdf“ rel=„external noopener“ target=„_blank“><strong>lassen sich der Studie [6]</strong></a> „Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks“ von Curtis G. Northcutt, Anish Athalye und Jonas Mueller entnehmen. Die Ergebnisse pr&#228;sentiert das Team <a href=„https://labelerrors.com/“ rel=„external noopener“ target=„_blank“><strong>auf der Website Label Errors in ML Test Sets [7]</strong></a>.</p><p>() </p><hr /><p><strong>URL dieses Artikels:</strong><br /><small>

https://www.heise.de/-6000541

</small></p><p><strong>Links in diesem Artikel:</strong><br /><small>

<strong>[1]</strong>&#160;https://labelerrors.com/

</small><br /><small>

<strong>[2]</strong>&#160;https://labelerrors.com/paper.pdf

</small><br /><small>

<strong>[3]</strong>&#160;https://arxiv.org/abs/1911.00068

</small><br /><small>

<strong>[4]</strong>&#160;https://www.mturk.com/

</small><br /><small>

<strong>[5]</strong>&#160;https://labelerrors.com/

</small><br /><small>

<strong>[6]</strong>&#160;https://labelerrors.com/paper.pdf

</small><br /><small>

<strong>[7]</strong>&#160;https://labelerrors.com/

</small><br /><small>

<strong>[8]</strong>&#160;mailto:rme@ix.de

</small><br /></p><p class=„printversion__copyright“><em>Copyright &#169; 2021 Heise Medien</em></p> </html>

Cookies helfen bei der Bereitstellung von Inhalten. Diese Website verwendet Cookies. Mit der Nutzung der Website erklären Sie sich damit einverstanden, dass Cookies auf Ihrem Computer gespeichert werden. Außerdem bestätigen Sie, dass Sie unsere Datenschutzerklärung gelesen und verstanden haben. Wenn Sie nicht einverstanden sind, verlassen Sie die Website.Weitere Information