Mozilla gibt Sprachdatensammlung frei

Originalartikel

Backup

<html> <p class=„printversionback-to-article printversion–hide“><a href=„https://www.heise.de/newsticker/meldung/Mozilla-gibt-Sprachdatensammlung-frei-4323042.html“>zur&#252;ck zum Artikel</a></p><figure class=„printversionlogo“><img src=„https://1.f.ix.de/icons/svg/logos/svg/heiseonline.svg“ alt=„heise online“ width=„180“ heigth=„40“/></figure><figure class=„aufmacherbild“><img src=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/2/6/1/1/6/5/1/mozilla-common-voice-2fd8feb5351ec2a5.jpeg“ srcset=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/2/6/1/1/6/5/1/mozilla-common-voice-2fd8feb5351ec2a5.jpeg 700w, https://heise.cloudimg.io/width/1050/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/2/6/1/1/6/5/1/mozilla-common-voice-2fd8feb5351ec2a5.jpeg 1050w, https://heise.cloudimg.io/width/1200/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/2/6/1/1/6/5/1/mozilla-common-voice-2fd8feb5351ec2a5.jpeg 1200w“ sizes=„(min-width: 80em) 43.75em, (min-width: 64em) 66.66vw, 100vw“ alt=„Mozilla gibt Sprachdatensammlung frei“ class=„img-responsive“/></figure><p><strong>Die bisher durch das Common-Voice-Projekt zusammengetragenen Sprach-Samples lassen sich ab sofort frei verwenden. Es ist die gr&#246;&#223;te Sammlung dieser Art.</strong></p> <p>Mozilla hat seine Sprachdatensammlung <a href=„https://voice.mozilla.org/“ rel=„external noopener“ target=„_blank“><strong>Common Voice [1]</strong></a> &#246;ffentlich freigegeben. Mit 1361 Stunden &#8211; das entspricht knapp zwei Monaten &#8211; transkribierten Audiodaten ist es nach Angaben von Mozilla die gr&#246;&#223;te frei zug&#228;ngliche Sammlung der Welt. Ebenso wichtig wie die Gr&#246;&#223;e ist Mozilla die Vielseitigkeit der Samples: 42.000 Sprecher wirkten daran mit und sprachen kurze Texte in 18 verschiedenen Sprachen ein.</p> <p>Die Ver&#246;ffentlichung steht unter CC0-Lizenz &#8211; der freiz&#252;gigsten Variante von Creative Commons („No rights reserved“) &#8211; der &#214;ffentlichkeit zur Verf&#252;gung. Hauptziel der Sammlung ist es, hochwertige und frei verf&#252;gbare Sprachdatens&#228;tze zum Training f&#252;r Spracherkennungssysteme zu schaffen &#8211; ein Gebiet, das bisher Cloud-Anwendungen gro&#223;er Konzerne mit riesigen Sprachdatensammlungen dominieren. Mit <a href=„https://www.heise.de/meldung/Mozilla-Common-Voice-Sprachsteuerung-fuer-alle-und-ohne-Rueckgriff-auf-die-Cloud-3904454.html“><strong>DeepSpeech [2]</strong></a> entwickelt Mozilla eine eigene Open-Source-Spracherkennung, die bereits in Produkten wie <a href=„https://mycroft.ai/blog/deepspeech-update/“ rel=„external noopener“ target=„_blank“><strong>Mycroft [3]</strong></a> oder <a href=„https://getleon.ai/“ rel=„external noopener“ target=„_blank“><strong>Leon [4]</strong></a> eingesetzt oder getestet wird.</p> <p>Das Projekt startete <a href=„https://www.heise.de/meldung/Mozilla-sammelt-Stimmaufzeichnungen-fuer-offene-Spracherkennungs-Software-3780795.html“><strong>Mitte 2017 [5]</strong></a> mit einer englischsprachigen Textsammlung; ein Jahr sp&#228;ter &#246;ffnete sich Common Voice f&#252;r andere Sprachen. F&#252;r Englisch hat Mozilla 685 Stunden von fast 36.000 Sprechern aufgezeichnet; Deutsch folgt auf Platz zwei mit 254 Stunden, an denen knapp 4000 Freiwillige mitwirkten.</p> <div class=„inread“/> <h3 class=„subheading“ id=„nav_kabylisch0“>Kabylisch, Tatarisch, Walisisch</h3> <p>W&#228;hrend sich kommerzielle Anbieter auf die Sprachen der wichtigsten M&#228;rkte konzentrieren, finden sich bei Common Voice auch viele, die sonst kaum im Internet repr&#228;sentiert sind, etwa Kabylisch (eine algerische Berbersprache), Tatarisch oder Walisisch. Hier treiben oft wenige Enthusiasten das Projekt voran. Neuerdings kooperiert Mozilla mit der <a href=„https://www.giz.de/en/html/“ rel=„external noopener“ target=„_blank“><strong>Deutschen Gesellschaft f&#252;r Internationale Zusammenarbeit [6]</strong></a>, um zum Beispiel Sprecher in dem afrikanischen Land Ruanda zu erreichen. Einige der gro&#223;en Weltsprachen hinken dagegen noch hinterher, etwa Spanisch, Arabisch oder Russisch.</p> <p>Seit der Release finalisiert wurde, wuchs die Zahl der Sprachen in der Aufnahmephase auf 22 an; fast 200 Stunden Aufzeichnungen kamen hinzu. Bei 70 weiteren Sprachen l&#228;uft die Vorbereitungsphase, in der die Freiwilligen S&#228;tze sammeln und die Website &#252;bersetzen.</p> <p>Auch wenn Deutsch in Common Voice gut vertreten ist, sucht das Projekt weiterhin Sprecher &#8211; das erkl&#228;rte Ziel ist, f&#252;r jede Sprache 1200 Stunden Material zu sammeln. Die Mitwirkung erfordert keine besonderen Kenntnisse und dauert nur wenige Minuten.</p> <p><em>Siehe dazu auch c't 18/2018:</em></p> <ul class=„rtelist rtelist–unordered“><li><a href=„https://www.heise.de/select/ct/2018/18/1535420071631846“><strong>Spracherkennung f&#252;r alle: Mozillas Projekte Common Voice und DeepSpeech [7]</strong></a></li> </ul><p> ()<br class=„clear“/></p> <hr/><p><strong>URL dieses Artikels:</strong><br/><small><code>http://www.heise.de/-4323042</code></small></p> <p><strong>Links in diesem Artikel:</strong><br/><small><code><strong>[1]</strong>&#160;https://voice.mozilla.org/</code></small><br/><small><code><strong>[2]</strong>&#160;https://www.heise.de/meldung/Mozilla-Common-Voice-Sprachsteuerung-fuer-alle-und-ohne-Rueckgriff-auf-die-Cloud-3904454.html</code></small><br/><small><code><strong>[3]</strong>&#160;https://mycroft.ai/blog/deepspeech-update/</code></small><br/><small><code><strong>[4]</strong>&#160;https://getleon.ai/</code></small><br/><small><code><strong>[5]</strong>&#160;https://www.heise.de/meldung/Mozilla-sammelt-Stimmaufzeichnungen-fuer-offene-Spracherkennungs-Software-3780795.html</code></small><br/><small><code><strong>[6]</strong>&#160;https://www.giz.de/en/html/</code></small><br/><small><code><strong>[7]</strong>&#160;https://www.heise.de/select/ct/2018/18/1535420071631846</code></small><br/><small><code><strong>[8]</strong>&#160;mailto:dbe@ct.de</code></small><br/></p> <p class=„printversioncopyright“><em>Copyright &#169; 2019 Heise Medien</em></p> </html>