Qgelm

Mozilla gibt Sprachdatensammlung frei

Originalartikel

Backup

<html> <p class=„printversionback-to-article printversion–hide“><a href=„https://www.heise.de/newsticker/meldung/Mozilla-gibt-Sprachdatensammlung-frei-4323042.html“>zur&#252;ck zum Artikel</a></p><figure class=„printversionlogo“><img src=„https://1.f.ix.de/icons/svg/logos/svg/heiseonline.svg“ alt=„heise online“ width=„180“ heigth=„40“/></figure><figure class=„aufmacherbild“><img src=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/2/6/1/1/6/5/1/mozilla-common-voice-2fd8feb5351ec2a5.jpeg“ srcset=„https://heise.cloudimg.io/width/700/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/2/6/1/1/6/5/1/mozilla-common-voice-2fd8feb5351ec2a5.jpeg 700w, https://heise.cloudimg.io/width/1050/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/2/6/1/1/6/5/1/mozilla-common-voice-2fd8feb5351ec2a5.jpeg 1050w, https://heise.cloudimg.io/width/1200/q75.png-lossy-75.webp-lossy-75.foil1/_www-heise-de_/imgs/18/2/6/1/1/6/5/1/mozilla-common-voice-2fd8feb5351ec2a5.jpeg 1200w“ sizes=„(min-width: 80em) 43.75em, (min-width: 64em) 66.66vw, 100vw“ alt=„Mozilla gibt Sprachdatensammlung frei“ class=„img-responsive“/></figure><p><strong>Die bisher durch das Common-Voice-Projekt zusammengetragenen Sprach-Samples lassen sich ab sofort frei verwenden. Es ist die gr&#246;&#223;te Sammlung dieser Art.</strong></p> <p>Mozilla hat seine Sprachdatensammlung <a href=„https://voice.mozilla.org/“ rel=„external noopener“ target=„_blank“><strong>Common Voice [1]</strong></a> &#246;ffentlich freigegeben. Mit 1361 Stunden &#8211; das entspricht knapp zwei Monaten &#8211; transkribierten Audiodaten ist es nach Angaben von Mozilla die gr&#246;&#223;te frei zug&#228;ngliche Sammlung der Welt. Ebenso wichtig wie die Gr&#246;&#223;e ist Mozilla die Vielseitigkeit der Samples: 42.000 Sprecher wirkten daran mit und sprachen kurze Texte in 18 verschiedenen Sprachen ein.</p> <p>Die Ver&#246;ffentlichung steht unter CC0-Lizenz &#8211; der freiz&#252;gigsten Variante von Creative Commons („No rights reserved“) &#8211; der &#214;ffentlichkeit zur Verf&#252;gung. Hauptziel der Sammlung ist es, hochwertige und frei verf&#252;gbare Sprachdatens&#228;tze zum Training f&#252;r Spracherkennungssysteme zu schaffen &#8211; ein Gebiet, das bisher Cloud-Anwendungen gro&#223;er Konzerne mit riesigen Sprachdatensammlungen dominieren. Mit <a href=„https://www.heise.de/meldung/Mozilla-Common-Voice-Sprachsteuerung-fuer-alle-und-ohne-Rueckgriff-auf-die-Cloud-3904454.html“><strong>DeepSpeech [2]</strong></a> entwickelt Mozilla eine eigene Open-Source-Spracherkennung, die bereits in Produkten wie <a href=„https://mycroft.ai/blog/deepspeech-update/“ rel=„external noopener“ target=„_blank“><strong>Mycroft [3]</strong></a> oder <a href=„https://getleon.ai/“ rel=„external noopener“ target=„_blank“><strong>Leon [4]</strong></a> eingesetzt oder getestet wird.</p> <p>Das Projekt startete <a href=„https://www.heise.de/meldung/Mozilla-sammelt-Stimmaufzeichnungen-fuer-offene-Spracherkennungs-Software-3780795.html“><strong>Mitte 2017 [5]</strong></a> mit einer englischsprachigen Textsammlung; ein Jahr sp&#228;ter &#246;ffnete sich Common Voice f&#252;r andere Sprachen. F&#252;r Englisch hat Mozilla 685 Stunden von fast 36.000 Sprechern aufgezeichnet; Deutsch folgt auf Platz zwei mit 254 Stunden, an denen knapp 4000 Freiwillige mitwirkten.</p> <div class=„inread“/> <h3 class=„subheading“ id=„nav_kabylisch0“>Kabylisch, Tatarisch, Walisisch</h3> <p>W&#228;hrend sich kommerzielle Anbieter auf die Sprachen der wichtigsten M&#228;rkte konzentrieren, finden sich bei Common Voice auch viele, die sonst kaum im Internet repr&#228;sentiert sind, etwa Kabylisch (eine algerische Berbersprache), Tatarisch oder Walisisch. Hier treiben oft wenige Enthusiasten das Projekt voran. Neuerdings kooperiert Mozilla mit der <a href=„https://www.giz.de/en/html/“ rel=„external noopener“ target=„_blank“><strong>Deutschen Gesellschaft f&#252;r Internationale Zusammenarbeit [6]</strong></a>, um zum Beispiel Sprecher in dem afrikanischen Land Ruanda zu erreichen. Einige der gro&#223;en Weltsprachen hinken dagegen noch hinterher, etwa Spanisch, Arabisch oder Russisch.</p> <p>Seit der Release finalisiert wurde, wuchs die Zahl der Sprachen in der Aufnahmephase auf 22 an; fast 200 Stunden Aufzeichnungen kamen hinzu. Bei 70 weiteren Sprachen l&#228;uft die Vorbereitungsphase, in der die Freiwilligen S&#228;tze sammeln und die Website &#252;bersetzen.</p> <p>Auch wenn Deutsch in Common Voice gut vertreten ist, sucht das Projekt weiterhin Sprecher &#8211; das erkl&#228;rte Ziel ist, f&#252;r jede Sprache 1200 Stunden Material zu sammeln. Die Mitwirkung erfordert keine besonderen Kenntnisse und dauert nur wenige Minuten.</p> <p><em>Siehe dazu auch c't 18/2018:</em></p> <ul class=„rtelist rtelist–unordered“><li><a href=„https://www.heise.de/select/ct/2018/18/1535420071631846“><strong>Spracherkennung f&#252;r alle: Mozillas Projekte Common Voice und DeepSpeech [7]</strong></a></li> </ul><p> ()<br class=„clear“/></p> <hr/><p><strong>URL dieses Artikels:</strong><br/><small><code>http://www.heise.de/-4323042</code></small></p> <p><strong>Links in diesem Artikel:</strong><br/><small><code><strong>[1]</strong>&#160;https://voice.mozilla.org/</code></small><br/><small><code><strong>[2]</strong>&#160;https://www.heise.de/meldung/Mozilla-Common-Voice-Sprachsteuerung-fuer-alle-und-ohne-Rueckgriff-auf-die-Cloud-3904454.html</code></small><br/><small><code><strong>[3]</strong>&#160;https://mycroft.ai/blog/deepspeech-update/</code></small><br/><small><code><strong>[4]</strong>&#160;https://getleon.ai/</code></small><br/><small><code><strong>[5]</strong>&#160;https://www.heise.de/meldung/Mozilla-sammelt-Stimmaufzeichnungen-fuer-offene-Spracherkennungs-Software-3780795.html</code></small><br/><small><code><strong>[6]</strong>&#160;https://www.giz.de/en/html/</code></small><br/><small><code><strong>[7]</strong>&#160;https://www.heise.de/select/ct/2018/18/1535420071631846</code></small><br/><small><code><strong>[8]</strong>&#160;mailto:dbe@ct.de</code></small><br/></p> <p class=„printversioncopyright“><em>Copyright &#169; 2019 Heise Medien</em></p> </html>

Cookies helfen bei der Bereitstellung von Inhalten. Diese Website verwendet Cookies. Mit der Nutzung der Website erklären Sie sich damit einverstanden, dass Cookies auf Ihrem Computer gespeichert werden. Außerdem bestätigen Sie, dass Sie unsere Datenschutzerklärung gelesen und verstanden haben. Wenn Sie nicht einverstanden sind, verlassen Sie die Website.Weitere Information