Qgelm

Geolokalisierung von Fotos mithilfe künstlicher neuronaler Netze - TIB-Blog

Originalartikel

Backup

<html> <p>Die erfolgreiche Sch&#228;tzung des Aufnahmeorts eines Fotos erm&#246;glicht eine Reihe interessanter Anwendungen. Ein solcher Geo-Sch&#228;tzer kann beispielsweise zur Durchsuchbarkeit von historischen Bild- und Videoarchiven (anhand des Aufnahmeorts) beitragen oder auch zur Identifizierung von Widerspr&#252;chen in Nachrichten &#8222;Fake News&#8220; (Nachrichtenmeldung zu einem Ort zeigt in Wirklichkeit einen anderen Ort) unterst&#252;tzend beitragen.</p><p>Wir haben einen auf k&#252;nstlicher Intelligenz (KI) beruhenden (Geo-)Lokalisierer entwickelt, der ausschlie&#223;lich mittels des Bildinhaltes eine Sch&#228;tzung abgibt, wo auf der Erde ein Foto aufgenommen wurde. Genauer gesagt basiert unser Ansatz auf tiefen neuronalen Netzen (<em>deep convolutional neural networks</em>), die dem Bereich des maschinellen Lernens zuzuordnen sind, was wiederum ein Teilgebiet der KI ist. Solche neuronalen Netze modellieren mit Methoden der Mathematik die menschliche &#160;Informationsverarbeitung im Gehirn, insbesondere die Verkn&#252;pfung von Nervenzellen (Neuronen). So hat auch unsere Ortsbestimmung das menschliche Nervensystem zum Vorbild und wird durch tiefe neuronale Netze realisiert.</p><p>Das neuronale Netz wird mit mehreren Millionen Beispielbildern trainiert, welche anhand ihrer GPS-Koordinaten geographischen Zellen auf der Erdoberfl&#228;che zugeteilt wurden. Das System lernt mittels dieser Aufteilung spezifische Bildmerkmale, die im optimalen Fall f&#252;r eine Geo-Zelle eindeutig sind und trainiert (seine F&#228;higkeit) zwischen diesen zu unterscheiden.</p><p>Aufgrund unterschiedlich h&#228;ufig fotografierter Orte verteilen sich die Trainingsbilder ungleichm&#228;&#223;ig &#252;ber die Erde. Um diesem Problem entgegenzuwirken, wird die Erde, wie auf der folgenden Abbildung gezeigt, in Zellen unterschiedlicher &#246;rtlicher Aufl&#246;sung unterteilt. Je mehr Bilder f&#252;r eine Region vorhanden sind, desto feinere Zellen sind in dieser Region vorhanden. Auf diese Weise lernt das Netz in &#8222;beliebteren&#8221; Gebieten, differenziertere Geo-Sch&#228;tzungen zu machen.</p><figure id=„attachment_12267“ aria-describedby=„caption-attachment-12267“ class=„wp-caption aligncenter c1“><a href=„https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Zellenaufteilung.png“><img class=„wp-image-12267 size-full“ src=„https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Zellenaufteilung.png“ alt=„“ width=„1861“ height=„1053“ srcset=„https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Zellenaufteilung.png 1861w, https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Zellenaufteilung-350x197.png 350w, https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Zellenaufteilung-1024x579.png 1024w, https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Zellenaufteilung-50x28.png 50w“ referrerpolicy=„no-referrer“ /></a><figcaption id=„caption-attachment-12267“ class=„wp-caption-text“>Aufteilung der Erde in geographische Zellen. Jede Zelle enth&#228;lt 50 bis 1000 Bilder (Gesamt: 12,893 Zellen). Visualiserung generiert mithilfe von <a href=„https://s2.sidewalklabs.com/regioncoverer/“>https://s2.sidewalklabs.com/regioncoverer/</a>.</figcaption></figure><p>Die bislang beschriebene Idee stammt urspr&#252;nglich vom PlaNet-Ansatz&#185;, der von Google-Forschern vorgeschlagen und mit ca. 91 Mio. Bildern trainiert wurde. Durch die Einbeziehung von Kontextinformationen gelang es uns, diesen Ansatz zu verbessern. Hierbei haben wir hierarchisches Wissen f&#252;r unterschiedliche feine bzw. grobe Zellenaufteilungen der Erde in den Lernprozess des Gesamtsystems integriert. Wahrscheinlichkeiten f&#252;r Zellen der feinsten Aufteilung werden bei dieser Idee durch die der gr&#246;beren Aufteilungen verfeinert. Dieses Vorgehen basiert auf der Tatsache, dass jeweils eindeutige Verbindungen zu Elternzellen der &#252;bergeordneten Aufteilung bestehen.</p><figure id=„attachment_12320“ aria-describedby=„caption-attachment-12320“ class=„wp-caption aligncenter c2“><a href=„https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Zellenhierarchie.png“><img class=„wp-image-12320 size-full“ src=„https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Zellenhierarchie.png“ alt=„“ width=„960“ height=„410“ srcset=„https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Zellenhierarchie.png 960w, https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Zellenhierarchie-350x149.png 350w, https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Zellenhierarchie-50x21.png 50w“ referrerpolicy=„no-referrer“ /></a><figcaption id=„caption-attachment-12320“ class=„wp-caption-text“>Zellenaufteilungen mit feiner, mittlerer und grober Granularit&#228;t. Zellen einer Aufteilung haben eine eindeutige Elternzelle in der &#252;bergeordneten Aufteilung.</figcaption></figure><p>Zellen k&#246;nnen aus sehr unterschiedlichen Bildern bestehen, f&#252;r die das Modell eine gemeinsame Repr&#228;sentation lernen muss. So kann zum Beispiel eine Zelle am Central Park in New York neben Innenaufnahmen auch Stadt- und Naturaufnahmen beinhalten. Stadtbilder zeichnen sich haupts&#228;chlich durch Architektur, Menschen und spezifische Objekte wie Autos oder Stra&#223;enschilder aus. Natur- oder Innenaufnahmen hingegen werden durch die Flora und Fauna oder Inneneinrichtungen definiert. Um die Diversit&#228;t in den Zellen zu reduzieren, verwenden wir separat trainierte Netzwerke f&#252;r die drei genannten Umgebungs- bzw. Szenentypen. Auf diese Weise kann ein entsprechendes Modell spezifischere Merkmale f&#252;r einen Szenentyp extrahieren, welche die Verortung des Bildes erleichtern k&#246;nnen.</p><figure id=„attachment_12319“ aria-describedby=„caption-attachment-12319“ class=„wp-caption aligncenter c2“><a href=„https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Szenenansatz.png“><img class=„size-full wp-image-12319“ src=„https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Szenenansatz.png“ alt=„“ width=„960“ height=„495“ srcset=„https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Szenenansatz.png 960w, https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Szenenansatz-350x180.png 350w, https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Szenenansatz-50x26.png 50w“ referrerpolicy=„no-referrer“ /></a><figcaption id=„caption-attachment-12319“ class=„wp-caption-text“>Beispielzelle am Centralpark in New York mit Bildern die verschiedene Umgebungstypen zeigen.</figcaption></figure><p>Unseren Ansatz haben wir auf der <em>European Conference on Computer Vision</em> (ECCV) 2018 in M&#252;nchen <a href=„https://doi.org/10.1007/978-3-030-01258-8_35“>ver&#246;ffentlicht&#178;</a> (<a href=„http://openaccess.thecvf.com/content_ECCV_2018/papers/Eric_Muller-Budack_Geolocation_Estimation_of_ECCV_2018_paper.pdf“>Open-Access-Version hier</a>). Die ECCV ist eine der hochrangigsten Konferenzen im Bereich des k&#252;nstlichen, maschinellen Sehens (Computer Vision) und hat eine durchschnittlich Annahmequote von weniger als 30%. Auf derselben Konferenz wurde zeitgleich auch CPlaNet&#179; vorgestellt, eine Weiterentwicklung des PlaNet-Verfahrens von Google, welche mit kombinatorischen und sich lokal &#252;berlagernden Geo-Sektoren arbeitet. Auf den f&#252;r das Geo-Problem etablierten Benchmark-Datens&#228;tzen konnten wir mit unserem Verfahren und einem Bruchteil der Trainingsbildermenge (4,7 Mio. gegen&#252;ber 30,3 Mio.) die derzeit besten Ergebnisse pr&#228;sentieren.</p><p>Dennoch ist das allgemeine Geolokalisierungsproblem damit noch (lange) nicht gel&#246;st. So sch&#228;tzt unser Verfahren auf dem kleineren der beiden Benchmarks bei etwa 80% der Bilder den korrekten Kontinent, &#160;bei noch 43% der Bilder die korrekte Stadt. Eine auf einen Kilometer genaue Sch&#228;tzung der Stra&#223;e kann nur noch bei etwa 17% der Bilder ermittelt werden. Ein Grund hierf&#252;r ist, dass der Geo-Sch&#228;tzer w&#228;hrend des Trainings selten oder gar nicht &#8220;gesehene&#8221; Orte, nicht zuordnen kann, so wie es intuitiv auch beim Menschen der Fall w&#228;re. So fassen gr&#246;&#223;ere Zellen zum Beispiel selten fotografierte geografische Sektoren in Gr&#246;&#223;enordnungen von bis zu 4,000 km&#178; zusammen. In diesen F&#228;llen verursacht auch die durch den Zellenschwerpunkt der Bilder ermittelte GPS-Position schwerwiegendere Fehler. Zuk&#252;nftig k&#246;nnte das Verfahren daher durch Fotos bislang weniger abgedeckter Orte verfeinert werden. Auch ein weiterer Regressor, welcher die GPS des statischen Zellenschwerpunkt durch eine weitere Sch&#228;tzung innerhalb der Zelle ersetzt, k&#246;nnte eine Verbesserung bringen.</p><p>Nachfolgende Abbildungen zeigen eine Aufnahme des Hauptbahnhofs Hannover von 1975 (Bild-Quelle: <a href=„http://www.haz.de/Hannover/Aus-der-Stadt/Historische-Bilder-Hannover-und-sein-Bahnhof“>Hannoversche Allgemeine Zeitung</a>) und die gesch&#228;tzte GPS-Position unserer browserbasierten Demo.</p><div class=„su-row“><div class=„su-column su-column-size-1-2 su-column-inner su-u-clearfix su-u-trim“><p><a href=„http://www.haz.de/Hannover/Aus-der-Stadt/Historische-Bilder-Hannover-und-sein-Bahnhof“ target=„_blank“ rel=„noopener noreferrer“><img class=„wp-image-12318 size-full aligncenter“ title=„Bild-Quelle: HAZ, Hannoversche Allgemeine Zeitung“ src=„https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Foto_Hannover_hbf.png“ alt=„“ width=„800“ height=„508“ srcset=„https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Foto_Hannover_hbf.png 800w, https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Foto_Hannover_hbf-350x222.png 350w, https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Foto_Hannover_hbf-50x32.png 50w“ referrerpolicy=„no-referrer“ /></a></p></div><div class=„su-column su-column-size-1-2 su-column-inner su-u-clearfix su-u-trim“><p><a href=„https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Demo_Karte.png“><img class=„aligncenter wp-image-12317 size-full“ title=„Sch&#228;tzung der GPS-Postion f&#252;r ein historisches Bild des Hauptbahnhofs Hannover“ src=„https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Demo_Karte.png“ alt=„“ width=„1013“ height=„620“ srcset=„https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Demo_Karte.png 1013w, https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Demo_Karte-350x214.png 350w, https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Demo_Karte-50x31.png 50w“ referrerpolicy=„no-referrer“ /></a></p></div></div><p>Unser Modell ordnet das historische Bild korrekt Hannover zu. Die GPS-Sch&#228;tzung liegt sogar relativ konkret zwischen dem Hauptbahnhof und Kr&#246;pcke. Neben der final gesch&#228;tzten Position auf der Weltkarte, zeigt das Tool auch weitere m&#246;gliche Positionen, die das Netz aufgrund geringerer Wahrscheinlichkeiten nicht ber&#252;cksichtigt. Der zweite Tipp des Netzes ist in diesem Zusammenhang das &#252;ber 350 Kilometer entfernte Dresden.</p><p>Derzeit arbeiten wir auch an der Erkl&#228;rbarkeit der Sch&#228;tzungen unseres Netzes. Dazu nutzen wir Aktivierungskarten, sogenannte C<em>lass Activation Maps</em>. Diese weisen, wie auf der n&#228;chsten Abbildung gezeigt, auf Bildregionen hin, die st&#228;rker zur Entscheidung &#252;ber die Zellenklassifikation beitragen.</p><figure id=„attachment_12316“ aria-describedby=„caption-attachment-12316“ class=„wp-caption aligncenter c3“><a href=„https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Aktivierungen_Foto_Hannover_hbf.png“><img class=„size-full wp-image-12316“ src=„https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Aktivierungen_Foto_Hannover_hbf.png“ alt=„“ width=„719“ height=„456“ srcset=„https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Aktivierungen_Foto_Hannover_hbf.png 719w, https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Aktivierungen_Foto_Hannover_hbf-350x222.png 350w, https://blogs.tib.eu/wp/tib/wp-content/uploads/sites/3/2019/03/Aktivierungen_Foto_Hannover_hbf-50x32.png 50w“ referrerpolicy=„no-referrer“ /></a><figcaption id=„caption-attachment-12316“ class=„wp-caption-text“>Aktivierungen von Bildpixeln f&#252;r die Sch&#228;tzung des Aufnahmeortes</figcaption></figure><p>Unter <strong><a href=„https://labs.tib.eu/geoestimation“>https://labs.tib.eu/geoestimation</a></strong> kann bereits eine Betaversion mit dieser Funktion getestet werden.</p><p>Im Rahmen des von der Deutschen Forschungsgemeinschaft (DFG) gef&#246;rderten Projekts <a href=„https://www.tib.eu/de/forschung-entwicklung/projektuebersicht/projektsteckbrief/viva/“>VIVA (Visuelle Informationssuche in Videoarchiven)</a> arbeiten wir auch an einer automatisierten Verortung von historischem Videomaterial der DDR.</p><p>Wer au&#223;erdem Interesse an den Netzwerk-Modellen hat, findet diese und weitere Informationen zu unserer Arbeit in folgendem Repository: <strong><a href=„https://github.com/TIBHannover/GeoEstimation“>https://github.com/TIBHannover/GeoEstimation</a></strong>.</p><div class=„su-note su-note-inner su-u-clearfix su-u-trim c4“><p class=„csc-firstHeader“><strong>Geolokalisierungstool auf der MS Wissenschaft<br /></strong> Unter dem Motto &#8222;Woher stammt das Bild?&#8220; ist die TIB im <a href=„https://www.wissenschaftsjahr.de/2019/“>Wissenschaftstjahr 2019</a> zum Thema K&#252;nstliche Intelligenz mit dem in der <a href=„https://www.tib.eu/de/forschung-entwicklung/visual-analytics/“>Forschungsgruppe Visual Analytics</a> entwickeltem <a href=„https://www.tib.eu/de/service/termine/detail/tib-mit-geolokalisierungstool-auf-der-ms-wissenschaft-woher-stammt-das-bild/“>Geolokalisierungstool&#160; auf der MS Wissenschaft</a> vertreten.</p><p><strong>Beitrag im c&#8217;t-Magazin<br /></strong> Unter dem Titel&#160;<a href=„https://www.heise.de/select/ct/2019/5/1551091142351937“ target=„_blank“ rel=„noopener noreferrer“>&#8222;Wo war das noch mal?&#8220;</a> stellt Redakteur Arne Gr&#228;vemeyer das Geolokalisierungstool in der Ausgabe 5/2019 der Zeitschrift <a href=„https://www.heise.de/select/ct“ target=„_blank“ rel=„noopener noreferrer“>c&#8217;t</a>&#160;vor.</p></div><hr /><p><strong>Fu&#223;noten:</strong></p><p>&#185; Weyand, T., Kostrikov, I., Philbin, J.: Planet &#8211; photo geolocation with convolutional neural networks. In: European Conference on Computer Vision. pp.37&#8211;55. Springer (2016)</p><p>&#178; E. M&#252;ller-Budack, K. Pustu-Iren, R. Ewerth: Geolocation Estimation of Photos using a Hierarchical Model and Scene Classification. In: European Conference on Computer Vision. pp.575-592. Springer (2018)</p><p>&#179; Seo, P.H., Weyand, T., Sim, J., Han, B.: Cplanet: Enhancing image geolocalization by combinatorial partitioning of maps. In: European Conference on Computer Vision. pp.544-560. Springer (2018)</p><div id=„mab-9155264310“ class=„m-a-box c10“ data-plugin-release=„4.3.12“ data-plugin-version=„free“ data-box-layout=„slim“ data-box-position=„below“ data-multiauthor=„false“ data-author-type=„user“ itemscope=„itemscope“ itemtype=„https://schema.org/Person“><div class=„m-a-box-container molongui-border-style-solid molongui-border-width-1-px m-a-box-shadow-none c9“><div class=„m-a-box-tab m-a-box-content m-a-box-profile“ data-profile-layout=„layout-1“ data-author-ref=„user-167“><div class=„m-a-box-content-middle“><div class=„m-a-box-item m-a-box-avatar“><a href=„https://blogs.tib.eu/wp/tib/author/pustuk/“><img alt=„“ src=„https://secure.gravatar.com/avatar/15c8ffc8d926a08c5bb90b5d060a4f67?s=150&amp;d=mp&amp;r=g“ srcset=„https://secure.gravatar.com/avatar/15c8ffc8d926a08c5bb90b5d060a4f67?s=300&amp;d=mp&amp;r=g 2x“ class=„avatar avatar-150 photo m-radius-none molongui-border-style-none molongui-border-width-1-px c5“ height=„150“ width=„150“ itemprop=„image“ referrerpolicy=„no-referrer“ /></a></div><div class=„m-a-box-item m-a-box-data“><div class=„m-a-box-title“><h5 class=„molongui-font-size-22-px molongui-text-align-left molongui-text-style-normal molongui-text-style-bold molongui-text-case-none c7“ itemprop=„name“><a href=„https://blogs.tib.eu/wp/tib/author/pustuk/“ class=„molongui-font-size-22-px molongui-text-align-left molongui-text-style-normal molongui-text-style-bold c6“ itemprop=„url“>Kader Pustu-Iren</a></h5></div><div class=„m-a-box-bio molongui-font-size-18-px molongui-text-align-left molongui-text-style-normal molongui-line-height-17 c8“ itemprop=„description“><p>… ist wissenschaftliche Mitarbeiterin in der Forschungsgruppe Visual Analytics an der TIB</p></div></div></div></div></div></div> </html>

Cookies helfen bei der Bereitstellung von Inhalten. Diese Website verwendet Cookies. Mit der Nutzung der Website erklären Sie sich damit einverstanden, dass Cookies auf Ihrem Computer gespeichert werden. Außerdem bestätigen Sie, dass Sie unsere Datenschutzerklärung gelesen und verstanden haben. Wenn Sie nicht einverstanden sind, verlassen Sie die Website.Weitere Information