Künstliche Intelligenz rekonstruiert Gesichter durch Tonaufnahmen

Regieraum mit drei Personen und vielen Bildschirmen — **Regieraum im Jahr 1975**
[Foto: Waltraud Raphael (verehel. Grubitzsch), Quelle: Bundesarchiv/ Wikimedia Commons, Lizenz: CC BY-SA 3.0 de]

Robert Züblin – 02.06.2019, 23:59 Uhr

Forscher haben eine Künstliche Intelligenz erschaffen, die das Gesicht einer Person allein an Hand ihrer Stimme rekonstruieren kann – zumindest ähnlich.

Stimm-Gesichts-Zusammenhänge

In dem Aufsatz „Speech2Face: Learning the Face Behind a Voice“ beschreiben die Wissenschaftler der neuen Studie, wie sie ein neuronales Netzwerk trainiert haben, um Gesichter aus Audioaufnahmen herauszulesen. Als Datengrundlage hätten Millionen von Youtube-Videos und andere Videos aus dem Internet gedient.

„Während des Trainings lernt unser Modell etwas über Stimm-Gesichts-Zusammenhänge, was es ihm ermöglicht, Bilder zu erzeugen, die verschiedene physikalische Eigenschaften der Sprecher wie Alter, Geschlecht und ethnische Zugehörigkeit erfassen, und zwar auf selbst kontrollierte Weise, indem es das natürliche Miteinander von Gesichtern und Sprache in Internetvideos nutzt, ohne Attribute explizit modellieren zu müssen“, heißt es in der Studie.

Große Ähnlichkeiten

Der Klang der Stimme könne von vielen Faktoren beeinflusst sein, darunter Mundform, Gesichtsknochenstruktur und die Dicke der Lippen. Auch das Geschlecht und das Alter einer Person hätten einen Einfluss auf den Stimmklang.

Die Wissenschaftler sagen explizit, dass sie nicht beabsichtigen, ein exaktes Bild von der sprechenden Person zu zeichnen. Es ginge darum, „charakteristische körperliche Merkmale“ festzustellen, die mit der Stimme des Sprechers in Beziehung stünden.

Die in der Studie erzeugten Bilder stimmen zwar nicht exakt mit den Original-Bildern der Sprecher überein, haben aber eine große Ähnlichkeit mit diesen.

Künstliche Intelligenz