Tiefe Videoporträts

Blog

Das Synthetisieren und Bearbeiten von Videoporträts – dh Videos, die gerahmt sind, um den Kopf und den Oberkörper einer Person zu zeigen – ist ein wichtiges Problem in der Computergrafik, unter anderem mit Anwendungen in der Videobearbeitung und Filmpostproduktion, visuellen Effekten, visueller Synchronisation, virtueller Realität und Telepräsenz .



Das Problem, ein fotorealistisches Videoporträt eines Zielschauspielers zu synthetisieren, das die Handlungen eines Quellschauspielers nachahmt – und insbesondere wenn Quell- und Zielschauspieler unterschiedliche Subjekte sein können – ist immer noch ein offenes Problem.

Es gab keinen Ansatz, der es einem ermöglicht, die starre Kopfhaltung, Gesichtsausdrücke und Augenbewegungen des Zielschauspielers vollständig zu kontrollieren; sogar die Gesichtsidentität kann bis zu einem gewissen Grad modifiziert werden. Bis jetzt.



In diesem Beitrag werde ich überprüfen Tiefe Videoporträts , das einen neuartigen Ansatz darstellt, der eine fotorealistische Reanimation von Porträtvideos nur mit einem Eingabevideo ermöglicht.

In diesem Beitrag werde ich zwei Dinge behandeln: Erstens eine kurze Definition eines DeepFake. Zweitens ein Überblick über das Paper Deep Video Portraits in den Worten der Autoren.




2.1 Übersicht

Die im Papier vorgestellte Kernmethode bietet die volle Kontrolle über den Kopf eines Zielakteur durch Übertragung der starren Kopfhaltung, des Gesichtsausdrucks und der Augenbewegung eines _Quellakteurs _unter Beibehaltung der Identität und des Aussehens des Ziels.

Chatbox-HTML-Code

Darüber hinaus vollständiges Video der Ziel synthetisiert wird, einschließlich konsistenter Oberkörperhaltung, Haare und Hintergrund.

Bild für Beitrag

Abbildung 1. Ergebnisse des Gesichts-Reenacements von DVP. Ausdrücke aus der Quelle werden von der Quelle auf den Zielakteur übertragen, wobei die Kopfpose (Rotation und Translation) sowie der Blick des Zielakteurs beibehalten werden

Die Gesamtarchitektur des Frameworks des Papiers ist unten in Abbildung 2 dargestellt.

Zunächst werden die Quell- und Zielakteure mithilfe eines hochmodernen Gesichtsrekonstruktionsansatzes aus einem einzelnen Bild verfolgt, und ein morphbares 3D-Modell (3DMM) wird abgeleitet, um die Quell- und Zielakteure optimal anzupassen.

Die resultierende Sequenz von niedrigdimensionalen Parametervektoren repräsentiert die Identität des Schauspielers, die Kopfhaltung, den Ausdruck, den Blick und die Szenenbeleuchtung für jeden Videoframe.

Dann werden Kopfhaltung, Gesichtsausdrücke und/oder Augenblickparameter von der Quelle genommen und mit den Beleuchtungs- und Identitätsparametern des Ziels gemischt. Dies ermöglicht es dem Netzwerk, eine vollständige Nachstellung zu generieren und gleichzeitig die Identität und das Aussehen des Schauspielers zu bewahren.

Als nächstes werden neue synthetische Renderings des Zielakteurs basierend auf den gemischten Parametern erzeugt. Diese Renderings sind die Eingabe für das neuartige Rendering-to-Video-Übersetzungsnetzwerk des Papiers, das darauf trainiert ist, die synthetische Eingabe in eine fotorealistische Ausgabe umzuwandeln.

Bild für Beitrag

Abbildung. 2. Tiefe Videoporträts ermöglichen es einem Quelldarsteller, ein Zielvideoporträt vollständig zu steuern. Zuerst wird eine niedrigdimensionale parametrische Darstellung (let) beider Videos unter Verwendung der monokularen Gesichtsrekonstruktion erhalten. Im Parameterraum (Mitte) können nun Kopfhaltung, Ausdruck und Augenblick übertragen werden. Rendern Sie schließlich Eingabebilder, die in ein fotorealistisches Videoporträt des Zielschauspielers umgewandelt werden (rechts). Obama-Video mit freundlicher Genehmigung des Weißen Hauses (gemeinfrei)

2.2 Gesichtsrekonstruktion aus einem einzigen Bild

Für die Gesichtsanalyse werden morphbare 3D-Modelle verwendet, da die intrinsischen Eigenschaften von 3D-Gesichtern eine Darstellung bieten, die gegen intrapersonale Variationen wie Pose und Beleuchtung immun ist. Bei einem einzelnen Gesichtseingabebild kann ein 3DMM 3D-Gesichts- (Form und Textur) und Szeneneigenschaften (Pose und Beleuchtung) über einen Anpassungsprozess wiederherstellen.

Die Autoren verwenden einen hochmodernen Ansatz zur dichten Gesichtsrekonstruktion, der ein parametrisches Modell des Gesichts und der Beleuchtung an jeden Videoframe anpasst. Es erhält eine aussagekräftige parametrische Gesichtsdarstellung sowohl für die Quelle als auch für das Ziel bei einer gegebenen Eingangsvideosequenz.

#heartbeat #machine-learning #computer-vision #deepfakes #deep-learning #deep learning

herzschlag.fritz.ai

Tiefe Videoporträts

Fotorealistische Re-Animation von Portrait-Videos mit nur einem Eingabevideo. Synthetisieren und Bearbeiten von Videoporträts – d. h. Videos, die gerahmt sind, um den Kopf einer Person zu zeigen.