FLOAT ist eine audio-gesteuerte Methode zur Erzeugung von sprechenden Porträtvideos, die auf einem Flow-Matching-Generierungsmodell basiert. Sie verlagert die Generierung von einem pixelbasierten latenten Raum in einen erlernten Bewegungs-Latentraum und ermöglicht so eine zeitlich konsistente Bewegungsdarstellung. Die Technik beinhaltet einen Transformer-basierten Vektorfeld-Prädiktor und weist einen einfachen und effizienten frameweisen Konditionsmechanismus auf. Darüber hinaus unterstützt FLOAT die sprachgesteuerte Emotionsverstärkung und kann ausdrucksstarke Bewegungen auf natürliche Weise integrieren. Umfangreiche Experimente zeigen, dass FLOAT bestehende audio-gesteuerte Methoden zur Erzeugung von sprechenden Porträts in Bezug auf visuelle Qualität, Bewegungsgetreue und Effizienz übertrifft.