La société holding Panasonic (Panasonic HD) en partenariat avec la société de recherche américaine PRDCA et les chercheurs de l'Université de Californie à Los Angeles (UCLA) a réussi à développer un IA générative multimodale appelée « OmniFlow ». La particularité de cette technologie réside dans sa capacité à générer du contenu entre plusieurs formats, notamment texte, image et audio, permettant ainsi une conversion libre entre ces modalités et augmentant considérablement le potentiel d'application des IA génératives multimodales.
Depuis quelques années, la recherche sur les IA génératives multimodales, en particulier celles associées à la génération audio, attire de plus en plus d'attention. Cependant, les méthodes traditionnelles rencontrent des limites lorsqu'il s'agit d'acquérir des données, surtout lorsqu'elles doivent traiter simultanément des données textuelles, graphiques et auditives. Face à ce défi, OmniFlow combine de manière flexible des IA génératives spécifiques à chaque format de donnée (comme texte et audio ou texte et image), même dans des cas où les échantillons sont restreints, permettant d'apprendre des modèles « tout-à-tout » de haute précision. Cette approche réduit drastiquement les coûts liés à la collecte de données.
Les innovations technologiques d’OmniFlow ont reçu reconnaissance internationale et seront présentées lors de la conférence CVPR 2025 sur la vision par ordinateur et le traitement des modèles. Le cœur de cette technologie repose sur sa capacité à connecter et traiter trois types de caractéristiques de données distinctes, apprenant ainsi des relations de données plus complexes plutôt que de simplement effectuer des traitements moyens des données d'entrée. Cette méthode permet à OmniFlow de préserver les spécificités de chaque modalité tout en améliorant ses capacités d'expression pendant le processus de génération.
Dans les expériences d'évaluation, OmniFlow a surpassé d'autres méthodes classiques dans les tâches de génération « texte vers image » et « texte vers audio », montrant des performances exceptionnelles. Les résultats montrent que, comparé aux autres méthodes de génération « tout-à-tout », OmniFlow nécessite environ 1/60 du volume de données d'entraînement, ce qui constitue un avantage significatif dans le domaine des IA génératives multimodales.
À l'avenir, OmniFlow pourrait trouver des applications dans divers domaines tels que l'industrie et le mode de vie, générant des données spécifiques pour différents scénarios. Panasonic HD continuera à promouvoir l'application sociale de l'IA, en s'efforçant de développer des technologies IA qui facilitent la vie et le travail de ses clients.