Am 19. Mai 2025 gab Bilibili (kurz B-Station) bekannt, dass es seinen neuesten Animationstextermodell – Index-AniSora – offen source macht. Diese innovative Technologie revolutioniert die Erstellung von Videos im zweireihigen Stil. Index-AniSora ermöglicht das Klickgenerieren verschiedener zweireihiger Videostile, einschließlich Anime-Fernsehserien, nationalem Schöpfungsinhalt, Comicadaptionen, VTubers, animierten Musikvideos und "Kitsune"-Animationen, was die Produktionsleistung und Qualität von Animationsinhalten erheblich steigert.
Das technische Prinzip von Index-AniSora basiert auf dem von Bilibili vorgeschlagenen AniSora-Modell, das bei der internationalen AI-Konferenz IJCAI 2025 angenommen wurde. Darauf aufbauend stellte Bilibili erstmals einen verstärkten Lernalgorithmus für die Generierung von zweireihigen Videos vor, der durch menschliche Rückmeldung optimiert wurde, um die Qualität der generierten Inhalte zu verbessern.
In der technischen Umsetzung erstellte das Forscherteam von Bilibili den ersten hochwertigen Belohnungsdatensatz für das Anime-Bereich, der 30.000 manuell annotierte Anime-Videobeispiele enthält. Dieser Datensatz bewertet die Videoqualität aus zwei Perspektiven: visueller Ähnlichkeit und visueller Konsistenz. Dabei werden verschiedene Dimensionen wie visuelle Glätte, visuelle Bewegung, visuelle Attraktivität, Text-Video-Konsistenz, Bild-Video-Konsistenz sowie Charakterkonsistenz berücksichtigt. Basierend auf diesen Dimensionen entwickelte das Team AnimeReward, ein multidimensionales und hochvertrauenswürdiges Belohnungssystem speziell für die Alignment-Generierung von Anime-Videos.
Um die Performanz des Modells weiter zu verbessern, schlug das Team den sogenannten Gap-Aware Preference Optimization (GAPO) vor, indem sie die Präferenzlücken zwischen positiven und negativen Beispielen in die Verlustfunktion integrierten. Dadurch steigerte sich die Effizienz und die Endleistung des Alignment-Trainings. Die Experimente zeigten, dass das durch AnimeReward und GAPO optimierte Modell in mehreren Bewertungskategorien deutlich besser als die Basismodelle und Supervised Fine-Tuning (SFT)-Modelle abschnitt, wodurch die generierten Animationsvideos noch besser den menschlichen Präferenzen entsprechen.
Dieses Open-Source-Projekt von Bilibili bringt nicht nur neue technische Durchbrüche in den Bereich der Animationstextergenerierung, sondern bietet auch Entwicklern und Enthusiasten wertvolle Ressourcen und Werkzeuge. Dank Index-AniSora können Benutzer ihre Lieblingscomics einfach in lebendige Animationen umwandeln, die Unterstützung verschiedener spezieller Zeichenstile bieten und effektiver als je zuvor sein. Der Open-Source-Launch wird zweifellos die weitere Entwicklung des zweireihigen Content-Creations vorantreiben und für Anime-Liebhaber und -Ersteller noch mehr Möglichkeiten eröffnen.
Adresse:
https://github.com/bilibili/Index-anisora/tree/main
Modell-Link:
https://modelscope.cn/models/bilibili-index/Index-anisora
Erfahrung Link:
https://modelscope.cn/studios/bilibili-index/Anisora