MathVerse: Ein neuer Benchmark zur Bewertung der visuellen mathematischen Fähigkeiten multimodaler großer Sprachmodelle

站长之家

Veröffentlicht amKI-Nachrichten und -Informationen · 1 Minuten Lesezeit · Mar 26, 2024

Neuer Maßstab für Multimodale LLMs: MathVerse

Die Website „站长之家“ berichtete über einen neuen Benchmark namens MathVerse, der die Leistung multimodaler großer Sprachmodelle (MLLMs) bei der Lösung visueller mathematischer Probleme bewertet. Die Studie ergab, dass die meisten Modelle stark von visuellen Eingaben abhängig sind, während GPT-4V sowohl bei Text- als auch bei visuellen Eingaben hervorragende Leistungen zeigte.

Die Einführung dieses Benchmarks bietet neue Perspektiven für die zukünftige Entwicklung von MLLMs.

AI-Star-Lektionsvideos: Kanye West-Mathematik mit null Kosten und Millionen Traffic einfach monetarisieren

Artikel beschreibt Monetarisierung durch KI-generierte Promi-Videos: Themenwahl, Skripterstellung, Videoerzeugung mit Tools wie HeyGen, Veröffentlichung auf Plattformen. Vorteile: geringe Kosten, Promi-Effekt. Monetarisierung über Werbung und Bezahlcontent. Wichtig: Bildrechte beachten, KI-Kennzeichnung. Ideal für editierende Content-Creator.....

Tongyi Qianwen veröffentlicht ein multimodales einheitliches Verständnis- und Generationsmodell Qwen VLo

Kürzlich wurde das multimodale Großmodell Qwen VLo offiziell veröffentlicht. Das Modell hat bedeutende Fortschritte bei der Bildinhaltserfassung und -generierung erzielt und bietet den Nutzern eine neue visuelle Kreativserfahrung. Laut Mitteilung baut Qwen VLo auf den Vorteilen der früheren Qwen-VL-Reihe auf und wurde umfassend aktualisiert. Dieses Modell kann nicht nur die Welt präzise verstehen, sondern auch hochwertige Neuschöpfungen basierend auf diesem Verständnis durchführen und somit einen echten Sprung von der Wahrnehmung zur Generierung ermöglichen. Nutzer können nun Qwen Chat (chat.qwen.ai) nutzen.

Nationales AI-Mathematik-Test beim Hochschulzugangstest: Quark führt bei Bean und Yuanbao

Nach dem Ende des Abiturprüfungszyklus im Jahr 2025 fand gleichzeitig eine Praxistest-Schau bezüglich der Frage statt, ob KI-AI-Mathematikaufgaben lösen kann. In zwei Runden von professionellen Medientests führte Quark mit 145 und 146 Punkten an erster Stelle und übertraf dabei Bean, um die neue Leitmarke der Mathematik-Fähigkeiten des nationalen KI-Modells zu werden. In offenen Tests nahmen die teilnehmenden Modelle Quark, Bean, Yuanbao sowie ChatGPT, alle nutzten dieselben Aufgaben des Mathe-Teils der Nationalprüfung 2025 für ganz China, alle suchten ohne Netzwerkverbindung und aktivierten nur tiefgehendes Denkmodus. In den Evaluierungen der renommierten Medien Blue Whale Finance erreichte Quark 145 Punkte.

Generative KI schleicht sich verstohlen in die Filmemacher zurück und Großbritannien muss vier Krisen bewältigen

Die British Film Institute (BFI) veröffentlichte kürzlich einen wichtigen Bericht, der zeigt, dass generative KI britische Film-, Fernseh- und Videospielbranche stillschweigend umgestaltet. Diese Technologie wird nicht nur hinter den Kulissen vielseitig eingesetzt, um die Produktionsleistung zu steigern, sondern schafft auch neue Erstellungsmethoden und Geschäftsmodelle. Der Bericht zeigt, dass generative KI bereits zur Beschleunigung des Drehbuchschriften, Charaktermodellierung und visueller Effekte verwendet wurde, wodurch Zeit und Kosten erheblich gespart wurden. Einige Werke nutzten sogar KI-Assistenten für die Vorbereitung und Schnittentscheidungen, um Kreativität zu stärken und gleichzeitig kleinere und mittlere Produktionen zugänglich zu machen.

Higgsfield führt die Speak-Funktion ein: Ein Klick generiert videobasierte digitale Menschen mit präziser Lippenbewegung

Die AI-basierte visuelle Erstellungsplattform Higgsfield stellt eine bahnbrechende Funktion – Speak – vor, die digitale Inhaltsersteller unglaublich viel Komfort bietet. Nutzer benötigen für das Generieren eines digitalen menschenähnlichen Videos nur drei Schritte: Voreingestellte Bewegungen wählen, benutzerdefinierte Figuren hochladen und Sprachtexteingaben ausführen. Mit dieser Funktion werden digitale Figuren mit synchronisierten Lippenbewegungen und natürlicher Mimik erstellt. Speak-Funktion ermöglicht genaue Synchronisation der Lippenbewegungen, sicherstellt natürliche Aussprache und verfügt über 16 integrierte Szenariotypen, darunter Interviews, Präsentationen, Werbung und Kurzspielszenen. Dies erweitert enorm die Möglichkeiten bei der Erstellung.

Multimodales RAG-Inferenzframework VRAG-RL für visuelle Wahrnehmungsprozesse

Kürzlich hat das YitLab-NLP-Team offiziell die VRAG-RL vorgestellt und开源. Es handelt sich um ein multimodales RAG-Inferenzframework, das von visueller Wahrnehmung getrieben wird und darauf abzielt, die Herausforderungen zu lösen, wie AI aus Bildern, Tabellen, Designs usw. visueller Sprache Schlüsselinformationen abrufen und feingegliederte Inferenzen durchführen kann. Die Suche nach und das Schließen von Schlüsselinformationen in komplexen visuellen Dokumentenbibliotheken ist eine große Herausforderung in der AI-Branche. Traditionelle suchungsverstärkte Generierungsmethoden (RAG) zeigen bei der Verarbeitung visueller Informationen begrenzte Fähigkeiten, da sie diese oft schwer bewältigen.

Bewertung der visuellen Inferenzfähigkeit von multimodalen großen Modellen: o3 erhält nur 25,8 % der Punkte

Kürzlich veröffentlichten eine Forschungsteam aus der Tsinghua Universität, Tencent Hunyuan, Stanford University und Carnegie Mellon University einen neuen Evaluationsbenchmark namens RBench-V, der speziell zur Bewertung der visuellen Inferenzfähigkeiten multimodalr großer Modelle entwickelt wurde. Die Einführung dieses Benchmarks zielt darauf ab, Lücken im aktuellen Bewertungssystem hinsichtlich der visuellen Ausgabequalität von Modellen zu schließen, um eine umfassendere Einschätzung ihrer Leistungsfähigkeit zu ermöglichen. Der RBench-V-Benchmark enthält 803 Fragen, die mehrere Gebiete einschließen, darunter Geometrie und Graphentheorie, Mechanik und Elektromagnetismus, Mehrziel-Erkennung und Pfadplanung.

Zeichne und generiere Bilder! Tencent MixFormulierung bringt game-ähnliche visuelle Generierungsplattform zum Einsatz

Tencent hat die game-ähnliche visuelle Generierungsplattform MixFormulierung offiziell veröffentlicht. Dies ist ein künstliche Intelligenz-Inhaltsgenerator, der auf dem MixFormulierung-Modell basiert und speziell für industrielle Content-Erstellung im Spielzeug entwickelt wurde. Die Einführung dieser Plattform markiert den Beginn einer neuen, effizienten Schöpfungsära in der Videospiel-Kunstdesign-Branche. Es wird erwartet, dass sie die Produktionsleistung um das Zehnfache steigern kann. In der Vergangenheit mussten Videospiel-Kunstdesigner bei der Erstellung von Charakterbildern häufig zwischen verschiedenen Softwareanwendungen hin- und herspringen – vom Finden referenzierter Bilder über das Entwerfen von Skizzen, Erstellen von Draufsichten bis hin zur Rendern-Dynamik-Präsentation. Der gesamte Prozess war fragmentiert und kompliziert. Dateien mussten wiederholt importiert und exportiert werden.

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief