生数 (Shēngshù)

Chinas erstes Video-Großmodell mit langer Dauer, hoher Konsistenz und hoher Dynamik. Erzeugt mit einem Klick hochauflösende Videoclips. Die chinesische Version von Sora.

Normales ProduktVideoKI-VideogenerierungHD-Video

Website öffnen

Vidu ist das erste chinesische Video-Großmodell mit langer Dauer, hoher Konsistenz und hoher Dynamik, das gemeinsam von Shēngshù Technologie und der Tsinghua-Universität entwickelt wurde. Das Modell verwendet die neuartige Architektur U-ViT, eine Fusion aus Diffusion und Transformer, und kann mit einem Klick hochauflösende Videoclips mit einer Dauer von bis zu 16 Sekunden und einer Auflösung von bis zu 1080p erzeugen. Vidu kann nicht nur die reale physikalische Welt simulieren, sondern verfügt auch über eine reiche Fantasie und zeichnet sich durch Merkmale wie die Erzeugung mehrerer Kameraperspektiven und zeitliche Konsistenz aus. Der schnelle Durchbruch basiert auf der langjährigen Erfahrung des Teams im Bereich Bayessches Maschinelles Lernen und multimodaler Großmodelle sowie auf mehreren originären Ergebnissen. Die Einführung von Vidu unterstreicht die kontinuierliche Innovationsfähigkeit und die führende Position von Shēngshù Technologie im Bereich multimodaler nativer Großmodelle. Zukunftsorientiert ermöglicht die flexible Architektur die Kompatibilität mit einer breiteren Palette von Modalitäten und erweitert so die Grenzen der multimodalen Universalität.

KI-Nachrichten

KI-Tagesübersicht

KI-Zeitleiste

Al hardware

Neueste Fälle

Bildersammlung

Videosammlung

Audiosammlung

Inhaltssammlung

Neueste Tutorials

KI-Produkt-Ranking

KI-Traffic-Wachstumsranking

KI-Traffic-Rückgangsranking

KI-Wochenranking

Vereinigte Staaten

China

Indien

Brasilien

Bildgenerierung

Persönlicher Assistent

Charaktergenerierung

Videogenerierung

KI-Projektranking

KI-Projektwachstumsranking

KI-Entwickler-Ranking

KI-Organisationsranking

Deepseek

TTS

LLM

ChatGPT

Überblick

生数 (Shēngshù)

生数 (Shēngshù) Neueste Verkehrssituation

生数 (Shēngshù) Besuchstrend

生数 (Shēngshù) Geografische Verteilung der Besuche

生数 (Shēngshù) Traffic-Quellen

生数 (Shēngshù) Alternativen

生数 (Shēngshù) — Chinas erstes Video-Großmodell mit langer Dauer, hoher Konsistenz und hoher Dynamik. Erzeugt mit einem Klick hochauflösende Videoclips. Die chinesische Version von Sora.

HiDream.ai — Mit generativer KI die menschliche Kreativität und Produktivität steigern

Meine Kamera AI — Meine Kamera AI wandelt Ihre Kreativität in fesselnde Videoinhalte um.

Liquid — Ein multimodales Generierungsmodell, das visuelle Verständnis und Generierung integriert.

InternVL3 — InternVL3 Open Source: 7 Größen decken Text-, Bild- und Videoverarbeitung ab, Multimodalität erweitert auf industrielle Bildanalyse

Kimi-VL — Effizientes, quelloffenes Experten-Mix-visuell-sprachliches Modell mit multimodalen Schlussfolgerungsfähigkeiten.

DreamActor-M1 — Ein auf DiT basierender Framework für die menschliche Bildanimation, der präzise Steuerung und langfristige Konsistenz ermöglicht.

Gemini 2.5 — O Gemini 2.5 é o modelo de IA mais inteligente do Google, com capacidade de raciocínio.

Mistral Small 3.1 — Open-Source-Modell zur Verbesserung der Text- und Bildverarbeitungsfähigkeiten.

MistralOCR.net — Mistral OCR ist ein leistungsstarkes OCR-Produkt zum Verständnis von Dokumenten, das mit sehr hoher Genauigkeit Text, Bilder, Tabellen und Gleichungen aus PDFs und Bildern extrahieren kann.

Wan 2.1 KI — Wan 2.1 KI ist ein fortschrittliches KI-Videogenerierungsmodell, das Text und Bilder in hochwertige Videos umwandelt.

Gemini Robotics — Robotermodell basierend auf Gemini 2.0, das KI in die physische Welt bringt und über visuelle, sprachliche und motorische Fähigkeiten verfügt.

Goku AI — Goku AI ist ein kostenloses KI-Videogenerierungswerkzeug, das von ByteDance-Technologie betrieben wird und Text oder Bilder schnell in hochwertige Videos umwandeln kann.

Mirage — Mirage ist das weltweit erste auf User-Generated Content (UGC) basierende Basismodell, das originelle virtuelle Schauspieler mit natürlichen Gesichtsausdrücken und Körpersprache generieren kann.

R1-Omni — R1-Omni ist ein multimodalen Emotionserkennungsmodell, das Reinforcement Learning integriert und sich auf die Verbesserung der Interpretierbarkeit der multimodalen Emotionserkennung konzentriert.

GO-1 — Zhiyuan veröffentlicht das erste universelle, verkörperte Basis-Großmodell GO-1 und präsentiert bahnbrechend die ViLLA-Architektur, um die Entwicklung der verkörperten KI voranzutreiben.

OpenAI Agents SDK — Das OpenAI Agents SDK ist ein Entwicklungskit zum Erstellen autonomer Agents und vereinfacht die Orchestrierung von Multi-Agenten-Workflows.

SmolVLM2 — SmolVLM2 ist ein leichtgewichtiges Sprachmodell, das sich auf die Analyse und Generierung von Videoinhalten konzentriert.

Aya Vision — Aya Vision ist ein mehrsprachiges, multimodales visuelles Modell von Cohere, das darauf abzielt, das Verständnis von visuellem und Textmaterial in mehrsprachigen Szenarien zu verbessern.

PSYCHE KI — PSYCHE KI ist ein Tool, mit dem schnell realistische KI-Videos erstellt werden können. Es bietet eine Auswahl an hochwertigen KI-Rollen und -Stimmen.

EgoLife — EgoLife ist ein langfristiges, multimodales und mehrperspektivisches Projekt für einen KI-Assistenten im Alltag, das darauf abzielt, die Forschung zum Verständnis von Langzeitkontexten voranzutreiben.

UniTok — UniTok ist ein einheitlicher visueller Tokenizer für die visuelle Generierung und das visuelle Verständnis.

ViDoRAG — ViDoRAG ist ein dynamisches iteratives Inferenz-Agenten-Framework, das die visuelle Dokumentensuche mit der Generierung kombiniert.

Mochii AI — Mochii AI ist ein personalisiertes KI-Ökosystem, das von hochmodernen Modellen unterstützt wird und die Zukunft der Zusammenarbeit zwischen Mensch und KI vorantreibt.

M2RAG — Code-Repository für Benchmark-Tests zur retrieval-augmented generation in multimodalen Kontexten.

TheoremExplainAgent — TheoremExplainAgent ist ein intelligentes System zur Generierung multimodaler Erklärvideos für Theoreme.

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct ist ein leichtgewichtiges, multimodales Basismodell von Microsoft, das Text-, Bild- und Audioeingaben unterstützt.

Magma-8B — Magma-8B ist ein von Microsoft entwickeltes multimodales KI-Modell, das Bild- und Texteingaben verarbeiten und Textausgaben generieren kann.

DeepSeek Japanisch — DeepSeek ist ein fortschrittliches KI-Sprachmodell, das sich auf logisches Denken, Mathematik und Programmieraufgaben spezialisiert hat und kostenlos nutzbar ist.

ZeroBench — ZeroBench ist ein hoch anspruchsvoller visueller Benchmark für moderne, große multimodale Modelle.