Willkommen bei der Rubrik „AI-Tagesbericht“! Hier finden Sie Ihren täglichen Leitfaden zur Erkundung der Welt der Künstlichen Intelligenz. Täglich präsentieren wir Ihnen die wichtigsten Themen aus dem KI-Bereich, mit Fokus auf Entwickler, um Ihnen zu helfen, Technologietrends zu erkennen und innovative KI-Produktanwendungen kennenzulernen.

Neue KI-Produkte Hier erfahren Sie mehr: https://top.aibase.com/

🤖📱💼KI-Anwendungen

Sora-Ersatz? Kostenloses Open-Source-Modell StreamingT2V für extra lange KI-Videos (2 Minuten) – Testversion verfügbar

2.png

【AiBase-Zusammenfassung:】

⭐ StreamingT2V kann Videos mit bis zu 1200 Frames und einer Länge von 2 Minuten generieren, was das Sora-Modell übertrifft.

⭐ Durch die Verwendung fortschrittlicher autoregressiver Techniken wird die zeitliche Konsistenz und hohe Qualität des Videos gewährleistet.

⭐ Es handelt sich um ein kostenloses Open-Source-Projekt, das nahtlos mit Modellen wie SVD und animatediff kompatibel ist.

⭐ Der Code wurde veröffentlicht, und die Testversion ist online verfügbar. Die Generierung dauert relativ lange; ein Video benötigt voraussichtlich über 13 Minuten.

Open-Source-Code: https://top.aibase.com/tool/streamingt2v

Paper-Adresse: https://arxiv.org/pdf/2403.14773.pdf

Testversion 1: https://huggingface.co/spaces/PAIR/StreamingT2V

Testversion 2: https://replicate.com/camenduru/streaming-t2v

Udio AI bietet vielseitige Audiogenerierung – auch für Comedy, Reden, Radioprogramme etc.

image.png

【AiBase-Zusammenfassung:】

⭐ Udio kann nicht nur Musik, sondern auch Comedy, Reden, NPC-Dialoge, Sportanalysen, Werbung, Radioprogramme, ASMR und Naturgeräusche erstellen.

⭐ Erstellung durch einfache Textbeschreibungen: Benutzer können Udio mit einfachen Textbeschreibungen anweisen, Musikstücke mit bestimmten Themen und Emotionen zu generieren.

⭐ Unterstützung vieler Musikgenres und -stile: Udio unterstützt verschiedene Musikgenres und -stile, um den unterschiedlichen Musikgeschmack der Benutzer zu bedienen.

Interessierte können die Wiedergabelisten hier ansehen: https://www.udio.com/playlists/deGuVDLYd9MrXtxnxfX7z1

Testversion: https://top.aibase.com/tool/udio

Meitu Wink aktualisiert „KI-Anime“-Funktion: Umwandlung von Kurzfilmen in Anime-Stil

微信截图_20240415085954.png

【AiBase-Zusammenfassung:】

⭐ Meitu Wink hat kürzlich die „KI-Anime“-Funktion aktualisiert, um Kurzfilme in Anime-Stil umzuwandeln.

⭐ Durch die Einführung des CFA-Moduls wird die Aktionskonsistenz optimiert, um flüssigere und natürlichere Anime-Videos zu generieren.

⭐ Die Segmentierungs-Technologie verarbeitet lange Videos, verkürzt die Wartezeit und ermöglicht ein flüssigeres und freieres Erstellen.

StableDesign: SD-Lösung für die Innenarchitektur – Änderung von Innendesign-Grafiken per Textprompt

image.png

【AiBase-Zusammenfassung:】

⭐️ Entwickler haben ein Projekt zur generativen Innenarchitektur erstellt.

⭐️ Durch das Herunterladen von Airbnb-Immobiliendaten und Bildmetadaten und das Extrahieren von Merkmalen wurde das Training ermöglicht.

⭐️ Mit ControlNet und dem Lora-Modell trainiert, ermöglicht es die Steuerung der Innenraumgestaltungsgenerierung und die Text-zu-Bild-Umwandlung.

Online-Testversion: https://huggingface.co/spaces/MykolaL/StableDesign

Mächtiger als Face Swapping! SwapAnything: Austausch beliebiger Elemente in Bildern

image.png

【AiBase-Zusammenfassung:】

🔍 Das SwapAnything-Framework bietet Vorteile wie die präzise Steuerung von Objekten und Teilen, die Beibehaltung von Kontextpixeln und die Anpassung an individuelle Konzepte.

🔍 Durch gerichtete Variablenaustausch- und Appearance-Adjustment-Techniken zeigt SwapAnything präzise und treue Austauschfähigkeiten.

🔍 SwapAnything kann beliebige Objekte in Bildern präzise steuern und einen qualitativ hochwertigen, individuellen Austausch ermöglichen.

Projekt-Eingang: https://top.aibase.com/tool/swapanything

Online-Testversion des KI-Zeitlupen-Videogenerators MagicTime verfügbar

image.png

【AiBase-Zusammenfassung】

⭐ Zeitlupenvideos sind eine fotografische Technik, die langsame Veränderungen zeigt.

⭐ MagicTime kann Zeitlupenvideos basierend auf Textbeschreibungen generieren.

⭐ Breite Anwendungsmöglichkeiten, zur Aufzeichnung von Naturphänomenen und menschlichen Veränderungen.

Projekt-Adresse: https://top.aibase.com/tool/magictime

Testversion: https://huggingface.co/spaces/BestWishYsh/MagicTime

Modell-Download: https://huggingface.co/Kijai/MagicTime-merged-fp16

Automatisiertes Schreibwerkzeug STORM: Generierung von langen, tiefgehenden Inhalten wie Wikipedia-Artikel

image.png

【AiBase-Zusammenfassung:】

⭐️STORM sammelt automatisch Daten, simuliert Expertengespräche und erstellt strukturierte Artikelübersichten.

⭐️STORM erforscht und integriert Informationen aus verschiedenen Blickwinkeln effizient, um ein tiefes Verständnis und die präzise Fragestellung zu fördern.

⭐️STORM erstellt nach der Generierung der Artikelübersicht den vollständigen Text und überarbeitet den Artikel, um die Gesamtqualität zu verbessern.

Projekt-Adresse: https://top.aibase.com/tool/storm

Meta veröffentlicht ViewDiff-Modell: Textgenerierung von mehrperspektivischen 3D-Bildern

【AiBase-Zusammenfassung:】

🌟 ViewDiff löst die drei größten Herausforderungen bei der Textgenerierung von konsistenten, mehrperspektivischen 3D-Bildern.

🌟 Das autoregressive Generierungsmodul ermöglicht es ViewDiff, konsistentere 3D-Bilder aus beliebigen Blickwinkeln zu generieren.

🌟 ViewDiff schließt eine Lücke im Bereich der Textgenerierung von mehrperspektivischen 3D-Bildern.

Paper-Adresse: https://arxiv.org/abs/2403.01807

Projekt-Adresse: https://top.aibase.com/tool/viewdiff

📰🤖📢KI-Neuigkeiten

Erster KI-Programmierer-Betrug aufgedeckt, Devin schockiert erneut das Silicon Valley! Detaillierte Video- und Texterklärung beigefügt

图片

【AiBase-Zusammenfassung:】

⭐️ YouTube-Programmierer enthüllt Fälschung im Video des ersten KI-Programmierers Devin.

⭐️ Devins Demo ist weniger beeindruckend als behauptet, Fehlerbehebung führt zu neuen Fehlern.

⭐️ Nach Fragen und Entlarvung reagieren Nutzer auf die KI-Produkt-Übertreibung mit Spott.

Detaillierte Informationen: https://www.chinaz.com/2024/0415/1610127.shtml

Musk XAI veröffentlicht Grok-1.5Vision Multimodal-Modell, verarbeitet Text- und Bildinformationen

image.png

【AiBase-Zusammenfassung:】

⭐️ Das Grok-1.5Vision-Modell zeigt überragende Leistung und übertrifft GPT4V.

⭐️ Hervorragende Leistung im RealWorldQA-Benchmark, Verständnis des realen physikalischen Raums.

⭐️ Das Grok-1.5Vision-Modell verfügt über eine starke Fähigkeit zur Verarbeitung und zum Verständnis des realen Weltraums.

Website: https://top.aibase.com/tool/grok-1-5-vision-preview

360 Brain 7B-Parameter-Großmodell offiziell Open Source – unterstützt bis zu 500.000 Zeichen Eingabe

【AiBase-Zusammenfassung:】

🧠 Das 360 Brain 7B-Parameter-Großmodell ist nun Open Source.

🧩 Unterstützt verschiedene Textlängenversionen, verarbeitet maximal 360.000 Zeichen lange Texte.

🔥 Zeigt in Fähigkeitstests hervorragende Ergebnisse und gehört zu den Top 3 in der Gesamtwertung.

Projekt-Adresse: https://github.com/Qihoo360/360zhinao

Adobe Bildgenerierungs-KI „Firefly“ Trainingsdatensatz enthält ca. 5% KI-Bilder

【AiBase-Zusammenfassung:】

⭐ Adobe Stock akzeptiert nun KI-Inhalte, ca. 14% sind KI-generierte Bilder.

⭐ Wissenschaftler weisen darauf hin, dass Firefly von Midjourney generierten Bildern lernt, im Widerspruch zu den Angaben von Adobe.

⭐ Benutzer äußern Unmut über die Verwendung ihrer Werke zum Trainieren von Firefly durch Adobe.

Code und Modell komplett Open Source! Jia Jiayas Multimodal-Modell Mini-Gemini in den Charts

image.png

【AiBase-Zusammenfassung:】

⭐️ Das Mini-Gemini-Modell erzielt bemerkenswerte Ergebnisse bei multimodalen Aufgaben und veröffentlicht Code und Modelldaten als Open Source.

⭐️ Mini-Gemini kombiniert Bildverständnis und -generierung und zeigt herausragende Bildschlussfolgerungsfähigkeiten.

⭐️ Durch die Verwendung der Gemini-Methode zur visuellen Zwei-Zweig-Informationsgewinnung werden hochauflösende Bilder effektiv verarbeitet und visuell und textuell reichhaltige Inhalte generiert.

Projekt-Adresse: https://top.aibase.com/tool/mini-gemini

Testversion: https://103.170.5.190:7860/

Mianbi Intelligence veröffentlicht Open-Source-MiniCPM2.0-Modellreihe – deutlich verbesserte OCR-Fähigkeiten

【AiBase-Zusammenfassung:】

⭐ MiniCPM-V2.0 ist das leistungsstärkste Multimodal-Modell für Edge-Geräte mit starken OCR-Fähigkeiten.

⭐ MiniCPM-1.2B ist ein Basismodell für Edge-Szenarien mit schneller und kostengünstiger Inferenz.

⭐ MiniCPM-2B-128K ist das derzeit kleinste Langtextmodell, das 128K Textinhalte verarbeitet.

MiniCPM-V2.0:

https://github.com/OpenBMB/MiniCPM-V

MiniCPM-Reihe Open-Source-Adresse:

https://github.com/OpenBMB/MiniCPM

MiniCPM-Tech-Blog-Adresse:

https://openbmb.vercel.app/?category=Chinese+Blog

Zunehmender Wettbewerb! ChatGPT-Wachstum schwächelt, 1,77 Milliarden globale Zugriffe im März, Claude auf dem Vormarsch

【AiBase-Zusammenfassung:】

📉 Das globale Zugriffsvolumen von ChatGPT verlangsamt sich, trotz der Einführung neuer Funktionen.

🚀 Anthropics Claude entwickelt sich auf dem europäischen Markt dynamisch und verschärft den Wettbewerb mit ChatGPT.

💥 Nach der Veröffentlichung von Claude3 verzeichnet es kontinuierliches und schnelles Wachstum, was das Potenzial neuer Produkte zeigt.

InstantID-Team präsentiert neue Stilübertragungstechnik InstantStyle – mit einem Klick im „Sternennacht“-Stil von van Gogh

image.png

【AiBase-Zusammenfassung:】

⭐️ Merkmalsubtraktion: Nutzung der Eigenschaften des CLIP-Modells, um durch Merkmalsubtraktion Inhaltsinformationen zu entfernen und Stil und Inhalt zu entkoppeln.

⭐️ Nur Style-Layer-Injektion: Merkmalsinjektion in einer bestimmten Style-Layer, um Stil und Inhalt zu entkoppeln.

⭐️ Hohe Universalität: Die Methode von InstantStyle ist universell einsetzbar, bietet eine umfassende Codeimplementierung und unterstützt verschiedene Anwendungsszenarien.

Projekt-Adresse: https://top.aibase.com/tool/instantstyle

Online-Testversion: https://huggingface.co/spaces/InstantX/InstantStyle

——————