Willkommen bei der Rubrik „AI-Tagesbericht“! Hier finden Sie Ihren täglichen Leitfaden zur Erkundung der Welt der Künstlichen Intelligenz. Täglich präsentieren wir Ihnen die wichtigsten Themen aus dem KI-Bereich, mit Fokus auf Entwickler, um Ihnen zu helfen, Technologietrends zu erkennen und innovative KI-Produktanwendungen kennenzulernen.
Neue KI-Produkte Hier erfahren Sie mehr: https://top.aibase.com/
🤖📱💼KI-Anwendungen
Sora-Ersatz? Kostenloses Open-Source-Modell StreamingT2V für extra lange KI-Videos (2 Minuten) – Testversion verfügbar
【AiBase-Zusammenfassung:】
⭐ StreamingT2V kann Videos mit bis zu 1200 Frames und einer Länge von 2 Minuten generieren, was das Sora-Modell übertrifft.
⭐ Durch die Verwendung fortschrittlicher autoregressiver Techniken wird die zeitliche Konsistenz und hohe Qualität des Videos gewährleistet.
⭐ Es handelt sich um ein kostenloses Open-Source-Projekt, das nahtlos mit Modellen wie SVD und animatediff kompatibel ist.
⭐ Der Code wurde veröffentlicht, und die Testversion ist online verfügbar. Die Generierung dauert relativ lange; ein Video benötigt voraussichtlich über 13 Minuten.
Open-Source-Code: https://top.aibase.com/tool/streamingt2v
Paper-Adresse: https://arxiv.org/pdf/2403.14773.pdf
Testversion 1: https://huggingface.co/spaces/PAIR/StreamingT2V
Testversion 2: https://replicate.com/camenduru/streaming-t2v
Udio AI bietet vielseitige Audiogenerierung – auch für Comedy, Reden, Radioprogramme etc.
【AiBase-Zusammenfassung:】
⭐ Udio kann nicht nur Musik, sondern auch Comedy, Reden, NPC-Dialoge, Sportanalysen, Werbung, Radioprogramme, ASMR und Naturgeräusche erstellen.
⭐ Erstellung durch einfache Textbeschreibungen: Benutzer können Udio mit einfachen Textbeschreibungen anweisen, Musikstücke mit bestimmten Themen und Emotionen zu generieren.
⭐ Unterstützung vieler Musikgenres und -stile: Udio unterstützt verschiedene Musikgenres und -stile, um den unterschiedlichen Musikgeschmack der Benutzer zu bedienen.
Interessierte können die Wiedergabelisten hier ansehen: https://www.udio.com/playlists/deGuVDLYd9MrXtxnxfX7z1
Testversion: https://top.aibase.com/tool/udio
Meitu Wink aktualisiert „KI-Anime“-Funktion: Umwandlung von Kurzfilmen in Anime-Stil
【AiBase-Zusammenfassung:】
⭐ Meitu Wink hat kürzlich die „KI-Anime“-Funktion aktualisiert, um Kurzfilme in Anime-Stil umzuwandeln.
⭐ Durch die Einführung des CFA-Moduls wird die Aktionskonsistenz optimiert, um flüssigere und natürlichere Anime-Videos zu generieren.
⭐ Die Segmentierungs-Technologie verarbeitet lange Videos, verkürzt die Wartezeit und ermöglicht ein flüssigeres und freieres Erstellen.
StableDesign: SD-Lösung für die Innenarchitektur – Änderung von Innendesign-Grafiken per Textprompt
【AiBase-Zusammenfassung:】
⭐️ Entwickler haben ein Projekt zur generativen Innenarchitektur erstellt.
⭐️ Durch das Herunterladen von Airbnb-Immobiliendaten und Bildmetadaten und das Extrahieren von Merkmalen wurde das Training ermöglicht.
⭐️ Mit ControlNet und dem Lora-Modell trainiert, ermöglicht es die Steuerung der Innenraumgestaltungsgenerierung und die Text-zu-Bild-Umwandlung.
Online-Testversion: https://huggingface.co/spaces/MykolaL/StableDesign
Mächtiger als Face Swapping! SwapAnything: Austausch beliebiger Elemente in Bildern
【AiBase-Zusammenfassung:】
🔍 Das SwapAnything-Framework bietet Vorteile wie die präzise Steuerung von Objekten und Teilen, die Beibehaltung von Kontextpixeln und die Anpassung an individuelle Konzepte.
🔍 Durch gerichtete Variablenaustausch- und Appearance-Adjustment-Techniken zeigt SwapAnything präzise und treue Austauschfähigkeiten.
🔍 SwapAnything kann beliebige Objekte in Bildern präzise steuern und einen qualitativ hochwertigen, individuellen Austausch ermöglichen.
Projekt-Eingang: https://top.aibase.com/tool/swapanything
Online-Testversion des KI-Zeitlupen-Videogenerators MagicTime verfügbar
【AiBase-Zusammenfassung】
⭐ Zeitlupenvideos sind eine fotografische Technik, die langsame Veränderungen zeigt.
⭐ MagicTime kann Zeitlupenvideos basierend auf Textbeschreibungen generieren.
⭐ Breite Anwendungsmöglichkeiten, zur Aufzeichnung von Naturphänomenen und menschlichen Veränderungen.
Projekt-Adresse: https://top.aibase.com/tool/magictime
Testversion: https://huggingface.co/spaces/BestWishYsh/MagicTime
Modell-Download: https://huggingface.co/Kijai/MagicTime-merged-fp16
Automatisiertes Schreibwerkzeug STORM: Generierung von langen, tiefgehenden Inhalten wie Wikipedia-Artikel
【AiBase-Zusammenfassung:】
⭐️STORM sammelt automatisch Daten, simuliert Expertengespräche und erstellt strukturierte Artikelübersichten.
⭐️STORM erforscht und integriert Informationen aus verschiedenen Blickwinkeln effizient, um ein tiefes Verständnis und die präzise Fragestellung zu fördern.
⭐️STORM erstellt nach der Generierung der Artikelübersicht den vollständigen Text und überarbeitet den Artikel, um die Gesamtqualität zu verbessern.
Projekt-Adresse: https://top.aibase.com/tool/storm
Meta veröffentlicht ViewDiff-Modell: Textgenerierung von mehrperspektivischen 3D-Bildern
【AiBase-Zusammenfassung:】
🌟 ViewDiff löst die drei größten Herausforderungen bei der Textgenerierung von konsistenten, mehrperspektivischen 3D-Bildern.
🌟 Das autoregressive Generierungsmodul ermöglicht es ViewDiff, konsistentere 3D-Bilder aus beliebigen Blickwinkeln zu generieren.
🌟 ViewDiff schließt eine Lücke im Bereich der Textgenerierung von mehrperspektivischen 3D-Bildern.
Paper-Adresse: https://arxiv.org/abs/2403.01807
Projekt-Adresse: https://top.aibase.com/tool/viewdiff
📰🤖📢KI-Neuigkeiten
Erster KI-Programmierer-Betrug aufgedeckt, Devin schockiert erneut das Silicon Valley! Detaillierte Video- und Texterklärung beigefügt
【AiBase-Zusammenfassung:】
⭐️ YouTube-Programmierer enthüllt Fälschung im Video des ersten KI-Programmierers Devin.
⭐️ Devins Demo ist weniger beeindruckend als behauptet, Fehlerbehebung führt zu neuen Fehlern.
⭐️ Nach Fragen und Entlarvung reagieren Nutzer auf die KI-Produkt-Übertreibung mit Spott.
Detaillierte Informationen: https://www.chinaz.com/2024/0415/1610127.shtml
Musk XAI veröffentlicht Grok-1.5Vision Multimodal-Modell, verarbeitet Text- und Bildinformationen
【AiBase-Zusammenfassung:】
⭐️ Das Grok-1.5Vision-Modell zeigt überragende Leistung und übertrifft GPT4V.
⭐️ Hervorragende Leistung im RealWorldQA-Benchmark, Verständnis des realen physikalischen Raums.
⭐️ Das Grok-1.5Vision-Modell verfügt über eine starke Fähigkeit zur Verarbeitung und zum Verständnis des realen Weltraums.
Website: https://top.aibase.com/tool/grok-1-5-vision-preview
360 Brain 7B-Parameter-Großmodell offiziell Open Source – unterstützt bis zu 500.000 Zeichen Eingabe
【AiBase-Zusammenfassung:】
🧠 Das 360 Brain 7B-Parameter-Großmodell ist nun Open Source.
🧩 Unterstützt verschiedene Textlängenversionen, verarbeitet maximal 360.000 Zeichen lange Texte.
🔥 Zeigt in Fähigkeitstests hervorragende Ergebnisse und gehört zu den Top 3 in der Gesamtwertung.
Projekt-Adresse: https://github.com/Qihoo360/360zhinao
Adobe Bildgenerierungs-KI „Firefly“ Trainingsdatensatz enthält ca. 5% KI-Bilder
【AiBase-Zusammenfassung:】
⭐ Adobe Stock akzeptiert nun KI-Inhalte, ca. 14% sind KI-generierte Bilder.
⭐ Wissenschaftler weisen darauf hin, dass Firefly von Midjourney generierten Bildern lernt, im Widerspruch zu den Angaben von Adobe.
⭐ Benutzer äußern Unmut über die Verwendung ihrer Werke zum Trainieren von Firefly durch Adobe.
Code und Modell komplett Open Source! Jia Jiayas Multimodal-Modell Mini-Gemini in den Charts
【AiBase-Zusammenfassung:】
⭐️ Das Mini-Gemini-Modell erzielt bemerkenswerte Ergebnisse bei multimodalen Aufgaben und veröffentlicht Code und Modelldaten als Open Source.
⭐️ Mini-Gemini kombiniert Bildverständnis und -generierung und zeigt herausragende Bildschlussfolgerungsfähigkeiten.
⭐️ Durch die Verwendung der Gemini-Methode zur visuellen Zwei-Zweig-Informationsgewinnung werden hochauflösende Bilder effektiv verarbeitet und visuell und textuell reichhaltige Inhalte generiert.
Projekt-Adresse: https://top.aibase.com/tool/mini-gemini
Testversion: https://103.170.5.190:7860/
Mianbi Intelligence veröffentlicht Open-Source-MiniCPM2.0-Modellreihe – deutlich verbesserte OCR-Fähigkeiten
【AiBase-Zusammenfassung:】
⭐ MiniCPM-V2.0 ist das leistungsstärkste Multimodal-Modell für Edge-Geräte mit starken OCR-Fähigkeiten.
⭐ MiniCPM-1.2B ist ein Basismodell für Edge-Szenarien mit schneller und kostengünstiger Inferenz.
⭐ MiniCPM-2B-128K ist das derzeit kleinste Langtextmodell, das 128K Textinhalte verarbeitet.
MiniCPM-V2.0:
https://github.com/OpenBMB/MiniCPM-V
MiniCPM-Reihe Open-Source-Adresse:
https://github.com/OpenBMB/MiniCPM
MiniCPM-Tech-Blog-Adresse:
https://openbmb.vercel.app/?category=Chinese+Blog
Zunehmender Wettbewerb! ChatGPT-Wachstum schwächelt, 1,77 Milliarden globale Zugriffe im März, Claude auf dem Vormarsch
【AiBase-Zusammenfassung:】
📉 Das globale Zugriffsvolumen von ChatGPT verlangsamt sich, trotz der Einführung neuer Funktionen.
🚀 Anthropics Claude entwickelt sich auf dem europäischen Markt dynamisch und verschärft den Wettbewerb mit ChatGPT.
💥 Nach der Veröffentlichung von Claude3 verzeichnet es kontinuierliches und schnelles Wachstum, was das Potenzial neuer Produkte zeigt.
InstantID-Team präsentiert neue Stilübertragungstechnik InstantStyle – mit einem Klick im „Sternennacht“-Stil von van Gogh
【AiBase-Zusammenfassung:】
⭐️ Merkmalsubtraktion: Nutzung der Eigenschaften des CLIP-Modells, um durch Merkmalsubtraktion Inhaltsinformationen zu entfernen und Stil und Inhalt zu entkoppeln.
⭐️ Nur Style-Layer-Injektion: Merkmalsinjektion in einer bestimmten Style-Layer, um Stil und Inhalt zu entkoppeln.
⭐️ Hohe Universalität: Die Methode von InstantStyle ist universell einsetzbar, bietet eine umfassende Codeimplementierung und unterstützt verschiedene Anwendungsszenarien.
Projekt-Adresse: https://top.aibase.com/tool/instantstyle
Online-Testversion: https://huggingface.co/spaces/InstantX/InstantStyle
——————