KI-Tagesbericht: Neues Yi-Videomodel 2.0 veröffentlicht; LivePortrait unterstützt die Steuerung von Animationen mit Bildern; OpenAI führt die Feinabstimmungsfunktion für das GPT-4o-Modell ein; Kostenlos und ohne Wasserzeichen! AI-Video Hotshot kann bis zu 10 Sekunden generieren

Willkommen beim AI-Daily-Bereich! Hier finden Sie täglich neue Informationen zur Welt der Künstlichen Intelligenz. Wir präsentieren Ihnen täglich aktuelle Themen aus dem KI-Bereich, mit Fokus auf Entwickler, um Ihnen zu helfen, Technologietrends zu erkennen und innovative KI-Produktanwendungen kennenzulernen.

Neue KI-Produkte hier entdecken: https://top.aibase.com/

1. Neues Yi Video-Sprachmodell 2.0 veröffentlicht: Unterstützt 1080P60-fps-Ausgabe, maximal 4K

Das von Xin Yi Technology kürzlich veröffentlichte Yi Video-Sprachmodell 2.0 erzielt einen bedeutenden Durchbruch im Bereich der KI-Videoproduktion. Es ermöglicht eine vollständig automatisierte Erstellung und senkt die Einstiegshürden und Kosten für die Videoproduktion. Die Technologie integriert fortschrittliche KI-Algorithmen und Deep-Learning-Techniken und bietet eine benutzerfreundliche One-Click-Funktion. Zusätzlich verfügt es über ein selbst entwickeltes Drehbuchmodell, eine emotionsgeladene Sprachsynthese und die Fähigkeit zur automatischen Generierung von Hintergrundmusik.

【AiBase Zusammenfassung:】
⚙️ Das Yi Video-Sprachmodell 2.0 ermöglicht eine vollständig automatisierte Erstellung und senkt die Einstiegshürden und Kosten für die Videoproduktion.
💡 Die Technologie integriert fortschrittliche KI-Algorithmen und Deep-Learning-Techniken und bietet eine benutzerfreundliche One-Click-Funktion.
🎬 Das Yi Video-Sprachmodell 2.0 verfügt über ein selbst entwickeltes Drehbuchmodell, eine emotionsgeladene Sprachsynthese und die Fähigkeit zur automatischen Generierung von Hintergrundmusik.
Detaillierte Informationen: https://aigc.yizhentv.com/product/aiVideo

2. OpenAI führt Feinabstimmungsfunktion für GPT-4o-Modell ein, täglich 1 Million Tokens kostenlos!

OpenAI hat das neue multimodale Großsprachmodell GPT-4o vorgestellt und erlaubt es Drittanbietern, dieses an ihre jeweiligen Anwendungsbedürfnisse anzupassen. Entwickler können über ein einfaches Bedienfeld die Modellversion auswählen und erhalten täglich 1 Million Tokens zur Feinabstimmung kostenlos. Gleichzeitig legt OpenAI großen Wert auf Datensicherheit und Datenschutz, um sicherzustellen, dass das feinabgestimmte Modell keine Unternehmensdaten missbraucht.

【AiBase Zusammenfassung:】
🌟 Feinabstimmungsfunktion online: Entwickler können das Verhalten des GPT-4o-Modells an ihre Bedürfnisse anpassen.
💰 Kostenlose Tokens im Überfluss: Täglich werden 1 Million Tokens für die Modellfeinabstimmung vergeben, um viele Entwickler zur Teilnahme zu bewegen.
🔒 Datensicherheit gewährleistet: OpenAI legt Wert auf Datenschutz und Sicherheit, um sicherzustellen, dass das feinabgestimmte Modell die Eingangs- und Ausgabedaten nicht für ein erneutes Training verwendet.
Detaillierte Informationen: https://platform.openai.com/finetune

3. Ein weiteres KI-Videotool betritt die Bühne! Hotshot kann bis zu 10 Sekunden lange Videos ohne Wasserzeichen erstellen.

Hotshot ist ein brandneuer KI-Generator für Text-zu-Video-Konvertierung, der bis zu 10 Sekunden lange Videos mit 720p Auflösung erstellen kann und damit ein enormes Potenzial zeigt. Benutzer können eine kostenlose Vorschauversion des Modells testen, wobei die Erstellung auf zwei wasserzeichenfreie Videos pro Tag begrenzt ist. Das Gründungsteam hat das Modell in nur vier Monaten trainiert und dabei 600 Millionen Videoclips und Tausende von GPUs verwendet. Es wird erwartet, dass in Zukunft vollständig von KI generierte YouTube-Videos weit verbreitet sein werden, und die Ersteller werden mehr Kontrolle haben.

【AiBase Zusammenfassung:】
🌟 Der neue Text-zu-Video-KI-Generator von Hotshot ist in einer öffentlichen „Early Preview“-Phase verfügbar, die Benutzer kostenlos testen können.
🚀 Das Modell wurde in nur vier Monaten mit 600 Millionen Videoclips und Tausenden von GPUs trainiert und zeigt ein enormes Potenzial.
🎥 Gründer Sastry prognostiziert, dass innerhalb des nächsten Jahres vollständig von KI generierte YouTube-Videos weit verbreitet sein werden und die Ersteller mehr Kontrolle haben werden.
Detaillierte Informationen: https://top.aibase.com/tool/hotshot

4. LivePortrait-Update: Unterstützt bildgesteuerte Porträtanimation und präzise Bereichssteuerung

Das Gradio-Tool von LivePortrait hat einige aufregende Updates erhalten. Benutzer können jetzt ihre eigenen Bilder verwenden, um Porträtanimationen anzutreiben, und sie können die Animationsbereiche präzise auswählen. Die neuen Funktionen verbessern die Benutzerfreundlichkeit und die kreative Freiheit bei der Erstellung von Animationen und schützen gleichzeitig die Privatsphäre. Der Kernvorteil von LivePortrait liegt in seiner erstaunlichen Mimik-Übertragungstechnologie, die lebensechte dynamische Effekte erzeugt.

【AiBase Zusammenfassung:】
🚀 Benutzer können ihre eigenen Bilder verwenden, um Porträtanimationen anzutreiben, und die Animationsbereiche präzise auswählen.
🎭 Die neue Funktion für relative Bewegungen schützt die Privatsphäre, kann aber die Intensität der Mimik beeinträchtigen.
💡 LivePortrait kann Mimik präzise auf eine andere Person übertragen und bietet eine beispiellose kreative Freiheit.
Detaillierte Informationen: https://top.aibase.com/tool/liveportrait

5. AI-Tool zur sofortigen Bildbearbeitung TurboEdit: Mit einem Satz die Haarfarbe ändern, jünger aussehen, Outfits wechseln!

TurboEdit ist ein textbasiertes Tool zur sofortigen Bildbearbeitung, mit dem Benutzer Bilder schnell über einfache Textbeschreibungen bearbeiten können. Die Bearbeitungsgeschwindigkeit ist extrem hoch, und es unterstützt sofortiges Feedback und interaktive Bearbeitung, sodass Benutzer die Bearbeitungsergebnisse in Echtzeit sehen können. Sowohl professionelle Designer als auch normale Benutzer können mit TurboEdit ihre kreativen Ideen einfach umsetzen.

【AiBase Zusammenfassung:】
✨ Mit nur einer kurzen Beschreibung können Bilder schnell bearbeitet werden, um beispielsweise die Haarfarbe zu ändern, jünger auszusehen oder Outfits zu wechseln.
💡 TurboEdit kann bei Beibehaltung des Gesamtbildes nur bestimmte Bereiche ändern, sodass Benutzer beliebige Bereiche des Bildes anpassen können.
🚀 TurboEdit unterstützt die gleichzeitige Änderung mehrerer Attribute eines Bildes, einschließlich Farbe, Kleidung und Styling, um die Kreativität grenzenlos zu erweitern.
Detaillierte Informationen: https://betterze.github.io/TurboEdit/

6. AI-Tanzkönig Viggle: Mit einem Klick tanzen Musk und Trump zusammen, monatliche Zugriffe übersteigen 6,8 Millionen

Musk beweist erneut seinen Status als Internet-Influencer. Ein über Viggle AI veröffentlichtes Video hat das Internet im Sturm erobert und die Wiedergabezahlen schnell auf über 130 Millionen gesteigert. Das vorlagenbasierte KI-Videogenerierungs-Tool von Viggle AI ist einfach und leistungsstark und ermöglicht es auch normalen Benutzern, Videos in professioneller Qualität zu erstellen. Mit über 6,8 Millionen monatlichen Zugriffen markiert es einen Meilenstein für die Anwendung von KI-Technologie im Alltag.

【AiBase Zusammenfassung:】
🌟 Viggle AI ermöglicht es Benutzern, durch einfaches Hochladen von Fotos und Auswählen von Bewegungsvorlagen mühelos flüssige und natürliche Tanzvideos zu erstellen.
🚀 Die Multi-Charakter-Steuerung ermöglicht es Benutzern, zwei Charaktere gleichzeitig zu steuern und die Kreativität der Nutzer anzuregen. Die Verbreitung von Videos durch Sekundärkreationen ist schnell.
💡 Die vorlagenbasierte Bedienung von Viggle AI senkt die Einstiegshürden und ermöglicht es auch normalen Benutzern, Videos in professioneller Qualität zu erstellen – ähnlich dem Erfolgsweg von CapCut und CapCut.
Produktzugang: https://top.aibase.com/tool/viggle

7. Entwickelt für komplexes visuelles Schließen! Microsoft veröffentlicht Phi-3.5-vision

Microsoft hat kürzlich Phi-3.5-vision veröffentlicht, ein leichtgewichtiges, multimodales Open-Source-KI-Modell, das speziell für die Verarbeitung von Text- und visuellen Eingaben entwickelt wurde. Phi-3.5-vision zeichnet sich in ressourcenbeschränkten Umgebungen aus, unterstützt eine Kontextlänge von 128K und eignet sich für kommerzielle und Forschungszwecke. Das Modell verfügt über umfassende Funktionen wie Bildverständnis, OCR, Diagramm- und Tabellenanalyse und zeigt in Benchmarks eine deutliche Leistungssteigerung.

【AiBase Zusammenfassung:】
🔍 Phi-3.5-vision ist ein leichtgewichtiges, multimodales KI-Modell zur Verarbeitung von Text- und visuellen Eingaben.
💡 Das Modell unterstützt eine Kontextlänge von 128K und zeichnet sich in Umgebungen mit begrenztem Arbeitsspeicher oder Rechenressourcen aus.
🚀 Phi-3.5-vision bietet Funktionen wie Bildverständnis, OCR, Diagramm- und Tabellenanalyse und zeigt eine deutliche Leistungssteigerung.
Detaillierte Informationen: https://huggingface.co/microsoft/Phi-3.5-vision-instruct

8. ByteDance automatische Spracherkennungsmodell Seed-ASR, alle Akzente und Dialekte werden verstanden!

Seed-ASR ist eine von ByteDance entwickelte Spracherkennungs-Engine, die durch umfangreiches Datentraining über hervorragende Erkennungsfähigkeiten und Kontextverständnis verfügt. Es kann verschiedene Sprachen, Dialekte und Akzente präzise erkennen und eröffnet neue Möglichkeiten für die sprachübergreifende Kommunikation. Es zeigt in verschiedenen Szenarien eine hervorragende Leistung und verbessert die Benutzererfahrung, insbesondere in den Bereichen intelligente Assistenten und Sprachsuche.

【AiBase Zusammenfassung:】
🔍 Seed-ASR wurde mit über 20 Millionen Stunden Sprachaufnahmen und 900.000 Stunden gepaarter Daten trainiert und kann 13 chinesische Dialekte und 7 Fremdsprachen, einschließlich Englisch mit verschiedenen Akzenten, präzise erkennen.
🔑 Seed-ASR verfügt über ein hervorragendes Kontextverständnis und kombiniert historische Gesprächsaufzeichnungen und Meetingprotokolle, um die Erkennungsgenauigkeit zu verbessern, insbesondere in bestimmten Szenarien.
🎯 Seed-ASR kann Fachbegriffe aus verschiedenen Bereichen erkennen, darunter Medizin, Technologie, Automobil und Musik, und verbessert so die Effizienz und Genauigkeit von intelligenten Assistenten und Sprachsuchen erheblich.
Detaillierte Informationen: https://bytedancespeech.github.io/seedasr_tech_report/

9. Komprimierte Version von Llama3! Nvidia stellt das kleine Sprachmodell Llama-3.1-Minitron4B mit nur 400 Millionen Parametern vor

In Zeiten, in denen Technologieunternehmen danach streben, Künstliche Intelligenz zu verwirklichen, stellt Nvidia Llama-3.1-Minitron4B vor, ein Modell, das durch Beschneiden und Destillationstechniken eine hohe Leistung und Effizienz bei Training und Bereitstellung bietet.

【AiBase Zusammenfassung:】
🌟 Llama-3.1-Minitron4B ist ein von Nvidia entwickeltes kleines Sprachmodell mit hoher Effizienz bei Training und Bereitstellung.
📈 Die Anzahl der verwendeten Token wurde um das 40-fache reduziert, die Leistung wurde deutlich verbessert.
🔓 Die Version mit Breitenbeschneidung wurde auf Hugging Face veröffentlicht und erleichtert die kommerzielle Nutzung und Entwicklung.
Detaillierte Informationen: https://developer.nvidia.com/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3-1-minitron-4b-model/

10. OpenAI und Condé Nast schließen mehrjährige Content-Partnerschaft

Kürzlich haben OpenAI und Condé Nast eine mehrjährige Partnerschaft geschlossen, um gemeinsam die Präsentation von Inhalten der Condé Nast-Marken in KI-Produkten zu erforschen. Diese Zusammenarbeit kennzeichnet eine enge Partnerschaft zwischen den Bereichen digitale Inhalte und Künstliche Intelligenz und bietet den Nutzern ein verbessertes Sucherlebnis und qualitativ hochwertige Berichte.

【AiBase Zusammenfassung:】
🌟 OpenAI und Condé Nast schließen eine mehrjährige Partnerschaft, deren Inhalte in KI-Produkte integriert werden.
📰 OpenAI erhält Zugriff auf umfangreiche Textarchive von Verlagen zum Training großer Sprachmodelle.
⚖️ Einige Medienunternehmen verklagen OpenAI, um ihre Rechte zu schützen.

11. Härtetest gegen KI-Fake-Bewertungen! Die US-Regierung greift hart durch und verbietet gefälschte KI-generierte Bewertungen

Kürzlich hat die US-amerikanische Federal Trade Commission (FTC) eine wichtige Maßnahme ergriffen und die Erstellung gefälschter KI-generierter Bewertungen und Empfehlungen vollständig verboten. Diese neue Regelung zielt darauf ab, unehrliches Verhalten in Online-Bewertungen zu bekämpfen, die Verbraucherrechte zu schützen und einen fairen Wettbewerb zu gewährleisten. FTC-Vorsitzende Lina Khan erklärte, dass gefälschte Bewertungen Zeit und Geld verschwenden, den Markt verunreinigen und von ehrlichen Wettbewerbern ablenken. Präsident Biden unterstützt diese Maßnahme und betont, dass Verbraucher Kundenbewertungen vertrauen können sollten.

【AiBase Zusammenfassung:】

KI-Nachrichten

KI-Tagesübersicht

KI-Zeitleiste

Al hardware

Neueste Fälle

Bildersammlung

Videosammlung

Audiosammlung

Inhaltssammlung

Neueste Tutorials

KI-Produkt-Ranking

KI-Traffic-Wachstumsranking

KI-Traffic-Rückgangsranking

KI-Wochenranking

Vereinigte Staaten

China

Indien

Brasilien

Bildgenerierung

Persönlicher Assistent

Charaktergenerierung

Videogenerierung

KI-Projektranking

KI-Projektwachstumsranking

KI-Entwickler-Ranking

KI-Organisationsranking

Deepseek

TTS

LLM

ChatGPT

Überblick

KI-Tagesbericht: Neues Yi-Videomodel 2.0 veröffentlicht; LivePortrait unterstützt die Steuerung von Animationen mit Bildern; OpenAI führt die Feinabstimmungsfunktion für das GPT-4o-Modell ein; Kostenlos und ohne Wasserzeichen! AI-Video Hotshot kann bis zu 10 Sekunden generieren

站长之家

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

Bilibili Open Source Anime-Video-Generationsmodell AniSora V3 Version Ein-Klick-Erstellung von animierten Videos in verschiedenen Stilen

Perplexity bietet einen monatlichen Max-Abonnementservice mit 200 Dollar, um fortgeschrittene KI-Modelle und exklusive Funktionen zu entsperren

Der Xiaomi-App-Store stellt eine spezielle Zone für KI-Intelligenz ein und kooperiert erstmals mit der Plattform Wenshi Intelligence von Baidu

Geheimnisse der KI-Verträglichkeit für verstärkendes Lernen: Tsinghua University enthüllt Unterschiede zwischen Llama und Qwen und präsentiert OctoThinker

Google präsentiert Gemini for Education mit großem Aufwand! Kostenlose KI-Tools erobern weltweit das Bildungswesen

​Amazon veröffentlicht ein neues KI-Modell Deep Fleet – Anzahl der Roboter überschreitet die Millionengrenze

Huawei Magic V5-Präsentation: Li Jian betont das geöffnete Ökosystem und gemeinsam mit Großunternehmen die Zukunft der KI gestalten

MIT-Studie: Die Verwendung von KI-Schreibwerkzeugen kann die Gehirnaktivität verringern

Animation-Untertitel-Grauen! Neue Serie bei Crunchyroll verwendet sogar KI-generiertes Inhalt, das zum Lachen und Weinen bringt

​OpenAI beendet den großflächigen Einsatz von Google-TPU-Chips, NVIDIA und AMD bleiben weiterhin Hauptlieferanten

Amazon veröffentlicht ein neues KI-Modell Deep Fleet – Anzahl der Roboter überschreitet die Millionengrenze

OpenAI beendet den großflächigen Einsatz von Google-TPU-Chips, NVIDIA und AMD bleiben weiterhin Hauptlieferanten