Willkommen beim AI-Tagesbericht! Hier finden Sie täglich Informationen über die Welt der Künstlichen Intelligenz. Wir präsentieren Ihnen täglich die wichtigsten Neuigkeiten aus dem KI-Bereich, mit Fokus auf Entwickler, um Ihnen zu helfen, Technologietrends zu erkennen und innovative KI-Produktanwendungen zu verstehen.
Neue KI-Produkte hier entdecken: https://top.aibase.com/
1. Apples WWDC: GPT-4o unterstützt Siri – Generative KI für alle Produkte
Apple hat auf der Worldwide Developers Conference (WWDC) 2024 angekündigt, dass alle Produkte in das Zeitalter der generativen KI eintreten und stellte das neue personalisierte intelligente System Apple Intelligence vor. Der Kern des Updates ist ein intelligenter Service, der generative KI-Modelle und Benutzerdaten kombiniert und tief in iOS 18, iPadOS 18 und macOS Sequoia integriert ist. Siri wurde überarbeitet und verfügt über ein umfassenderes Sprachverständnis und die Möglichkeit, Aktionen über verschiedene Anwendungen hinweg auszuführen. Das System integriert ChatGPT, um Bild- und Dokumentverständnisfunktionen, neue Schreibwerkzeuge und Image Playground bereitzustellen.
【AiBase Zusammenfassung:】
🍎 Apple Intelligence integriert generative KI-Modelle und Benutzerdaten, um praktische intelligente Dienste bereitzustellen, die tief in iOS 18, iPadOS 18 und macOS Sequoia integriert sind.
🤖 Siri wurde überarbeitet und bietet ein umfassenderes Sprachverständnis und unterstützt die Ausführung von Aktionen über verschiedene Anwendungen hinweg. Benutzer können über die Tastatur mit Siri kommunizieren.
📸 Das System integriert ChatGPT, um Bild- und Dokumentverständnisfunktionen, neue Schreibwerkzeuge und Image Playground bereitzustellen. Benutzer können Animationen, Illustrationen oder Skizzen erstellen.
Details: https://www.chinaz.com/2024/0611/1622511.shtml
2. Apple und Google kooperieren beim Gemini-Modell
Apple hat eine Zusammenarbeit mit dem Gemini-Modell von Google angekündigt und den Zugriff auf Modelle von Drittanbietern geöffnet, um Benutzern mehr Auswahlmöglichkeiten zu bieten. Siri wird ChatGPT integrieren, sodass Benutzer innerhalb von Siri konversationen führen und gleichzeitig die Privatsphäre kontrollieren können. Apple hat sein Entwickler-Toolkit aktualisiert, ChatGPT von OpenAI erstmals integriert und eine Reihe neuer Funktionen und Updates veröffentlicht.
【AiBase Zusammenfassung:】
🍎 Apple arbeitet mit dem Gemini-Modell von Google zusammen und öffnet den Zugriff auf Modelle von Drittanbietern, um das KI-Ökosystem zu erweitern.
🤖 Siri integriert ChatGPT, sodass Benutzer innerhalb von Siri konversationen führen und gleichzeitig die Privatsphäre kontrollieren können.
🚀 Apple aktualisiert sein Entwickler-Toolkit, integriert erstmals ChatGPT von OpenAI und veröffentlicht neue Funktionen für iOS 18 und VisionOS 2.
3. iOS 18 Foto-App komplett überarbeitet: KI-gestützte Entfernung und intelligente Filterung zur Eingrenzung der Suche
Apple hat im neuesten iOS 18-System die SMS-Funktion umfassend überarbeitet. Benutzer können SMS-Inhalten nicht nur Unterstreichungen und Durchstreichungen hinzufügen, sondern auch eine Reihe dynamischer Texteffekte anwenden, um jeder Nachricht eine persönliche Note zu verleihen.
【AiBase Zusammenfassung:】
⭐️ Apple und OpenAI haben eine Kooperationsvereinbarung geschlossen, und iOS 18 wird ChatGPT-Funktionen integrieren.
🤖 GPT-4-generierte narrative Einblicke sind informativ für die zukünftige Aktienentwicklung.
💬 iPadOS 18 unterstützt nicht nur alle benutzerdefinierten Funktionen von iOS 18, sondern auch benutzerdefinierte häufig verwendete Funktionsleisten in Anwendungen.
Kompatible iOS 18-Geräte: https://www.chinaz.com/2024/0611/1622488.shtml
4. Tencent präsentiert das neue Bild-zu-Video-Modell Follow-Your-Pose-v2
Dieser Artikel beschreibt das neue Bild-zu-Video-Modell „Follow-Your-Pose-v2“, das vom Tencent HunYuan-Team in Zusammenarbeit mit der Sun Yat-sen-Universität und der Hong Kong University of Science and Technology entwickelt wurde. Es zeichnet sich durch die Erzeugung von Videobewegungen mit mehreren Personen, starke Generalisierungsfähigkeit und die korrekte Behandlung von Personenüberlappungen aus. Dieses Modell ist von großer Bedeutung im Bereich der Videogenerierung und bietet vielversprechende Anwendungsmöglichkeiten.
【AiBase Zusammenfassung:】
🌟 Unterstützt die Erzeugung von Videobewegungen mit mehreren Personen, mit kürzerer Inferenzzeit.
🔥 Starke Generalisierungsfähigkeit: Erzeugt qualitativ hochwertige Videos unabhängig von Alter, Kleidung, Rasse, Hintergrund oder Komplexität der Bewegung.
💡 Korrekte Behandlung von Personenüberlappungen: Erzeugt Bilder mit korrekter räumlicher Beziehung bei Überlappungen.
Projektseite: https://top.aibase.com/tool/follow-your-pose
Paper: https://arxiv.org/pdf/2406.03035
5. MotionFollower: Reproduktion von Personenbewegungen ohne Änderung des Videohintergrunds
MotionFollower ist eine innovative Technologie, die es ermöglicht, Bewegungen aus einem Video auf eine Person in einem anderen Video zu übertragen, wobei das Aussehen der Person erhalten bleibt. Diese Technologie findet breite Anwendung in der Filmproduktion, Werbung und Spieleentwicklung.
【AiBase Zusammenfassung:】
⚙️ MotionFollower ist eine innovative Technologie, die Bewegungen aus einem Video auf eine andere Person überträgt, ohne deren Aussehen zu verändern.
🌐 Breite Anwendungsmöglichkeiten in Film, Werbung und Spieleentwicklung.
🎥 MotionFollower verarbeitet Videos mit großen Kamerabewegungen und ermöglicht eine qualitativ hochwertige Übertragung von Bewegungsinformationen.
Details: https://top.aibase.com/tool/motionfollower
6. Adobe überarbeitet seine Nutzungsbedingungen und erklärt klar, dass Kundenarbeiten nicht zum KI-Training verwendet werden
Adobe hat seine Nutzungsbedingungen überarbeitet und klargestellt, dass Kundenarbeiten nicht zum KI-Training verwendet werden, um das Vertrauen der Nutzer zurückzugewinnen. Diese Änderung wurde nach starken Protesten der Nutzer vor einer Woche bekannt gegeben.
【AiBase Zusammenfassung:】
🛡️ Adobe überarbeitet seine Nutzungsbedingungen und stellt klar, dass Kundenarbeiten nicht zum KI-Training verwendet werden.
💬 Der Adobe-Präsident räumt ein, dass die Nutzungsbedingungen früher hätten geklärt werden sollen, und verspricht mehr Transparenz.
🖼️ Die Bedenken der Kreativen gegenüber Adobe bleiben bestehen, und das Unternehmen bemüht sich, das Vertrauen zurückzugewinnen.
7. OpenAI verbessert die Sprachfunktionen von ChatGPT, sodass es mit verschiedenen Stimmen sprechen kann
OpenAI hat die Sprachfunktionen von ChatGPT aktualisiert, sodass Benutzer mit dem Chatbot mit verschiedenen KI-generierten Stimmen und Sprachstilen interagieren können. Die neue Funktion ermöglicht es Benutzern, den KI-Chatbot aufzufordern, in Echtzeit auf jede beliebige Stimme zu reagieren, was die Interaktivität und Zugänglichkeit verbessert.
【AiBase Zusammenfassung:】
🔊 ChatGPT bietet vier voreingestellte Stimmen und kann den Sprachstil in Echtzeit optimieren.
🗣️ Benutzer können die KI bitten, die Charaktere in einer Geschichte zu synchronisieren und einzigartige Stimmen zu generieren, z. B. das Grollen eines Löwen.
🔜 OpenAI wird in den kommenden Wochen neue Sprachfunktionen für alle ChatGPT-Benutzer bereitstellen. Premium-Abonnenten erhalten vorrangigen Zugriff.
8. Schneller als Instant3D! SJTU präsentiert neues Framework Bootstrap3D mit deutlich verbesserter 3D-Generierungsfähigkeit
Ein Forschungsteam der Shanghai Jiao Tong University und der Chinese University of Hong Kong hat das neue Framework Bootstrap3D vorgestellt. Durch die Kombination mit einem feinabgestimmten 3D-perzeptiven multimodalen großen Modell kann es automatisch qualitativ hochwertige Bilder aus mehreren Perspektiven generieren und die Fähigkeiten von 3D-Generierungsmodellen deutlich verbessern. Der synthetische Datensatz des Frameworks wurde vollständig quelloffen bereitgestellt und steht Forschern und Entwicklern kostenlos zur Verfügung. Zu den wichtigsten Merkmalen des Frameworks gehören die Datenerstellungspipeline, die Generierung von Textaufforderungen, die Bilderzeugung, die Multi-View-Synthese, die Qualitätsprüfung und das Umschreiben von Beschreibungen. Das Forschungsteam hat außerdem die Strategie zur Neuordnung von Trainingsschritten (TTR) vorgeschlagen, um die verschiedenen Phasen des Rauschentfernungsverfahrens zu optimieren und Probleme bei der Schulung von Multi-View-Diffusionsmodellen zu lösen. Die experimentellen Ergebnisse zeigen, dass Multi-View-Diffusionsmodelle mit der TTR-Strategie eine hervorragende Leistung in Bezug auf die Ausrichtung von Bild-Text-Paaren, die Bildqualität und die Konsistenz der Ansichten aufweisen und die Effektivität der Multi-View-Generierung deutlich verbessern.
【AiBase Zusammenfassung:】
🔑 Datenerstellungspipeline: Automatische Generierung von Bildern aus mehreren Perspektiven und detaillierten beschreibenden Texten – eine der zentralen Innovationen des Frameworks.
🔑 Generierung von Textaufforderungen: Verwendung von großen Sprachmodellen zur Generierung kreativer und vielfältiger Textaufforderungen als Grundlage für die Bilderzeugung.
🔑 Multi-View-Synthese: Erweiterung von Einzelbildern zu Bildern aus mehreren Perspektiven, um die Konsistenz aus verschiedenen Blickwinkeln zu gewährleisten.
Details: https://top.aibase.com/tool/bootstrap3d
9. Google präsentiert AGREE-Framework zur Verbesserung der Genauigkeit von Inhalten, die von großen Sprachmodellen generiert werden
Das Google Research Team hat das AGREE-Framework vorgestellt, das darauf abzielt, die Genauigkeit von Inhalten und Zitaten, die von großen Sprachmodellen generiert werden, zu verbessern. Das Framework verbessert die Genauigkeit der Antworten durch das Abrufen relevanter Abschnitte und bietet Benutzern Möglichkeiten, die Richtigkeit der Informationen zu überprüfen. Die Kerntechnologien umfassen das Feintuning in der Trainingsphase und die adaptive Anpassung während des Tests. Die experimentellen Ergebnisse zeigen, dass AGREE die Genauigkeit und Zitierfähigkeit von Inhalten deutlich verbessert.
【AiBase Zusammenfassung:】
🔍 Das AGREE-Framework zielt darauf ab, die Genauigkeit von Inhalten und Zitaten zu verbessern, die von großen Sprachmodellen generiert werden.
🎯 Die Kerntechnologien umfassen das Feintuning in der Trainingsphase und die adaptive Anpassung während des Tests.
💡 Die experimentellen Ergebnisse zeigen, dass AGREE die Genauigkeit und Zitierfähigkeit von Inhalten deutlich verbessert.
Details: https://arxiv.org/pdf/2311.09533
10. Fenbi bringt im August einen selbst entwickelten KI-Lehrer auf den Markt
Die Fenbi Group wird im August 2024 einen selbst entwickelten KI-Lehrer auf den Markt bringen, der als eines der KI-Lernwerkzeuge auf ihrer Online-Plattform dienen wird. Die erste Anwendung wird in Kursen für staatliche und regionale Einstellungsprüfungen sowie für Zertifizierungsprüfungen sein.
【AIBase Zusammenfassung:】
⭐️ Die Fenbi Group wird im August 2024 einen selbst entwickelten KI-Lehrer auf den Markt bringen.
⭐️ Der KI-Lehrer wird eines der KI-Lernwerkzeuge auf der Online-Plattform von Fenbi sein.
⭐️ Die erste Anwendung wird in Kursen für staatliche und regionale Einstellungsprüfungen sowie für Zertifizierungsprüfungen sein.