Willkommen bei der Rubrik „AI-Tagesbericht“! Hier finden Sie täglich einen Überblick über die Welt der Künstlichen Intelligenz. Wir präsentieren Ihnen täglich die wichtigsten Themen aus dem KI-Bereich, mit Fokus auf Entwickler, damit Sie Technologietrends verstehen und innovative KI-Produktanwendungen kennenlernen.

Neue KI-Produkte hier entdecken: https://top.aibase.com/

1. ByteDance bringt das Doubao visuelle Inferenz-Großmodell heraus: Preis bis zu 0,003 €/1000 Token

Auf der Volcano Engine FORCE-Antriebskonferenz stellte Volcano Engines Präsident Tan Dai das Doubao visuelle Verständnis-Großmodell vor. Dieses Modell kombiniert Text- und Bildinformationen und zeigt eine hervorragende Fähigkeit zur Inhaltserkennung und -inferenz. Der Preis des neuen Modells wurde deutlich gesenkt, was Unternehmen bei der intelligenten Transformation mehr Zuversicht gibt. Die tägliche Token-Nutzungsmenge des Doubao-Großmodells übersteigt bereits 4 Billionen, was die starke Marktnachfrage und das Anwendungspotenzial zeigt.

image.png

【AiBase Zusammenfassung:】

🖼️ Das neue Doubao visuelle Verständnis-Großmodell verarbeitet gleichzeitig Text- und Bildinformationen und verbessert die Inhaltserkennung und -inferenz.

💰 Seit Mai dieses Jahres wurde der Branchenpreis des Doubao-Großmodells um 99 % gesenkt, wodurch Unternehmen die Technologie leichter einsetzen können.

📈 Die tägliche Token-Nutzungsmenge des Doubao-Großmodells beträgt derzeit über 4 Billionen und ist um über das 33-fache gestiegen, was die Marktnachfrage zeigt.

2. OpenAI öffnet die volle API des o1-Modells: Kostenreduktion um 60 %, neue erweiterte visuelle Verarbeitungsfähigkeiten

In einer 12-tägigen Live-Streaming-Veranstaltung veröffentlichte OpenAI am 9. Tag die API des o1-Modells für Entwickler und kündigte ein bedeutendes Upgrade der Echtzeit-API mit Unterstützung der WebRTC-Technologie an. Ab dem Veröffentlichungstag gewährt OpenAI Entwicklern mit API-Nutzungsstufe 5 Zugriff auf die o1-API. Die aktualisierte o1-Modell-API hat im Vergleich zur vorherigen Vorschauversion die Denk-Kosten um 60 % reduziert und neue erweiterte visuelle Verarbeitungsfähigkeiten hinzugefügt. Gleichzeitig wurden die Kosten für die Audioverarbeitung von GPT-4o um 60 % und der Preis der Mini-Version um das 10-fache reduziert.

【AiBase Zusammenfassung:】

🚀 Veröffentlichung der o1-Modell-API mit Unterstützung der WebRTC-Technologie zur Verbesserung der Echtzeit-Interaktion.

💰 Kostenreduktion um 60 %, neue erweiterte visuelle Verarbeitungsfähigkeiten zur Verbesserung der Benutzererfahrung.

📈 Über 300 Millionen wöchentlich aktive Nutzer zeigen das schnelle Wachstum des OpenAI-Nutzerstamms.

3. Ideogram bringt ein Tool zur Massenbildgenerierung heraus: Schluss mit mühsamen Vorgängen, massenhafte kreative Bilder mit einem Klick generieren

Die KI-Bildgenerierungsplattform Ideogram hat kürzlich ein Tool zur Massenbildgenerierung vorgestellt, das den Bildgenerierungsprozess durch das Hochladen von Tabellen vereinfachen soll. Benutzer können Prompts und Einstellungen in einer CSV-Datei vorbereiten, und Ideogram generiert die Bilder automatisch anhand dieser Informationen. Diese Innovation verbessert die Arbeitseffizienz von professionellen Designern und Kreativen erheblich und reduziert den mühsamen Vorgang der einzelnen Eingabe. Diese Funktion ist derzeit nur für Ideogram Pro-Benutzer verfügbar und zeigt das enorme Potenzial und die intelligente Gestaltungsweise von KI im Designbereich.

image.png

【AiBase Zusammenfassung:】

🚀 Das Massen-Generierungs-Tool ermöglicht Benutzern das Hochladen von Tabellen mit Prompts, um den Bildgenerierungsprozess zu vereinfachen.

🖼️ Benutzer müssen nur die Vorlage herunterladen, Prompts generieren und die CSV-Datei hochladen, um Bilder automatisch generieren zu lassen.

💼 Diese Funktion ist derzeit nur für Ideogram Pro-Benutzer verfügbar und bietet Designern ein effizientes Erstellungserlebnis.

4. Jiemong AI startet Poster-Generierungsfunktion: Statische Poster können mit einem Klick in dynamische Poster umgewandelt werden

Jiemong AI hat auf der Volcano Engine FORCE-Konferenz am 18. Dezember 2024 eine neue Poster-Generierungsfunktion vorgestellt. Die Veröffentlichung dieser Technologie markiert einen wichtigen Fortschritt im Bereich der Bildgenerierung. Benutzer müssen nur eine kurze Beschreibung eingeben, und das System generiert schnell kreative Poster, wodurch der Zeit- und Kompetenzaufwand für traditionelles Design erheblich reduziert wird. Darüber hinaus bietet die neue Funktion zur Generierung dynamischer Poster Content-Erstellern vielfältigere Präsentationsmöglichkeiten, insbesondere für soziale Medien und Werbung, um die Aufmerksamkeit der Zuschauer effektiv zu gewinnen und die Marketingwirkung zu verbessern.

image.png

【AiBase Zusammenfassung:】

🌟 Benutzer können mit nur einer Beschreibung schnell kreative Poster generieren und den Erstellungsprozess vereinfachen.

🎥 Die neue Funktion zur Generierung dynamischer Poster macht die Präsentation von Werken lebendiger und eignet sich für soziale Medien und Werbung.

📈 Jiemong AI berücksichtigt die individuellen Bedürfnisse der Benutzer und bietet flexible Optionen zur Inhaltsgenerierung, um die Markenförderung zu unterstützen.

5. Version 1.5 von Kouzi offiziell veröffentlicht: Unterstützt multimodale Fähigkeiten, ermöglicht sofortige Nutzung des neuen Doubao-Modells

Kouzi Coze hat auf der Volcano Engine FORCE-Antriebskonferenz die neue Version 1.5 von Kouzi vorgestellt, was einen wichtigen Fortschritt in der Entwicklung von KI-Anwendungen darstellt. Diese Version unterstützt eine GUI-Erstellungsoberfläche, mit der Benutzer einfach verschiedene Anwendungsformen erstellen und veröffentlichen können, wodurch die Entwicklungsschwelle erheblich gesenkt wird. Gleichzeitig wurden die multimodalen Fähigkeiten von Kouzi 1.5 verbessert, das neueste Doubao-Großmodell wird unterstützt, und es werden zahlreiche Vorlagen und Lösungen bereitgestellt, um Entwickler bei der Steigerung ihrer Effizienz zu unterstützen. Es hat bereits über 1 Million aktive Entwickler angezogen.

image.png

【AiBase Zusammenfassung:】

🖥️ Kouzi 1.5 unterstützt eine GUI-Erstellungsoberfläche, mit der Benutzer mit einem Klick verschiedene Anwendungsformen veröffentlichen und die Entwicklungsschwelle senken können.

🌐 Die multimodalen Fähigkeiten wurden deutlich verbessert, wobei das Doubao visuelle Verständnis-, Musik- und Bildgenerierungsmodell unterstützt wird, um den Anwendungsbereich von KI zu erweitern.

📊 Es werden unzählige hochwertige Vorlagen bereitgestellt, die verschiedene Geschäftsszenarien abdecken und die Entwicklungseffizienz steigern. Es hat über 1 Million aktive Entwickler angezogen.

Detaillierter Link: https://www.coze.cn/docs/guides/vlm

6. ByteDance: Der Doubao-Videogenerierungsmodell wird im Januar 2025 offiziell für die Öffentlichkeit zugänglich gemacht

Auf der Volcano Engine FORCE-Antriebskonferenz Winter 2024 präsentierte Volcano Engine ein umfassendes Upgrade der Doubao-Großmodellfamilie mit einer täglichen Token-Nutzungsmenge von über 4 Billionen und einem deutlichen Wachstum. Auf der Konferenz wurden das visuelle Verständnismodell und mehrere Modell-Upgrades vorgestellt, die die umfassende Aufgabenverarbeitungsfähigkeit des Doubao-Universalmodells Pro verbessert haben. Darüber hinaus stellte Volcano Engine das veOmniverse+Doubao 3D-Generierungsmodell vor, das AIGC-Kreationen unterstützt, und kündigte an, dass der Doubao-Videogenerierungsmodell im Januar 2025 offiziell für die Öffentlichkeit zugänglich gemacht wird, was die tiefgreifende Entwicklung der Großmodelltechnologie markiert.

image.png

【AiBase Zusammenfassung:】

🌟 Die tägliche Token-Nutzungsmenge des Doubao-Großmodells beträgt über 4 Billionen und ist um über das 33-fache gestiegen, was eine breite Anwendung zeigt.

🛠️ Das neu veröffentlichte veOmniverse+Doubao 3D-Generierungsmodell unterstützt die Generierung und Bearbeitung von hochqualitativen 3D-Assets und verbessert die AIGC-Kreationsfähigkeit.

📅 Der Doubao-Videogenerierungsmodell wird im Januar 2025 offiziell für die Öffentlichkeit zugänglich gemacht. Benutzer können sich für eine Testversion anmelden.

7. ByteDance Volcano Engine veröffentlicht die umfassende KI-Suche: Unterstützt multimodale Suche

Auf der Volcano Engine FORCE-Antriebskonferenz Winter 2024 stellte ByteDance den umfassenden KI-Suchdienst vor, der die Genauigkeit von Empfehlungen und die Informationsfindungsfähigkeit von Unternehmen durch die Integration verschiedener Informationen und Anforderungen verbessern soll. Dieser Dienst basiert auf der leistungsstarken A1-Such- und Empfehlungstechnologie, unterstützt multimodales Verständnis, kann schnell große Mengen an Inhalten verarbeiten und Echtzeit-Antworten auf aktuelle Themen liefern, um die Benutzererfahrung zu verbessern. Gleichzeitig hat Volcano Engine ein Großmodell-Speicherlösung vorgestellt, um Kunden beim Aufbau effizienter Speichersysteme zu unterstützen. Dies ist eine wichtige Richtung für die Entwicklung von Großmodellen.

image.png

【AiBase Zusammenfassung:】

🌐 Die umfassende KI-Suche von Volcano Engine integriert szenenbasierte Suche, unternehmensinterne Informationen und vernetzte Frage-Antwort-Dienste, um die Genauigkeit von Informations-Empfehlungen zu verbessern.

⚙️ Die A1-Such- und Empfehlungstechnologie nutzt die Technologie der Doubao-Großmodellfamilie und unterstützt multimodales Verständnis von Text, Bildern, Audio und Video, das für verschiedene Anwendungsszenarien geeignet ist.

💡 Die Großmodell-Speicherlösung kombiniert Kontext-Caching und RAG-Technologie, um Kunden beim Aufbau effektiver Speichersysteme zu unterstützen und die Speicherfähigkeit von Großmodellen zu verbessern.

8. WeChat startet neue Funktion „Autoren-Lesestimme“

Die von der WeChat-Plattform eingeführte Funktion „Autoren-Lesestimme“ ermöglicht es公众号-Autoren, ihre Artikel mit personalisierten Sprachnachrichten zu unterlegen, was die Interaktivität und Personalisierung des Leseerlebnisses verbessert. Autoren müssen die App „Abonnement-Assistent“ herunterladen, um Sprachnachrichten aufzunehmen, die ihren persönlichen Ton und ihre Emotionen wiedergeben, und können diese dann in ihren公众号 verwenden. Diese Funktion befindet sich derzeit in der Grautestphase und ist noch nicht vollständig verfügbar. WeChat ermutigt die Autoren, geduldig zu warten. Dies ist ein wichtiger Fortschritt von WeChat bei der Verbesserung der Benutzererfahrung und der Erfüllung der Bedürfnisse der Autoren, und es wird voraussichtlich die Ausdrucksformen von公众号-Inhalten bereichern.

微信截图_20241218142646.png

【AiBase Zusammenfassung:】

🎧 Autoren können ihre Artikel mit personalisierten Sprachnachrichten unterlegen, um die Interaktivität zu verbessern.

📱 Dazu muss die App „Abonnement-Assistent“ heruntergeladen werden, um Sprachnachrichten aufzunehmen, die den persönlichen Stil wiedergeben.

🔄 Die Funktion befindet sich derzeit in der Grautestphase und ist noch nicht vollständig verfügbar.

9. Nvidia veröffentlicht einen generativen KI-Supercomputer: Nur 249 US-Dollar, Leistungssteigerung um das 1,7-fache

Der von Nvidia herausgebrachte Jetson Orin Nano Super ist ein generativer KI-Supercomputer für Entwickler, der 249 US-Dollar kostet und eine deutliche Leistungssteigerung bietet, die für verschiedene KI-Anwendungsszenarien geeignet ist. Das Gerät bietet eine 1,7-fache Leistungssteigerung bei generativer KI und auch erhebliche Verbesserungen bei der Speicherbandbreite und Rechenleistung. Jensen Huang betonte, dass das Gerät Entwicklern zu geringeren Kosten eine hervorragende Rechenleistung bietet und ein breites Anwendungspotenzial in Bereichen wie Smart Cities, Landwirtschaft und Robotik aufweist. Dies markiert einen wichtigen Schritt in Richtung Verbreitung und Anwendung von KI-Technologie.

image.png

【AiBase Zusammenfassung:】

🚀 Leistungssteigerung: Die generative KI-Leistung des Jetson Orin Nano Super wurde um das 1,7-fache gesteigert, die Speicherbandbreite um 50 %.

💰 Günstiger Preis: Das Gerät kostet 249 US-Dollar und ist für Entwickler geeignet, wodurch die Schwelle für KI-Technologie gesenkt wird.

🌍 Breite Anwendung: Unterstützt verschiedene Leistungsaufnahme-Szenarien und eignet sich für verschiedene Bereiche wie Smart Cities, Landwirtschaft und Robotik.

10. OpenAI erklärt: Keine Pläne für die Einführung der Sora-API, die Nachfrage nach Videogenerierung übersteigt die Erwartungen

OpenAI hat kürzlich angekündigt, derzeit keine Pläne für die Einführung der API seines Videogenerierungsmodells Sora zu haben, da die Benutzernachfrage die Erwartungen bei weitem übersteigt. Sora kann realistische Videos basierend auf Text oder Bildern generieren, aber aufgrund des sprunghaften Anstiegs der Anmeldungen musste OpenAI die Registrierung neuer Benutzer vorübergehend aussetzen. CEO Sam Altman entschuldigte sich dafür und betonte, dass die Lösung dieses Problems Zeit benötigt. Gleichzeitig haben Wettbewerber wie Google und AWS ihre eigenen Videogenerierungs-APIs auf den Markt gebracht, und OpenAI steht unter dem Druck des Marktes, wobei die zukünftige Strategie mit Spannung erwartet wird.

image.png

【AiBase Zusammenfassung:】

🌟 OpenAI gibt an, derzeit keine Pläne für die Einführung der Sora-API zu haben, da die Nachfrage die Erwartungen bei weitem übersteigt.

📈 Aufgrund des sprunghaften Anstiegs der Benutzeranmeldungen wurde die Registrierung für Sora vorübergehend ausgesetzt, wofür sich der CEO entschuldigte.

🤖 Wettbewerber wie Google und AWS haben bereits Videogenerierungs-APIs auf den Markt gebracht, wodurch OpenAI unter Druck steht.

11. AI „verändert“ tanzende Haustiere werden im Internet zum Hit: Kuriosität und Absurdität sind der Schlüssel zum Erfolg