Willkommen bei der Rubrik „AI-Tagesbericht“! Hier finden Sie täglich einen Überblick über die Welt der Künstlichen Intelligenz. Wir präsentieren Ihnen täglich die wichtigsten Themen aus dem Bereich KI, mit Fokus auf Entwickler, um Ihnen zu helfen, Technologietrends zu verstehen und innovative KI-Produktanwendungen kennenzulernen.

Neue KI-Produkte hier entdecken: https://top.aibase.com/

1. SenseTime präsentiert Vimi, ein großes Video-Generierungsmodell, mit der C-End-Anwendung Vimi Kamera in der offenen Beta-Phase

SenseTime hat auf der World Artificial Intelligence Conference (WAIC) 2024 das große Video-Generierungsmodell Vimi vorgestellt. Es bietet präzise Steuerung von Mimik und Gestik, unterstützt verschiedene Steuerungsmethoden, zeichnet sich durch hohe Stabilität aus und kann Videos mit hoher Konsistenz erzeugen. Die Vimi Kamera als erste C-End-Anwendung erfüllt die Bedürfnisse vieler Nutzerinnen im Bereich Unterhaltung und Kreation und unterstützt verschiedene Generierungsstile und individuelle Kreationen.

image.png

【AiBase Zusammenfassung:】

👩‍💻 Das Vimi-Modell nutzt die fortschrittliche Large-Model-Technologie von SenseTime, um Personenvideos zu generieren, die mit den Zielbewegungen übereinstimmen. Es verfügt über eine langjährig entwickelte Gesichtserkennungstechnologie und präzise Steuerungsmöglichkeiten.

🎥 Vimi kann Einzelpersonenvideos von über einer Minute Länge generieren, wobei die Bildqualität nicht mit der Zeit abnimmt. Es unterstützt die Anpassung von Umgebungsszenen und die Simulation realistischer visueller Effekte.

📸 Mit der Vimi Kamera können Nutzer hochauflösende Personenbilder hochladen, um digitale Avatare und Foto-Videos zu generieren. Es bietet verschiedene Generierungsstile und lustige Gesichtsausdrücke.

2. Zeitlich begrenzt kostenlos! Tencent Zhiying-Miniprogramm startet „AI-Video“-Funktion

Das Zhiying-Miniprogramm hat die neue Funktion „AI-Video“ eingeführt. Nutzer können damit ganz einfach normale Videos in stilisierte Videos umwandeln, insbesondere in Anime-Stil, um die Attraktivität der Videos zu steigern. Diese Funktion ist derzeit zeitlich begrenzt kostenlos und soll Nutzern helfen, die Ästhetik und den Unterhaltungswert ihrer Videos zu verbessern.

image.png

【AiBase Zusammenfassung:】

🎥 One-Click-Bedienung: Schnelle Bedienung, auch Anfänger können professionelle stilisierte Videos erstellen.

🎨 Verschiedene Stilvorlagen: Bietet verschiedene Vorlagen, um die Ästhetik und die Geschichte des Videos zu verbessern.

🚀 Steigerung der Video-Reichweite: Stilisierte Videos sind leicht zu teilen und ziehen mehr Zuschauer an.

3. UltraPixel: Ein leistungsstarkes Tool zur Erzeugung von Bildern mit extrem hoher Auflösung

UltraPixel ist eine hochmoderne Technologie zur Erzeugung von Bildern mit extrem hoher Auflösung und ein Segen für Designer und Kreative. Durch Stable Cascade Training und Feinabstimmung unterstützt es die direkte Generierung von Bildern mit einer Auflösung von 1K bis 6K. Zu den technischen Methoden gehören implizite neuronale Repräsentationen und skalensensitive Normalisierungsschichten, die hohe Detailgenauigkeit und Realismus gewährleisten. Gleichzeitig wird die Verarbeitung im kleinsten Raum effizient durchgeführt, wobei die Parameterauslastung bei 97 % liegt und die Trainings- und Inferenz-Effizienz verbessert wird.

QQ截图20240709110659.jpg

【AiBase Zusammenfassung:】

🔍 UltraPixel unterstützt die direkte Generierung von Bildern mit einer Auflösung von 1K bis 6K. Die Details sind bis zu den Poren präzise und gestochen scharf.

🚀 Basierend auf Stable Cascade Training und Feinabstimmung, bald Open Source, damit mehr Menschen den Reiz dieser Technologie erleben können.

💡 Durch die Anleitung der Erzeugung von hochauflösenden Bildern anhand der reichhaltigen semantischen Informationen in Bildern mit niedriger Auflösung wird die Komplexität reduziert und gleichzeitig eine hohe Detailgenauigkeit und ein hoher Realismus gewährleistet.

Detaillierte Informationen: https://top.aibase.com/tool/ultrapixel

4. Groq präsentiert blitzschnelle LLM-Engine, die in nur vier Monaten 280.000 Entwickler anzieht

Groq hat kürzlich eine blitzschnelle LLM-Engine vorgestellt, die große Aufmerksamkeit erregt hat. Diese Engine verarbeitet 1256,54 Token pro Sekunde, was die Geschwindigkeit von GPUs bei weitem übertrifft und die Schnelligkeit und Flexibilität von LLM-Chatbots demonstriert. Groq bietet einen kostenlosen LLM-Workload-Service, der bereits von über 280.000 Entwicklern genutzt wird. CEO Ross geht davon aus, dass bis zum nächsten Jahr die Hälfte aller Inferenzberechnungen weltweit auf Groqs Chips laufen wird.

image.png

【AiBase Zusammenfassung:】

🚀 Die Groq LLM-Engine verarbeitet 1256,54 Token pro Sekunde, viel schneller als GPUs.

🤖 Die Groq-Engine demonstriert die Schnelligkeit und Flexibilität von LLM-Chatbots und zieht Entwickler und Nicht-Entwickler gleichermaßen an.

💻 Groq bietet einen kostenlosen LLM-Workload-Service, der bereits von über 280.000 Entwicklern genutzt wird. Es wird erwartet, dass die Hälfte aller Inferenzberechnungen weltweit auf seinen Chips laufen wird.

5. Autonomes Fahrzeuggespann präsentiert Odyssey, visuelle KI-Effekte auf Hollywood-Niveau

Ein autonomes Fahrzeuggespann betritt Hollywood und präsentiert Odyssey, revolutionäre visuelle KI-Effekte auf Hollywood-Niveau, die die Art und Weise, wie Filme, Fernsehsendungen und Videospiele produziert werden, verändern. Odyssey kann Story-Sequenzen auf Hollywood-Niveau generieren, überwindet die Grenzen der Video-KI und ermöglicht die vollständige Kontrolle über die visuelle Erzählung. Inspiriert von Pixar, zielt es darauf ab, Filmwerke mit KI zu erstellen und das Problem der KI-Steuerbarkeit zu lösen.

【AiBase Zusammenfassung:】

🎬 Odyssey ermöglicht die vollständige Kontrolle über den Kern der visuellen Erzählung und generiert hochwertige Szenenelemente und -aspekte.

🌟 Es präsentiert ein leistungsstärkeres Generierungsmodell, das vier Modelle trainiert, um die Details der Szenenkonfiguration zu verfeinern.

🚗 Das Team ist eng mit autonomen Fahrzeugen verbunden, der Gründer hat umfassende Erfahrung im Bereich des autonomen Fahrens.

Detaillierte Informationen: https://top.aibase.com/tool/odyssey

6. Bericht: OpenAI-internes Forum wurde gehackt, Geheimnisse gestohlen

Kürzlich wurde das interne Forum des bekannten KI-Unternehmens OpenAI von Hackern angegriffen, was Sicherheitsbedenken auslöste und die Mitarbeiter über mögliche Sicherheitslücken beunruhigte. Das Unternehmen veröffentlichte ein Update zur Verschlüsselung von Chat-Protokollen, um die Datensicherheit zu verbessern, und gründete einen Sicherheits- und Schutzausschuss, um die Sicherheitsmaßnahmen zu verstärken. Die globale Zusammenarbeit zur Bewältigung der Herausforderungen durch KI wird immer wichtiger.

【AiBase Zusammenfassung:】

💡 Das interne Forum von OpenAI wurde gehackt, die Sicherheit des Unternehmens wird in Frage gestellt, und die Mitarbeiter sind besorgt über mögliche Sicherheitslücken.

💡 Es wurde eine Sicherheitslücke in der ChatGPT macOS-Anwendung entdeckt. Das Unternehmen veröffentlichte ein Update zur Verschlüsselung von Chat-Protokollen, um die Datensicherheit zu verbessern.

💡 OpenAI hat mehrere geheime Einflussnahmeaktionen aus Russland und Israel erfolgreich verhindert und einen Sicherheits- und Schutzausschuss gegründet, um die Sicherheitsmaßnahmen zu verstärken.

7. Meta AI entwickelt MobileLLM, ein kompaktes Sprachmodell für mobile Geräte

Das Meta AI-Forschungsteam hat MobileLLM vorgestellt, einen neuen Ansatz für effiziente Sprachmodelle, die für Smartphones und andere ressourcenbeschränkte Geräte entwickelt wurden. Diese Forschung stellt Annahmen über die Größe effektiver KI-Modelle in Frage und erzielt eine Leistungssteigerung von 2,7 % bis 4,3 %. Die Entwicklung von MobileLLM entspricht dem Bedarf an effizienteren KI-Modellen. Es ist noch nicht öffentlich zugänglich, aber der vorab trainierte Code wurde bereits Open Source veröffentlicht.

image.png

【AiBase Zusammenfassung:】

🔑 MobileLLM ist ein effizientes Sprachmodell für ressourcenbeschränkte Geräte und stellt die Notwendigkeit großer Modelle in Frage.

🚀 Zu den Innovationen von MobileLLM gehören die Priorisierung der Modelltiefe, die Nutzung von eingebettetem Sharing und gruppierter Query-Attention sowie die Verwendung der direkten Block-Gewichtsfreigabetechnik.

💡 MobileLLM zeigt hervorragende Ergebnisse bei Benchmark-Aufgaben. Die 350-Millionen-Parameter-Version ist bei einigen Aufgaben mit 7-Milliarden-Parameter-Modellen vergleichbar.

8. Poe-Social-Media-Plattform präsentiert die Funktion „Previews“

Die Poe-Social-Media-Plattform hat die innovative Funktion „Previews“ vorgestellt, die Nutzern ein bisher unerreichtes interaktives Erlebnis bietet und den Beginn einer neuen Ära der KI-Social-Media-Interaktion markiert. Die Funktion „Previews“ ist intuitiv und benutzerfreundlich und ermöglicht es Nutzern, in der Chat-Oberfläche in Echtzeit KI-generierte Webanwendungen anzuzeigen und mit ihnen zu interagieren, wodurch die Qualität der Interaktion zwischen Nutzern und KI verbessert wird.

image.png

【AiBase Zusammenfassung:】

🚀 Eine neue Ära der KI-Social-Media-Interaktion. Die Funktion „Previews“ ermöglicht Nutzern die intuitive Bedienung von KI-generierten Webanwendungen.

💡 Die Funktion „Previews“ ist benutzerfreundlich und intuitiv, sodass Nutzer auf natürliche Weise mit der KI interagieren können.

💻 Geeignet für große Sprachmodelle, bietet es normalen Nutzern die Möglichkeit, mit fortschrittlichen KI-Programmieranwendungen in Kontakt zu treten und erhöht die Attraktivität der Poe-Plattform.

9. Xinsir veröffentlicht Open-Source-Modell Controlnet++, unterstützt über zehn Arten von bedingter Steuerung wie Openpose und Canny

Das kürzlich von Xinsir veröffentlichte Open-Source-Modell Controlnet++ verfügt über verschiedene Steuerungsoptionen und kann qualitativ hochwertige Bilder generieren, die sich besonders gut für Designer eignen, die präzise Bearbeitungen benötigen. Das Modell basiert auf der ControlNet-Architektur und verfügt über ein zusätzliches Modul, das über zehn verschiedene Steuerungstypen unterstützt. Es bietet Beispiele für die Bilderzeugung unter verschiedenen Steuerungsbedingungen. Obwohl es derzeit nicht in der Web-UI und ComfyUI verwendet werden kann, ist es aufgrund seiner Vielseitigkeit und der hohen Qualität der Ausgaben ein wichtiger Durchbruch im Bereich der Text-zu-Bild-Generierung.

image.png

【AiBase Zusammenfassung:】

🔧 Controlnet++ unterstützt Eingaben wie Openpose und Canny, wodurch ein häufiger Modellwechsel vermieden wird.

🧩 Das Modelldesign zeichnet sich durch verschiedene Steuerungsoptionen aus und verwendet die gleichen Netzwerkparameter, um die Bilderzeugung unter verschiedenen Bedingungen zu realisieren.

🚀 Controlnet++ zeigt hervorragende Ergebnisse in SDXL-Experimenten und bietet Beispiele für die Bilderzeugung unter verschiedenen Steuerungsbedingungen.

Detaillierte Informationen: https://top.aibase.com/tool/controlnet-

10. Alipay präsentiert medizinisches Large-Language-Modell, das bei chinesischen und englischen Tests GPT-4 übertrifft

Alipays medizinisches Large-Language-Modell hat bei chinesischen und englischen Tests GPT-4 übertroffen und wird bereits in führenden Krankenhäusern in Jiangsu, Zhejiang und Shanghai eingesetzt. Das Modell verfügt über multimodale Fähigkeiten, eine Genauigkeit von über 90 % und bietet Dienste wie intelligente Frage-Antwort-Systeme, Strukturierung und Abfrage von Krankenakten. Alipay hat gemeinsam mit mehreren Institutionen eine Initiative zur gemeinsamen Entwicklung von KI in der Medizin ins Leben gerufen, um die Effizienz im Gesundheitswesen und die Datensicherheit zu verbessern.

【AiBase Zusammenfassung:】

🏥 Das medizinische Large-Language-Modell von Alipay übertrifft GPT-4 in chinesischen und englischen Tests und wird bereits in führenden Krankenhäusern eingesetzt.

💡 Das Modell verfügt über multimodale Fähigkeiten, eine Genauigkeit von über 90 % und bietet Dienste wie intelligente Frage-Antwort-Systeme, Strukturierung und Abfrage von Krankenakten.

🔒 Alipay ergreift verschiedene Maßnahmen, um die Zuverlässigkeit der Technologie und den Datenschutz zu gewährleisten und die groß angelegte Einführung von künstlicher Intelligenz voranzutreiben.