Microsoft veröffentlicht FP8-LM Framework: 64% schnelleres & 42% speichereffizienteres Training großer Sprachmodelle

机器之心

Veröffentlicht amKI-Nachrichten und -Informationen · 1 Minuten Lesezeit · Nov 2, 2023

FP8-LM Framework von Microsoft

Microsofts Open-Source-Framework FP8-LM hat bemerkenswerte Erfolge beim Training großer Sprachmodelle erzielt. Das Framework nutzt FP8-Mixed-Precision-Training und ist beim Training des GPT-175B-Modells um 64% schneller als BF16 und spart gleichzeitig 42% Speicherplatz. Mit dem FP8-LM-Framework lässt sich die Größe trainierbarer Modelle deutlich erhöhen – ein wichtiger Durchbruch im Bereich des Trainings großer Modelle.

Großmodell-Training FP8 Niedrigpräzisionstraining

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe

Empfohlene verwandte KI-Nachrichten

Alibaba Ovis-U1 präsentiert mit einem Schock: Multimodale AI-Dreifachintegration Open-Source-Enthusiasmus für Entwickler weltweit

Am 29. Juni 2025 gab das Alibaba International AI Team offiziell das neue multimodale Großmodell **Ovis-U1** bekannt und markierte damit einen weiteren bedeutenden Durchbruch in der multimodalen künstlichen Intelligenz. Als das neueste Werk der Ovis-Reihe vereint Ovis-U1 die Funktionen der multimodalen Verständnis, Bildgenerierung und Bildbearbeitung und zeigt starke Fähigkeiten zur Bearbeitung von multimodalen Daten. Dies bietet Entwicklern, Forschern und branchenspezifischen Anwendungen neue Möglichkeiten. Hier ist eine detaillierte Berichterstattung über Ovis-U1 von AIbase. Ovis-U1

Jun 30, 2025

Einführung! Der weltweit erste billionenklasse-Modell für die Stromerzeugungsbranche, Qinyuan, erstmals präsentiert!

Am 30. Juni wurde das weltweit erste billionenklasse-Modell für die Stromerzeugungsbranche, "Qinyuan", entwickelt und offiziell veröffentlicht. Dieses innovative Modell verfügt über einzigartige Eigenschaften der vollständigen selbstkontrollierten Technologie und markiert einen wichtigen Schritt in Richtung intelligenter Entscheidungsfindung für die Stromerzeugungsbranche. Das "Qinyuan"-Modell zielt darauf ab, die vielfältigen Szenarien, hohe Komplexität und starke Spezialisierung der Stromerzeugungsindustrie zu kombinieren, um die umfangreichen Datenressourcen des State Energy Group optimal zu nutzen. Die Einführung dieses Modells eröffnet nicht nur eine neue Kraft für die dynamische Optimierung von Multi-Energie-Kooperation, sondern etabliert auch eine Basis für Elektrizitätsverwaltung.

Jun 30, 2025

Tongyi Qianwen veröffentlicht ein multimodales einheitliches Verständnis- und Generationsmodell Qwen VLo

Kürzlich wurde das multimodale Großmodell Qwen VLo offiziell veröffentlicht. Das Modell hat bedeutende Fortschritte bei der Bildinhaltserfassung und -generierung erzielt und bietet den Nutzern eine neue visuelle Kreativserfahrung. Laut Mitteilung baut Qwen VLo auf den Vorteilen der früheren Qwen-VL-Reihe auf und wurde umfassend aktualisiert. Dieses Modell kann nicht nur die Welt präzise verstehen, sondern auch hochwertige Neuschöpfungen basierend auf diesem Verständnis durchführen und somit einen echten Sprung von der Wahrnehmung zur Generierung ermöglichen. Nutzer können nun Qwen Chat (chat.qwen.ai) nutzen.

Jun 28, 2025

Neue Methode zur KI-Training! Anthropic investiert hohe Summen, um Bücher zu zerlegen und Daten zu wechseln. Streit über die Nutzung löst heftige Diskussionen aus

Kürzlich investierte das KI-Unternehmen Anthropic Millionen Dollar, um eine große Anzahl von Büchern zu kaufen und zu zerlegen, um den KI-Helper Claude zu trainieren. Dieser Schritt löste eine breite öffentliche Aufmerksamkeit und eine heftige Debatte in der Rechtsbranche aus. Laut Berichten der US-Medien Ars Technica nutzte Anthropic eine umstrittene Methode, um Trainingsdaten zu beschaffen. Sie zerschnitten eine große Anzahl physischer Bücher, scannten sie in digitale Dateien um und zerstörten danach die Originalausgaben. Dieses Vorgehen wurde in Gerichtsdokumenten enthüllt.

Jun 26, 2025

Kalifornischer Gerichtshof entscheidet, dass die Verwendung urheberrechtlich geschützter Inhalte zum Training von KI rechtmäßig ist

Jun 25, 2025

Huawei veröffentlicht die PanGu-Großmodell-Version 5.5: Alle fünf Basismodelle erhalten Aktualisierungen, das tiefgehende Denkmodell geht online

Während einer Themenrede auf der Huawei-Entwicklerkonferenz HDC2025 am Nachmittag heute hat Zhang Ping'an, ständiger Mitgliedsvorstand von Huawei und CEO von Huawei Cloud, offiziell die Veröffentlichung des PanGu-Großmodells-Version 5.5 angekündigt, was bedeutet, dass die fünf Basismodelle für natürliche Sprachverarbeitung (NLP), Computer Vision (CV), multimodales, prognostisches und wissenschaftliches Rechnen eine umfassende Aktualisierung erfahren.

Jun 20, 2025

Baidu führt als erstes Unternehmen digitale Menschen-Interaktionsstudios mit zwei Figuren ein; die Multimodaltechnologie erreicht neue Höhepunkte durch das WordCloud Großmodell 4.5T

Jun 18, 2025

Xunfei StarFire medizinisches Großmodell beherrscht die MedBench-Rangliste und stützt die Erneuerung der Basismedizin

Jun 18, 2025

Großmodell-Infervorsorge-Großrevolution! CMU und NVIDIA stoßen gemeinsam Multiverse mit übernatürlicher Geschwindigkeit paralleler Erstellung aus

Jun 18, 2025

Von kreativem Verständnis bis zu langer Betriebsdauer: Der BaiDu WenXin-Großmodell stärkt digitale Menschen und fördert die Veränderung des E-Commerce-Marketings

Jun 17, 2025

KI-Nachrichten

KI-Tagesübersicht

KI-Zeitleiste

Al hardware

Neueste Fälle

Bildersammlung

Videosammlung

Audiosammlung

Inhaltssammlung

Neueste Tutorials

KI-Produkt-Ranking

KI-Traffic-Wachstumsranking

KI-Traffic-Rückgangsranking

KI-Wochenranking

Vereinigte Staaten

China

Indien

Brasilien

Bildgenerierung

Persönlicher Assistent

Charaktergenerierung

Videogenerierung

KI-Projektranking

KI-Projektwachstumsranking

KI-Entwickler-Ranking

KI-Organisationsranking

Deepseek

TTS

LLM

ChatGPT

Überblick

Microsoft veröffentlicht FP8-LM Framework: 64% schnelleres & 42% speichereffizienteres Training großer Sprachmodelle

机器之心

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

Alibaba Ovis-U1 präsentiert mit einem Schock: Multimodale AI-Dreifachintegration Open-Source-Enthusiasmus für Entwickler weltweit

Einführung! Der weltweit erste billionenklasse-Modell für die Stromerzeugungsbranche, Qinyuan, erstmals präsentiert!

Tongyi Qianwen veröffentlicht ein multimodales einheitliches Verständnis- und Generationsmodell Qwen VLo

Neue Methode zur KI-Training! Anthropic investiert hohe Summen, um Bücher zu zerlegen und Daten zu wechseln. Streit über die Nutzung löst heftige Diskussionen aus

Kalifornischer Gerichtshof entscheidet, dass die Verwendung urheberrechtlich geschützter Inhalte zum Training von KI rechtmäßig ist

Huawei veröffentlicht die PanGu-Großmodell-Version 5.5: Alle fünf Basismodelle erhalten Aktualisierungen, das tiefgehende Denkmodell geht online

Baidu führt als erstes Unternehmen digitale Menschen-Interaktionsstudios mit zwei Figuren ein; die Multimodaltechnologie erreicht neue Höhepunkte durch das WordCloud Großmodell 4.5T

Xunfei StarFire medizinisches Großmodell beherrscht die MedBench-Rangliste und stützt die Erneuerung der Basismedizin

Großmodell-Infervorsorge-Großrevolution! CMU und NVIDIA stoßen gemeinsam Multiverse mit übernatürlicher Geschwindigkeit paralleler Erstellung aus

Von kreativem Verständnis bis zu langer Betriebsdauer: Der BaiDu WenXin-Großmodell stärkt digitale Menschen und fördert die Veränderung des E-Commerce-Marketings