蚂蚁集团の百灵大模型が本日、Ling-2.6-flashをオープンソース化し、BF16、FP8、INT4などの量子化バージョンを提供、AI導入のハードルを低減。総パラメータ104B、活性化パラメータ7.4Bで、匿名で国際評価プラットフォームで好成績を収め、中英切り替えとコード生成に多段階最適化を実施。....
アントグループの百灵大モデルシリーズが更新され、Ling-2.6-flashが正式公開。総パラメータ数104B、活性化パラメータ7.4Bで、BF16、FP8、INT4等多精度バージョンを提供し、異なるハードウェア環境に対応し導入障壁を低減。以前は「Elephant Alpha」としてOpenRouterで匿名テストされていた。....
国産AIチップと大規模モデルの連携最適化で重要な進展。Moore Threadsと硅基流动が国産GPU MTT S5000を基に、千億パラメータモデルDeepSeek V3 671Bへの深い適配に成功。FP8低精度推論技術により、単一カードで事前入力処理能力は4000トークン/秒以上、デコード処理能力は1000トークン/秒以上を達成し、推論速度は国際的な主要高性能AIアクセラレータに迫る水準に。....
アントグループがFP8低精度訓練を採用した兆パラメータ大規模モデル「Ling-1T」をオープンソース化。Ling2.0ファミリーに属し、汎用タスクに特化した速度と効率が特徴。....
DeepGEMMは、効率的なFP8行列乗算のためのCUDAライブラリであり、細粒度スケーリングと様々な最適化技術をサポートしています。
Alibaba
-
入力トークン/百万
出力トークン/百万
コンテキスト長
Tencent
$6
$18
256
Chatglm
128
T5B
Z-Image-Turboは、FP8 E5M2とE4M3FN形式で量子化された画像処理モデルで、元のTongyi-MAI/Z-Image-Turboモデルを最適化し、性能を維持しながらモデルサイズと推論リソースの要件を大幅に削減します。
silveroxides
black-forest-labs/FLUX.2-devをベースに最適化された画像生成モデルで、画像から画像への生成と編集タスクをサポートし、fp8_scaled量子化技術を採用して推論速度を向上させ、低VRAMのGPUでの使用に特に適しています。
kyr0
これはAppleシリコンチップデバイス用に最適化された自動音声認識モデルで、MLXフレームワークに変換し、FP8形式に量子化することで、Appleデバイス上での高速なエッジ上の音声文字起こしを実現します。このモデルは逐語的な精度に合わせて微調整されており、高精度の文字起こしが必要なシーンに特に適しています。
mratsim
GLM-4.5-Iceblink-v2-106B-A12B-FP8は、GLM-4.5-Iceblink-v2-106B-A12Bモデルをベースに、最先端の混合エキスパート量子化方法を用いてFP8量子化したバージョンです。このモデルは、ハードウェアFP8をサポートするAda、Hopper、またはBlackwellシリーズのGPUに特化して最適化されており、高品質な出力を維持しながら推論効率を大幅に向上させます。
Qwen
Qwen3-VL-2B-Instruct-FP8はQwenシリーズで最も強力なビジュアル言語モデルのFP8量子化バージョンで、ブロックサイズ128の細粒度fp8量子化を採用し、性能は元のBF16モデルとほぼ同じです。このモデルは卓越したテキスト理解と生成能力、深いビジュアル感知と推論能力、長いコンテキストサポート、および強化された空間とビデオ動的理解能力を備えています。
Qwen3-VL-32B-Instruct-FP8はQwenシリーズの中で最も強力なビジュアル言語モデルのFP8量子化バージョンで、ブロックサイズ128の細粒度fp8量子化を採用し、性能指標は元のBF16モデルとほぼ同じです。このモデルは卓越したテキスト理解と生成能力、深いビジュアル感知と推論能力、長いコンテキストサポート、強力な空間およびビデオ動的理解能力を備えています。
Qwen3-VL-32B-Thinking-FP8はQwenシリーズで最も強力な視覚言語モデルのFP8量子化バージョンで、ブロックサイズ128の細粒度fp8量子化技術を採用し、性能指標は元のBF16モデルとほぼ同じです。このモデルは、優れたテキスト理解と生成能力、深い視覚認識と推論能力、長文脈サポート、強力なエージェント対話能力を備えています。
RedHatAI
これはMeta Llama-3.1-8B-InstructモデルのFP8量子化バージョンです。重みと活性化値をFP8で量子化することで、ディスク容量とGPUメモリの要件を大幅に削減し、同時に良好なモデル性能を維持しています。
allenai
olmOCR-2-7B-1025のFP8量子化バージョンで、Qwen2.5-VL-7B-Instructをベースに微調整され、数式や表などの複雑なOCRシーンを処理するためのビジョン言語モデルです。
Qwen3-VL-30B-A3B-Thinking-FP8は通義シリーズで最も強力なビジュアル言語モデルのFP8量子化バージョンで、ブロックサイズ128の細粒度fp8量子化を採用し、性能指標は元のBF16モデルとほぼ同じです。このモデルは卓越したテキスト理解と生成能力、深いビジュアル感知と推論能力を備え、長いコンテキストとビデオ理解をサポートします。
Qwen3-VL-30B-A3B-Instruct-FP8は通義シリーズで最も強力なビジュアル言語モデルのFP8量子化バージョンで、ブロックサイズ128の細粒度FP8量子化を採用し、性能は元のBF16モデルとほぼ同じです。このモデルは卓越したテキスト理解と生成能力、深いビジュアル感知と推論能力、長文脈サポート、強力なエージェント対話能力を備えています。
Qwen3-VL-235B-A22B-Thinking-FP8は通義シリーズで最も強力なビジュアル言語モデルのFP8量子化バージョンで、ブロックサイズ128の細粒度fp8量子化を採用し、性能指標は元のBF16モデルとほぼ同じです。このモデルは卓越したテキスト理解と生成能力、深いビジュアル感知と推論能力、長いコンテキストサポート、強力なエージェント対話能力を備えています。
Qwen3-VL-235B-A22B-Instruct-FP8は通義シリーズで最も強力なビジュアル言語モデルのFP8量子化バージョンで、ブロックサイズ128の細粒度fp8量子化を採用し、性能は元のBF16モデルとほぼ同じです。このモデルは卓越したテキスト理解と生成能力、深いビジュアル感知と推論能力、長いコンテキストサポート、強力な空間とビデオ動的理解能力を備えています。
ibm-granite
Granite 4.0 H-Small (FP8)は、IBMが開発したGraniteシリーズの言語モデルの小型FP8量子化バージョンで、専門的、正確、かつ安全な応答を提供するために設計されています。このモデルはFP8精度フォーマットを採用し、性能を維持しながら推論効率を最適化しています。
これはNVIDIA-Nemotron-Nano-9B-v2モデルのFP8動的量子化バージョンで、重みと活性化をFP8データ型に量子化することで最適化を実現し、ディスクサイズとGPUメモリ要件を約50%削減し、同時に優れたテキスト生成性能を維持します。
これはQwen3-VL-235B-A22B-Instructの量子化バージョンで、重みと活性化値をFP8データ型に量子化することで、ディスク容量とGPUメモリの要件を約50%削減します。テキスト、画像、ビデオの入力をサポートし、テキストを出力し、さまざまな自然言語処理とマルチモーダルタスクに適しています。
Qwen3-VL-235B-A22B-Instruct-FP8-dynamicはQwen3-VL-235B-A22B-Instructの量子化バージョンで、重みと活性化をFP8データ型に量子化することで、ディスクサイズとGPUメモリの要件を大幅に削減し、同時に高いモデル性能を維持しています。
TheClusterDev
これはQwen3-Next-80B-A3B-InstructモデルのFP8量子化バージョンで、vLLMフレームワークを通じてサポートされ、モデルの品質を維持しながらモデルサイズを大幅に削減し、推論効率を向上させます。
nvidia
これはNVIDIAがアリババのQwen3-14BモデルをFP8で量子化したバージョンで、最適化されたTransformerアーキテクチャを採用し、131Kのコンテキスト長をサポートし、さまざまなAIアプリケーションシナリオに適しています。
NVIDIA Qwen3-8B FP8は、アリババのQwen3-8Bモデルの量子化バージョンで、最適化されたTransformerアーキテクチャを採用し、自己回帰型言語モデルに属します。このモデルはFP8量子化技術によって最適化され、NVIDIA GPU上で効率的な推論を実現でき、商用および非商用用途に対応しています。