グーグルは「TorchTPU」計画を推進しており、PyTorchフレームワークに対するTPUチップの互換性を向上させることで、開発者がNVIDIA GPUからグーグルのTPUに移行する際のコストを低下させることが目的です。この動きは、AIチップ分野におけるNVIDIAの支配的地位を挑戦し、PyTorchとNVIDIA CUDAの深い結合を破るものです。
Starcloud社は、NVIDIA H100 GPUを搭載した衛星を用いて、宇宙空間でnano-GPTモデルのトレーニングに成功し、Gemmaモデルの推論を完了しました。これは宇宙データセンターの発展における重要な進展を示しています。
Runwayが最新動画生成モデルGen-4.5を発表。クリエイターや企業向けに設計され、全サブスク層で利用可能に。テキストから動画への変換性能で競合を上回り、NVIDIAの高性能GPUを活用した現在最強のモデルと評価されている。....
NVIDIAとSynopsysが戦略的提携を発表。GPU加速計算・AI・デジタルツイン技術を統合し、設計エンジニアリング能力を強化。NVIDIAは20億ドルでSynopsys株を取得。CUDAプラットフォームとEDAツールの連携により開発プロセスを加速。....
NVIDIA? GeForce RTX? 5090は、これまでにないほどパワフルなGeForce GPUであり、ゲーマーとクリエイターに革新的な能力をもたらします。
NVIDIA GPU上でLLM推論を加速する革新的技術
AIおよびHPCアプリケーションを加速するNVIDIA H200 NVL GPU
NVIDIAディープラーニングインスティテュート(DLI)のティーチングキットは、教育者がGPUを活用した授業を展開するための支援ツールです。
Openai
$2.8
入力トークン/百万
$11.2
出力トークン/百万
1k
コンテキスト長
-
Bytedance
$0.8
$2
128
Alibaba
$0.4
$8.75
$70
400
$1.75
$14
$0.35
64
$0.63
$3.15
131
Huawei
32
$1.8
$5.4
16
Tencent
$17.5
$56
$0.7
$2.4
$9.6
Google
$0.14
$0.28
Qwen
Qwen3-VL-2B-ThinkingはQwenシリーズの中で最も強力なビジュアル言語モデルの1つで、GGUF形式の重みを使用し、CPU、NVIDIA GPU、Apple Siliconなどのデバイスで効率的な推論をサポートします。このモデルは、優れたマルチモーダル理解と推論能力を備え、特にビジュアル感知、空間理解、エージェントインタラクション機能が強化されています。
TheStageAI
TheWhisper-Large-V3はOpenAI Whisper Large V3モデルの高性能ファインチューニング版で、TheStage AIによって多プラットフォーム(NVIDIA GPUとApple Silicon)のリアルタイム、低遅延、低消費電力の音声テキスト変換推論用に最適化されています。
RedHatAI
これはNVIDIA-Nemotron-Nano-9B-v2モデルのFP8動的量子化バージョンで、重みと活性化をFP8データ型に量子化することで最適化を実現し、ディスクサイズとGPUメモリ要件を約50%削減し、同時に優れたテキスト生成性能を維持します。
nvidia
NVIDIA Qwen2.5-VL-7B-Instruct-FP4は、アリババのQwen2.5-VL-7B-Instructモデルの量子化バージョンで、最適化されたTransformerアーキテクチャを採用し、マルチモーダル入力(テキストと画像)をサポートし、さまざまなAIアプリケーションシナリオに適しています。このモデルはTensorRT Model Optimizerを使用してFP4量子化され、NVIDIA GPU上で効率的な推論性能を提供します。
NVIDIA Qwen3-14B FP4モデルは、アリババのQwen3-14Bモデルの量子化バージョンで、FP4データ型を用いて最適化され、TensorRT-LLMによる効率的な推論が可能です。このモデルはNVIDIA GPU加速システム向けに設計されており、AIエージェントシステム、チャットボット、RAGシステムなどの様々なAIアプリケーションシーンに適しており、世界中での商用および非商用利用がサポートされています。
NVIDIA Qwen3-14B FP4モデルは、アリババクラウドのQwen3-14Bモデルの量子化バージョンで、最適化されたTransformerアーキテクチャを採用した自己回帰型言語モデルです。このモデルはTensorRT Model Optimizerを使用して量子化され、重みと活性化をFP4データ型に量子化することで、NVIDIA GPU加速システム上で高効率な推論を実現します。
NVIDIA Qwen3-8B FP8は、アリババのQwen3-8Bモデルの量子化バージョンで、最適化されたTransformerアーキテクチャを採用し、自己回帰型言語モデルに属します。このモデルはFP8量子化技術によって最適化され、NVIDIA GPU上で効率的な推論を実現でき、商用および非商用用途に対応しています。
jet-ai
Jet-Nemotron-4BはNVIDIAが開発した高効率混合アーキテクチャの言語モデルで、事後ニューラルアーキテクチャサーチとJetBlock線形注意力モジュールという2つの核心的な革新技術に基づいて構築されています。性能面では、Qwen3、Qwen2.5、Gemma3、Llama3.2などのオープンソースモデルを上回り、H100 GPU上で最大53.6倍の生成スループットの高速化を実現しています。
ESM - 2はNVIDIAがTransformerEngineを基に最適化したタンパク質言語モデルで、アミノ酸配列からタンパク質の3D構造を予測できます。このモデルはマスク言語モデリングの目標で訓練され、NVIDIA GPU上でより高速な訓練と推論速度を持ちます。
NVIDIA DeepSeek R1 FP4 v2は、DeepSeek AIのDeepSeek R1モデルに基づいてFP4量子化を行ったテキスト生成モデルで、最適化されたTransformerアーキテクチャを採用しており、商用および非商用用途に使用できます。このモデルはTensorRT Model Optimizerを通じて量子化され、FP8バージョンと比較してディスク容量とGPUメモリの要件が大幅に削減されています。
NVIDIA DeepSeek-R1-0528-FP4 v2はDeepSeek R1 0528モデルの量子化バージョンで、最適化されたTransformerアーキテクチャを採用し、自己回帰型言語モデルです。FP4量子化最適化により、ディスク容量とGPUメモリの要求量を削減し、同時に高い推論効率を維持します。
NVIDIA Qwen3-30B-A3B FP4モデルは、アリババクラウドのQwen3-30B-A3Bモデルの量子化バージョンで、最適化されたTransformerアーキテクチャを採用し、自己回帰型言語モデルです。このモデルはTensorRT Model Optimizerを使用してFP4量子化を行い、各パラメータのビット数を16ビットから4ビットに減らし、ディスクサイズとGPUメモリ要件を約3.3倍削減しながら、高いパフォーマンスを維持します。
NVIDIA Qwen3-235B-A22B FP4モデルは、アリクラウドのQwen3-235B-A22Bモデルの量子化バージョンで、最適化されたTransformerアーキテクチャを採用した自己回帰型言語モデルです。このモデルは、FP4量子化技術を用いてパラメータを16ビットから4ビットに削減し、ディスク容量とGPUメモリの要件を約3.3倍削減すると同時に、高い精度と性能を維持します。
NVIDIA Qwen3-235B-A22B FP8モデルは、アリクラウドのQwen3-235B-A22Bモデルの量子化バージョンで、最適化されたTransformerアーキテクチャを採用した自己回帰型言語モデルです。このモデルは、FP8量子化技術により、ディスク容量とGPUメモリの要件を大幅に削減しながら、高い推論精度を維持し、さまざまなAIアプリケーションシナリオに適しています。
NVIDIA DeepSeek-R1-0528-FP4はDeepSeek R1 0528モデルの量子化バージョンで、最適化されたTransformerアーキテクチャを採用し、重みと活性化値をFP4データ型に量子化することで、ディスク容量とGPUメモリの要件を大幅に削減し、TensorRT-LLM推論エンジンをサポートして効率的な推論を実現します。
NVIDIA DeepSeek R1 FP4モデルは、DeepSeek AIのDeepSeek R1モデルの量子化バージョンで、最適化されたTransformerアーキテクチャを使用した自己回帰型言語モデルです。このモデルは、FP4量子化技術を通じてパラメータのビット数を8ビットから4ビットに減らし、ディスクサイズとGPUメモリ要件を約1.6倍削減すると同時に、高い精度性能を維持します。
microsoft
Phi-3 Smallは70億パラメータの軽量級最先端オープンソースモデルで、NVIDIA GPU向けに最適化されたONNXバージョンであり、8Kの文脈長をサポートし、強力な推論能力を備えています。