小米は7Bパラメータのマルチモーダルモデル「Xiaomi-MiMo-VL-Miloco-7B-GGUF」とスマートホームマネージャー「Xiaomi Miloco」を発表。米家カメラによるリアルタイムの行動・ジェスチャー認識でスマート家電を自動連携。Home Assistant対応、NVIDIA GPU/Dockerで商用利用不可のオープンソースとして提供。....
イーロン・マスクは、xAIが150億ドルの資金調達を完了したという噂を否定しています。以前、CNBCはxAIがGPUの計算能力を購入してGrokモデルを訓練中であり、評価額が2000億ドルに達する可能性があると報じました。AIの資金調達ブームの中で、このニュースは注目を集めています。OpenAIが最近66億ドルを調達し、評価額が5000億ドルになったのと比較されます。
騰訊2023年第3四半期決算は、収益と利益が増加した一方、資本支出が予想を下回り、AIプロジェクトへの注目を集めた。劉熾平社長はGPU在庫が十分で、内部需要、特に「元宝」プロジェクトをサポートできると説明。....
Maya Researchが発表したMaya1テキストから音声への変換モデルは、30億パラメータを備え、単一のGPUでリアルタイムで動作可能です。このモデルは自然言語の説明およびテキスト入力に基づき、制御可能な表現力豊かな音声を生成し、年齢や訛り、またはキャラクターの特徴などを指定して人間の感情と声の詳細を正確に模倣します。
B200、H200、RTX4090、H100などさまざまなモデルを含む高性能GPUのレンタルサービスを提供しています。即時配信、明確な価格設定。
消費用のGPUで先進的なMoE技術を使用してテキストや画像を720Pの動画に変換します。
GPU演算クラウドサービスに特化した、効率的な演算ソリューションを提供しています。
Intel Arc GPUベースのAI画像生成とチャットボットアプリケーション。
nvidia
-
入力トークン/百万
出力トークン/百万
128k
コンテキスト長
xai
$21.6
$108
1M
mistral
$0.72
$2.16
256k
ai21-labs
$3.53
$7.99
260k
258k
Qwen
Qwen3 - VLは通義シリーズで最も強力なビジュアル言語モデルで、ハイブリッドエキスパートモデルアーキテクチャ(MoE)を採用し、GGUF形式の重みを提供し、CPU、GPUなどのデバイスで効率的な推論をサポートします。モデルは、テキスト理解、ビジュアル感知、空間理解、動画処理などの面で全面的にアップグレードされています。
Qwen3-VL-2B-ThinkingはQwenシリーズの中で最も強力なビジュアル言語モデルの1つで、GGUF形式の重みを使用し、CPU、NVIDIA GPU、Apple Siliconなどのデバイスで効率的な推論をサポートします。このモデルは、優れたマルチモーダル理解と推論能力を備え、特にビジュアル感知、空間理解、エージェントインタラクション機能が強化されています。
Qwen3-VLは通義シリーズで最も強力な視覚言語モデルで、優れたテキスト理解と生成能力、深い視覚感知と推論能力、長文脈サポート、強力な空間およびビデオ動的理解能力、ならびにエージェントインタラクション能力を備えています。このリポジトリはGGUF形式の重みを提供し、CPU、GPUなどのデバイスでの効率的な推論をサポートします。
Qwen3-VL-2B-Instruct-GGUFは通義千問シリーズのマルチモーダルビジュアル言語モデルのGGUF量子化バージョンで、20億のパラメータを持ち、画像理解とテキスト生成のシームレスな融合をサポートし、CPUやGPUなどのデバイスで効率的に動作します。
spooknik
これはUltraReal Fine-TuneモデルのSVDQ量子化バージョンで、DanrisiがFluxをベースに開発したテキストから画像を生成するモデルです。このバージョンは複数の量子化方案を提供し、異なるGPUハードウェアに対応しており、特に非BlackwellシリーズとBlackwellシリーズのGPUに対して最適化されています。
sanchezalonsodavid17
これはDeepSeek-OCRのモーダルバランス量子化(MBQ)バリエーションで、ビジュアルエンコーダに4ビットNF4量子化を採用することでメモリ使用量を削減し、同時にプロジェクターと言語/デコーダのBF16精度を維持し、一般的なGPUでのローカルデプロイメントと高速なCPU試験が可能です。
TheStageAI
TheWhisper-Large-V3はOpenAI Whisper Large V3モデルの高性能ファインチューニング版で、TheStage AIによって多プラットフォーム(NVIDIA GPUとApple Silicon)のリアルタイム、低遅延、低消費電力の音声テキスト変換推論用に最適化されています。
RedHatAI
Llama-4-Maverick-17B-128E-Instruct-NVFP4は、FP4量子化処理を施された多言語大規模言語モデルで、Meta-Llama-3.1アーキテクチャに基づいており、商業および研究用途に特化して設計されています。このモデルは、重みと活性化をFP4データ型に量子化することで、ディスク容量とGPUメモリの要件を大幅に削減しながら、良好な性能を維持しています。
これはProject0モデルのSVDQ量子化バージョンで、Flux DevとFlux Kreaに基づいて作成されたテキストから画像へのモデルです。このモデルは複数の量子化形式を提供し、さまざまなGPUアーキテクチャに対して最適化されており、INT4とFP4量子化バージョンを含み、Blackwellおよび非Blackwell GPUユーザーに適しています。
kenpath
Svara-TTSはインド語を対象としたオープンソースの多言語テキスト読み上げモデルで、19種類の言語(18種類のインド語 + インド英語)をサポートしています。このモデルはOrpheusスタイルの離散音声トークン方式に基づいて構築され、一般的なGPU/CPU上で明瞭で表现力に富み、低遅延の音声合成を実現することを目的としています。
Jalea96
DeepSeek-OCR-bnb-4bit-NF4は、deepseek-ai/DeepSeek-OCRの4ビットNF4量子化バージョンで、bitsandbytesを使用して作成されました。高精度を維持しながら、VRAM使用量を大幅に削減(最大8GBまで)し、消費者向けGPUに最適です。
gravitee-io
これは、短いユーザープロンプト(≤64トークン)を圧縮するために特別に設計されたシーケンスツーシーケンスモデルで、最新のGPUでは100ミリ秒未満の低遅延で動作し、大容量の大規模言語モデルの軽量な前処理段階として機能します。
J1BベースのFlux.1-Devを開発元とするテキストから画像生成モデルの量子化バージョンで、SVDQuant技術を用いて最適化され、INT4とFP4の2種類の量子化形式を提供し、異なるGPUアーキテクチャのユーザーに適しています。
PixelWaveはFlux.1をベースに開発されたテキストから画像生成モデルで、Nunchaku量子化(SVDQ)による最適化を施し、さまざまなGPU構成のユーザーに効率的な画像生成ソリューションを提供します。
これはQwen3-235B-A22B-Instruct-2507モデルの量子化バージョンで、重みと活性化をFP4データ型に量子化することで、ディスクサイズとGPUメモリ要件を大幅に削減し、同時に元のモデルに近い性能を維持しています。
CenKreChro-SVDQは、ChromaとFlux Kreaを統合したテキストから画像生成モデルの量子化バージョンで、SVDQuant技術を用いて最適化され、INT4とFP4の2種類の量子化形式を提供し、それぞれ異なる世代のGPUハードウェアに適しています。
これはMeta Llama-3.1-8B-InstructモデルのFP8量子化バージョンです。重みと活性化値をFP8で量子化することで、ディスク容量とGPUメモリの要件を大幅に削減し、同時に良好なモデル性能を維持しています。
Downtown-Case
GLM 4.6は、128GBメモリ+単GPU構成向けに最適化された量子化モデルで、IQ_K量子化方式を採用し、主流のllama.cppと比較して同じサイズでより良い品質と性能を提供します。このモデルはik_llama.cppと一緒に使用する必要があり、128GBデュアルチャネルDDR5メモリ、単CCD Ryzen 7000プロセッサ+単体3090グラフィックカードの構成で、テキスト生成速度は約1秒あたり6.8トークンに達します。
これはNVIDIA-Nemotron-Nano-9B-v2モデルのFP8動的量子化バージョンで、重みと活性化をFP8データ型に量子化することで最適化を実現し、ディスクサイズとGPUメモリ要件を約50%削減し、同時に優れたテキスト生成性能を維持します。
bartowski
これはTheDrummer/Snowpiercer-15B-v3モデルのGGUF量子化バージョンで、高品質から低メモリ使用量までのさまざまな量子化オプションを提供し、CPUとGPUでの効率的な実行をサポートしています。モデルはllama.cppを使用して量子化され、さまざまなハードウェアに対して最適化されています。
DiffuGenは高度なローカル画像生成ツールで、MCPプロトコルを統合し、複数のAIモデル(FluxやStable Diffusionシリーズを含む)をサポートし、開発環境で直接高品質な画像を生成できます。柔軟な設定オプション、複数GPUのサポートを提供し、MCPプロトコルを通じて複数のIDEと統合でき、同時に外部呼び出し用のOpenAPIインターフェースも提供します。
Hyperbolic GPU MCPサーバーはHyperbolic GPUクラウドとやり取りするツールで、プロキシとLLMがGPUを表示、レンタルし、SSH接続を通じてGPU加速されたワークロードを実行できます。
このプロジェクトは、GraphistryのGPU加速グラフ可視化プラットフォームとモデル制御プロトコル(MCP)を統合し、AIアシスタントや大規模言語モデルに高度なグラフ分析機能を提供し、複数のデータフォーマットとネットワーク分析機能をサポートします。
VkRunnerは、Piglitのshader_runnerに基づくVulkanシェーダーテストツールで、Piglitのshader_test形式にできるだけ似たテストスクリプトをサポートします。GLSLまたはSPIR - Vで記述されたシェーダーをサポートし、描画、コンピュート、プローブ検出などの機能を含む豊富なテストコマンドを提供して、シェーダーの動作を検証します。
双曲GPU MCPサーバーは、Node.jsベースのツールで、APIを介して双曲クラウドプラットフォーム上のGPUリソースを管理およびレンタルできます。利用可能なGPUの表示、インスタンスのレンタル、SSH接続、およびGPUワークロードの実行などの機能が含まれています。
Unsloth MCPサーバーは、大規模言語モデルを効率的に微調整するためのサーバーで、最適化アルゴリズムと4-bit量子化技術を通じて、トレーニング速度を2倍に向上させ、GPUメモリを80%節約し、複数の主流モデルをサポートします。