シリコンベースの流動性SiliconCloudプラットフォームのDeepSeek-R1&V3 APIが、本日よりバッチ推論(Batch Inference)に対応しました。ユーザーはSiliconCloudにバッチAPIリクエストを送信することで、リアルタイム推論速度の制限を受けずに、24時間以内にタスク完了が可能です。リアルタイム推論と比較して、DeepSeek-V3のバッチ推論価格は50%割引となり、3月11日から3月18日まではDeepSeek-R1の価格が75%割引となります。
シリコンクラウド(SiliconCloud)プラットフォームは、本日よりDeepSeek-R1&V3 APIのバッチ推論(Batch Inference)機能を正式に提供開始します。ユーザーはバッチAPIを使用してSiliconCloudにリクエストを送信し、リアルタイム推論速度の制限から解放され、最大24時間以内に大規模データ処理タスクを完了できます。今回のアップデートの大きな特徴は、価格の大幅な引き下げです。DeepSeek-V3のバッチ推論価格はリアルタイムと比べて
Cerebras SystemsがCerebras Inferenceを発表。世界最速のAI推論サービスと謳い、GPUベースの従来システムと比較して20倍の性能向上と大幅なコスト削減を実現。特に大規模言語モデル(LLM)の処理に最適です。8Bバージョンでは毎秒1800トークン、70Bバージョンでは毎秒450トークンを処理し、NVIDIA GPUソリューションをはるかに凌駕する速度とコスト効率を実現します。Cerebras Inferenceは…
高速ローカルベクトル推論ソリューション
世界最速のAIリアルタイム推論ソリューション。
inferencerlabs
Kimi - K2 - Thinking 3.825bit MLXは、テキスト生成に使用される量子化モデルで、異なる量子化方式を通じてテストで異なる困惑度の結果を得ています。そのうち、q3.825ビット量子化では1.256の困惑度を達成できます。
MLXライブラリに基づいて実装されたテキスト生成モデルで、複数の量子化方式による推論をサポートし、分散計算能力を備え、Appleのハードウェア環境で効率的に動作します。
Qwen3-Coder-480B-A35B-Instructは4800億パラメータの大型コード生成モデルで、8.5ビット量子化をサポートし、MLXフレームワークに基づいて最適化されています。このモデルはコード生成タスクに特化して設計されており、十分なメモリを搭載したデバイス上で効率的に動作します。
MiniMax - M2 6.5ビットMLXは、MiniMax - M2モデルに基づく量子化バージョンで、テキスト生成タスクで優れた性能を発揮し、複数の量子化レベルをサポートします。そのうち、q6.5ビット量子化はテストで1.128の困惑度を達成し、q8と同等です。
GLM-4.6はMLXフレームワークに基づく効率的なテキスト生成モデルで、6.5bit量子化技術を採用し、高品質なテキスト生成能力を維持しながら、計算リソースの要求を大幅に削減します。このモデルは単一のM3 Ultraデバイスで実行でき、効率的なテキスト生成タスクをサポートします。
Qwen3-Coder-480B-A35B-InstructはMLXライブラリに基づくテキスト生成モデルで、コード生成タスクに特化して最適化されています。このモデルは複数の量子化レベルを提供し、6.5ビット量子化では8ビットと同等の困惑度を達成し、高品質な出力を維持しながらリソース要件を大幅に削減します。
moonshotai/Kimi-K2-Instruct-0905基礎モデルに基づき、改良版MLX 0.26を使用して動的量子化を行った大規模言語モデルです。革新的な動的量子化戦略により、優れた性能を維持しながらハードウェア要件を大幅に削減し、単一のM3 Ultraデバイスで効率的に実行できます。
inference-net
Schematron-8Bは、Inference.netが開発した長いコンテキストを扱う抽出モデルで、ノイズの多いHTMLをカスタムパターンに合致したクリーンな型付きJSONに変換することに特化しています。このモデルは、最大128Kトークンの長いHTMLを処理し、指定されたJSONパターンに100%合致する有効なJSONデータを出力することができます。
Schematron-3BはInference.netが開発した長いコンテキストを扱う抽出モデルで、ノイズの多いHTMLをカスタムパターンに合致したクリーンで型付けされたJSONに変換することに特化しています。このモデルは、ウェブページの収集、データの取り込み、および任意のページを構造化レコードに変換するために特別にトレーニングされており、データ処理と分析に効率的な解決策を提供します。
MLXライブラリに基づいて実装された120BパラメータのGPTモデルで、6.5ビット量子化技術を採用し、元の性能に近い状態を維持しながら大幅にメモリ使用量を削減し、効率的なテキスト生成タスクに特化しています。
OpenAI GPT-OSS-20Bモデルに基づく6.5ビット量子化バージョンで、MLXライブラリを使用して最適化処理を行い、8ビット量子化と同等の性能を維持しながら大幅にメモリ使用量を削減し、効率的なテキスト生成タスクに適しています。
Kimi-K2 Dynamic MLXはmoonshotai/Kimi-K2-Instructモデルに基づいて構築されたテキスト生成プロジェクトで、最適化されたMLXライブラリを用いて高効率な量子化性能を実現しています。このモデルは単一のM3 Ultra 512GB RAMマシン上で動作し、複数の量子化方式をサポートし、テストで優れた困惑度指標を示しまし。
amd
PARD is a high-performance speculative decoding method that can convert autoregressive draft models into parallel draft models at low cost, significantly accelerating the inference of large language models.
InferenceLab
LLaMA 3.2 3B Instructをファインチューニングした医療分野専用モデル。医療Q&A、症状チェック、患者教育などのタスクに適しています
Blueway
Swin-Tinyアーキテクチャに基づくゼロショット物体検出モデルで、フランス語と英語をサポートし、様々なシーンの物体検出タスクに適しています。
InferenceIllusionist
Excalibur-7b-DPOはExcalibur-7bベースモデルを直接選好最適化(DPO)でファインチューニングした大規模言語モデルで、対話品質と視覚アプリケーションシーンのパフォーマンス向上に焦点を当てています。
unity
Whisper TinyはOpenAIが開発した軽量音声文字起こしモデルで、リアルタイム音声認識タスクに適しています。
Auto Causal Inferenceは、大規模言語モデル(LLM)を利用して自動的に因果推論を行うプロジェクトです。ユーザーは介入変数と結果変数を指定するだけで、システムが自動的に変数の役割識別、因果グラフの構築、効果推定、モデル検証などの全プロセスの分析を完了します。プロジェクトは2種類のエージェントアーキテクチャ(LangGraphとMCP)を提供してこの機能を実現し、特に銀行シナリオの因果問題分析に適しています。