OpenAIがGPT-5.3-Codexというコーディングモデルをリリースしました。パフォーマンスと推論能力が大幅に向上し、実行速度は25%高速化され、複雑な長期的なタスクを効率的に処理できます。
OpenAIはGPT-5.2シリーズの推論速度を40%向上させたと発表。推論スタックの最適化により、モデル構造と重みは変更せず、遅延を低減して応答を高速化。....
百度インテリジェントクラウドは内部戦略会議で、2026年のAI関連収益成長目標を100%から大幅に引き上げて200%とし、AIクラウド市場のリードを積極的に狙う姿勢を示した。その裏付けは、市場の潜在力に対して楽観的な予測に基づいており、IDCの予測によると、世界のAIクラウド市場規模は2030年に4000億ドルを超える見込みである。
上海交通大学と小米が共同で、世界初の軽合金AI開発プラットフォームを発表。DeepLight大モデルとAgentMatインテリジェントエージェントを活用し、材料開発の全プロセスを自動化。開発期間を従来の10分の1に大幅短縮。....
エージェントの動作を10倍高速化し、トークンを100倍節約し、DOM構造とアクションガイドを提供します。
TurboDiffusion: ビデオ生成の高速化フレームワーク、速度は100?200倍向上。
AI駆動のスプレッドシートエディターで、生産性を向上させ、分析を高速化し、作成を最適化します。
AI 画像および動画生成を高速化し、創造力を高めます。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Xai
$1.4
$3.5
2k
$0.7
$2.8
Bytedance
$0.15
$1.5
256
$10.5
Openai
$8.75
$70
400
Tencent
$0.8
$2
32
-
Anthropic
$21
$105
200
Stepfun
Chatglm
128
$1
$38
$120
16
$1.75
$5.6
$28
Moonshot
$16
262
$8
$32
Zigeng
dParallelは大規模言語モデルに対する学習可能な並列デコード手法で、モデルの内在的な並列性を掘り起こすことで高速サンプリングを実現します。この手法はデコードステップを大幅に削減し、同時にモデルの性能を維持し、GSM8KやMBPPなどのベンチマークテストで8.5 - 10.5倍の高速化を達成します。
unsloth
Qwen3-Next-80B-A3B-Instructは、アリババの通義千問チームによって開発された最新世代の大規模言語モデルです。革新的な混合注意力機構と高疎なエキスパート混合アーキテクチャを採用し、総パラメータ数を80Bに保ちながら3Bのパラメータのみを活性化させ、効率的なコンテキストモデリングと推論の高速化を実現しています。ネイティブで262Kのコンテキスト長をサポートし、1Mトークンまで拡張可能です。
pytorch
これはPyTorchチームがtorchaoを使用して量子化したQwen3-8Bモデルで、int4の重みのみの量子化とAWQアルゴリズムを採用しています。このモデルはH100 GPU上で53%のVRAM使用量を削減し、1.34倍の高速化を実現し、mmlu_abstract_algebraタスクに特化したキャリブレーション最適化が行われています。
jet-ai
Jet-Nemotron-4BはNVIDIAが開発した高効率混合アーキテクチャの言語モデルで、事後ニューラルアーキテクチャサーチとJetBlock線形注意力モジュールという2つの核心的な革新技術に基づいて構築されています。性能面では、Qwen3、Qwen2.5、Gemma3、Llama3.2などのオープンソースモデルを上回り、H100 GPU上で最大53.6倍の生成スループットの高速化を実現しています。
Hume-vla
Hume-System2は、デュアルシステムのビジョン - 言語 - 行動(VLA)モデルのシステム2の事前学習重みで、システム2の学習を高速化し、ロボット分野の関連研究やアプリケーションにサポートを提供します。
ConfidentialMind
これはOpenGVLab/InternVL3-38BのFP8静的量子化バージョンで、vLLMを使用した高性能推論に最適化されており、ビジュアル言語タスクで約2倍の高速化を実現し、同時に精度の損失は極めて少ないです。
SeerAttention
QwQ-32Bモデルに注意ゲート(AttnGates)重みのアダプターを導入し、動的ブロックレベルの疎性により長文脈計算を高速化
yresearch
階層蒸留(SwD)は、生成プロセスにおいて空間解像度を段階的に増加させることで拡散モデル(DMs)を高速化する新しいフレームワークです。
階層的蒸留(SwD)は、生成過程で空間解像度を段階的に増やすことで拡散モデル(DMs)を高速化する全く新しいフレームワークです。
Luo-Yihong
TDMは軌跡分布マッチング技術を用いて効率的な少ステップ拡散を実現するモデルで、4ステップの推論で高品質な動画を生成でき、元のモデルに比べて25倍の高速化を実現しつつ性能を損ないません。
RedHatAI
これはDeepSeek-R1-Distill-Llama-70BのINT4量子化バージョンで、重み量子化技術を通じてモデルサイズを約75%削減し、同時に推論性能を大幅に向上させ、効率的なデプロイと推論の高速化をサポートします。
これはDeepSeek-R1-Distill-Qwen-32Bの量子化バージョンで、重みと活性化をFP8データ型に量子化することで、ディスクサイズとGPUメモリ要件を約50%削減し、同時に推論性能を大幅に向上させ、最大1.7倍の高速化を実現します。
jarvisvasu
Qwen2.5-VL-7B-Instructモデルをファインチューニングしたマルチモーダルモデルで、Unsloth高速化フレームワークとTRLライブラリを使用し、速度が2倍向上
Synthyra
FastESM2はHuggingfaceと互換性のあるESM2のプラグイン版で、新版PyTorchの注意力実装で書き直されており、性能を損なうことなくタンパク質言語モデルの学習と推論プロセスを大幅に高速化できます。
FastVideo
FastHunyuanはHunyuanVideoの高速化バージョンで、わずか6ステップの拡散サンプリングで高品質な動画を生成可能。オリジナル版と比較して約8倍の速度向上を実現。
naver
COCOMは、長いコンテキストを少数のコンテキスト埋め込みに圧縮することで、質問応答タスクの生成時間を高速化する効率的なコンテキスト圧縮手法です。
sdadas
sdadas/polish-roberta-large-v2を改良したポーランド語再ランキングモデル、RankNet損失関数で訓練、Flash Attention 2高速化対応
DarkMoonDragon
プラグアンドプレイ可能なLoRAファインチューニングモデルで、画像生成を大幅に高速化しディテール表現を強化
ByteDance
Hyper-SDは先進的な拡散モデル高速化技術で、FLUX.1-dev、SD3、SDXL、SD1.5などの多様なベースモデルの高速推論をサポートします。
briaai
BRIA 2.3高速版はBRIA 2.3のLCM高速化バージョンで、2.Xシリーズにおける品質と速度の最適なバランスを実現しています。このモデルは合法的なデータに基づいて特別に訓練され、技術革新と倫理的責任、法的保証を完璧に融合させています。
ArXiv MCP Serverは、AIアシスタントにarXiv論文の検索とアクセス機能を提供するミドルウェアサービスです。Model Context Protocol (MCP)を通じて論文の検索、ダウンロード、内容の読み取り機能を実現し、ローカル保存によるアクセスの高速化をサポートします。
Unsloth MCPサーバーは、大規模言語モデルを効率的に微調整するためのサービスで、Unslothライブラリを基に2倍の高速化と80%のメモリ節約を実現し、複数のモデルと量子化技術をサポートしています。