DeepSeekの研究では、モデルの規模を単に拡大するのではなく、ニューラルネットワークアーキテクチャを最適化することで、大規模言語モデルの推論能力を顕著に向上させることができることを明らかにした。その「多様体制約超接続」技術は、既存のアーキテクチャを微調整することで、パラメータを無限に増やすことなくAIの発展に新しい道を開いた。
バイトダンスが火山エンジン大会で豆包大モデル1.8と動画生成モデルSeedance 1.5 Proを発表。企業向け「AI節約プラン」も導入。豆包は推論・多言語性能を向上、Seedanceは画質と生成時間を最適化。....
AIモデルは科学的推論能力の評価において重要な進展を遂げ、国際数学・情報オリンピックコンテストで優れたパフォーマンスを発揮しています。GPT-5などの先進的なモデルの発展に伴い、AIは実際の科学研究のプロセスを効果的に加速しており、強力な仮説の提示、テストと修正および多分野にわたる統合能力を示しています。
小米がオープンソース大モデルのMiMo-V2-Flashを発表しました。高速で効率的な性能を特長とし、推論やコード生成などのタスクで優れた成果を収めています。応答速度は多数の有名な中国国内モデルを上回っています。このモデルはスパース活性化アーキテクチャを採用しており、パラメータ数は3090億に達し、MITライセンスにより重みとコードがオープンソースされています。
Aya Vision 32Bは、OCR、画像記述、視覚推論など、多様な用途に適した多言語対応のビジュアル言語モデルです。
8億パラメーターの多言語視覚言語モデルで、OCR、画像キャプション、視覚推論などの機能をサポートしています。
多様なモダリティに対応する大規模言語モデルで、多様なモダリティ推論能力を向上させます。
軽量で多言語対応のAIモデル。長文生成と推論をサポートします。
Openai
$2.8
入力トークン/百万
$11.2
出力トークン/百万
1k
コンテキスト長
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
Baidu
128
$6
$24
$2
$20
$4
$16
Dogacel
これは、元のDeepSeek-OCRモデルをベースにした最適化バージョンで、Appleのメタルパフォーマンスシェーダー(MPS)とCPUでの推論をサポートするOCRモデルです。画像からテキストを抽出し、構造化された形式に変換することができ、多言語のドキュメント認識をサポートします。
ai-sage
GigaChat3-10B-A1.8BはGigaChatシリーズの対話モデルで、混合専門家(MoE)アーキテクチャに基づいており、合計100億のパラメータがあり、そのうち18億がアクティブなパラメータです。このモデルは、マルチヘッド潜在注意力と多トークン予測技術を採用しており、25.6万トークンの長文脈をサポートし、多言語対話と推論タスクで優れた性能を発揮します。
GigaChat3-10B-A1.8B-baseはGigaChatシリーズの基礎事前学習モデルで、混合エキスパート(MoE)アーキテクチャを採用し、総パラメータは100億、アクティブなパラメータは18億です。モデルはマルチヘッド潜在的注意機構(MLA)と多トークン予測(MTP)技術を統合し、推論時に高いスループットの利点を持ちます。
Mungert
MiroThinker v1.0はオープンソースの研究エージェントで、モデルレベルの対話型拡張により、ツール強化推論と情報検索能力を向上させます。このモデルは複数のベンチマークテストで優れた性能を発揮し、長文脈と深度のある多段階分析をサポートします。
allenai
Olmo 3はAllen Institute for AIによって開発された一連の言語モデルで、7Bと32Bの2種類の規模があり、命令式と思考式の2種類のバリエーションがあります。このモデルは長鎖思考に優れており、数学やコーディングなどの推論タスクの性能を効果的に向上させることができます。多段階訓練方式を採用しており、教師付き微調整、直接嗜好最適化、検証可能な報酬による強化学習が含まれます。
Olmo-3-7B-Think-DPOはAllen Institute for AIが開発した70億パラメータの言語モデルで、長い連鎖的な思考能力を持ち、数学やコーディングなどの推論タスクで優れた性能を発揮します。このモデルは、教師付き微調整、直接的な嗜好最適化、検証可能な報酬に基づく強化学習などの多段階の訓練を経ており、研究や教育目的に特化して設計されています。
Guilherme34
Qwen3-32BはQwenシリーズの最新世代の大規模言語モデルで、強力な推論、命令遵守、エージェント間の相互作用、多言語処理能力を備えています。100種類以上の言語と方言をサポートし、思考モードと非思考モードをシームレスに切り替えることができ、ユーザーに自然でスムーズな対話体験を提供します。
noctrex
Jan-v2-VLは、80億のパラメータを持つ視覚言語モデルで、実際のソフトウェア環境(ブラウザやデスクトップアプリなど)で長時間の多段階タスクを実行するために設計されています。このモデルは、言語推論と視覚認知を組み合わせ、複雑な指示に従い、中間状態を維持し、軽微な実行エラーから回復することができます。
prithivMLmods
Jan-v2-VLは80億のパラメータを持つ視覚言語モデルで、ブラウザやデスクトップアプリケーションなどの実際のソフトウェア環境で長周期、多段階のタスクを実行するために設計されています。このモデルは言語推論と視覚認知を密接に結びつけ、複雑な指示に従い、中間状態を維持し、軽度の実行エラーから回復して、安定した持続的なタスク完了を実現します。
amazon
Chronos-2は1億2000万のパラメータを持つ時系列基礎モデルで、ゼロショット予測をサポートします。単一のアーキテクチャ内で単変量、多変量、および共変量感知タスクをサポートし、複数のベンチマークテストでゼロショット予測の最先端の精度を達成し、推論効率が非常に高いです。
Lamapi
Next 12Bは、Gemma 3に基づく120億パラメータのマルチモーダル視覚言語モデルで、トルコで最も先進的なオープンソースの視覚言語モデルです。このモデルは、テキストと画像の理解において優れた性能を発揮し、高度な推論とコンテキスト感知型のマルチモーダル出力能力を備えており、特に専門レベルのトルコ語サポートを提供し、同時に幅広い多言語能力も備えています。
TheStageAI
TheWhisper-Large-V3-Turboは、OpenAI Whisper Large V3モデルの高性能ファインチューニング版で、TheStage AIによって多プラットフォームのリアルタイム、低遅延、低消費電力の音声テキスト変換推論に最適化されています。ストリーミング文字起こし、単語のタイムスタンプ、拡張可能なパフォーマンスをサポートし、リアルタイム字幕、会議、デバイス端末の音声インターフェイスなどのシーンに適しています。
TheWhisper-Large-V3はOpenAI Whisper Large V3モデルの高性能ファインチューニング版で、TheStage AIによって多プラットフォーム(NVIDIA GPUとApple Silicon)のリアルタイム、低遅延、低消費電力の音声テキスト変換推論用に最適化されています。
PokeeResearch-7Bは、Pokee AIによって開発された70億パラメータの深度研究エージェントモデルです。AIフィードバック強化学習(RLAIF)と強力な推論フレームワークを組み合わせ、ツール強化型大規模言語モデルにおいて信頼性が高く、アライメントされ、拡張可能な研究レベルの推論を実現し、複雑な多段階研究ワークフローに適しています。
mradermacher
これはPRIME-RL/P1-30B-A3Bモデルの静的定量化バージョンで、300億パラメータの大規模言語モデルで、物理、強化学習、コンテスト推論などの分野に特化して最適化されており、英語と多言語処理をサポートしています。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP8はNVIDIAが開発した量子化視覚言語モデルで、最適化されたTransformerアーキテクチャを採用し、商用画像で三段階のトレーニングを行っています。このモデルは単一画像の推論をサポートし、多言語およびマルチモーダル処理能力を備えており、画像要約、テキスト画像分析などの様々なシーンに適用できます。
Nanbeige
Nanbeige4-3B-Thinkingは第4世代のNanbeige大規模言語モデルファミリーの30億パラメータの推論モデルで、データ品質とトレーニング方法の向上により、高度な推論能力を実現しています。このモデルは数学、科学、創造的な文章作成、ツールの使用などの複数の分野で優れた性能を発揮し、多段階のコース学習と強化学習トレーニングをサポートしています。
NVIDIA Nemotron Nano v2 12B VLは強力なマルチモーダルビジュアル言語モデルで、多画像推論と動画理解をサポートし、文書インテリジェンス、ビジュアル質問応答、要約機能を備え、商用に使用できます。
aisingapore
Qwen-SEA-LION-v4-32B-ITは、Qwen3 - 32Bをベースに構築された東南アジア言語の大規模言語モデルで、東南アジア地域を対象に事前学習と指令微調整が行われています。このモデルは、7種類の東南アジア言語を含むSEA - Pile v2コーパスで継続的に事前学習され、800万対の高品質な質問と回答のデータで指令微調整が行われ、強力な多言語理解と推論能力を備えています。
nightmedia
LFM2-8B-A1B-qx86-hi-mlxはMLX形式に基づく高効率推論モデルで、LiquidAI/LFM2-8B-A1Bから変換されました。このモデルはハイブリッドエキスパートアーキテクチャを採用し、推論タスクで卓越した効率を発揮し、特に複雑な論理推論タスクに長けており、同時に多言語処理をサポートします。
MindBridgeはAIモデルルーターサーバーで、複数のLLMプロバイダーをサポートし、スマートなモデルスケジューリングと協調を実現し、複雑な推論タスクや多モデルワークフローに適しています。
Gemini APIに基づく高度な推論と反省ツールで、多モデルの統合とカスタム設定をサポートします。
GemForgeはGoogle Gemini AIとMCPエコシステムを接続する企業向けツールで、リアルタイムウェブアクセス、高度な推論、コード分析、多ファイル処理などの機能を提供し、60種類以上のファイル形式をサポートし、スマートなモデル選択と強力なエラー処理メカニズムを備えています。
GemForgeは、GoogleのGemini AIをMCPエコシステムに接続するエンタープライズレベルのツールで、リアルタイムのWebアクセス、高度な推論、コード分析、および多ファイル処理などの機能を提供し、60以上のファイル形式をサポートし、スマートなモデル選択と強力なエラー処理メカニズムを備えています。
自己完結型のMCPサーバーで、一階論理推論を行い、定理証明、モデル検索、反例検出をサポートし、多エンジンアーキテクチャを採用して最適な推論エンジンを自動選択します。
構造化された論証ツールを提供し、体系的な弁証的推論と論点分析をサポートし、大規模言語モデルが複雑な問題の評価と多視点の論証を行うのを支援します。