アントグループのRing-mini-sparse-2.0-expは、Ling2.0アーキテクチャを基に長系列デコードを最適化。高スパース比MoE構造とスパース注意機構を組み合わせ、複雑な長系列推論性能を大幅に向上。....
阿里巴巴がオープンソースモデルQwen3-Next-80B-A3Bを公開。混合注意機構とMoEアーキテクチャ採用で、800億パラメータながら30億のみ活性化。訓練コスト90%削減、推論効率10倍向上、長文処理に優れる。....
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
Baidu
128
$6
$24
$2
$20
$4
$16
ai-sage
GigaChat3-10B-A1.8B-baseはGigaChatシリーズの基礎事前学習モデルで、混合エキスパート(MoE)アーキテクチャを採用し、総パラメータは100億、アクティブなパラメータは18億です。モデルはマルチヘッド潜在的注意機構(MLA)と多トークン予測(MTP)技術を統合し、推論時に高いスループットの利点を持ちます。
cpatonn
Qwen3-Next-80B-A3B-Instructは通義千問チームが開発した効率的な疎な混合エキスパートモデルで、総パラメータ数は80B、活性化パラメータ数はわずか3Bです。このモデルは革新的な混合注意力機構と極低活性化率のMoEアーキテクチャを採用し、強力な性能を維持しながら推論効率を大幅に向上させ、ネイティブで262Kのコンテキスト長をサポートし、1Mトークンまで拡張可能です。
unsloth
Qwen3-Next-80B-A3B-Instructは、アリババの通義千問チームによって開発された最新世代の大規模言語モデルです。革新的な混合注意力機構と高疎なエキスパート混合アーキテクチャを採用し、総パラメータ数を80Bに保ちながら3Bのパラメータのみを活性化させ、効率的なコンテキストモデリングと推論の高速化を実現しています。ネイティブで262Kのコンテキスト長をサポートし、1Mトークンまで拡張可能です。
Qwen3-Next-80B-A3B-Instruct-AWQ-4bitは、Qwen3-Next-80B-A3B-Instructモデルを4ビットAWQ量子化した高効率版です。このモデルは混合注意力機構と高疎なエキスパート混合アーキテクチャを採用し、最大262Kトークンのコンテキスト長をサポートし、高性能を維持しながら大幅に計算リソースの要求を削減します。
Qwen
Qwen3-Next-80B-A3B-InstructはQwen3-Nextシリーズの基礎モデルで、革新的な混合注意力機構や高疎性のエキスパート混合層などの技術を通じて、長テキスト処理における効率的なモデリングと推論加速を実現し、複数のベンチマークテストで卓越した性能を発揮しています。
fredzzp
Open-DCoder 0.5BはQwen2アーキテクチャに基づくコード生成マスク拡散モデルで、パラメータ数は5億です。このモデルは双方向注意力機構と革新的な拡散生成方法を採用し、コード生成タスクに特化しています。
tiiuae
Falcon-H1は、アラブ首長国連邦の技術革新研究所によって開発された新型の大規模言語モデルファミリーで、Transformerの注意力機構と状態空間モデル(SSMs)を組み合わせた混合アーキテクチャを採用しており、優れた長文脈記憶能力と計算効率を備えています。このシリーズのモデルは、0.5Bから34Bのパラメータを持つ複数の構成を提供し、推論、数学、多言語タスクなどの分野で卓越した性能を発揮します。
NDugar
DeBERTaは解耦注意機構に基づく強化型BERT改良モデルで、160GBの学習データと15億のパラメータ規模を通じて、複数の自然言語理解タスクでBERTやRoBERTaを上回る性能を発揮します。