腾讯が発表したHY-MT1.5翻訳モデルは、クラウドサーバーへの依存を解消。1.8B版は約1GBメモリでスマホ動作可能、7B版は高性能で多様なニーズに対応。....
AI消費ロボット企業の霊宇宙は潤建股份から出資を受け、資本金が50%以上増加。大規模モデルと身体性AI技術を融合し、多様なシナリオ向けサービスロボットの開発に注力。....
DeepSeekの研究では、モデルの規模を単に拡大するのではなく、ニューラルネットワークアーキテクチャを最適化することで、大規模言語モデルの推論能力を顕著に向上させることができることを明らかにした。その「多様体制約超接続」技術は、既存のアーキテクチャを微調整することで、パラメータを無限に増やすことなくAIの発展に新しい道を開いた。
アリババ・テンセントラボは、MAI-UIというマルチモーダルなGUIインテリジェントエージェントシリーズを発表しました。このシリーズは、人間とコンピュータのインタラクション、ツールの使用、クラウド協働を統合しており、一般的およびモバイルGUIナビゲーションにおいて優れた性能を示し、多くの競合モデルを上回っています。このシステムはQwen3VLに基づいて構築されており、多様な規模のモデルを提供し、自然言語による指示処理をサポートしています。
住宅、データセンター、モバイルプロキシを提供し、世界規模でカバーされ、多様なシーンに適用可能です。
GPTunneLは多様なAIモデルを通じたサービスを提供し、文章や画像の生成などが可能で、複数の支払い方法に対応しています。
Nexa SDKは数分以内にAIモデルを任意のデバイスにデプロイでき、迅速でプライバシー保護に優れ、多様なシーンに適用できます。
Aya Vision 32Bは、OCR、画像記述、視覚推論など、多様な用途に適した多言語対応のビジュアル言語モデルです。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
Baidu
128
$6
$24
$4
$16
$2
$20
$8
$240
52
Tongyi-MAI
Z-Imageは機能が豊富で高効率な画像生成モデルで、60億のパラメータを持っています。これは画像生成分野における効率、品質、機能の多様性の問題を効果的に解決し、ユーザーに高品質の画像生成と編集サービスを提供します。
mudasir13cs
これはGoogle Gemma - 3 - 4B - ITモデルを微調整したテキスト生成モデルで、デモンストレーションテンプレートのメタデータに基づいて多様で関連性のある検索クエリを生成するために特別に設計されています。このモデルはLoRAアダプタを使用して効率的に微調整されており、構造化文書のフィールド適応型密集検索フレームワークの重要な構成要素です。
bartowski
このプロジェクトはQwen3-VL-32B-Thinkingモデルを量子化処理した成果物で、量子化技術を用いることで、さまざまなハードウェア条件下でより効率的にモデルを実行でき、多様な使用ニーズを満たすことができます。
mradermacher
Lamapi/next-12bは120億パラメータの多言語大規模言語モデルで、複数の量子化バージョンを提供し、テキスト生成、質問応答、チャットなどの多様な自然言語処理タスクをサポートします。このモデルは複数の領域のデータセットで学習され、高効率で軽量な特徴を持っています。
thenexthub
これは多言語処理をサポートするマルチモーダルモデルで、自然言語処理、コード処理、音声処理などの複数の分野をカバーし、自動音声認識、音声要約、音声翻訳、ビジュアル質問応答などの様々なタスクを実行できます。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP8はNVIDIAが開発した量子化視覚言語モデルで、最適化されたTransformerアーキテクチャを採用し、商用画像で三段階のトレーニングを行っています。このモデルは単一画像の推論をサポートし、多言語およびマルチモーダル処理能力を備えており、画像要約、テキスト画像分析などの様々なシーンに適用できます。
これはinclusionAIのRing-mini-2.0モデルの量子化バージョンで、llama.cppを通じてimatrix量子化処理を行い、さまざまなハードウェア条件下でより効率的に動作し、多様な使用ニーズを満たすことができます。
Guilherme34
Qwen2.5-14B-InstructはQwen2.5アーキテクチャに基づく多言語大規模言語モデルで、140億のパラメータを持ち、13種類の言語をサポートし、優れた指令追従と対話能力を備えています。このモデルは様々な言語タスクで優れた性能を発揮し、多言語シーンでのテキスト生成と理解に適しています。
これはzfj1998/A2Search-3B-Instructモデルを量化処理したバージョンで、さまざまな量化タイプのGGUF形式ファイルを提供し、ユーザーがニーズに応じて選択して使用できます。このモデルは主に英語タスクをサポートし、多様な量化タイプを選択できる特徴があります。
birder-project
これはRoPE(回転位置符号化)に基づくVision Transformerモデルで、パラメータ規模は150Mで、14x14のパッチサイズを採用しています。このモデルは約2100万枚の画像からなる多様なデータセットで事前学習されており、汎用的なビジュアル特徴抽出器として使用できます。
cpatonn
Qwen3-Omni-30B-A3B-Captionerは、Qwen3-Omni-30B-A3B-Instructをベースにファインチューニングされた細粒度オーディオ分析モデルで、任意のオーディオ入力に対して詳細で低幻覚の記述を生成し、複雑で多様なオーディオシーンで優れた性能を発揮します。
ibm-granite
Granite-4.0-Micro-BaseはIBMが開発したデコーダーのみの長文脈言語モデルで、約15兆のトークンを使ってゼロから学習され、四ステージトレーニング戦略を採用しています。このモデルは様々なテキスト生成タスクに特化して設計されており、多言語と穴埋め式のコード補完機能をサポートしています。
alibaba-pai
Wan-Funは強力なテキストから動画生成ツールで、多解像度の動画予測と多言語をサポートし、多様な動画生成ニーズを満たすことができます。このモデルはWan2.2アーキテクチャに基づいており、14Bのパラメータ規模を持ち、テキストから動画および画像から動画の生成タスクに特化しています。
Sci-fi-vy
GPT-OSS-20BはOpenAIが開発したオープンウェイトモデルで、強力な推論、エージェントタスク、多様な開発者ユースケースに特化して設計されています。このモデルは210億のパラメータ(うち36億はアクティブなパラメータ)を持ち、ハイブリッドエキスパートアーキテクチャを採用し、低遅延のローカルデプロイと特定のシナリオでのアプリケーションをサポートしています。
これは騰訊混元翻訳モデル7Bの量子化バージョンで、複数の言語の翻訳をサポートし、さまざまなシチュエーションで多様な翻訳ニーズを満たすことができます。このモデルはGGUF形式で量子化され、さまざまなハードウェアとパフォーマンスの要件に合わせた複数の量子化レベルを提供します。
これはS4nfsのNeeto-1.0-8bモデルを量子化処理したバージョンで、llama.cppツールを使用して多様な量子化タイプを提供し、さまざまなハードウェア条件下での効率的な実行に適しています。
John6666
Realistic Vision V5.1は、Stable Diffusion XLに基づくテキストから画像への生成モデルで、高品質でリアルな人物肖像やシーン画像の生成に特化しています。このモデルは、リアル、アニメ、ゲームなどの多様なスタイルをサポートし、高度なリアリティを持つ人物、女優の肖像やアニメスタイルの画像を生成することができます。
0xShonen
GPT-OSS-20BはOpenAIがリリースしたオープンウェイトモデルで、強力な推論、エージェントタスク、および多様な開発者のユースケースに特化して設計されています。このモデルは21Bのパラメータ(うち3.6Bがアクティブパラメータ)を持ち、低遅延推論とローカルデプロイをサポートし、Apache 2.0ライセンスを採用しており、実験、カスタマイズ、および商用デプロイに自由に使用できます。
Derur
これは、様々な小言語のGGUF形式の大規模言語モデルを収集した選りすぐりのコレクションで、ロシア語、英語、ドイツ語などの多くの言語をサポートし、事実照会、数学計算、文化ユーモア、倫理フィルターなどの複数のテスト次元をカバーしています。
facebook
DINOv3はMeta AIが開発した多機能ビジュアル基礎モデルで、微調整なしで幅広いビジュアルタスクで専用モデルを上回ります。このモデルは高品質な密集特徴を生成でき、様々なビジュアルタスクで優れた性能を発揮し、これまでの自己監督型および弱監督型の基礎モデルを大幅に上回っています。
MCPゴムダックは、モデルコンテキストプロトコル(MCP)に基づくサーバーで、複数のOpenAI互換のLLMを照会するためのブリッジとして機能します。ゴムダックデバッグ法のように、ユーザーが異なるAI「ダック」に問題を説明し、多様な視点からの回答を得ることができます。さまざまなAIプロバイダーをサポートし、会話管理、多モデル比較、コンセンサス投票、議論、反復最適化などの高度なツールを提供し、MCPブリッジ機能を通じて他のMCPサーバーに接続して機能を拡張することができます。
メタAPI MCPサーバーは、多APIをサポートするゲートウェイサーバーで、Model Context Protocol (MCP)を通じて様々なAPIと大規模言語モデル(Claude、GPTなど)を接続し、AIアシスタントがAPIと直接やり取りし、実データソースにアクセスできるようにします。JSON設定ファイルまたはPostmanコレクションからのAPIの迅速な追加をサポートし、HTTPメソッドの完全なサポートと複数の認証方式を提供します。
このプロジェクトは、大規模言語モデル(LLM)やその他のAIエージェント用に設計されたサーバーツールで、電子健康記録(EHR)と安全に対話するためのものです。SMART on FHIR標準を通じて安全なデータアクセスを実現し、モデルコンテキストプロトコル(MCP)を利用してツールセットを提供し、AIと多様なEHRシステムの間の安全なゲートウェイおよびツールパッケージとして機能します。
モデルコンテキストプロトコル(MCP)はオープンソースのプロトコルで、一連の参考実装とコミュニティによって開発されたサーバーを提供し、大規模言語モデル(LLM)に安全で制御可能なツールとデータソースへのアクセスを提供することを目的としています。これらのサーバーは、MCPの多様性と拡張性を示しており、ファイルシステム操作からデータベース統合、ウェブ検索からAI画像生成まで、さまざまな機能をカバーしています。
Statsource MCPサーバーは、統計分析と機械学習による予測機能を提供するモデルコンテキストプロトコルサーバーで、複数のデータソースの接続と多様な統計計算をサポートします。
Pythonベースの生物多様性モデルプロトコルサーバープロジェクトで、迅速なデプロイと開発デバッグをサポートします。
TongXiao共通検索MCPサーバーは、IQS APIを統合したモデルコンテキストプロトコルサービスで、複数のデータソースを通じてきれいで正確で多様な高品質の検索結果を提供します。
モデルコンテキストプロトコル(MCP)はオープンソースのプロトコルで、一連の参照実装とコミュニティ開発のサーバーを提供し、大規模言語モデル(LLM)がツールやデータソースに安全かつ制御可能にアクセスできるようにします。このプロジェクトには、ファイルシステム、データベース、Git、Slackなどの複数の分野にまたがるさまざまなタイプのサーバー実装が含まれており、MCPの多様性と拡張性を示しています。
FireCrawl MCPサーバーは、FireCrawlの高度なウェブページ収集機能を統合したモデルコンテキストプロトコルサービスで、JavaScriptレンダリング、多ビュー設定、スマートレート制限処理、および多様なコンテンツ形式の出力に対応しています。