SuperCLUE-VLMが最新の中文マルチモーダル視覚言語モデルの評価結果を発表。バイトダンスのDoubao-Seed-2.0-Pro-260215が90.66点で総合1位を獲得し、GoogleのGemini-3.1-Pro-Preview(89.35点)を上回った。国内外17モデルを評価し、国産モデルが優秀な成績を示し、阿里巴巴のQwen3.5シリーズや商湯などが上位にランクイン。国内AI分野の大きな進展を顕示。....
スタートアップLovableは4月28日、iOSとAndroid向けにノーコードAIアプリビルダーをリリース。「雰囲気コーディング」を掲げ、音声やテキストのAIプロンプトでアイデアを即座にモバイル開発。PCとスマホ間でプロジェクトをシームレスに切り替え、バージョン完了時に審査通知を送信。Appleが同類アプリの規制を強化する中での発表。....
新型ロングウェイi6が本日発売。外観はロングウェイD7に近づき、大型垂直グリルとスターリングライトバンドを採用。リアの小さなダックテールと貫通型テールランプが調和し、若々しいデザイン。車体サイズは4767/1828/1498mm、ホイールベース2755mm、コンパクトセダンに分類。....
アリババ ATHイノベーション事業部は、新世代のマルチモーダルビデオ生成モデル「HappyHorse」を発表し、すでにグレーゾーンテストを開始しました。このモデルはArena.aiの三大主要ランキング(テキストからビデオ生成、画像からビデオ生成、ビデオ編集)で優れたパフォーマンスを発揮しており、映画級の画質と深い意味理解能力を備え、1080Pの超高解像度出力をサポートしています。香港風の雰囲気や古装などの多様なビジュアルスタイルを正確に扱えるため、世界のAIビデオ分野での有力な競合者となっています。
統一された大規模言語モデルAPIゲートウェイで、30以上のプロバイダーをサポートし、価格が安く安定しており、サブスクリプション不要です。
バイトダンスのSeedance 3.0 AIビデオ生成ツール。無料でオンラインで1080pビデオを生成できます。
バイトダンスが提供するAIビデオジェネレーターで、マルチシーンの物語が可能です。
ナノバナナPro:AI画像生成器で、テキストレンダリングが完璧で、数学の解やインフォグラフィックを生成できます。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
Baidu
128
$6
$24
$4
$16
$2
$20
$8
$240
52
HIT-TMG
Uni-MoE 2.0-Omniは、ライチ科技(Lychee)が発表した完全オープンソースの全モーダリティモデルで、全モーダリティ3D RoPEと動的容量エキスパート混合アーキテクチャを採用し、言語を中心としたマルチモーダリティ理解、推論、生成能力を大幅に向上させました。このバージョンには、全モーダリティ理解とオーディオおよび画像生成能力が統合されています。
Qwen
Qwen3-VL-2B-ThinkingはQwenシリーズの中で最も強力なビジュアル言語モデルの1つで、GGUF形式の重みを使用し、CPU、NVIDIA GPU、Apple Siliconなどのデバイスで効率的な推論をサポートします。このモデルは、優れたマルチモーダル理解と推論能力を備え、特にビジュアル感知、空間理解、エージェントインタラクション機能が強化されています。
Qwen3-VL-2B-Instruct-GGUFは通義千問シリーズのマルチモーダルビジュアル言語モデルのGGUF量子化バージョンで、20億のパラメータを持ち、画像理解とテキスト生成のシームレスな融合をサポートし、CPUやGPUなどのデバイスで効率的に動作します。
unsloth
Qwen3-VLはアリババが開発した最新世代のビジュアル言語モデルで、テキスト理解、ビジュアル認知、空間理解、ビデオ分析、エージェントインタラクションなどの分野で著しい向上が見られます。このモデルはマルチモーダル入力をサポートし、強力な推論能力と長文脈処理能力を備えています。
bartowski
これはQwen3-VL-2B-Instructモデルの量子化バージョンで、llama.cppツールとimatrix方法を使用して、さまざまな量子化レベルのモデルファイルを生成し、さまざまなハードウェア環境で高効率に動作させることができます。このモデルは20億パラメータのマルチモーダルビジュアル言語モデルで、画像とテキストの相互作用をサポートしています。
ByteDance
Ouro-1.4Bはバイトダンスによって開発された14億のパラメータを持つ循環言語モデルで、反復共有重み計算によって卓越したパラメータ効率を実現し、わずか14億のパラメータで30 - 40億の標準Transformerモデルの性能レベルに達しています。
sanchezalonsodavid17
これはDeepSeek-OCRのモーダルバランス量子化(MBQ)バリエーションで、ビジュアルエンコーダに4ビットNF4量子化を採用することでメモリ使用量を削減し、同時にプロジェクターと言語/デコーダのBF16精度を維持し、一般的なGPUでのローカルデプロイメントと高速なCPU試験が可能です。
Akicou
Qwen3-Omni-30B-A3B-ThinkingモデルのQ4_K_S量子化GGUFバージョンで、テキスト、視覚、オーディオのマルチモーダル処理をサポートし、llama.cppを通じて高効率な推論を実現します。このバージョンは品質を保証しつつ、ファイルサイズを大幅に削減し、推論速度を向上させます。
ibm-granite
Granite-4.0-H-350M-BaseはIBMが開発した軽量なデコーダーのみの言語モデルで、リソースが制限されたデバイス向けに特別に設計されており、多言語のテキスト生成とコード補完機能をサポートし、スマートフォンやIoTデバイスで効率的に動作します。
amd
Llama-3.1-8B-onnx-ryzenai-npuは、AMDがMetaのLlama-3.1-8Bモデルをベースに開発した最適化バージョンで、AMD Ryzen AI NPU向けに最適化されたデプロイが行われています。このモデルは、Quark量子化、OGAモデルビルダー、およびNPU専用の後処理技術を通じて、高品質なテキスト生成能力を維持しながら、AMDハードウェア上での推論効率を大幅に向上させています。
ModernVBERT
ColModernVBERTはModernVBERTの後期インタラクティブバージョンで、ビジュアルドキュメント検索タスクに特化して微調整され、このタスクで最も高い性能を発揮するモデルです。これは2.5億のパラメータを持つコンパクトなビジュアル - 言語エンコーダで、ビジュアルドキュメントベンチマークテストではパラメータが約10倍のモデルに匹敵する性能を達成し、同時にCPU上でも十分な推論速度を持っています。
quelmap
Lightning-4bは、ローカルデバイスのデータ分析タスク用に設計・学習された言語モデルで、16GBメモリのノートパソコンでもスムーズに動作し、データを大規模言語モデルプロバイダーに送信する必要がなく、データのプライバシーとセキュリティを確保します。
prithivMLmods
Mintaka-Qwen3-1.6B-V3.1は、科学的推論に特化した効率的なモデルで、Qwen-1.6Bをベースに構築され、DeepSeek v3.1合成軌跡(10,000件の記録)で訓練されました。ランダムイベントのシミュレーション、論理問題の分析、構造化された科学的推論に最適化されており、記号精度と軽量デプロイのバランスを取っています。
OpenGVLab
InternVL3.5-4Bはオープンソースのマルチモーダルモデルシリーズの中規模バージョンで、汎用性、推論能力、推論効率の面で顕著な進歩を遂げ、GUIインタラクションなどの新機能をサポートしています。このモデルはカスケード強化学習フレームワークと視覚解像度ルーター技術を採用し、効率的なマルチモーダル理解と推論を実現しています。
InternVL3.5はオープンソースのマルチモーダルモデルファミリーの新メンバーで、InternVLシリーズの汎用性、推論能力、推論効率を大幅に向上させ、GUIインタラクションなどの新機能をサポートし、オープンソースのマルチモーダル大規模言語モデルの先進水準に達しています。
neuphonic
NeuCodecのONNXコンパイル版デコーダー。デバイス端末のテキスト読み上げ(TTS)用に設計された軽量級オーディオデコードモデルで、エンコードされたオーディオ特徴量を高品質なオーディオ信号に効率的に変換できます。
Kwai-Keye
快手Keye-VLは快手Keyeチームによって開発された最先端のマルチモーダル大規模言語モデルで、ビデオ理解、視覚認知、および推論タスクで卓越した性能を発揮します。1.5バージョンは革新的な高速・低速ビデオコーディング戦略、LongCoTコールドスタートデータパイプライン、および強化学習トレーニング戦略を通じて、ビデオ理解、画像認知、および推論能力において新たな高みに到達し、最大128kトークンの拡張文脈長をサポートします。
gabriellarson
Seed-OSSは、バイトダンスのSeedチームによって開発されたオープンソースの大規模言語モデルシリーズで、強力な長文脈処理、推論、およびエージェント間のインタラクション能力を備えています。たった12Tトークンで訓練され、複数の公開ベンチマークテストで優れた成績を収め、最大512Kの原長文脈処理をサポートしています。
dnakov
Seed-OSS-36B-Instructは、バイトダンスによって開発された360億パラメータの大規模言語モデルであり、MLXフレームワークに基づいて最適化され、テキスト生成タスクに特化しています。このモデルは英語と中国語の両方をサポートし、Apache 2.0オープンソースライセンスを採用しており、強力な指令追従とコンテンツ生成能力を備えています。
QuantTrio
Seed-OSS-36B-Instruct-AWQは、バイトダンスのSeedチームが開発した36Bパラメータの大規模言語モデルの量子化バージョンで、強力な長文脈処理能力、推論能力、エージェント機能を備え、最大512Kの文脈長と柔軟な思考予算制御をサポートしています。
HiveChatは中小チーム向けに設計されたAIチャットアプリで、複数の大規模モデルサービスプロバイダーをサポートし、グループ管理、トークン制限、サードパーティログインなどの機能を提供します。
MaverickMCPはFastMCP 2.0に基づく個人株式分析サーバーであり、Claude DesktopなどのMCPクライアントに専門レベルの金融データ分析、技術指標計算、ポートフォリオ最適化ツールを提供する。これは520株のスタンダード500株データを事前に設定し、複雑な認証なしでローカルに実行できるように、さまざまな技術分析戦略と並列処理をサポートしています。
これはGoogleカレンダーのMCPサーバープロジェクトで、Googleカレンダーとの統合機能を提供し、標準化されたインターフェースを通じてカレンダーイベントの読み取り、作成、更新、検索を可能にします。画像からのイベント追加、カレンダー分析、出席状況確認、イベントの自動調整などの機能をサポートしています。
Google Workspace MCPサーバーは、機能が充実したマルチクライアントプロトコルサーバーで、自然言語でGoogleカレンダー、クラウドストレージ、Gmail、ドキュメントなどのオフィスソフトウェア一式を制御でき、Claudeデスクトップ版にワンクリックでインストールでき、高度なOAuth認証とサービスキャッシュを提供します。
MCPゴムダックは、モデルコンテキストプロトコル(MCP)に基づくサーバーで、複数のOpenAI互換のLLMを照会するためのブリッジとして機能します。ゴムダックデバッグ法のように、ユーザーが異なるAI「ダック」に問題を説明し、多様な視点からの回答を得ることができます。さまざまなAIプロバイダーをサポートし、会話管理、多モデル比較、コンセンサス投票、議論、反復最適化などの高度なツールを提供し、MCPブリッジ機能を通じて他のMCPサーバーに接続して機能を拡張することができます。
Notebook Intelligence (NBI) は、JupyterLab用に設計されたAIコーディングアシスタントおよび拡張可能なAIフレームワークで、GitHub Copilotや他のLLMプロバイダーのモデル(ローカルのOllamaモデルを含む)をサポートします。コード生成、自動補完、チャットインターフェイスなどの機能により生産性を大幅に向上させ、モデルコンテキストプロトコル(MCP)サービスの統合をサポートします。
Devici MCPサーバーは、Devici APIとのインタラクションに使用されるモデルコンテキストプロトコルサーバーで、ユーザー、コレクション、脅威モデル、コンポーネント、脅威、緩和策、チーム、ダッシュボードデータの管理にLLMツールを提供します。
VChartに基づくMCPサーバーで、AIアシスタントが棒グラフ、折れ線グラフ、円グラフ、散布図、サンキーダイアグラムなどの多様なインタラクティブなグラフとビジュアライゼーションを生成できます。画像、HTML、および仕様の3種類の出力形式をサポートしています。
MCPプロトコルに基づくサーバーで、Sefariaユダヤ教図書館内のユダヤ教のテキストにアクセスでき、標準化されたインターフェースを通じてユダヤ教のテキストを検索し、参照することができます。
XActionsは、完全なX/Twitter自動化ツールキットです。ブラウザースクリプト、CLI、Node.jsライブラリ、MCPサーバー、ダッシュボードを提供し、APIキーや支払いなしで、多プラットフォームのデータ収集、自動化操作、AIエージェント統合をサポートします。
タンパク質データベース(PDB)へのアクセスを提供するMCPサーバーで、構造検索、情報取得、ファイルダウンロード、品質評価機能をサポートしています。
MCPサーバーはFTP、SFTP、SSH接続をサポートするツールで、Cursor AIを通じてユーザーがリモートサーバー上のファイルを直接管理することができます。アップロード、ダウンロード、編集などの操作が可能で、WordPressなどのウェブサイトホスティングサービスの管理に特に適しています。
GoPluto MCPは、AIプログラミングアシスタントにリアルタイムのサービス知識、ルーティングルール、およびコードスニペットを提供するツールで、開発者が最新の検証済みサービスプロバイダー情報とコード例をすばやく取得するのを支援します。
TurboVaultは、プロダクションレベルのMCPサーバーで、ObsidianナレッジベースをAI駆動のインテリジェントな知識システムに変換し、ノートの読み書き、検索、分析、管理のための44個の専用ツールを提供し、100ミリ秒未満の性能を発揮します。
このプロジェクトはFAISSベクトルデータベースをベースにしたMCPサーバーを実装し、検索強化生成(RAG)機能をサポートしており、GitHubファイルのダウンロード、ドキュメントのインデックス化、ローカルクエリ、LLMの統合などの完全なワークフローを含んでいます。
MindBridgeはAIモデルルーターサーバーで、複数のLLMプロバイダーをサポートし、スマートなモデルスケジューリングと協調を実現し、複雑な推論タスクや多モデルワークフローに適しています。
コードモードに基づくTana知識管理MCPサーバーで、AIがTypeScriptコードを記述することでTanaのローカルAPIとやり取りし、ワークスペース、ノード、タグ、フィールド、カレンダー、インポートなどの操作をサポートします。
このプロジェクトは、FastMCPライブラリをベースに構築されたKaggle MCPサーバーで、Kaggleデータセットの検索とダウンロード機能を提供し、EDAノートブックのヒントを生成することができます。
MCP - GeoはGeoPYに基づくMCPサーバで、ジオコーディングと逆ジオコーディングサービスを提供し、複数のジオコーディングプロバイダをサポートします。
ddddocrに基づくCAPTCHA識別MCPサーバーで、テキストOCR、物体検出、スライダーマッチング機能を提供します。