マイクロソフトがリアルタイム音声モデルVibeVoice-Realtime-0.5Bをオープンソース化しました。非常に低遅延で、実に人間のような音声表現を備えています。テキスト入力から音声出力にかかる平均時間は300ミリ秒で、従来のTTSモデルよりも1〜3秒と比べて大幅に短く、ほぼゼロ遅延のリアルタイム音声合成を実現しています。
2025年のグローブサイエンスシティフォーラムは深圳で開催され、スマートな計算力と大規模モデルのエージェントに焦点を当てました。ペンチョン研究所などの機関が4つの重要な成果を発表しました:ペンチョンマインド2.1のオープンソースマルチモーダルモデルおよびそのデータセットとツールチェーン;国产万カードロイダー・エンジンFenixCOSの初披露で、大規模な並列処理と効率的な切り替えをサポートしています;気象エージェント「アフー」がペンチョン雲脳Ⅲに接続し、第十五回全国運動会にサービスを提供します。
Kling AIがバージョン2.6をリリース。新たにネイティブ音声生成機能を追加し、中英二か国語の対話・歌唱・効果音の同期出力をサポート。テキストから動画までの完全な創作フローを実現し、AI動画が音声時代に入ったことを示す。....
アメリカのアーキーAIは、「トリニティ」シリーズのオープンソースモデルを発表しました。このシリーズは、AI分野で米国の競争力を高めることを目的としています。このシリーズは混合専門家アーキテクチャを採用しており、トレーニングはすべて米国で行われています。現在までに「トリニティミニ」と「ナノプレビュー」の2つのモデルが含まれており、ユーザーは公式サイトで体験できます。開発者はHugging Faceプラットフォームから取得可能です。
EverMindはAIに無限の記憶と長期的な一貫性を与え、オープンソースのメモリシステムと先進的なモデルを含んでいます。
FLUX 2 Devは画像生成と編集用のオープンソース重みモデルであり、複数参照編集などをサポートしています。
統一されたマルチモーダルAIで、命令に基づく画像編集と生成をサポートし、商用モデルを超えます。
世界初のオープンソースMoEビデオ生成モデルで、テキスト/画像から720Pビデオへの変換をサポートします。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
Baidu
128
$2
$20
$4
$16
PrimeIntellect
INTELLECT-3は1060億のパラメータを持つ混合専門家(MoE)モデルで、大規模な強化学習によって訓練されています。数学、コーディング、推論のベンチマークテストで卓越した性能を発揮し、モデル、訓練フレームワーク、環境はすべて緩やかなライセンス契約でオープンソース化されています。
ExaltedSlayer
Gemma 3はGoogleが開発した軽量オープンソースのマルチモーダルモデルです。このバージョンは12Bパラメータの命令調整量子化感知トレーニングモデルで、MLXフレームワークのMXFP4形式に変換されています。テキストと画像の入力をサポートし、テキスト出力を生成します。128Kのコンテキストウィンドウと140種類以上の言語をサポートしています。
00quebec
これはQwen-Image用に特別に設計されたオープンソースのLoRAモデルで、現代のiPhone撮影のリアルな外観と感じを再現することに特化しています。このモデルは5000枚以上の実際のiPhoneスタイルの写真を基に訓練されており、鮮明で自然な、ソーシャルメディアで共有するのに適した画像を生成できます。
prithivMLmods
Olmo-3-Thinkはアレン人工知能研究所が発表した完全にオープンソースの言語モデルシリーズで、7Bと32Bの2種類の規模があります。このモデルは特別に訓練され、明確な推論過程を示すことができ、透明な段階的な推論と検証可能な中間思考痕跡をサポートし、推論、数学、コードタスクで優れた性能を発揮します。
vanta-research
Atom-Olmo3-7Bは、Olmo-3-7B-Instructをベースにファインチューニングされた言語モデルで、協調型問題解決と創造的な探索に特化して設計されています。このモデルは、複雑な問題を扱う際に、熟慮された構造化分析を提供し、同時に魅力的な会話スタイルを維持し、Apache 2.0オープンソースライセンスを持っています。
yaleiyaleichiling
初の本当にオープンソースで制限のない2次元ビデオ生成モデル。Wan2.2-5Bアーキテクチャに基づいており、VRAMが6GBあれば動作し、見事な2次元アニメコンテンツを生成できます。
XiaomiMiMo
米モデルのエンボディメントモデル(MiMo-Embodied)は、強力なクロスエンボディメント視覚言語モデルであり、自動運転とエンボディメントAIタスクの両方で卓越した性能を発揮します。これは、この2つの重要な分野を結合した最初のオープンソースの視覚言語モデルであり、動的な物理環境における理解と推論能力を大幅に向上させました。
Mungert
MiroThinker v1.0はオープンソースの研究エージェントで、モデルレベルの対話型拡張により、ツール強化推論と情報検索能力を向上させます。このモデルは複数のベンチマークテストで優れた性能を発揮し、長文脈と深度のある多段階分析をサポートします。
allenai
Olmo 3はAllen Institute for AIによって開発されたオープンソースの言語モデルシリーズで、7Bと32Bの2種類の規格があり、指令(Instruct)と思考(Think)の2種類のバリエーションに分かれています。このモデルは卓越した長鎖思考能力を持ち、数学やコーディングなどの推論タスクのパフォーマンスを大幅に向上させることができます。
HIT-TMG
Uni-MoE 2.0-Omniは、ライチ科技(Lychee)が発表した完全オープンソースの全モーダリティモデルで、全モーダリティ3D RoPEと動的容量エキスパート混合アーキテクチャを採用し、言語を中心としたマルチモーダリティ理解、推論、生成能力を大幅に向上させました。このバージョンには、全モーダリティ理解とオーディオおよび画像生成能力が統合されています。
Olmo 3は、Allen Institute for AI (Ai2)によって開発された全く新しい32Bパラメータの言語モデルファミリーで、Base、Instruct、Thinkなどのバリエーションが含まれています。このモデルはDolma 3データセットを基に訓練され、65,536の長文脈処理をサポートし、言語モデル科学の発展を推進することを目的としています。モデルは完全にオープンソースで、Apache 2.0ライセンスに従っています。
moonshotai
Kimi K2 Thinkingは月の暗面(Moonshot AI)が開発した最新世代のオープンソース思考モデルで、強力な深度推論能力とツール呼び出し機能を備えています。このモデルは混合専門家アーキテクチャを採用し、ネイティブINT4量子化をサポートし、256kのコンテキストウィンドウを持ち、複数のベンチマークテストで優れた性能を発揮します。
SadraCoding
SDXL-Deepfake-Detectorは、AI生成顔を正確に検出するツールで、デジタル世界の真実性を維持することに特化し、視覚的な虚偽情報に対抗するためのプライバシー保護とオープンソースのソリューションを提供します。このモデルは、事前学習モデルを微調整することで、軽量かつ高精度な検出を実現します。
unsloth
JanusCoder-14Bは、Qwen3-14Bをベースに構築された14Bパラメータのオープンソース基礎モデルで、コードインテリジェンスに統一されたビジュアルプログラミングインターフェイスを構築することを目的としています。このモデルはJANUSCODE-800Kマルチモーダルコードコーパスで学習され、さまざまなビジュアルプログラミングタスクを統一的に処理することができます。
JanusCoder-8Bは、Qwen3-8Bをベースに構築されたオープンソースのコードインテリジェンス基礎モデルで、統一されたビジュアルプログラミングインターフェイスを構築することを目的としています。このモデルは、JANUSCODE-800K(これまでで最大のマルチモーダルコードコーパス)で学習され、データ可視化、インタラクティブなWeb UI、コード駆動のアニメーションなど、さまざまなビジュアルプログラミングタスクを処理できます。
OpenMOSS-Team
MOSS-TTSDはオープンソースのバイリンガル口語対話合成モデルで、中国語と英語をサポートし、二人の対話脚本を自然で表现力豊かな対話音声に変換できます。音声クローニングをサポートし、単一ラウンドの音声生成時間は最大1700秒に達することができます。
Gemma 3 27B IT QATのMLX MXFP4量子化バージョンで、Googleによって開発された軽量オープンソースのマルチモーダルモデルです。このモデルは、テキストと画像の入力を同時に処理し、テキスト出力を生成することができ、128Kの大規模コンテキストウィンドウを持ち、140種類以上の言語をサポートし、さまざまなテキスト生成と画像理解タスクに適しています。
Lamapi
Next 12Bは、Gemma 3に基づく120億パラメータのマルチモーダル視覚言語モデルで、トルコで最も先進的なオープンソースの視覚言語モデルです。このモデルは、テキストと画像の理解において優れた性能を発揮し、高度な推論とコンテキスト感知型のマルチモーダル出力能力を備えており、特に専門レベルのトルコ語サポートを提供し、同時に幅広い多言語能力も備えています。
kenpath
Svara-TTSはインド語を対象としたオープンソースの多言語テキスト読み上げモデルで、19種類の言語(18種類のインド語 + インド英語)をサポートしています。このモデルはOrpheusスタイルの離散音声トークン方式に基づいて構築され、一般的なGPU/CPU上で明瞭で表现力に富み、低遅延の音声合成を実現することを目的としています。
onnx-community
Granite-4.0-1BはIBMが開発した軽量指令モデルで、Granite-4.0-1B-Baseをベースに微調整されています。このモデルはオープンソースの指令データセットと内部合成データセットを組み合わせ、監督微調整、強化学習、モデルマージなどの技術を用いて開発され、デバイス端末デプロイと研究用ケースに適しています。
Klavis AIはオープンソースプロジェクトで、Slack、Discord、Webプラットフォームで簡単に使えるMCP(モデルコンテキストプロトコル)サービスを提供します。レポート生成、YouTubeツール、ドキュメント変換などのさまざまな機能があり、非技術ユーザーと開発者がAIワークフローを使用するのをサポートします。
セレナは強力なオープンソースのコーディングエージェントツールキットで、大規模言語モデル(LLM)をコードベース上で直接動作するフル機能のエージェントに変えることができます。IDEに似た意味論的なコード検索と編集ツールを提供し、様々なプログラミング言語をサポートし、MCPプロトコルまたはAgnoフレームワークを介して様々なLLMと統合することができます。
Genkitは、AI駆動のアプリケーションを構築するためのオープンソースフレームワークで、Node.jsとGoのライブラリを提供し、複数のAIモデルとベクトルデータベースの統合をサポートし、開発ツールとプラグインエコシステムを含んでいます。
OpenDiaはオープンソースのブラウザ拡張ツールで、AIモデルが直接ユーザーのブラウザを制御でき、既存のログイン状態、ブックマークなどのデータを利用して自動化操作を行います。複数のブラウザとAIモデルをサポートし、プライバシー保護に配慮しています。
Cogneeは、AIエージェントに記憶機能を提供するオープンソースプロジェクトです。モジュール化されたECLパイプラインを通じて動的な知識グラフを構築し、複数のデータソースと形式をサポートし、幻覚を減らし、コストを削減します。
Cipherは、プログラミングAIエージェント向けに設計されたオープンソースのメモリ層フレームワークです。MCPプロトコルを通じてさまざまなIDEとAIコーディングアシスタントと統合し、自動記憶生成、チーム記憶共有、デュアルシステム記憶管理などの核心機能を提供します。
これはWeb3モデルコンテキストプロトコル(MCP)サーバーの精選リストで、チェーンのやり取り、取引、DeFi、市場データ、ツール、ソーシャルなどの複数のカテゴリをカバーしています。MCPは、アプリケーションがLLMにコンテキストを提供する方法を標準化するオープンプロトコルで、AIアプリケーションのUSB - Cポートのようなものです。DeMCPは最初の分散型MCPネットワークで、エージェントに独自開発およびオープンソースのMCPサービスを提供し、暗号通貨による支払いをサポートし、TEEとブロックチェーンレジストリを組み合わせてMCPのセキュリティと信頼性を再定義しています。
Awesome MCP Serversは、包括的なモデルコンテキストプロトコル(MCP)サーバーの集合で、7158個のMCPサーバーがAI統合、アートメディア、ブラウザ自動化、クラウドサービス、データベース、開発者ツール、ファイルシステム、金融、ゲーム、ハードウェア、医療、インフラストラクチャ、知識管理、位置マップ、マーケティング、監視、マルチメディア処理、オペレーティングシステム、プロジェクト管理、科学研究、セキュリティ、ソーシャルメディア、旅行交通、ユーティリティツール、バージョン管理など33のカテゴリに分けられています。
RhinoMCPは、Model Context Protocolを通じてRhino 3DモデリングソフトウェアとAIエージェントを接続するツールで、双方向のやり取りを実現し、3Dオブジェクト操作、ドキュメント検査、およびスクリプト実行をサポートします。
Chromaはオープンソースのベクトルデータベースで、PythonとJavaScriptのLLMアプリケーションのメモリサポートを提供し、複数のクライアントタイプとドキュメント操作をサポートします。
HiMarketは即座に利用可能な企業向けAIオープンプラットフォームソリューションで、管理バックエンド、開発者ポータル、AIゲートウェイの3つの核心コンポーネントを提供し、モデルサービス、MCP ServerなどのAI機能を標準化されたAPI製品にパッケージ化して公開することをサポートします。
Awesome MCP Securityは、モデルコンテキストプロトコル(MCP)のセキュリティに関するリソースの集合で、セキュリティに関する考慮事項、論文、ビデオ、記事、ツール、サーバーなどが含まれており、ユーザーがMCP関連のセキュリティ上の課題を理解し、対処するのに役立ちます。
Trellis MCPはAIアシスタントとTrellis 3D生成モデルをつなぐインターフェースサービスで、自然言語で迅速に3Dアセットを生成してBlenderにインポートできます。このプロジェクトはオープンソースモデルに基づいており、APIバックエンドを自分でデプロイする必要があり、高速で無料という特徴がありますが、安定性のリスクがあります。
openai - tool2mcpはオープンソースのブリッジツールで、OpenAIに組み込まれた高品質のツール(ウェブ検索、コードインタープリターなど)をMCPプロトコルサーバーとしてラッピングし、ClaudeなどのMCP互換モデルもこれらの強力な機能を使用できるようにします。
MCPポータルはModel Context Protocolの公式コミュニティプラットフォームで、ドキュメント、実践ガイド、サーバーの実装、ツールの統合などのリソースを提供し、AIモデルがMCPプロトコルを通じて外部ツールにアクセスできるようにサポートします。データベース接続からマルチモーダルアプリケーションまで、豊富なシナリオをカバーしています。
MCPプロトコルに基づく意味コード検索サーバーで、OpenAIとOllamaの2種類の埋め込みモデルをサポートし、ローカルプロジェクトまたはGitリポジトリをインデックス化でき、企業レベルのオンプレミスコード検索ソリューションを提供します。
ローカルの大規模言語モデルとMCPサーバーを接続するTypeScriptブリッジプロジェクトで、Webインターフェイスを通じてオープンソースモデルがClaudeのようなツール機能を使用できるようにし、ファイルシステム、ウェブ検索、複雑な推論などの機能をサポートします。
Flutter MCP ServerはオープンソースのDart/Flutterエコシステムのモデルコンテキストプロトコル(MCP)の実装で、AIアシスタントと開発者ツールに統一されたAPIインターフェースを提供し、Dart/Flutter開発ツールチェーンをリモートで呼び出すことができ、安全でプログラム可能な自動化開発フローを実現します。
これは、Awesome Model Context Protocol (MCP) Serversの精選リストで、さまざまなMCPサーバー、フレームワーク、ツール、およびリソースの詳細な分類と説明が含まれています。MCPは、AIモデルが標準化されたサーバーを介してローカルおよびリモートリソースと安全にやり取りできるようにするオープンプロトコルです。このリストには、ブラウザ自動化、クラウドプラットフォーム、データベース、開発者ツールからフィンテック、ゲーム、セキュリティまで、さまざまな分野のMCPサーバー実装が含まれています。
SEC EDGAR MCPはオープンソースのMCPサーバーで、AIモデルと米国証券取引委員会(SEC)のEDGARデータベースを接続し、企業の財務データ照会ツールを提供します。