京东云JoyBuilderプラットフォームがアップグレードし、GR00T N1.5モデルの千カード級トレーニングを成功裏にサポート。業界初の具身知能千カード級LeRobotオープンソーストレーニングフレームワーク対応AI開発プラットフォームとなり、トレーニング効率はオープンソース版比3.5倍向上。....
美团LongCatチームが6BパラメータのLongCat-Image画像生成モデルをオープンソース化。文生図と画像編集で優れた性能を発揮し、性能と利用ハードルのバランスを図り、オープンソースとクローズドソースモデルの技術ギャップを埋める。....
マイクロソフトがリアルタイム音声モデルVibeVoice-Realtime-0.5Bをオープンソース化しました。非常に低遅延で、実に人間のような音声表現を備えています。テキスト入力から音声出力にかかる平均時間は300ミリ秒で、従来のTTSモデルよりも1〜3秒と比べて大幅に短く、ほぼゼロ遅延のリアルタイム音声合成を実現しています。
2025年のグローブサイエンスシティフォーラムは深圳で開催され、スマートな計算力と大規模モデルのエージェントに焦点を当てました。ペンチョン研究所などの機関が4つの重要な成果を発表しました:ペンチョンマインド2.1のオープンソースマルチモーダルモデルおよびそのデータセットとツールチェーン;国产万カードロイダー・エンジンFenixCOSの初披露で、大規模な並列処理と効率的な切り替えをサポートしています;気象エージェント「アフー」がペンチョン雲脳Ⅲに接続し、第十五回全国運動会にサービスを提供します。
オープンソースのAIデバッグツールで、AIエージェントに完全なコンテキストを取得させ、バグ修正を10倍速で行えます。
BitterBotはオープンソースのAIアシスタントで、自然な会話を通じて現実のタスクを簡単に完了できます。
オープンソースプラットフォームで、LLMアプリケーションのプロンプト管理、評価、および可観測性ツールを提供します。
EverMindはAIに無限の記憶と長期的な一貫性を与え、オープンソースのメモリシステムと先進的なモデルを含んでいます。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
Baidu
128
$2
$20
$4
$16
PrimeIntellect
INTELLECT-3は1060億のパラメータを持つ混合専門家(MoE)モデルで、大規模な強化学習によって訓練されています。数学、コーディング、推論のベンチマークテストで卓越した性能を発揮し、モデル、訓練フレームワーク、環境はすべて緩やかなライセンス契約でオープンソース化されています。
ExaltedSlayer
Gemma 3はGoogleが開発した軽量オープンソースのマルチモーダルモデルです。このバージョンは12Bパラメータの命令調整量子化感知トレーニングモデルで、MLXフレームワークのMXFP4形式に変換されています。テキストと画像の入力をサポートし、テキスト出力を生成します。128Kのコンテキストウィンドウと140種類以上の言語をサポートしています。
00quebec
これはQwen-Image用に特別に設計されたオープンソースのLoRAモデルで、現代のiPhone撮影のリアルな外観と感じを再現することに特化しています。このモデルは5000枚以上の実際のiPhoneスタイルの写真を基に訓練されており、鮮明で自然な、ソーシャルメディアで共有するのに適した画像を生成できます。
prithivMLmods
Olmo-3-Thinkはアレン人工知能研究所が発表した完全にオープンソースの言語モデルシリーズで、7Bと32Bの2種類の規模があります。このモデルは特別に訓練され、明確な推論過程を示すことができ、透明な段階的な推論と検証可能な中間思考痕跡をサポートし、推論、数学、コードタスクで優れた性能を発揮します。
vanta-research
Atom-Olmo3-7Bは、Olmo-3-7B-Instructをベースにファインチューニングされた言語モデルで、協調型問題解決と創造的な探索に特化して設計されています。このモデルは、複雑な問題を扱う際に、熟慮された構造化分析を提供し、同時に魅力的な会話スタイルを維持し、Apache 2.0オープンソースライセンスを持っています。
yaleiyaleichiling
初の本当にオープンソースで制限のない2次元ビデオ生成モデル。Wan2.2-5Bアーキテクチャに基づいており、VRAMが6GBあれば動作し、見事な2次元アニメコンテンツを生成できます。
XiaomiMiMo
米モデルのエンボディメントモデル(MiMo-Embodied)は、強力なクロスエンボディメント視覚言語モデルであり、自動運転とエンボディメントAIタスクの両方で卓越した性能を発揮します。これは、この2つの重要な分野を結合した最初のオープンソースの視覚言語モデルであり、動的な物理環境における理解と推論能力を大幅に向上させました。
Mungert
MiroThinker v1.0はオープンソースの研究エージェントで、モデルレベルの対話型拡張により、ツール強化推論と情報検索能力を向上させます。このモデルは複数のベンチマークテストで優れた性能を発揮し、長文脈と深度のある多段階分析をサポートします。
allenai
Olmo 3はAllen Institute for AIによって開発されたオープンソースの言語モデルシリーズで、7Bと32Bの2種類の規格があり、指令(Instruct)と思考(Think)の2種類のバリエーションに分かれています。このモデルは卓越した長鎖思考能力を持ち、数学やコーディングなどの推論タスクのパフォーマンスを大幅に向上させることができます。
HIT-TMG
Uni-MoE 2.0-Omniは、ライチ科技(Lychee)が発表した完全オープンソースの全モーダリティモデルで、全モーダリティ3D RoPEと動的容量エキスパート混合アーキテクチャを採用し、言語を中心としたマルチモーダリティ理解、推論、生成能力を大幅に向上させました。このバージョンには、全モーダリティ理解とオーディオおよび画像生成能力が統合されています。
Olmo 3は、Allen Institute for AI (Ai2)によって開発された全く新しい32Bパラメータの言語モデルファミリーで、Base、Instruct、Thinkなどのバリエーションが含まれています。このモデルはDolma 3データセットを基に訓練され、65,536の長文脈処理をサポートし、言語モデル科学の発展を推進することを目的としています。モデルは完全にオープンソースで、Apache 2.0ライセンスに従っています。
moonshotai
Kimi K2 Thinkingは月の暗面(Moonshot AI)が開発した最新世代のオープンソース思考モデルで、強力な深度推論能力とツール呼び出し機能を備えています。このモデルは混合専門家アーキテクチャを採用し、ネイティブINT4量子化をサポートし、256kのコンテキストウィンドウを持ち、複数のベンチマークテストで優れた性能を発揮します。
SadraCoding
SDXL-Deepfake-Detectorは、AI生成顔を正確に検出するツールで、デジタル世界の真実性を維持することに特化し、視覚的な虚偽情報に対抗するためのプライバシー保護とオープンソースのソリューションを提供します。このモデルは、事前学習モデルを微調整することで、軽量かつ高精度な検出を実現します。
unsloth
JanusCoder-14Bは、Qwen3-14Bをベースに構築された14Bパラメータのオープンソース基礎モデルで、コードインテリジェンスに統一されたビジュアルプログラミングインターフェイスを構築することを目的としています。このモデルはJANUSCODE-800Kマルチモーダルコードコーパスで学習され、さまざまなビジュアルプログラミングタスクを統一的に処理することができます。
JanusCoder-8Bは、Qwen3-8Bをベースに構築されたオープンソースのコードインテリジェンス基礎モデルで、統一されたビジュアルプログラミングインターフェイスを構築することを目的としています。このモデルは、JANUSCODE-800K(これまでで最大のマルチモーダルコードコーパス)で学習され、データ可視化、インタラクティブなWeb UI、コード駆動のアニメーションなど、さまざまなビジュアルプログラミングタスクを処理できます。
OpenMOSS-Team
MOSS-TTSDはオープンソースのバイリンガル口語対話合成モデルで、中国語と英語をサポートし、二人の対話脚本を自然で表现力豊かな対話音声に変換できます。音声クローニングをサポートし、単一ラウンドの音声生成時間は最大1700秒に達することができます。
Gemma 3 27B IT QATのMLX MXFP4量子化バージョンで、Googleによって開発された軽量オープンソースのマルチモーダルモデルです。このモデルは、テキストと画像の入力を同時に処理し、テキスト出力を生成することができ、128Kの大規模コンテキストウィンドウを持ち、140種類以上の言語をサポートし、さまざまなテキスト生成と画像理解タスクに適しています。
Lamapi
Next 12Bは、Gemma 3に基づく120億パラメータのマルチモーダル視覚言語モデルで、トルコで最も先進的なオープンソースの視覚言語モデルです。このモデルは、テキストと画像の理解において優れた性能を発揮し、高度な推論とコンテキスト感知型のマルチモーダル出力能力を備えており、特に専門レベルのトルコ語サポートを提供し、同時に幅広い多言語能力も備えています。
kenpath
Svara-TTSはインド語を対象としたオープンソースの多言語テキスト読み上げモデルで、19種類の言語(18種類のインド語 + インド英語)をサポートしています。このモデルはOrpheusスタイルの離散音声トークン方式に基づいて構築され、一般的なGPU/CPU上で明瞭で表现力に富み、低遅延の音声合成を実現することを目的としています。
onnx-community
Granite-4.0-1BはIBMが開発した軽量指令モデルで、Granite-4.0-1B-Baseをベースに微調整されています。このモデルはオープンソースの指令データセットと内部合成データセットを組み合わせ、監督微調整、強化学習、モデルマージなどの技術を用いて開発され、デバイス端末デプロイと研究用ケースに適しています。
Inbox Zeroは、オープンソースのAIメールアシスタント兼クライアントで、ユーザーが効率的にメールを管理し、受信トレイをゼロにするのを支援します。
Supabase MCPサーバーはオープンソースのツールで、IDEが安全にSQLを実行し、スキーマ変更を管理し、Supabase管理APIを呼び出し、Auth Admin SDKを使用できるようにします。組み込みのセキュリティ制御があります。
Solana Agent Kitは、AIエージェントをSolanaプロトコルに接続するためのオープンソースツールキットで、60種類以上のブロックチェーン操作をサポートします。
Refact AgentはオープンソースのAIプログラミングアシスタントで、多言語のコード生成、デバッグ、最適化をサポートし、主流の開発ツールと統合し、ローカルにデプロイでき、スマートなコード補完とコード解釈機能を提供します。
アデリンは、Rustで書かれたオープンソースのSolidityスマートコントラクト静的分析ツールで、開発者やセキュリティ研究者がSolidityコードの脆弱性を発見するのを支援します。FoundryとHardhatプロジェクトをサポートし、複数の形式のレポートを生成でき、VSCode拡張機能も提供します。
Klavis AIはオープンソースプロジェクトで、Slack、Discord、Webプラットフォームで簡単に使えるMCP(モデルコンテキストプロトコル)サービスを提供します。レポート生成、YouTubeツール、ドキュメント変換などのさまざまな機能があり、非技術ユーザーと開発者がAIワークフローを使用するのをサポートします。
セレナは強力なオープンソースのコーディングエージェントツールキットで、大規模言語モデル(LLM)をコードベース上で直接動作するフル機能のエージェントに変えることができます。IDEに似た意味論的なコード検索と編集ツールを提供し、様々なプログラミング言語をサポートし、MCPプロトコルまたはAgnoフレームワークを介して様々なLLMと統合することができます。
ソロンは、高効率、オープン、エコシステムにやさしいJavaのエンタープライズアプリケーション開発フレームワークで、全シナリオの開発に対応し、高性能、低メモリ消費、高速起動、小さなパッケージサイズなどの特徴があり、Java8からJava24まで、およびGraalVMネイティブランタイムと互換性があります。
データベース用MCPツールボックスは、オープンソースのデータベースMCPサーバーで、企業向けおよび本番環境の品質に特化しており、ツール開発を簡素化し、コネクションプールや認証などの複雑な機能を提供します。
Genkitは、AI駆動のアプリケーションを構築するためのオープンソースフレームワークで、Node.jsとGoのライブラリを提供し、複数のAIモデルとベクトルデータベースの統合をサポートし、開発ツールとプラグインエコシステムを含んでいます。
コンテナの使用は、コーディングエージェントにコンテナ化された分離環境を提供するオープンソースツールで、複数のエージェントが互いに干渉することなく並行開発をサポートします。
OpenDiaはオープンソースのブラウザ拡張ツールで、AIモデルが直接ユーザーのブラウザを制御でき、既存のログイン状態、ブックマークなどのデータを利用して自動化操作を行います。複数のブラウザとAIモデルをサポートし、プライバシー保護に配慮しています。
Cogneeは、AIエージェントに記憶機能を提供するオープンソースプロジェクトです。モジュール化されたECLパイプラインを通じて動的な知識グラフを構築し、複数のデータソースと形式をサポートし、幻覚を減らし、コストを削減します。
Cipherは、プログラミングAIエージェント向けに設計されたオープンソースのメモリ層フレームワークです。MCPプロトコルを通じてさまざまなIDEとAIコーディングアシスタントと統合し、自動記憶生成、チーム記憶共有、デュアルシステム記憶管理などの核心機能を提供します。
OpikはオープンソースのLLM評価フレームワークで、LLMアプリケーションのトレース、評価、監視をサポートし、開発者がより効率的で経済的なLLMシステムを構築するのを支援します。
これはWeb3モデルコンテキストプロトコル(MCP)サーバーの精選リストで、チェーンのやり取り、取引、DeFi、市場データ、ツール、ソーシャルなどの複数のカテゴリをカバーしています。MCPは、アプリケーションがLLMにコンテキストを提供する方法を標準化するオープンプロトコルで、AIアプリケーションのUSB - Cポートのようなものです。DeMCPは最初の分散型MCPネットワークで、エージェントに独自開発およびオープンソースのMCPサービスを提供し、暗号通貨による支払いをサポートし、TEEとブロックチェーンレジストリを組み合わせてMCPのセキュリティと信頼性を再定義しています。
Klavis AIはオープンソースプロジェクトで、Slack、Discord、ウェブ上で使用できる多機能計算プラットフォーム(MCP)を提供します。非技術ユーザーが簡単にAIワークフローを設定でき、開発者は拡張して構築することができます。
NotteはオープンソースのフルスタックネットワークAIエージェントフレームワークで、ブラウザセッション、自動化されたLLM駆動エージェント、ウェブページの監視と操作、資格情報管理などの機能を提供し、インターネットをエージェントに優しい環境に変え、自然言語でウェブサイトの構造を記述することでLLMの認知負荷を軽減することを目的としています。
Open Multi - Agent Canvasは、旅行計画、研究、一般的なタスク処理に使用される、動的な会話で複数のエージェントを管理することをサポートするオープンソースの多エージェントチャットインターフェースです。
MCP LLMS-TXTドキュメントサーバーは、開発者がMCPプロトコルを使用してIDEやアプリケーションからllms.txtドキュメントリソースにアクセスできるようにするオープンソースツールです。