StepFun AIがオープンソース「Step-Audio-EditX」を公開。30億パラメータ音声言語モデルにより、音声編集をテキストトークンのように制御可能に。従来の波形処理を超え、arXivに論文公開(2511.03601)。....
オランダの企業家ニールス・ホーヴェンが、すべてAIによる挿画を使った子ども向けアルファベット本を発売した。千を超える挿画はすべてAIによって作成された。著者は、この本を人が描く場合、5万ドルかかる上に1枚あたり2時間かかっていたため、コストが高すぎて実現できなかったと明かしている。生成型AI技術の活用により、この本は低コストで出版できたが、業界におけるコストと創作倫理に関する議論を引き起こしている。
テスラの株主がマスクの高額報酬プランを承認した後、彼はXプラットフォームで自社のAIツールGrokによって生成されたアニメーション動画を公開し、雨の中でのキャラクターが合成音声で愛情を表現する様子を紹介した。24分後に再度アップデートを行った。
アリババはアップグレードされたAI推論モデルQwen3-Max-Thinkingを発表しました。このモデルはアメリカンインビテーショナルマスゲームとハーバード・マサチューセッツ工科大学数学トーナメント(HMMT)の両方で満点を達成し、中国のAIモデルとして初めてこの2つの上級数学コンペティションで100%の正確率を達成したことを示しています。これにより、その強力な推論力と問題解決能力が際立っています。
ナナバナナ2は次世代のテキストから画像への変換および編集エンジンで、高速かつ高品質なビジュアルを提供します。
Google Gempix2はGemini 3を搭載した画像編集ツールで、機能がアップグレードされ、高品質な画像を出力します。
無料のAIツールで、1クリックでSora 2ビデオのウォーターマークを迅速に削除し、コンテンツの鮮明度と品質を回復します。
WAN 2.5とVeo 3.1を用いたシームレスなAIビデオ拡張。3 - 10秒の長さで、専門的な画質。
xai
$21.6
入力トークン/百万
$108
出力トークン/百万
256k
コンテキスト長
openai
$144
$576
200k
google
$9
$72
1M
deepseek
$3.6
$15.48
128k
$2.16
$18
anthropic
$540
minimax
-
alibaba
$0.72
nvidia
$4.03
$15.98
upstage
65.5k
$2.88
DavidAU
これは、Qwen3-VL-8B-Thinkingモデルをベースにした強化版のマルチモーダルビジュアル言語モデルです。Brainstorm 20x技術を用いて12Bパラメータに拡張され、NEO Imatrixで強化されたGGUF量子化が適用されています。このモデルは、画像理解、テキスト生成、マルチモーダル推論の能力が強く、ビジュアル感知、テキスト品質、クリエイティブなシーンでの性能が著しく向上しています。
noctrex
これはMiniMax-M2-THRIFTモデルのMXFP4_MOE量子化バージョンで、元のモデルに基づいて圧縮処理が行われており、25%のエキスパート枝刈り(256から192)が行われ、top_k=8に設定されています。同時に、エンコーディングモデルの特性が保持されており、テキスト生成タスクに使用できます。
unsloth
aquif-3.5シリーズは2025年11月3日にリリースされた傑作で、PlusとMaxの2つのバージョンがあり、高度な推論能力とこれまでにない100万トークンのコンテキストウィンドウを提供し、それぞれのカテゴリで最先端の性能を実現しています。
Qwen3-Coder-REAP-363B-A35Bは、REAP手法を用いてQwen3-Coder-480B-A35B-Instructを25%のエキスパート剪定を行った疎な混合エキスパートモデルです。元のモデルに近い性能を維持しながら、パラメータ規模とメモリ要件を大幅に削減し、特にリソースが制限されたコード生成とスマートコーディングのシナリオに適しています。
moonshotai
Kimi K2 Thinkingは月の暗面(Moonshot AI)が開発した最新世代のオープンソース思考モデルで、強力な深度推論能力とツール呼び出し機能を備えています。このモデルは混合専門家アーキテクチャを採用し、ネイティブINT4量子化をサポートし、256kのコンテキストウィンドウを持ち、複数のベンチマークテストで優れた性能を発揮します。
これはMistralアーキテクチャに基づく画像テキストをテキストに変換する量子化モデルで、パラメータ規模は24Bで、指令追従タスクに特化して最適化訓練され、マルチモーダル入力処理をサポートしています。
MiniMax-M2は、コーディングとエージェントのワークフローを最大化するために構築された小型の混合専門家モデルで、総パラメータは2300億、活性化パラメータは100億です。このモデルは、コーディングとエージェントタスクで卓越した性能を発揮し、同時に強力な汎用知能を維持し、コンパクトで高速かつ経済的に効率的な特徴を持っています。
dinhthuan
NeuTTS - Airベトナム語テキストを音声に変換するモデルは、260万以上のベトナム語オーディオサンプルに基づき、NeuTTS - Air基礎モデルから微調整された高品質のベトナム語音声合成モデルです。このモデルは、自然で流暢なベトナム語音声合成を実現でき、音声クローニング機能をサポートし、生産環境に合わせて最適化されています。
peteromallet
QwenEdit InScene LoRAsは、QwenEditを微調整したモデルグループで、シーン参照に基づく画像生成能力の強化に特化しています。InSceneメインモデルとInScene Annotateの2つのコンポーネントを含み、キャラクターの一貫性とシーンの連続性を維持しながら、新しいシーンレンズを作成することができます。
このプロジェクトは、Qwen3-Coder-30B-A3B-InstructモデルをMXFP4_MOE量子化した成果物で、コンテキストサイズを256kから1Mに拡張し、コード生成やプログラミングタスクに最適化されたモデルバージョンを提供し、パフォーマンスの向上とリソースの節約に価値があります。
lmstudio-community
Qwen3-VL-2B-ThinkingはQwenによって開発された視覚言語モデルで、2Bのパラメータ規模を持ち、MLXを使用して8ビット量子化が行われ、Apple Siliconチップに特化した最適化が施されています。このモデルは画像とテキストのマルチモーダル理解と生成タスクをサポートしています。
ycngin2024
これは微調整されたWhisper音声認識モデルで、unsloth/whisper-large-v3-turboアーキテクチャに基づいており、UnslothとHuggingface TRLライブラリを使用して訓練速度を2倍に加速し、訓練効率を大幅に向上させています。
Qwen3-VLはQwenシリーズの中で最も強力なビジュアル言語モデルで、卓越したテキスト理解と生成能力、深いビジュアル認知と推論能力、長いコンテキストサポート、強力な空間とビデオ動的理解能力、そして優れたエージェントインタラクション能力を備えています。このバージョンは2Bパラメータの思考強化版で、推論能力が特別に最適化されています。
Mungert
gpt-oss-safeguard-20bは、GPT-OSS-20bをファインチューニングした安全推論モデルで、大規模言語モデルの入出力フィルタリング、オンラインコンテンツのラベリング、および信頼と安全のユースケースのオフラインラベリングに特化しています。このモデルはApache 2.0ライセンスを採用しており、カスタムポリシーと透明な決定プロセスをサポートしています。
Qwen
Qwen3-VL-30B-A3B-Instructは通義シリーズで最も強力なビジュアル言語モデルで、ハイブリッドエキスパートモデルアーキテクチャを採用し、優れたテキスト理解と生成能力、深いビジュアル感知と推論能力を備え、256Kの長いコンテキストとビデオ理解をサポートし、さまざまなデバイスで推論が可能です。
bartowski
これはNVIDIAのQwen3-Nemotron-32B-RLBFF大規模言語モデルのGGUF量子化バージョンで、llama.cppツールを使用して様々な精度で量子化され、BF16からIQ2_XXSまで20種類以上の量子化オプションを提供し、さまざまなハードウェア構成とパフォーマンス要件に対応しています。
OPPOer
Qwen-Image-Editをベースにしたモデルの剪定バージョンで、20層を削除し、40層の重みを保持し、最終的なモデルサイズは13.6Bパラメータです。これは画像編集モデルで、複数の画像入力とテキストによる画像合成と編集をサポートします。
Qwen3-VL-2B-Instruct-GGUFは通義千問シリーズのマルチモーダルビジュアル言語モデルのGGUF量子化バージョンで、20億のパラメータを持ち、画像理解とテキスト生成のシームレスな融合をサポートし、CPUやGPUなどのデバイスで効率的に動作します。
これはQwen3-VL-2B-ThinkingモデルのLlamacpp imatrix量子化バージョンで、さまざまな量子化タイプのファイルを提供し、さまざまなハードウェア環境で効率的に動作します。このモデルは20億パラメータのマルチモーダルビジュアル言語モデルで、思考連鎖推論能力を備えています。
これはQwen3-VL-2B-Instructモデルの量子化バージョンで、llama.cppツールとimatrix方法を使用して、さまざまな量子化レベルのモデルファイルを生成し、さまざまなハードウェア環境で高効率に動作させることができます。このモデルは20億パラメータのマルチモーダルビジュアル言語モデルで、画像とテキストの相互作用をサポートしています。
OpikはオープンソースのLLM評価フレームワークで、LLMアプリケーションのトレース、評価、監視をサポートし、開発者がより効率的で経済的なLLMシステムを構築するのを支援します。
mcp-proxyは、サーバーの転送プロトコル変換を実現するツールで、SSEとstdioの2つのモード間でのプロキシ変換をサポートし、異なるクライアントとサーバー間の通信の適合を容易にします。
プロジェクトでは、2つのサービス起動方法(stdioプロトコルとSSEプロトコル)とそれに対応するクライアント設定方法を提供しています。
MCPリーゾナーはClaude Desktop用に設計された推論能力を強化するツールで、ビームサーチとモンテカルロ木探索の2つのアルゴリズムを提供し、複雑な問題の解決を最適化するための実験的な戦略シミュレーション層を新たに追加しています。
MCP ReasonerはClaude Desktop用に設計された推論強化ツールで、Beam SearchとMCTSの2つの検索戦略を提供し、実験的なアルゴリズムを通じて複雑な問題解決能力を向上させます。
API 200はオープンソースのAPI統合プラットフォームで、サードパーティAPIの迅速なアクセスと管理機能を提供し、自動コード生成、ドキュメント、認証、キャッシュ、エラー処理などの特性を備え、自前でホストするデプロイとMCPサービスをサポートします。
軽量級のMCPサーバーで、ClaudeなどのAIアシスタントにリアルタイムの天気データの照会と解析機能を提供します。ローカルとリモートの2種類のデプロイ方式をサポートし、Dockerコンテナ化の解決策も含まれています。
Open Data MCPはオープンソースプロジェクトで、MCPプロトコルを通じて公開データセットをLLMアプリケーションに迅速に接続することを目的としています。プロジェクトはCLIツールを提供し、2分での接続を実現し(現在はClaudeをサポート)、コミュニティ協力のフレームワークを構築して、開発者が簡単に公開データセットを貢献して公開できるようにします。核心的な目標は、すべてのLLMアプリケーションと数百万の公開データセットを接続するインフラストラクチャを構築することです。
Smart TreeはRustをベースに開発された超高速のディレクトリ可視化ツールで、従来のtreeコマンドよりも10~24倍高速で、AI最適化出力、量子圧縮、スマート検索などの機能を備えており、同時に環境保護と省エネにも配慮しています。
MCPBenchは、MCPサーバーのパフォーマンスを評価するためのフレームワークで、Web検索とデータベースクエリの2種類のタスクの評価をサポートし、ローカルおよびリモートのサーバーと互換性があり、主に精度、遅延、トークン消費を評価します。
DBCodeはVS Code用のデータベース管理プラグインで、20種類以上のデータベース接続をサポートし、データ編集、自然言語クエリ、ER図生成、可視化分析などの機能を提供し、開発者がIDE内で効率的にデータベース操作を行うのを支援します。
Snakは、Starknetブロックチェーンと相互作用できるAIエージェントを作成するためのツールキットで、複数のAIプロバイダーをサポートし、NPMパッケージとNestJSサーバーの2つの使用方法を提供します。
FreeCAD MCPはClaude DesktopでFreeCADを制御するプラグインで、2D図面から3Dモデルを作成するなど、さまざまな設計機能をサポートしています。
OpenAI Sora 2ビデオ生成APIを統合したMCPサーバーで、ビデオ生成、ミックス編集、状態照会、自動ダウンロード機能を提供します。
Conduitは、PhabricatorとPhorgeにAPI統合を提供するMCPサーバーで、HTTP/2と型安全をサポートし、DockerまたはHTTP/SSEサーバーで実行できます。
Spring BootとJava 21に基づくMCPサーバーの実装で、ユーザー管理ツールセットを提供します。
Kibana APIに基づくMCPサーバーの実装で、MCP互換クライアント(Claude Desktopなど)が自然言語またはプログラムによってKibanaインスタンスにアクセスできるようにし、ツールとリソースの2つの対話モードを提供します。
WordPress MCPサーバーは、JSON - RPC 2.0プロトコルを通じてWordPress REST APIとやり取りし、クロスプラットフォームでの実行をサポートします。
Auto Causal Inferenceは、大規模言語モデル(LLM)を利用して自動的に因果推論を行うプロジェクトです。ユーザーは介入変数と結果変数を指定するだけで、システムが自動的に変数の役割識別、因果グラフの構築、効果推定、モデル検証などの全プロセスの分析を完了します。プロジェクトは2種類のエージェントアーキテクチャ(LangGraphとMCP)を提供してこの機能を実現し、特に銀行シナリオの因果問題分析に適しています。
MCP STL 3Dレリーフ生成器は、2D画像を3Dレリーフモデルに変換するツールで、モデルのサイズ制御、ベースの追加、深度反転などの機能に対応し、3D印刷やレンダリングに適しています。