バイトダンスがAI動画編集ツールVidi2を発表。動画理解力がGoogle Gemini3Proを上回り、長時間素材の処理が可能。簡単なプロンプトで脚本生成から短編・長編動画まで自動制作し、創作のハードルを大幅に低減。....
EUが世界初の包括的AI法案に合意。AIシステムをリスクレベルで4段階に分類し、革新と人権保護の両立を図る。27カ国共通の規制枠組みを確立。....
テスラCEOのマスクがソーシャルメディアで人型ロボットOptimusの複数形はOptimisesではなくOptimiであることを発表した。これはラテン語の規則に従っており、このロボットはテスラが独自に開発したもので、会社の未来のコア製品と見られ、製造業を変革することを目的としている。
ドウパオチームは複数のスマートフォンメーカーと協力してドウパオモバイルアシスタントのテクノロジープレビュー版をリリースしました。これはドウパオ大規模モデルの能力とシステムのライセンスに基づいており、効率的なインタラクションと豊富な機能を提供します。エンジニアリングサンプル機のnubia M153はすでに少量販売されており、主に開発者やテクノロジー好き向けに提供されています。
ワンストップの製品管理プラットフォームで、構想から反復までの完全な製品ライフサイクルをカバーします。
Nano Banana ProはAI画像生成と写真編集機能を備え、高画質の作品を作成することができます。
専門のAIビデオ生成ツールで、テキストや画像を高品質なビデオに変換し、迅速に創作を完了できます。
高度なAI技術を用いて、テキストや画像を瞬時に3Dモデルに変換でき、3Dモデリングの経験が不要です。
xai
$21.6
入力トークン/百万
$108
出力トークン/百万
256k
コンテキスト長
openai
$144
$576
200k
google
$9
$72
1M
$14.4
$57.6
$7.92
$31.68
deepseek
$3.6
$15.48
128k
400k
$2.16
$18
anthropic
$540
chatglm
$4.03
$7.99
$0.43
$1.01
131.1k
minimax
-
alibaba
$0.72
$432
drbaph
Z-Image(造相)は60億のパラメータを持つ高効率な画像生成基礎モデルで、画像生成分野の効率と品質の問題を専門的に解決します。その蒸留バージョンであるZ-Image-Turboは、たった8回の関数評価でリーディングな競合モデルに匹敵するか、それを上回る性能を発揮し、企業用のH800 GPUでは亚秒級の推論遅延を実現し、16G VRAMの消費者向けデバイスでも動作します。
T5B
Z-Image-Turboは、FP8 E5M2とE4M3FN形式で量子化された画像処理モデルで、元のTongyi-MAI/Z-Image-Turboモデルを最適化し、性能を維持しながらモデルサイズと推論リソースの要件を大幅に削減します。
Shawon16
これはVideoMAE-baseアーキテクチャをベースに微調整された動画理解モデルで、手話認識タスクに特化して最適化されています。モデルはWLASLデータセットで200エポック訓練され、TimeSformerアーキテクチャを使用して動画シーケンスを処理します。
これはVideoMAE-baseアーキテクチャに基づいて微調整された動画理解モデルで、手話認識タスクに特化して最適化されています。モデルはWLASL100データセットで200エポック訓練され、動画動作認識能力を備えています。
PrimeIntellect
INTELLECT-3は1060億のパラメータを持つ混合専門家(MoE)モデルで、大規模な強化学習によって訓練されています。数学、コーディング、推論のベンチマークテストで卓越した性能を発揮し、モデル、訓練フレームワーク、環境はすべて緩やかなライセンス契約でオープンソース化されています。
SerialKicked
これはQwen3-VL-32B-Thinking-hereticの量子化バージョンで、新しいアブレーション手法を用いて量子化されており、従来の手法と比べてベースモデルへの損傷が少ない。複数の量子化精度バージョンを提供し、24GB VRAMのデバイスでの実行に適しており、画像とテキストの変換タスクをサポートする。
RinggAI
これは通話記録分析用に特別に開発された混合言語AIモデルで、ヒンディー語、英語、およびヒンディー語と英語の混合通話の文字起こし内容を処理できます。モデルはQwen2.5 - 1.5B - Instructをベースに微調整されており、強力な多言語理解と情報抽出能力を備えています。
これはVideoMAE - baseアーキテクチャに基づいて未知のデータセットで微調整された動画理解モデルで、手話認識タスクに特化しています。モデルは20エポックの訓練後に18.64%の正解率を達成しました。
city96
FLUX.2-devはblack-forest-labsによって開発された画像生成および編集モデルで、GGUF形式に変換され、画像生成タスクに最適化されており、拡散モデルアーキテクチャを採用し、ComfyUIフレームワークでの使用をサポートしています。
gguf-org
flux2-dev-ggufは、FLUX.2-devに基づく画像から画像への変換モデルで、テキストプロンプトに基づいて特定のスタイルの画像を生成するために特別に設計されています。このモデルはComfyUI環境での実行をサポートし、テキスト記述をスタイル化されたビジュアルコンテンツに変換することができます。
Clemylia
ピカチュウ言語モデルはClemyliaが起こした独自の実験的な言語プロジェクトで、完全にゼロから訓練され、「ピカチュウ」の音声コーパスのみに基づいており、小型言語モデルがネイティブ言語のアイデンティティを創造する能力を示しています。
silveroxides
black-forest-labs/FLUX.2-devをベースに最適化された画像生成モデルで、画像から画像への生成と編集タスクをサポートし、fp8_scaled量子化技術を採用して推論速度を向上させ、低VRAMのGPUでの使用に特に適しています。
ostris
これはLoRA技術に基づくテキストから画像への変換モデルで、フランスの印象派画家ベルト・モリソーの芸術スタイルを持つ画像を生成するために特別に設計されています。このモデルはFLUX.2-devベースモデル上で訓練され、通常の画像またはテキスト記述をモリソースタイルの絵画に変換することができます。
Tongyi-MAI
Z-Imageは機能が豊富で高効率な画像生成モデルで、60億のパラメータを持っています。これは画像生成分野における効率、品質、機能の多様性の問題を効果的に解決し、ユーザーに高品質の画像生成と編集サービスを提供します。
TomoroAI
TomoroAI/tomoro-colqwen3-embed-4bは、高度なColPaliスタイルのマルチモーダル埋め込みモデルで、テキストクエリ、ビジュアルドキュメント(画像やPDFなど)、またはショートビデオをアラインされたマルチベクトル埋め込みにマッピングできます。このモデルは、Qwen3-VL-4B-InstructとQwen3-Embedding-4Bの長所を組み合わせ、ViDoReベンチマークテストで優れた性能を発揮し、同時に埋め込みに必要なスペースを大幅に削減します。
optimum-internal-testing
これはHugging Face Hub上の🤗 Transformersモデルです。具体的な情報は後で補足されます。モデルカードは自動生成されており、モデルの公開者がより詳細な情報を提供する必要があります。
Gjm1234
Wan2.2は基礎ビデオモデルの大幅なアップグレード版で、有効なMoEアーキテクチャ、効率的なトレーニング戦略、マルチモーダル融合などの革新的な技術をビデオ拡散モデルに取り入れ、ビデオ生成分野により強力で効率的な解決策をもたらします。
これはVideoMAEアーキテクチャに基づくビデオ理解モデルで、Kineticsデータセットで事前学習した後に微調整され、手話認識タスクに特化しています。モデルは評価セットでの性能向上が必要で、正解率は0.0010です。
bartowski
これはマイクロソフトFara-7Bモデルの量子化バージョンで、llama.cppのimatrix技術を使用して最適化されています。このモデルは、高精度のbf16から超低精度のIQ2_Mまで、さまざまな量子化レベルをサポートし、異なるハードウェア構成とパフォーマンス要件を満たします。
Trilogix1
Fara-7Bは、コンピューターの使用シーンに特化して設計された、パラメータがわずか70億の効率的な小型言語モデルです。ウェブ操作などの高度なユーザータスクで優れた性能を発揮し、より大規模なプロキシシステムと競争することができます。
wcgwはMCPサーバープロジェクトで、シェルとコードエディターツールが統合されており、AIがローカルマシン上でコマンドを実行し、ファイルを読み書きし、コードを編集するなどの操作ができます。アーキテクトモード、コード作成モードなどの複数のモードを提供し、タスクチェックポイント保存、ターミナル対話、構文チェックなどの機能をサポートしており、コード開発、問題解決などのシーンに適しています。
Einoは、Golang用に設計されたLLMアプリケーション開発フレームワークで、シンプルで拡張可能で信頼性が高く効率的なコンポーネント抽象化と編成機能により、AIアプリケーションの開発プロセスを簡素化することを目的としています。豊富なコンポーネントライブラリ、強力なグラフ編成機能、完全なストリーム処理サポート、および高度に拡張可能なアスペクトメカニズムを提供し、開発からデプロイまでの全サイクルのツールチェーンを網羅しています。
sitemcpは、ウェブサイト全体の内容を取得し、それをMCPサーバーとして使用できるツールで、カスタムマッチングページ、コンテンツセレクターなどの機能をサポートし、ドキュメントやブログサイトの迅速な検索に適しています。
Inbox Zeroは、オープンソースのAIメールアシスタント兼クライアントで、ユーザーが効率的にメールを管理し、受信トレイをゼロにするのを支援します。
Unreal Engine のモデルコンテキストプロトコル (MCP) の統合に関するドキュメントで、MCP システムの理解、設定、使用を支援します。
SupermemoryはAI駆動の記憶エンジンで、個人データを統合することでLLMにコンテキスト知識を提供し、情報のスマートな管理と検索を実現します。
Supabase MCPサーバーはオープンソースのツールで、IDEが安全にSQLを実行し、スキーマ変更を管理し、Supabase管理APIを呼び出し、Auth Admin SDKを使用できるようにします。組み込みのセキュリティ制御があります。
MCP GoはGo言語で実装されたモデルコンテキストプロトコル(MCP)サーバーフレームワークで、LLMアプリケーションと外部データソースやツールを接続するために使用されます。リソース管理、ツール呼び出し、プロンプトテンプレートなどの核心機能を提供し、セッション管理とミドルウェア拡張をサポートしています。
ElevenLabs公式のMCPサーバーで、テキストを音声に変換し、音声処理APIとのやり取りが可能です。
Kubernetesに基づくMCPサーバーで、Kubernetesクラスターの管理および操作に使用します
Refact AgentはオープンソースのAIプログラミングアシスタントで、多言語のコード生成、デバッグ、最適化をサポートし、主流の開発ツールと統合し、ローカルにデプロイでき、スマートなコード補完とコード解釈機能を提供します。
各wikiファイルは、そのパスに対応する追加リソース(画像など)を`.resource`ディレクトリに保存し、git lfsを使用してバージョン管理する必要があります。
Claude/Cursor用に設計されたOpenAPI仕様探索サーバーで、3ステップのプロセスでユーザーがAPIドキュメントを検索し理解するのを支援します。
これは、ブラウザ制御、芸術と文化、クラウドプラットフォーム、コマンドライン、通信、顧客データプラットフォーム、データベース、開発者ツール、データサイエンスツール、ファイルシステム、金融とフィンテック、ゲーム、知識と記憶、位置サービス、マーケティング、監視、検索、ユーティリティツールなど、複数のカテゴリをカバーする、継続的に更新されるMCPサーバーの選りすぐりのリストです。各プロジェクトにはGitHubリンクとスター数が付属しており、ユーザーがすぐに理解して使用できるようになっています。
Solana Agent Kitは、AIエージェントをSolanaプロトコルに接続するためのオープンソースツールキットで、60種類以上のブロックチェーン操作をサポートします。
アデリンは、Rustで書かれたオープンソースのSolidityスマートコントラクト静的分析ツールで、開発者やセキュリティ研究者がSolidityコードの脆弱性を発見するのを支援します。FoundryとHardhatプロジェクトをサポートし、複数の形式のレポートを生成でき、VSCode拡張機能も提供します。
PG - MCPは、PostgreSQLデータベース用に設計されたモデルコンテキストプロトコルサーバーです。AIエージェントがデータベースを発見、接続、クエリ、および理解するためのAPIを提供し、複数のデータベース接続、豊富なディレクトリ情報、およびクエリ実行計画分析機能をサポートします。
Scraplingは適応型ウェブページのスクレイピングライブラリで、ウェブサイトの変化を自動的に学習し、要素を再配置します。複数のスクレイピング方法とAI統合をサポートし、高性能な解析と開発者に優しい体験を提供します。
MCPプロトコルに基づくKubernetesクラスター管理サーバーで、コマンドラインまたはチャットインターフェイスを通じてKubernetesクラスターとやり取りでき、リソース管理、Helmチャート操作などの機能を提供します。
WhatsApp MCPサーバーは、WhatsAppのウェブマルチデバイスAPIを通じて個人アカウントを接続するツールです。メッセージの検索、送信、マルチメディア処理をサポートし、ClaudeなどのLLMと統合されます。