面壁スマートが初のAIエッジ開発ボード「ソルグパイ」を発表しました。NVIDIA Jetsonモジュールを基盤とし、マイクやカメラなどのマルチモーダルインターフェースを統合し、自社で開発したMiniCPMシリーズのモデルに適合させ、開発者がスマートハードウェアを簡単に構築できるようにするものです。
騰訊が初めてのマンガアプリ「火龍漫劇」をリリースし、マンガをショートビデオに変換し、縦画面の情報流れデザインを採用し、AI技術を活用してコンテンツ制作効率を高めることで、汎エンタメ分野での優位性をさらに強化する。
OpenAIはフロンティアデプロイメントエンジニアを大規模に採用し、カスタマイズサービスで大企業の受注を獲得、ソリューション事業者へ転換し、企業AI市場での競争優位性を強化している。....
カーネギー・メロン大学の研究チームは、大規模言語モデルを基盤とした3Dプリンティングのリアルタイムエラー修正システムを開発しました。このシステムは交響楽団のように設計されており、一つの「指揮者」というエージェントが4つの専門的なエージェントを調整します。これは、印刷プロセスにおける微細なパラメータ変動によるエラーを自動的に検出および修正し、従来のオープンループシステムでは失敗する可能性があった問題を解決します。
ExportTokでは、TikTokのコメントをCSVまたはExcel形式で瞬時にエクスポートし、ワンクリックで会話を分析でき、安全で便利です。
Questie AIはリアルタイム音声チャット付きの究極のAIゲームコンパニオンで、多様なエンターテインメント体験を提供します。
ソーシャルメディアのAIエージェントを作成し、リアルタイムでトレンドを捕捉し、あなたの声でコンテンツを投稿します。
初のAI駆動のソーシャルメディアで、人間とAIエージェントの新しいソーシャルインタラクション体験を実現します。
Openai
$2.8
入力トークン/百万
$11.2
出力トークン/百万
1k
コンテキスト長
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
$4
$16
$2
$20
$8
$240
52
Bytedance
$1.2
$3.6
4
TomoroAI
TomoroAI/tomoro-colqwen3-embed-4bは、高度なColPaliスタイルのマルチモーダル埋め込みモデルで、テキストクエリ、ビジュアルドキュメント(画像やPDFなど)、またはショートビデオをアラインされたマルチベクトル埋め込みにマッピングできます。このモデルは、Qwen3-VL-4B-InstructとQwen3-Embedding-4Bの長所を組み合わせ、ViDoReベンチマークテストで優れた性能を発揮し、同時に埋め込みに必要なスペースを大幅に削減します。
Intel
DeepMathは40億パラメータの数学推理モデルで、Qwen3 - 4B Thinkingをベースに構築され、微調整された大規模言語モデルとサンドボックス化されたPython実行器を組み合わせています。これは計算ステップに対して簡潔なPythonコード断片を生成し、エラーを大幅に減らし、出力長を短縮します。
ai-sage
GigaChat3-10B-A1.8B-baseはGigaChatシリーズの基礎事前学習モデルで、混合エキスパート(MoE)アーキテクチャを採用し、総パラメータは100億、アクティブなパラメータは18億です。モデルはマルチヘッド潜在的注意機構(MLA)と多トークン予測(MTP)技術を統合し、推論時に高いスループットの利点を持ちます。
XiaomiMiMo
米モデルのエンボディメントモデル(MiMo-Embodied)は、強力なクロスエンボディメント視覚言語モデルであり、自動運転とエンボディメントAIタスクの両方で卓越した性能を発揮します。これは、この2つの重要な分野を結合した最初のオープンソースの視覚言語モデルであり、動的な物理環境における理解と推論能力を大幅に向上させました。
tencent
混元OCRは、混元の独自のマルチモーダルアーキテクチャによって駆動されるエンドツーエンドOCRの専門的なVLMモデルです。わずか10億パラメータの軽量設計で、複数の業界ベンチマークテストで最先端の成績を収めています。このモデルは、複雑な多言語ドキュメント解析に長けており、テキストの位置特定、オープンドメインの情報抽出、ビデオ字幕の抽出、画像の翻訳などの実際のアプリケーションシーンで優れた性能を発揮します。
Kiy-K
Fyodor-StarCoder2-7B-MoEはStarCoder2-7Bをベースにした強化版で、ハイブリッドエキスパートアーキテクチャを採用し、3つのMoE層、6つのエキスパートネットワーク、top-2ルーティングメカニズムを持ち、コード生成、関数呼び出し、エージェントタスクの分野で優れた性能を発揮します。
DarwinAnim8or
Prima-24Bは240億パラメータの大規模言語モデルで、GGUF形式を用いて量子化最適化され、ロールプレイングとクリエイティブライティングタスクに特化して最適化されています。このモデルは元のPrima-24Bモデルから変換され、Q4_K_M量子化レベルを採用しており、良好な性能を維持しながらモデルサイズとメモリ要件を大幅に削減しています。
prithivMLmods
Jan-v2-VLは80億のパラメータを持つ視覚言語モデルで、ブラウザやデスクトップアプリケーションなどの実際のソフトウェア環境で長周期、多段階のタスクを実行するために設計されています。このモデルは言語推論と視覚認知を密接に結びつけ、複雑な指示に従い、中間状態を維持し、軽度の実行エラーから回復して、安定した持続的なタスク完了を実現します。
mudasir13cs
これはGoogle Gemma - 3 - 4B - ITモデルを微調整したテキスト生成モデルで、デモンストレーションテンプレートのメタデータに基づいて多様で関連性のある検索クエリを生成するために特別に設計されています。このモデルはLoRAアダプタを使用して効率的に微調整されており、構造化文書のフィールド適応型密集検索フレームワークの重要な構成要素です。
cyankiwi
MiniMax-M2 AWQ - INT4は、MiniMax-M2モデルを量子化したバージョンで、INT4量子化技術を採用し、パフォーマンスを維持しながらメモリ使用量を大幅に削減し、推論効率を向上させます。このモデルは、コーディングとエージェントタスクで優れた性能を発揮し、卓越した総合性能を持っています。
NyxKrage
Moondream 3 Preview HFは、HuggingFace Transformersアーキテクチャの仕様に基づいてMoondream 3 (Preview)モデルを再実装したもので、Hugging Faceのエコシステムと完全に互換性があります。これはマルチモーダルビジュアル言語モデルで、エキスパート混合(MoE)テキストバックボーンを採用し、約90億のパラメータと20億のアクティブパラメータを持ちます。
DavidAU
これは、Qwen3-VL-8B-Thinkingモデルをベースにした強化版のマルチモーダルビジュアル言語モデルです。Brainstorm 20x技術を用いて12Bパラメータに拡張され、NEO Imatrixで強化されたGGUF量子化が適用されています。このモデルは、画像理解、テキスト生成、マルチモーダル推論の能力が強く、ビジュアル感知、テキスト品質、クリエイティブなシーンでの性能が著しく向上しています。
unsloth
Qwen3-Coder-REAP-363B-A35Bは、REAP手法を用いてQwen3-Coder-480B-A35B-Instructを25%のエキスパート剪定を行った疎な混合エキスパートモデルです。元のモデルに近い性能を維持しながら、パラメータ規模とメモリ要件を大幅に削減し、特にリソースが制限されたコード生成とスマートコーディングのシナリオに適しています。
samwell
NV-Reason-CXR-3B GGUFはNVIDIA NV-Reason-CXR-3Bビジュアル言語モデルの量子化バージョンで、エッジデバイスへのデプロイに最適化されています。これは30億パラメータのモデルで、胸部X線分析に特化しており、GGUF形式に変換され、量子化処理が施されているため、モバイルデバイス、デスクトップデバイス、組み込みシステムで効率的に動作します。
allenai
Olmo 3は、Allen Institute for AI (Ai2)によって開発された全く新しい32Bパラメータの言語モデルファミリーで、Base、Instruct、Thinkなどのバリエーションが含まれています。このモデルはDolma 3データセットを基に訓練され、65,536の長文脈処理をサポートし、言語モデル科学の発展を推進することを目的としています。モデルは完全にオープンソースで、Apache 2.0ライセンスに従っています。
MiniMax-M2は、コーディングとエージェントのワークフローを最大化するために構築された小型の混合専門家モデルで、総パラメータは2300億、活性化パラメータは100億です。このモデルは、コーディングとエージェントタスクで卓越した性能を発揮し、同時に強力な汎用知能を維持し、コンパクトで高速かつ経済的に効率的な特徴を持っています。
Qwen3-VLはQwenシリーズの中で最も強力なビジュアル言語モデルで、卓越したテキスト理解と生成能力、深いビジュアル認知と推論能力、長いコンテキストサポート、強力な空間とビデオ動的理解能力、そして優れたエージェントインタラクション能力を備えています。このバージョンは2Bパラメータの思考強化版で、推論能力が特別に最適化されています。
Qwen
Qwen3-VL-8B-Thinkingは通義千問シリーズの中で最も強力なビジュアル言語モデルで、強化された推論能力を備えた8Bパラメータ版です。このモデルは、テキスト理解、ビジュアル認知、空間理解、長文脈処理などの面で全面的にアップグレードされ、マルチモーダル推論とエージェントインタラクションをサポートしています。
Qwen3-VL-2B-ThinkingはQwenシリーズで最も強力なビジュアル言語モデルで、卓越したテキスト理解と生成能力、深いビジュアル感知と推論能力、長いコンテキストサポート、強化された空間と動画の動的理解能力、およびより強力なエージェント対話能力を備えています。このモデルは2Bのパラメータ規模を採用し、指令版と強化推論の思考版をサポートしています。
redponike
MiniMax - M2は、高効率コーディングとインテリジェントエージェントワークフロー用に特別に開発されたハイブリッドエキスパートモデルで、総パラメータが2300億、活性化パラメータが100億です。このモデルは、コーディングとインテリジェントエージェントタスクで卓越した性能を発揮し、低遅延、低コスト、高スループットの特徴を持ち、作業効率を効果的に向上させます。
ソロンは、高効率、オープン、エコシステムにやさしいJavaのエンタープライズアプリケーション開発フレームワークで、全シナリオの開発に対応し、高性能、低メモリ消費、高速起動、小さなパッケージサイズなどの特徴があり、Java8からJava24まで、およびGraalVMネイティブランタイムと互換性があります。
Cipherは、プログラミングAIエージェント向けに設計されたオープンソースのメモリ層フレームワークです。MCPプロトコルを通じてさまざまなIDEとAIコーディングアシスタントと統合し、自動記憶生成、チーム記憶共有、デュアルシステム記憶管理などの核心機能を提供します。
MCP Unityは、Model Context Protocolを実装したUnityエディター拡張で、Node.jsサーバーを通じてAIアシスタントとUnityプロジェクトのインタラクションを橋渡しし、メニュー実行、オブジェクト選択、コンポーネント更新などの機能を提供します。
Blender MCP VXAIは強力な統合ツールで、ユーザーが自然言語でBlenderを制御し、3Dモデリング、アニメーション、シーンの作成と修正を実現できます。複雑な操作を簡素化し、リアルタイムでプロジェクトにエクスポートすることをサポートします。
pg-aiguideはAIによって最適化されたPostgreSQLの知識ベースで、AIプログラミングアシスタントに公式ドキュメントの意味検索、ベストプラクティスのスキル、および拡張エコシステムのドキュメントを提供し、より高品質なPostgreSQLコードの生成を支援します。
PlaywrightをベースにしたNode.jsツールで、検索エンジンの反クロールメカニズムを回避してGoogle検索を実行し、結果を抽出できます。コマンドラインツールまたはMCPサーバーとしてAIアシスタントにリアルタイム検索機能を提供できます。
これは、MCPコード実行モードを実現するサーバーで、単一ツールブリッジとゼロコンテキスト発見メカニズムを通じて、MCPツールの呼び出しオーバーヘッドを数万トークンから約200トークンに削減し、ルートコンテナ内で安全にPythonコードを実行し、データサイエンスとセキュリティ隔離をサポートします。
Cheat Engine MCPブリッジは、AIアシスタントをMCPプロトコルを通じてCheat Engineメモリ分析ツールに接続するプロジェクトです。ユーザーは自然言語の命令で直接プログラムのメモリを照会し、操作することができ、リバースエンジニアリングとデバッグの効率を大幅に向上させます。
Qdrantベクトルデータベースを基にしたドキュメントの意味検索サービスで、URLとローカルファイルのインポートをサポートし、自然言語クエリ機能を提供します。
MCP - PostgreSQL - Opsは、専門的なPostgreSQLデータベース操作と監視用のMCPサーバーです。PostgreSQL 12 - 17バージョンをサポートし、包括的なデータベース分析、パフォーマンス監視、スマートなメンテナンス提案を提供し、自然言語クエリによるデータベース管理を実現します。
DocforkはAIコードエディターに最新のドキュメントを提供するMCPサービスで、9000以上のライブラリのドキュメント同期をサポートし、開発者が正確でリアルタイムのAPIドキュメントとコード例を取得できるようにします。
Mux Node APIライブラリは、サーバーサイドのTypeScriptまたはJavaScriptからMux REST APIに簡単にアクセスするためのライブラリです。完全なAPIドキュメント、型定義、エラー処理、自動ページング、JWTツール、Webhook検証などの機能を提供し、複数のランタイム環境をサポートします。
Next.jsドキュメントMCPサーバーは、AIエージェントに完全なNext.jsドキュメントのURLデータベースを提供し、インテリジェントなドキュメント選択とクエリ分析をサポートします。
LangGraphベースのエージェントツールで、ユーザーがAIを通じて画像を生成し、ストーリーブロックチェーン上のIP資産として登録するのを支援します。画像生成、IPFSアップロード、メタデータ作成、ライセンス条項の交渉、ブロックチェーン登録までの全プロセスを含みます。
このプロジェクトは、MCPプロトコルに基づくサーバーで、WHOISクエリを通じてドメインの可用性をチェックするために特別に設計されており、AIアシスタントなどのツールにドメインチェック機能を統合することをサポートしています。
キャタリシスハブのMCPサーバープロジェクトは、GraphQLインターフェースを通じて触媒研究データへのプログラムによるアクセスを提供し、複雑なクエリと変数パラメータ化をサポートし、MCPプロトコルに従ってAIエージェントの相互運用性を実現します。
このプロジェクトはFAISSベクトルデータベースをベースにしたMCPサーバーを実装し、検索強化生成(RAG)機能をサポートしており、GitHubファイルのダウンロード、ドキュメントのインデックス化、ローカルクエリ、LLMの統合などの完全なワークフローを含んでいます。
MUXI.aiは、オープンソースのマルチAIエージェントシステムフレームワークで、永続的なメモリ、標準化された通信プロトコル、および思考チェーン追跡機能を提供し、複数のインターフェース統合をサポートします。開発者が高度なAIアプリケーションを構築するためのモジュール型で拡張可能なプラットフォームを目指しています。
Model Context Protocolに基づくOpenAPIドキュメント検索サーバーです。API仕様の読み込み、解析、およびクエリ機能を提供し、JSONおよびYAML形式をサポートし、10のクエリツールを備えており、AIアシスタントがAPIドキュメントにアクセスしやすくなります。
YouTube MCPサーバーは、標準インターフェースを通じてYouTubeのデータとやり取りするサービスで、動画、チャンネル、コメント、字幕のクエリと分析機能を提供します。