OpenAIがGPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisperの3つのリアルタイム音声モデルを発表し、Realtime APIに統合。GPT-Realtime-2は最も賢いAI音声モデルで、音声対話における高遅延、自然な割り込みの困難さ、多言語サポートの課題を解決することを目指す。....
アリババ ATHイノベーション事業部は、新世代のマルチモーダルビデオ生成モデル「HappyHorse」を発表し、すでにグレーゾーンテストを開始しました。このモデルはArena.aiの三大主要ランキング(テキストからビデオ生成、画像からビデオ生成、ビデオ編集)で優れたパフォーマンスを発揮しており、映画級の画質と深い意味理解能力を備え、1080Pの超高解像度出力をサポートしています。香港風の雰囲気や古装などの多様なビジュアルスタイルを正確に扱えるため、世界のAIビデオ分野での有力な競合者となっています。
テンセントクラウドのエージェントプラットフォーム QClaw は v0.2.14 バージョンを公開しました。これはこれまでで最大の更新です。アップデート内容には、Hermesフレームワークとの統合と、Hermesタイプのエージェントの作成・実行のサポートが含まれており、ベースとなるモデルの多様化を実現し、AIの利用の障壁を大幅に低めました。ユーザーは単一のアプリケーション内で複数のモデルを調整できます。
影禾医脈と北京天壇病院は4月24日、北京で共同で世界初の全疾患対応の頭部CT補助レポート生成の大規模モデル「小君医師2.0」を発表しました。このAI製品は、先端技術を活用して医学画像レポートの効率と正確性を向上させることを目的としており、多くの医療専門家やテクノロジー愛好家の注目を集めています。
OpenAIの次世代AI画像生成モデルで、無料でオンラインで試用でき、多様なタイプのビジュアル創作に利用できます。
ChatGPT Image 2はOpenAIに関連するAI画像モデルで、テキストレンダリングと多言語出力に優れています。
世界中で使用できるAIメディア生成プラットフォーム。最高レベルのモデルと連結し、多様な創作ニーズに対応。
無料のAI画像生成器で、多くのモデルがあり、スマートなルーティング機能を備え、機能が豊富で、Midjourneyに匹敵する効果が得られます。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
Baidu
128
$6
$24
$4
$16
$2
$20
RinggAI
これは通話記録分析用に特別に開発された混合言語AIモデルで、ヒンディー語、英語、およびヒンディー語と英語の混合通話の文字起こし内容を処理できます。モデルはQwen2.5 - 1.5B - Instructをベースに微調整されており、強力な多言語理解と情報抽出能力を備えています。
allenai
Olmo 3はAllen Institute for AIによって開発された一連の言語モデルで、7Bと32Bの2種類の規模があり、命令式と思考式の2種類のバリエーションがあります。このモデルは長鎖思考に優れており、数学やコーディングなどの推論タスクの性能を効果的に向上させることができます。多段階訓練方式を採用しており、教師付き微調整、直接嗜好最適化、検証可能な報酬による強化学習が含まれます。
Olmo-3-7B-Think-DPOはAllen Institute for AIが開発した70億パラメータの言語モデルで、長い連鎖的な思考能力を持ち、数学やコーディングなどの推論タスクで優れた性能を発揮します。このモデルは、教師付き微調整、直接的な嗜好最適化、検証可能な報酬に基づく強化学習などの多段階の訓練を経ており、研究や教育目的に特化して設計されています。
TheStageAI
TheWhisper-Large-V3-Turboは、OpenAI Whisper Large V3モデルの高性能ファインチューニング版で、TheStage AIによって多プラットフォームのリアルタイム、低遅延、低消費電力の音声テキスト変換推論に最適化されています。ストリーミング文字起こし、単語のタイムスタンプ、拡張可能なパフォーマンスをサポートし、リアルタイム字幕、会議、デバイス端末の音声インターフェイスなどのシーンに適しています。
TheWhisper-Large-V3はOpenAI Whisper Large V3モデルの高性能ファインチューニング版で、TheStage AIによって多プラットフォーム(NVIDIA GPUとApple Silicon)のリアルタイム、低遅延、低消費電力の音声テキスト変換推論用に最適化されています。
Mungert
PokeeResearch-7Bは、Pokee AIによって開発された70億パラメータの深度研究エージェントモデルです。AIフィードバック強化学習(RLAIF)と強力な推論フレームワークを組み合わせ、ツール強化型大規模言語モデルにおいて信頼性が高く、アライメントされ、拡張可能な研究レベルの推論を実現し、複雑な多段階研究ワークフローに適しています。
nineninesix
KaniTTSは、リアルタイム対話型人工知能アプリケーション向けに最適化された高速かつ高忠実度のアラビア語テキスト音声変換モデルです。2段階パイプラインアーキテクチャを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせることで、卓越した速度とオーディオ品質を実現し、対話型AI、障害者支援、研究など多くの分野の音声合成ニーズを満たすことができます。
unsloth
ApertusはスイスのAIによって開発された完全にオープンな多言語大規模言語モデルで、70億と80億の2種類のパラメータ規模を提供します。このモデルは1000種類以上の言語をサポートし、完全にコンプライアンスでオープンな学習データを使用し、その性能はクローズドソースモデルに匹敵します。Apertusは15Tのトークンで事前学習され、段階的なコース学習方法を採用し、最大65,536トークンのコンテキスト長をサポートします。
redponike
ApertusはスイスのAIによって開発された完全にオープンな多言語大規模言語モデルで、パラメータ規模は80億と700億で、1000種以上の言語と長文脈処理をサポートし、完全にコンプライアンスの取れたオープンな学習データのみを使用し、性能はクローズドソースモデルに匹敵します。
Granite-4.0-MicroはIBMが開発した30億パラメータの長文脈指令モデルで、Granite-4.0-Micro-Baseをベースに微調整されています。このモデルはオープンソースの指令データセットと内部合成データセットを使用しており、指令の遵守とツール呼び出し能力が強化されており、多言語タスクをサポートし、各分野のAIアシスタントの基礎モデルとして使用できます。
GLM-4.6は智譜AIが発表した次世代のテキスト生成モデルで、GLM-4.5と比較して、長いコンテキストウィンドウ、より優れたコーディング性能、より強力な推論能力など、多くの面で顕著な改善が見られます。このモデルは、いくつかの公開ベンチマークテストで優れた結果を収めており、国内外の主要モデルと比較しても競争力があります。
Sunbird
Sunflower-32BはSunbird AIによって開発された多言語大規模言語モデルで、ウガンダ地域の言語に特化して最適化されています。Qwen 3 - 32Bアーキテクチャに基づいて構築され、31種類のウガンダ言語と英語の翻訳およびテキスト生成タスクをサポートし、ウガンダ言語の翻訳精度で優れた結果を示しています。
Sunflower-14Bは、Sunbird AIによって開発された多言語大規模言語モデルで、ウガンダの言語に特化して設計されています。このモデルはQwen 3-14Bアーキテクチャに基づいて構築され、31種類のウガンダ語と英語の翻訳およびテキスト生成タスクをサポートし、複数の評価で優れた成績を収めています。
LFM2はLiquid AIによって開発された次世代のハイブリッドモデルで、エッジAIとデバイス端末のデプロイメントに特化して設計されており、品質、速度、メモリ効率の面で新しい基準を確立しています。このモデルは革新的なハイブリッドLiquidアーキテクチャを採用し、乗算ゲートと短い畳み込みを備えており、多言語処理をサポートしています。
nvidia
NVIDIA-Nemotron-Nano-9B-v2はNVIDIAが最初から訓練した大規模言語モデルで、推論および非推論タスク用に設計されています。Mamba2-Transformer混合アーキテクチャを採用し、多言語処理をサポートし、制御可能な推論能力を備え、ユーザーが思考予算を指定でき、商用アプリケーションやAIエージェントシステムで優れた性能を発揮します。
facebook
DINOv3はMeta AIが開発した多機能ビジュアル基礎モデルで、微調整なしで幅広いビジュアルタスクで専用モデルを上回ります。このモデルは高品質な密集特徴を生成でき、様々なビジュアルタスクで優れた性能を発揮し、これまでの自己監督型および弱監督型の基礎モデルを大幅に上回っています。
Meta Llama-3.3-70B-Instructをベースにした大規模言語モデルで、多段階のトレーニング最適化を経て、推論やチャットなどのタスクで優れた性能を発揮し、複数の言語をサポートし、様々なAIアプリケーションシーンに適しています。ニューラルアーキテクチャサーチ技術を用いて最適化され、単一のH100-80GB GPUで効率的に動作します。
Devstral Small 1.1は、ソフトウェアエンジニアリングタスク用に最適化された大規模言語モデルで、Mistral AIとAll Hands AIが共同開発し、多言語とツール呼び出しをサポートしています。
lmstudio-community
ダニシュタ2.0はHelpingAIによって開発された画期的な推論AIモデルで、多言語テキスト生成をサポートし、中間思考能力と多段階思考プロセスを備えています。
Qwen 30B MoEをベースとしたプロトタイプのロールプレイングモデルで、多様なロールプレイング体験を提供することに特化しています。きめ細かいトレーニングによりAIの決まり文句を排除し、複数のロールプレイング形式とカスタム精度調整をサポートしています。
Zen MCPは多モデルAI協調開発サーバーで、ClaudeやGemini CLIなどのAIコーディングアシスタントに強化されたワークフローツールとモデル間のコンテキスト管理を提供します。これは複数のAIモデルのシームレスな協調をサポートし、コードレビュー、デバッグ、リファクタリングなどの開発タスクを実現し、異なるワークフロー間で会話のコンテキストを維持することができます。
これはDockerコンテナに基づくAI開発ツールプロジェクトで、Markdownファイルを使用して複雑なワークフローを記述し、Docker化されたツールとユーザーが選択したLLMモデルを組み合わせて、多モデルエージェントとプロジェクト優先設計のワークフローを実現します。
K8MはAI駆動の軽量級Kubernetesコンソールツールで、大規模モデルの能力を統合し、多クラスタ管理とMCPサービスをサポートします。
LYRAIOSはモデルコンテキストプロトコル(MCP)に基づく多AIエージェントオペレーティングシステムで、金融ネットワークとブロックチェーンパブリックチェーンを接続することでAIアプリケーションの機能を拡張し、ブロックチェーン操作、金融テクノロジー分析、教育学習などのサービスを提供することを目的としています。
AWS GCRが提供するMCPサーバーのサンプル集合で、リモートデスクトップ、ワークフローサービス、AI計画、時間サービス、HTMLレンダリングなどの多種の機能をカバーしています
MCPゴムダックは、モデルコンテキストプロトコル(MCP)に基づくサーバーで、複数のOpenAI互換のLLMを照会するためのブリッジとして機能します。ゴムダックデバッグ法のように、ユーザーが異なるAI「ダック」に問題を説明し、多様な視点からの回答を得ることができます。さまざまなAIプロバイダーをサポートし、会話管理、多モデル比較、コンセンサス投票、議論、反復最適化などの高度なツールを提供し、MCPブリッジ機能を通じて他のMCPサーバーに接続して機能を拡張することができます。
メタAPI MCPサーバーは、多APIをサポートするゲートウェイサーバーで、Model Context Protocol (MCP)を通じて様々なAPIと大規模言語モデル(Claude、GPTなど)を接続し、AIアシスタントがAPIと直接やり取りし、実データソースにアクセスできるようにします。JSON設定ファイルまたはPostmanコレクションからのAPIの迅速な追加をサポートし、HTTPメソッドの完全なサポートと複数の認証方式を提供します。
飞书MCPサーバーはMCPに基づくサービスで、飞书APIの统合を提供し、AIモデルが飞书サービスと简単にやり取りできるようにします。多次元テーブル操作と复数のモードの通信をサポートしています。
MindBridgeはAIモデルルーターサーバーで、複数のLLMプロバイダーをサポートし、スマートなモデルスケジューリングと協調を実現し、複雑な推論タスクや多モデルワークフローに適しています。
Model Context Protocolに基づくMySQLデータベース操作サーバーで、標準化されたインターフェースを提供してAIモデルがMySQLとやり取りできるようにし、ローカルとリモートのデプロイをサポートし、多ユーザー同時アクセス、コネクションプール管理などの特性を備えています。
AnySite MCPサーバーは、モデルコンテキストプロトコルに基づく多プラットフォームのネットワークデータ収集ツールで、LinkedIn、Instagram、Reddit、Twitterなどのプラットフォームをサポートし、AIエージェントにリアルタイムで構造化されたネットワークデータへのアクセス能力を提供します。
MCPドキュメントインデクサーは、Pythonベースのローカルドキュメントインデックスと検索サーバーです。LanceDBベクトルデータベースとローカルLLM(Ollamaを通じて)を利用して、リアルタイム監視、多フォーマットドキュメント処理、意味検索を実現し、モデルコンテキストプロトコル(MCP)を通じてClaudeなどのAIアシスタントにツールを提供します。
飞书MCPサーバーの実装で、AI大規模モデルと飞书APIのやり取り能力を提供し、主に多维表格の操作をサポートします。
これはローカルAIがリモートAIの指導を受けるためのMCPサーバーで、多輪対話、ファイルアップロード、インテリジェントな対話管理をサポートし、特にGLM - 4.7モデルに最適化されています。
セキュリティを優先したモデルに基づくUbuntu MCPサーバーで、AIアシスタントに制御されたシステム操作へのアクセスを提供し、多層のセキュリティ保護、監査ログ、およびリソース制限を含みます。
Claude CodeとGoogle Gemini AIを組み合わせたMCPサーバーで、多モデル協調により深いコード分析を実現します。Claudeはローカルコンテキスト操作とCLIワークフローに優れ、Geminiは超大規模なコンテキストウィンドウを利用して分散システムのデバッグと長いトレース分析を行います。
複数のAIエージェントによる相談ができるMCPサーバーで、OpenAI、Anthropic、Google Geminiなどの異なるAIモデルを統合し、コード分析と問題解決に多モデルの視点からのサポートを提供します。
OpenSCADに基づくMCPサーバーで、AIを通じて多視点画像を生成し、パラメトリック3Dモデルに再構成し、リモートCUDAアクセラレーション処理をサポートしています。
Image Gen MCP Serverは、Model Context Protocol(MCP)標準プロトコルを通じて、さまざまなLLMチャットボットにクロスプラットフォーム、多モデルの画像生成機能を提供する汎用AI画像生成サービスです。OpenAIとGoogleの複数の画像モデルをサポートし、テキスト対話からビジュアルコンテンツへのシームレスな変換を実現します。
Swarms APIは、多エージェントシステムの構築、デプロイ、管理を行うためのREST APIで、さまざまなAIモデルと群構造をサポートし、リアルタイム監視、バッチ処理、タスクスケジューリングなどの機能を提供します。