元宝プラットフォーム2025年のレポートによると、混元大モデルはAIの能力を多方面にわたって向上させました。プラットフォームでは「速い思考」と「深く考える」の2つのモードを提供しています。7割以上のユーザーが「速い思考」モードを選択しており、半数近くの問題が最初のホップで解決されます。一方、「深く考える」モードは複雑なシナリオに適しており、会話は通常3ホップ以上続くことが多く、半数近くが複数ステップの構造化されたコンテンツを出力します。画像インタラクションにおいては、5月に混元T1-Visモデルがリリースされました。
テンセントのAIアプリ「元宝」のPC版に「録音ペン」機能が新規追加され、オフィスシーンの生産性が強化されました。今回のアップデートにより、モバイル端末とデスクトップ端末の連携が完結し、ユーザーは直接パソコンで録音または音声ファイルをアップロードできるようになり、複数端末間でのデータ移動が不要となり、音声処理の効率が向上しました。
【AI日報】へようこそ!ここは毎日、人工知能の世界を探索するためのガイドです。毎日、AI分野の注目ニュースを紹介し、開発者に焦点を当て、技術のトレンドや革新的なAI製品の応用について理解を深めていただきます。最新のAI製品については以下から確認してください:https://app.aibase.com/zh1、フードルがInstanceAssembleをオープンソース化しました!この機能は2026年1月にリリース予定で、ユーザーとAIの協働の仕方を変えることになります。
クアンカーマンガは「AIキャストインタラクティブマンガ」をリリースしました。AI技術を使ってマンガキャラクターを「生きている」ようにするこの製品は、マンガ業界がAI体験の第4のトレンドに入ることを示しています。この製品はMiniMaxによって技術支援され、動画と音声生成モデルを統合し、ユーザーに没入型のインタラクティブ体験を提供します。
Photoleapクリスマスカードメーカー。7日間無料トライアルで、簡単に個性的なカードをデザインできます。
LiveImage AIを使って、祝祭用のAIクリスマスカードをデザインし、すばやく個性的なクリスマスの挨拶と電子カードを作成しましょう。
AIキャラクターの一貫性ツールで、アーティスト、デザイナー、コンテンツクリエイターに無料の生成ツールを提供します。
ToMoviee AIは全能型のAIクリエイティブスタジオで、動画、画像、音楽、音声を迅速に生成でき、クリエイター、マーケティング担当者、映画製作者、デザイナー、チームに最適です。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$6
$24
256
Baidu
128
$2
$20
$4
$16
$8
$240
52
Bytedance
$1.2
$3.6
4
onnx-community
SAM3は概念ベースの任意分割モデルで、入力された点やボックスなどのプロンプト情報に基づいて、正確な画像分割マスクを生成することができます。このバージョンはONNX形式のSAM3トラッカーモデルで、Transformers.jsライブラリを通じてブラウザ環境で効率的に動作します。
ZygAI
ZygAIは、リトアニア語と英語のタスク用に設計された高速なローカル大規模言語モデルで、テスト段階にあります。軽量級のバイリンガルアシスタントとして、ローカルハードウェア上でリアルタイムに動作し、ユーザーに効率的で正確なバイリンガルサービスを提供します。
SamuelBang
AesCoder-4Bは、コードの美学的品質の向上に特化した大規模言語モデルです。インテリジェントな報酬フィードバックメカニズムを通じて、コード生成の美学的表現を最適化し、ウェブデザインやゲーム開発などのビジュアルコーディングタスクで優れた性能を発揮します。
UtkarshRishi
ArcMindはArcDevsによって開発された次世代の対話モデルで、自然なインタラクション、適応型インテリジェンス、コンテキストの正確性に焦点を当て、ユーザーにシームレスで人間に似た対話体験を提供することを目的としています。
MEGHT
Qwen3 0.6Bモデルをベースにファインチューニングされた検索クエリ生成モデルで、ユーザー入力と対話コンテキストに基づいて関連する検索クエリを生成でき、検索エンジン提案システムやチャットボットなどのアプリケーションシナリオに適しています。
openchs
OpenAI Whisper Large v2をCommon Voice 17.0 スワヒリ語データセットでファインチューニングした音声認識モデルで、タンザニアの子供向けヘルプラインのスワヒリ語音声認識タスクに特化して設計されています。基本モデルと比較して、スワヒリ語の認識精度が大幅に向上しています。
sothmik
これはCivitaiプラットフォームに基づくテキストから画像生成モデルで、テキスト記述を高品質な画像に変換することができます。モデルは量子化ツールを通じて最適化することができ、クリエイティブデザインやビジュアルコンテンツ生成に適しています。
John6666
Stable Diffusion XL技術に基づくテキストから画像へのモデルで、専門的にアニメスタイルのガール画像を生成し、クリエイティブデザイン分野をサポートします。
Jackmin108
Moonlightは、Muonオプティマイザーを用いて訓練された、総パラメータ16B、活性化パラメータ3Bのハイブリッドエキスパート(MoE)モデルで、5.7Tのトークンを使って訓練されました。このモデルは現在のパレートフロンティアを改善し、より少ない訓練FLOPでより良い性能を実現し、複数のベンチマークテストで優れた結果を示しています。
NVFP4
Qwen3-235B-A22B-Instruct-2507はQwen3シリーズモデルの更新バージョンで、汎用能力、希少知識のカバレッジ、ユーザーの嗜好アライメント、長文脈理解などの面で著しい向上が見られ、より質の高いテキスト生成サービスを提供できます。このモデルは混合専門家アーキテクチャを採用し、合計235Bのパラメータのうち、22Bのパラメータが活性化され、ネイティブで262,144の文脈長をサポートします。
tensorblock
Arch-Router-1.5Bは、大規模言語モデルのルーティングと嗜好選択に特化した15億パラメータのモデルで、transformersライブラリに基づいて構築され、katanemo-researchライセンスで公開されています。このモデルは、ユーザーのクエリを最適な大規模言語モデルにスマートにルーティングして処理することができます。
tomg-group-umd
DynaGuard-8Bはメリーランド大学とカピタルワンによって開発された80億パラメータのガーディアンモデルで、ユーザーが定義した自然言語ポリシーに基づいてテキストのコンプライアンスを評価し、柔軟なコンテンツ審査ソリューションを提供し、セキュリティとコンプライアンスのベンチマークテストで先進水準に達しています。
microsoft
GUI-Actor-7BはQwen2-VL-7B-Instructをベースに開発されたビジュアル言語モデルで、グラフィカルユーザーインターフェイス(GUI)エージェントタスクに特化し、座標なしのビジュアル接地ソリューションを提供します。
LZXzju
UI-R1-E-3BはQwen2.5-VL-3B-Instructを微調整した効率的なGUI位置特定モデルで、視覚的質問応答タスクに特化し、ユーザーインターフェースのスクリーンショット内での操作要素の位置特定と認識に優れています。
VAST-AI
TripoSG-scribbleは、落書き画像とテキストプロンプトから迅速に3Dモデルを生成するAIツールで、TripoSGのバリエーションであり、クリエイティブデザインや迅速なプロトタイピングに適しています。
parasail-ai
UI-TARSは次世代のネイティブGUIインテリジェントエージェントモデルで、人間に似た感知、推論、行動能力を備え、グラフィカルユーザーインターフェイス(GUI)とシームレスにインタラクションできます。
dejanseo
これはDeBERTa v3 Largeアーキテクチャに基づくシーケンス分類モデルで、ユーザーのプロンプトが外部リソース(ネットワーク検索、データベース、またはRAGパイプラインなど)を介して接地処理が必要かどうかを予測するために特別に設計されています。このモデルはLLMパイプラインでルーティング層として機能し、検索決定、遅延、およびコストの最適化に役立ちます。
fotographerai
ZenCtrlは自動化されたパーソナライズドビジュアルコンテンツ作成プロセスのインテリジェントエージェントで、さまざまなデザインタスクを実行し、独自モデルをトレーニングできます。
ByteDance-Seed
UI-TARSは次世代のネイティブグラフィカルユーザーインターフェース(GUI)インテリジェントエージェントモデルで、人間のような知覚、推論、行動能力でGUIとシームレスにインタラクションすることを目的としています。
Emova-ollm
EMOVA音声トークナイザーは、中英両言語に対応した離散音声トークナイザーで、意味-音響デカップリング設計を採用し、柔軟な音声スタイル制御をサポートします。
これは、ブラウザ制御、芸術と文化、クラウドプラットフォーム、コマンドライン、通信、顧客データプラットフォーム、データベース、開発者ツール、データサイエンスツール、ファイルシステム、金融とフィンテック、ゲーム、知識と記憶、位置サービス、マーケティング、監視、検索、ユーティリティツールなど、複数のカテゴリをカバーする、継続的に更新されるMCPサーバーの選りすぐりのリストです。各プロジェクトにはGitHubリンクとスター数が付属しており、ユーザーがすぐに理解して使用できるようになっています。
Awesome-MCP-ZHは、中国語ユーザー向けに作成されたMCP(モデルコンテキストプロトコル)のリソースコレクションです。MCPの基本的な説明、使い方、クライアント、サーバー、コミュニティリソースが含まれ、ユーザーがすぐにMCPを使い始めるのに役立ちます。
Framelink Figma MCPサーバーは、AIプログラミングツール(Cursorなど)にFigmaのデザインデータへのアクセスを提供するサーバーで、Figma APIのレスポンスを簡素化することで、AIがデザインからコードへのワンクリック変換をより正確に行えるように支援します。
Blender MCP VXAIは強力な統合ツールで、ユーザーが自然言語でBlenderを制御し、3Dモデリング、アニメーション、シーンの作成と修正を実現できます。複雑な操作を簡素化し、リアルタイムでプロジェクトにエクスポートすることをサポートします。
Awesome MCP Serversは、包括的なモデルコンテキストプロトコル(MCP)サーバーの集合で、7158個のMCPサーバーがAI統合、アートメディア、ブラウザ自動化、クラウドサービス、データベース、開発者ツール、ファイルシステム、金融、ゲーム、ハードウェア、医療、インフラストラクチャ、知識管理、位置マップ、マーケティング、監視、マルチメディア処理、オペレーティングシステム、プロジェクト管理、科学研究、セキュリティ、ソーシャルメディア、旅行交通、ユーティリティツール、バージョン管理など33のカテゴリに分けられています。
AIインフラストラクチャエージェントは、ユーザーが自然言語コマンドでAWSクラウドリソースを管理できるインテリジェントなシステムです。AIモデルを利用してユーザーの要件を実行可能なAWS操作に変換し、Webダッシュボード、状態管理、およびセキュリティ保護機能を提供します。
MCPゴムダックは、モデルコンテキストプロトコル(MCP)に基づくサーバーで、複数のOpenAI互換のLLMを照会するためのブリッジとして機能します。ゴムダックデバッグ法のように、ユーザーが異なるAI「ダック」に問題を説明し、多様な視点からの回答を得ることができます。さまざまなAIプロバイダーをサポートし、会話管理、多モデル比較、コンセンサス投票、議論、反復最適化などの高度なツールを提供し、MCPブリッジ機能を通じて他のMCPサーバーに接続して機能を拡張することができます。
Playwrightに基づくMCPサーバーで、LLMにブラウザ自動化機能を提供します。Webページのインタラクション、スクリーンショットの取得、JavaScriptの実行などの機能があります。
クイックスタートオートMCPは、ユーザーがClaude DesktopとCursorでAnthropicモデルコンテキストプロトコル(MCP)を迅速に登録するのを支援するツールです。RAGドキュメント検索、Difyワークフロー、リアルタイムウェブ検索などの機能を提供し、JSON設定ファイルをワンクリックで生成することができます。
MCPブラウザエージェントは強力なモデルコンテキストプロトコルの統合で、Claude Desktopに自主的なブラウザ自動化機能を提供し、ナビゲーション、スクリーンショット、DOMインタラクション、JavaScriptの実行、APIリクエストなどの機能をサポートしています。
LangGraphベースのエージェントツールで、ユーザーがAIを通じて画像を生成し、ストーリーブロックチェーン上のIP資産として登録するのを支援します。画像生成、IPFSアップロード、メタデータ作成、ライセンス条項の交渉、ブロックチェーン登録までの全プロセスを含みます。
playwright - mcpはAIアシスタントにブラウザへのリアルタイムアクセス機能を提供し、信頼性の高いPlaywrightテストスクリプトを生成できるツールです。
Reablocksデザインシステムに基づくインテリジェントなReactコンポーネント生成MCPサーバーで、自然言語処理を通じて本番環境で使用可能なTypeScriptコンポーネントを生成し、レスポンシブレイアウトとアクセシビリティサポートを備えています。
Model Context Protocolフレームワークに基づくk6負荷テストサーバーの実装で、カスタムのテスト期間と仮想ユーザー数をサポートし、シンプルなAPIとリアルタイムのテスト出力を提供します。
Awesome MCP Serversは、モデルコンテキストプロトコル(MCP)サーバーの精選リストで、ブラウザー自動化、芸術と文化、クラウドプラットフォーム、コマンドラインツール、通信、顧客データプラットフォーム、データベース、開発者ツール、ファイルシステム、金融とフィンテック、ゲーム、知識と記憶、位置サービス、マーケティング、監視、検索、セキュリティ、旅行と交通、バージョン管理、およびその他のツールと統合など、複数の分野をカバーしています。
Model Context Protocolに基づくMySQLデータベース操作サーバーで、標準化されたインターフェースを提供してAIモデルがMySQLとやり取りできるようにし、ローカルとリモートのデプロイをサポートし、多ユーザー同時アクセス、コネクションプール管理などの特性を備えています。
MCPプロトコルに基づくSlack APIサーバーで、AIアシスタントが標準化されたインターフェースを通じてSlackプラットフォームとやり取りできます。メッセージ送信、チャンネル管理、ユーザークエリなどの機能をサポートしています。
winsecMCPはPythonベースのMCPサーバーツールで、Claudeクライアントと連携して、管理者がWindowsのセキュリティ設定を自動化します。ファイアウォール、リモートデスクトップ、ユーザーアカウントコントロールなどのセキュリティポリシーのチェックと変更を含みます。
Spring AIに基づくChromeブラウザ対話MCPサーバーで、指令でブラウザ操作を制御できます。例えばウェブページを開く、検索する、スクリーンショットを撮るなどができ、複数のブラウザインスタンスとタブを管理できます。
ライトハウスMCPは、Claudeがユーザーのライトハウス.one暗号通貨投資ポートフォリオデータとのやり取りおよびクエリ分析を可能にするモデルコンテキストプロトコルサーバーです。