モーガン・スタンリーより、2030年までに人工知能がヨーロッパ金融業界で約20万の銀行職を脅かすと予測されている。主にバックオフィスとミッドオフィスの職種に影響を及ぼし、データ処理や文書作業などが該当する。フィンテックの発展により、伝統的な銀行は効率向上とコスト削減のためにスマートなソリューションを採用している。
マイクロソフトCopilot AIがGPT-5.2モデルを全面導入し、「インテリジェント+」モードとしてアップグレード。複雑な業務タスク処理に特化した「専門家級」オフィスサポートを提供。....
テンセントのAIアプリ「元宝」のPC版に「録音ペン」機能が新規追加され、オフィスシーンの生産性が強化されました。今回のアップデートにより、モバイル端末とデスクトップ端末の連携が完結し、ユーザーは直接パソコンで録音または音声ファイルをアップロードできるようになり、複数端末間でのデータ移動が不要となり、音声処理の効率が向上しました。
Anthropicが「Agent Skills」知識ベースをオープンソース化し、Claudeモデル向けに文書処理、クリエイティブデザイン、開発技術、企業コミュニケーションなど16の実践スキルを提供。開発者の効率的なモデル活用を支援。....
専門のAIオーディオ処理ツールで、ウォーターマークの検出、ノイズの除去、空間オーディオの強化などが可能です。
SongGuru AIはAIを利用して曲、歌詞、音楽を創作することができ、さまざまなオーディオ処理機能も備えています。
AI Music MakerはあなたのAI音楽生成ツールで、迅速かつ簡単に曲を作成できます。
AIを使用して数秒で見事なオリジナル音楽を作成し、自分の傑作を制作し、友人と共有し、世界中のアーティストの音楽を発見しましょう。
Openai
$2.8
入力トークン/百万
$11.2
出力トークン/百万
1k
コンテキスト長
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
$2
$20
$4
$16
$8
$240
52
Bytedance
$1.2
$3.6
4
unsloth
JanusCoder-8Bは、Qwen3-8Bをベースに構築されたオープンソースのコードインテリジェンス基礎モデルで、統一されたビジュアルプログラミングインターフェイスを構築することを目的としています。このモデルは、JANUSCODE-800K(これまでで最大のマルチモーダルコードコーパス)で学習され、データ可視化、インタラクティブなWeb UI、コード駆動のアニメーションなど、さまざまなビジュアルプログラミングタスクを処理できます。
ExaltedSlayer
Gemma 3 27B IT QATのMLX MXFP4量子化バージョンで、Googleによって開発された軽量オープンソースのマルチモーダルモデルです。このモデルは、テキストと画像の入力を同時に処理し、テキスト出力を生成することができ、128Kの大規模コンテキストウィンドウを持ち、140種類以上の言語をサポートし、さまざまなテキスト生成と画像理解タスクに適しています。
Akicou
Qwen3-Omni-30B-A3B-ThinkingモデルのQ4_K_S量子化GGUFバージョンで、テキスト、視覚、オーディオのマルチモーダル処理をサポートし、llama.cppを通じて高効率な推論を実現します。このバージョンは品質を保証しつつ、ファイルサイズを大幅に削減し、推論速度を向上させます。
RedHatAI
これはQwen3-VL-235B-A22B-Instructの量子化バージョンで、重みと活性化値をFP8データ型に量子化することで、ディスク容量とGPUメモリの要件を約50%削減します。テキスト、画像、ビデオの入力をサポートし、テキストを出力し、さまざまな自然言語処理とマルチモーダルタスクに適しています。
nineninesix
KaniTTSは高速で高忠実度のテキスト音声変換モデルで、リアルタイム対話型人工知能アプリケーション向けに最適化されています。このモデルは2段階の処理フローを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせています。Nvidia RTX 5080で15秒の音声を生成する際の遅延は約1秒だけで、MOS自然度評価は4.3/5で、英語、中国語、日本語などの多言語をサポートしています。
professorf
GPT-OSS-20BはOpenAIが開発したオープンウェイトモデルで、210億のパラメータ(うち36億がアクティブパラメータ)を持ち、低遅延、ローカルデプロイ、特定のユースケース向けに設計されています。このモデルはharmony応答形式で訓練されており、強力な推論能力とエージェントタスク処理能力を備えています。
nvidia
OmniVinciはNVIDIAが開発した全モーダリティ理解大規模言語モデルで、視覚、テキスト、オーディオ処理および音声インタラクション機能を備え、マルチモーダル推論と理解をサポートします。
Gemma 3はGoogleが開発した軽量オープンソースのマルチモーダルモデルファミリーで、テキストと画像の入力を処理し、テキスト出力を生成することができます。128Kの大きなコンテキストウィンドウを持ち、140種類以上の言語をサポートし、テキスト生成や画像理解などの様々なタスクに適しています。
axolotl-ai-co
gpt-oss-20bはOpenAIが開発したオープンウェイトモデルで、210億のパラメータ(うち36億はアクティブなパラメータ)を持ち、低遅延、ローカルデプロイ、特定のシナリオ向けに設計されています。このモデルはharmony応答形式で訓練され、強力な推論能力とエージェントタスク処理能力を備えています。
google
Gemma 3はGoogleが開発した軽量で最先端のマルチモーダルオープンモデルファミリーで、Geminiモデルと同じ研究と技術に基づいて構築されています。このモデルはテキストと画像の入力を処理し、テキスト出力を生成することができ、128Kの大きな文脈ウィンドウを持ち、140種類以上の言語をサポートし、270Mから27Bまでの様々なサイズを選択できます。
Gemma 3はGoogleが開発した軽量で最先端のマルチモーダルオープンモデルファミリーで、テキストと画像の入力を処理し、テキスト出力を生成することができます。128Kの大きなコンテキストウィンドウを持ち、140種類以上の言語をサポートし、270Mから27Bまでの様々な規模のモデルを提供し、様々なテキスト生成と画像理解タスクに適しています。
TencentARC
ARC-Hunyuan-Video-7Bは、腾讯ARC研究所が開発したマルチモーダルモデルで、現実世界の短動画コンテンツを理解するために特化しています。このモデルは、ビジュアル、オーディオ、テキスト信号をエンドツーエンドで処理し、マルチモーダルの手がかりを統合することで、動画の深層的な構造化理解を実現します。
TurkuNLP
フィンランド現代BERTは、現代BERTアーキテクチャに基づく多言語エンコーダーモデルで、フィンランド語、スウェーデン語、英語、コード、ラテン語、北サーミ語で事前学習されています。このモデルは4000億個のトークンで学習され、最大128,000個のトークンの文脈長をサポートし、フィンランドの公用語と長文書のシナリオを処理するために設計されています。
deepseek-community
DeepSeek-VLはオープンソースの視覚言語モデルで、テキストと画像を同時に処理し、文脈に関連した応答を生成することができます。このモデルは混合エンコーディングアーキテクチャを採用し、LLaMAテキストエンコーダとSigLip/SAM視覚エンコーダを組み合わせており、高解像度画像処理をサポートし、実世界の応用で優れた性能を発揮します。
fixie-ai
Ultravoxはマルチモーダル音声大規模言語モデルで、事前学習された大規模言語モデルと音声エンコーダを組み合わせており、音声入力を理解して処理することができ、多言語音声認識、翻訳、オーディオ分析などの機能をサポートしています。
boltuix
NeuroBERTはBERTベースの軽量自然言語処理モデルで、リソース制約のあるデバイス向けに最適化されており、エッジコンピューティングやIoTシナリオに適しています。
inclusionAI
軽量級の統一多モーダリティモデルで、画像、テキスト、音声、ビデオなどの多様なモーダリティデータを効率的に処理し、音声と画像生成において優れた性能を発揮します。
bullerwins
Gemma 3はGoogleが開発した軽量で最先端のマルチモーダルオープンモデルで、テキストと画像の入力を処理し、テキスト出力を生成できます。128Kの大きなコンテキストウィンドウと多言語対応を備え、さまざまなテキスト生成と画像理解タスクに適しており、リソースが限られた環境でもデプロイ可能です。
RUCKBReasoning
TableLLMは、表データ操作タスクに特化して設計された大規模言語モデルで、実際のオフィスシナリオにおける表データ処理ニーズに対応します。
Gemma 3はGoogleが開発した軽量で最先端のオープンモデルファミリーで、Geminiモデルと同じ研究と技術に基づいて構築されています。この27Bバージョンは量子化感知トレーニング(QAT)を採用しており、メモリ要件を大幅に削減しながらもbfloat16に近い品質を維持することができ、マルチモーダル処理能力と128Kの大規模コンテキストウィンドウを備えています。
API 200はオープンソースのAPI統合プラットフォームで、サードパーティAPIの迅速なアクセスと管理機能を提供し、自動コード生成、ドキュメント、認証、キャッシュ、エラー処理などの特性を備え、自前でホストするデプロイとMCPサービスをサポートします。
Awesome MCP Serversは、包括的なモデルコンテキストプロトコル(MCP)サーバーの集合で、7158個のMCPサーバーがAI統合、アートメディア、ブラウザ自動化、クラウドサービス、データベース、開発者ツール、ファイルシステム、金融、ゲーム、ハードウェア、医療、インフラストラクチャ、知識管理、位置マップ、マーケティング、監視、マルチメディア処理、オペレーティングシステム、プロジェクト管理、科学研究、セキュリティ、ソーシャルメディア、旅行交通、ユーティリティツール、バージョン管理など33のカテゴリに分けられています。
Awesome MCP Securityは、モデルコンテキストプロトコル(MCP)のセキュリティに関するリソースの集合で、セキュリティに関する考慮事項、論文、ビデオ、記事、ツール、サーバーなどが含まれており、ユーザーがMCP関連のセキュリティ上の課題を理解し、対処するのに役立ちます。
強力なビデオ編集MCPサーバーで、ビデオとオーディオの全面的な編集機能を提供し、操作の連鎖処理とMCPクライアントへのシームレスな統合をサポートします。
MCPシステムブリッジは、モデルコンテキストプロトコル(MCP)を実装したブリッジツールで、クリップボード管理、URL処理、日付情報の取得など、オペレーティングシステムのネイティブ機能にアクセスできます。
gboxは、オープンソースの自ホスト型サンドボックスプロジェクトで、MCP統合やその他のAIエージェントのユースケースに安全な環境を提供します。ターミナル、ブラウザ、ファイルエディタなどのツールが含まれ、ローカルでのタスク実行とファイル処理をサポートし、PythonとTypescriptのSDKを提供します。
Node.jsに基づくメディア処理サーバーで、MCPプロトコルを実装し、強力なビデオと画像処理機能を提供します。
MCP Klingは最初で唯一の完全なKling AI MCPサーバーで、13種類のクリエイティブツールを提供し、ビデオ生成、画像処理、唇形同期、仮想試着などの機能をサポートし、Claudeとのシームレスな統合を実現し、コンテンツクリエイターや開発者に適しています。
Node.jsとFFmpegをベースにしたビデオ処理サーバーで、ビデオのトランスコードとオーディオの抽出機能を提供します
このプロジェクトは、Model Context Protocolを通じてClaude AIとPure Dataを統合し、自然言語でPure Dataのオーディオ処理モジュールを動的に作成、修正、制御することをサポートします。
MCPプロトコルに基づくビデオオーディオテキスト抽出サーバーで、複数のプラットフォームからビデオをダウンロードし、Whisperモデルを利用して音声をテキストに変換する処理をサポートします。
Ultimate MCP Serverは、モデルコンテキストプロトコル(MCP)に基づくAIエージェントのオペレーティングシステムで、数十種類の強力なツール機能を提供します。これには、スマートなタスク委任、文書処理、ブラウザー自動化、Excel操作などが含まれ、標準化されたMCPツールを通じてAIエージェントの認知能力を強化し、複雑なタスクの編成を可能にします。
Kokoroテキスト読み上げ(TTS)MCPサーバーで、MP3ファイルの生成とS3ストレージへのアップロードをサポートしています。
TikTok広告APIのMCPサーバーは、広告キャンペーン管理、性能分析、ターゲットオーディエンス管理、クリエイティブ管理などの機能を提供し、OAuth認証と包括的なエラー処理をサポートします。
Unity - MCPは、大規模言語モデル(LLM)とUnityエディタをつなぐ架け橋ツールです。Unityエディタの機能をAIクライアントに公開することで、AI駆動の自動化開発プロセスを実現します。カスタムツールの拡張をサポートし、現在はゲームオブジェクト管理、シーン操作、アセット処理などの核心機能を提供しており、主にUnityエディタ環境で使用されます。
このプロジェクトはModel Context Protocol(MCP)を通じて、大規模言語モデルが直接Maxオーディオ処理ソフトウェア内のサウンドエフェクトモジュールを理解し、生成できるようにします。サウンドエフェクトモジュールの解釈、修正、作成をサポートし、LLMとのインターフェイスを提供します。
腾讯クラウドCOS MCPサーバーは、MCPプロトコルに基づくサービスで、コーディングなしで大規模モデルをすぐに腾讯クラウドストレージ(COS)とデータバリューアド(CI)の機能に接続でき、ファイルのアップロードとダウンロード、画像処理、ビデオサムネイル生成などのクラウドストレージと処理機能を提供します。
BirdNet - Pi用に設計されたPython MCPサーバーで、鳥類検出データの管理と分析機能を提供します。
VideoCutterは、ビデオ、オーディオ、画像処理を統合した専門のマルチメディアツールで、AIインテリジェント編集とMCPプロトコルをサポートし、ワンストップのインテリジェントな創作ソリューションを提供します。
Rendi APIをベースにしたMCPサーバーで、クラウド上でのFFmpegビデオおよびオーディオ処理機能を提供し、単一コマンドの実行、複数コマンドの連鎖処理、結果の照会などの機能をサポートし、ローカルにFFmpegをインストールする必要がありません。