小米がMiMo-V2.5全リンク音声モデルシリーズを発表。TTSモデル3種とオープンソースASRモデル1種を含み、音声入力と出力をカバー。TTSモデルは感情、トーン、役割を正確に制御し、音声のプログラミング、創作、複製を可能にし、人機対話の自然さを向上させ、音声インテリジェンスの新時代を切り開く。....
アリババ・トンイー研究所は、音声認識大モデル「Fun-ASR1.5」を公開しました。統一されたアーキテクチャにより、汎用性と正確性のバランスを実現しています。このモデルは世界中の30の主要言語をサポートし、中国語の7つの主要な方言および20以上の地方語に対応しており、多言語、多方言、複雑な文脈において優れた性能を発揮します。
小米KaldiチームがOmniVoiceモデルをオープンソースした。600種以上の言語をサポートし、中国語および多言語TTSの基準テストで多数の指標がSOTAを達成した。中国語のWERは0.84%に至り、多言語性能は主流の商用モデルを超え、音声合成における新たな突破を遂げた。
マイクロソフトBingチームが単語埋め込みモデルHarrierをオープンソース化。100種類以上の言語をサポートし、MTEB v2ベンチマークテストで優れた性能を発揮。20億の例とGPT-5によって生成されたデータに基づいて訓練され、32,000語のコンテキスト窓サイズを持ち、270億パラメータを持つ。多言語タスクの正確性と柔軟性を大幅に向上させた。
OpenAIの次世代AI画像生成ツール。4K解像度、高速生成、高い文字精度を備えています。
Image 2は2Kの高精度なビジュアルを作成でき、多言語に対応し、スタイルが安定しており、クリエイティブを完成品に変えるのをサポートします。
MkAnimeはワンストップAIマンガドラマスタジオで、インスピレーションから大綱、脚本などを一気に生成できます。
HappyHorseはオープンソースのAIビデオ生成器で、一度に1080pのビデオと同期した音声を生成できます。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
Baidu
128
$2
$20
$4
$16
Dogacel
これは、元のDeepSeek-OCRモデルをベースにした最適化バージョンで、Appleのメタルパフォーマンスシェーダー(MPS)とCPUでの推論をサポートするOCRモデルです。画像からテキストを抽出し、構造化された形式に変換することができ、多言語のドキュメント認識をサポートします。
ai-sage
GigaChat3-10B-A1.8BはGigaChatシリーズの対話モデルで、混合専門家(MoE)アーキテクチャに基づいており、合計100億のパラメータがあり、そのうち18億がアクティブなパラメータです。このモデルは、マルチヘッド潜在注意力と多トークン予測技術を採用しており、25.6万トークンの長文脈をサポートし、多言語対話と推論タスクで優れた性能を発揮します。
Guilherme34
Qwen3-32BはQwenシリーズの最新世代の大規模言語モデルで、強力な推論、命令遵守、エージェント間の相互作用、多言語処理能力を備えています。100種類以上の言語と方言をサポートし、思考モードと非思考モードをシームレスに切り替えることができ、ユーザーに自然でスムーズな対話体験を提供します。
mamei16
ChonkyはDistilBERTをベースにした多言語段落分割モデルで、3400万編を超えるウィキペディア記事の約110億個のトークンで微調整され、任意の自然言語テキストを意味的なチャンクに分割でき、104言語をサポートします。
ekacare
Parrotlet-eは、高度な多言語医学埋め込みモデルで、インドの諸言語における医学用語に特化して最適化されています。これはBAAI/bge-m3をベースに微調整され、1800万対以上の多言語医学用語ペアで訓練され、12種類のインド語と英語をサポートし、臨床文書中の略語、スペルバリエーション、口語表現に対して強いロバスト性を持っています。
mradermacher
これはyanolja/YanoljaNEXT-Rosetta-27B-2511モデルの静的量子化バージョンで、さまざまな量子化タイプの重みファイルを提供し、多言語翻訳タスクをサポートしています。このモデルは、中国語、英語、日本語、韓国語などの主要言語を含む32の言語に特化して最適化されています。
これはQwen3-VL-8B-Abliterated-Caption-itモデルの静的量子化バージョンで、多言語画像記述タスクをサポートし、複数の量子化レベルを選択でき、性能とリソース要件のバランスを取ります。
Lamapi/next-12bは、12Bパラメータに基づく大規模言語モデルで、多言語データセットを使用して微調整され、50種類以上の言語をサポートし、効率的なテキスト生成能力を備えており、化学、コード、生物学、金融、法律などの複数の分野の自然言語処理タスクに適しています。
Lamapi/next-12bは120億パラメータの多言語大規模言語モデルで、複数の量子化バージョンを提供し、テキスト生成、質問応答、チャットなどの多様な自然言語処理タスクをサポートします。このモデルは複数の領域のデータセットで学習され、高効率で軽量な特徴を持っています。
unsloth
Granite-4.0-H-350M-BaseはIBMが開発した軽量なデコーダ専用の言語モデルで、リソースが制限されたデバイス向けに設計されており、多言語のテキスト生成とコード補完機能をサポートしています。
Lamapi
Next 12Bは、Gemma 3に基づく120億パラメータのマルチモーダル視覚言語モデルで、トルコで最も先進的なオープンソースの視覚言語モデルです。このモデルは、テキストと画像の理解において優れた性能を発揮し、高度な推論とコンテキスト感知型のマルチモーダル出力能力を備えており、特に専門レベルのトルコ語サポートを提供し、同時に幅広い多言語能力も備えています。
mlx-community
DeepSeek-OCR-8bitは、DeepSeek-OCRモデルを変換したMLX形式のバージョンで、Appleチップに特化して最適化されたビジュアル言語モデルで、多言語OCR認識と画像テキスト理解タスクをサポートします。
quocnguyen
このモデルはDeepSeek-OCRを基に変換されたMLX形式のビジュアル言語モデルで、光学文字認識(OCR)タスクに特化しており、多言語のテキスト認識と画像理解をサポートします。
thenexthub
これは多言語処理をサポートするマルチモーダルモデルで、自然言語処理、コード処理、音声処理などの複数の分野をカバーし、自動音声認識、音声要約、音声翻訳、ビジュアル質問応答などの様々なタスクを実行できます。
kenpath
Svara-TTSはインド語を対象としたオープンソースの多言語テキスト読み上げモデルで、19種類の言語(18種類のインド語 + インド英語)をサポートしています。このモデルはOrpheusスタイルの離散音声トークン方式に基づいて構築され、一般的なGPU/CPU上で明瞭で表现力に富み、低遅延の音声合成を実現することを目的としています。
これはDeepSeek-OCRモデルを変換したMLX形式のモデルで、多言語の画像テキスト認識とテキスト生成機能をサポートし、OCRタスクに特化して最適化されています。
jukofyork
command-a-03-2025-uncutモデルを微調整した小説創作用の専用モデルで、高品質の小説段落データセットを使用して訓練され、多言語の小説創作タスクをサポートします。
Mungert
Nanonets-OCR2-1.5B-exp GGUFは強力な画像からMarkdownへのOCRモデルで、ドキュメントを構造化されたMarkdown形式に変換し、インテリジェントコンテンツ認識とセマンティックマーキングを行い、多言語のドキュメント処理をサポートします。
これはPRIME-RL/P1-30B-A3Bモデルの静的定量化バージョンで、300億パラメータの大規模言語モデルで、物理、強化学習、コンテスト推論などの分野に特化して最適化されており、英語と多言語処理をサポートしています。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP8はNVIDIAが開発した量子化視覚言語モデルで、最適化されたTransformerアーキテクチャを採用し、商用画像で三段階のトレーニングを行っています。このモデルは単一画像の推論をサポートし、多言語およびマルチモーダル処理能力を備えており、画像要約、テキスト画像分析などの様々なシーンに適用できます。
Refact AgentはオープンソースのAIプログラミングアシスタントで、多言語のコード生成、デバッグ、最適化をサポートし、主流の開発ツールと統合し、ローカルにデプロイでき、スマートなコード補完とコード解釈機能を提供します。
セレナは強力なオープンソースのコーディングエージェントツールキットで、大規模言語モデル(LLM)をコードベース上で直接動作するフル機能のエージェントに変えることができます。IDEに似た意味論的なコード検索と編集ツールを提供し、様々なプログラミング言語をサポートし、MCPプロトコルまたはAgnoフレームワークを介して様々なLLMと統合することができます。
FileScopeMCPはTypeScriptベースのコード分析ツールで、ファイルの重要度スコアを計算し、依存関係を追跡し、可視化チャートを生成し、ファイルの要約を追加することで、開発者がコードライブラリの構造を迅速に理解するのを支援します。多言語のプロジェクト分析をサポートし、Mermaidチャートの生成と永続的なストレージ機能を提供し、Cursorのモデルコンテキストプロトコルと統合できます。
Code Runner MCP Serverは、多言語のコード断片実行をサポートするMCPサービスで、VS Codeなどのアプリケーションで直接コードを実行し、結果を表示できます。
AIアシスタントとGoogleカレンダーを組み合わせたスマートな待办事項アプリで、自然言語による対話と多言語操作をサポートし、タスク管理と日程同期機能を提供します。
SerpAPIに基づくGoogleニュース検索MCPサーバーの実装で、多言語地域とスマート分類をサポートします。
Code Graph RAG MCPは、高度なモデルコンテキストプロトコルサーバーです。インテリジェントなグラフ表現と多言語コード分析機能を備え、コードの理解、関係マッピング、意味検索を行うための13種類の専用ツールを提供します。
Checkstyle MCP Serverは、大規模言語モデルとローカルのコード品質ツールを接続するミドルウェアで、Go、Java、Luaなどの言語のコードチェックとフォーマットをサポートし、プロジェクト設定管理とAI自己修正機能を提供します。
RustベースのMCPサーバーで、深いコードインテリジェント分析を提供し、16種類のプログラミング言語のシンボル抽出、セマンティック検索、セキュリティ分析、サプライチェーンセキュリティなどの機能をサポートし、プライバシーとパフォーマンスに重点を置いています。
Dockerベースの安全なコード実行環境で、MCPプロトコルに隔離サンドボックスのサポートを提供します。
包括的なAPIテストMCPサーバーで、Swagger/OpenAPIおよびPostmanコレクションをサポートし、多言語のテスト生成、進捗トラッキング、およびHTMLレポート機能を提供します。
公式Minecraft百科事典を閲覧するためのMCPサーバーで、検索、ページナビゲーション、カテゴリー閲覧、多言語版のアクセスをサポートしています。
無料の暗号通貨ニュースAPIで、200以上のソースからのリアルタイムニュースアグリゲーションを提供し、APIキー不要で、AI分析、多言語翻訳、過去のアーカイブをサポートします。
Votars MCP は、多言語対応のツールで、Votars AI プラットフォームと統合し、音声文字起こしと AI タスクを処理します。
MCPサーバーは、コード分析とドキュメント生成ツールを提供し、多言語のプロジェクト構造分析とコード収集をサポートします。
多機能コードスキャンツールで、多言語解析と複数の出力形式をサポートし、CLIツールまたはMCPサーバーとして実行できます。
MCP-Creator-MCPは、AIガイダンスワークフローとインテリジェントテンプレートを通じてMCPサーバーの作成を簡素化するメタMCPサービスで、曖昧なアイデアを迅速に本番環境で使用可能なサーバーに変換することを目的としています。
MCPプロトコルに基づくGoogleニュース検索サーバーで、SerpAPIを通じて多言語、多地域のニュース検索サービスを提供し、スマート分類と複数のニュースタイプの処理をサポートします。
多言語のコードスニペットを管理するMCPサーバー
Go言語ベースのPostgreSQLデータベースインタラクションツールで、CRUD操作と読み取り専用モードを提供し、多言語とクエリプランチェックをサポートします。