アリババの通義大規模モデル「百聆」音声モデルが大幅アップデート。わずか3秒の音声で9言語・18方言にシームレス切替可能。標準中国語、広東語、日本語、英語などをサポートし、喜びや怒りなど多様な感情も再現。Fun-CosyVoice3モデルは特に改善が顕著で、初回応答遅延50%削減、日中混合話法の認識精度大幅向上。....
微信入力法iOS新版で音声入力が大幅強化。基盤モデルを最適化し、認識速度と精度向上。最大の特徴は多言語・多方言の自動認識対応で、手動切り替え不要。....
DingTalk 8.1.10バージョンはAI機能を深く統合し、"AIレスポンス"と"アシスタントの会話"およびハードウェアのアップグレードという3つの機能をリリースしました。スマートアシスタントを日常的なコミュニケーション、ミーティング記録、および多言語協力の全プロセスに組み込み、業務効率を向上させます。
Qwen3-TTSモデルが全面アップグレードされ、多音色・多言語・多方言に対応し、音声の自然さと安定性を大幅に向上。Qwen API経由で簡単にアクセス可能で、49種類以上の高品質音色を提供し、性別・年齢・地域の特徴をカバーし、多様なシーンに対応。....
無料で、超高速、高い正確率で、多言語に対応した音声タイピングアプリで、Whisperによってサポートされています。
先進的なテキストから音声へのモデルで、高品質な音声合成サービスを提供します。
Seedream 4.5は4Kの視覚効果を作成でき、多言語テキストをサポートし、専門的な創作に適しています。
画像をテキストに迅速かつ正確に変換し、多言語に対応。安全でプライバシーが守られ、無料で試用できます。
Xai
$1.4
入力トークン/百万
$3.5
出力トークン/百万
2k
コンテキスト長
Anthropic
$7
$35
200
$21
$105
Alibaba
-
$1
$10
256
$6
$24
$4
$16
1k
$2
$20
$8
$240
52
Bytedance
$1.2
$3.6
4
$3.9
$15.2
64
Moonshot
$0.8
128
Baidu
32
Deepseek
$12
RinggAI
これは通話記録分析用に特別に開発された混合言語AIモデルで、ヒンディー語、英語、およびヒンディー語と英語の混合通話の文字起こし内容を処理できます。モデルはQwen2.5 - 1.5B - Instructをベースに微調整されており、強力な多言語理解と情報抽出能力を備えています。
KonradBRG
このモデルは、FacebookAI/xlm-roberta-largeを多言語テキストで微調整したジョーク評価モデルで、ジョークの品質とユーモア度を評価するために特化しています。評価セットで0.4005の正解率と5.0327の二乗平均平方根誤差を達成しています。
Dogacel
これは、元のDeepSeek-OCRモデルをベースにした最適化バージョンで、Appleのメタルパフォーマンスシェーダー(MPS)とCPUでの推論をサポートするOCRモデルです。画像からテキストを抽出し、構造化された形式に変換することができ、多言語のドキュメント認識をサポートします。
ai-sage
GigaChat3-10B-A1.8BはGigaChatシリーズの対話モデルで、混合専門家(MoE)アーキテクチャに基づいており、合計100億のパラメータがあり、そのうち18億がアクティブなパラメータです。このモデルは、マルチヘッド潜在注意力と多トークン予測技術を採用しており、25.6万トークンの長文脈をサポートし、多言語対話と推論タスクで優れた性能を発揮します。
tencent
混元OCRは、混元の独自のマルチモーダルアーキテクチャによって駆動されるエンドツーエンドOCRの専門的なVLMモデルです。わずか10億パラメータの軽量設計で、複数の業界ベンチマークテストで最先端の成績を収めています。このモデルは、複雑な多言語ドキュメント解析に長けており、テキストの位置特定、オープンドメインの情報抽出、ビデオ字幕の抽出、画像の翻訳などの実際のアプリケーションシーンで優れた性能を発揮します。
Guilherme34
Qwen3-32BはQwenシリーズの最新世代の大規模言語モデルで、強力な推論、命令遵守、エージェント間の相互作用、多言語処理能力を備えています。100種類以上の言語と方言をサポートし、思考モードと非思考モードをシームレスに切り替えることができ、ユーザーに自然でスムーズな対話体験を提供します。
mamei16
ChonkyはDistilBERTをベースにした多言語段落分割モデルで、3400万編を超えるウィキペディア記事の約110億個のトークンで微調整され、任意の自然言語テキストを意味的なチャンクに分割でき、104言語をサポートします。
ekacare
Parrotlet-eは、高度な多言語医学埋め込みモデルで、インドの諸言語における医学用語に特化して最適化されています。これはBAAI/bge-m3をベースに微調整され、1800万対以上の多言語医学用語ペアで訓練され、12種類のインド語と英語をサポートし、臨床文書中の略語、スペルバリエーション、口語表現に対して強いロバスト性を持っています。
mradermacher
これはyanolja/YanoljaNEXT-Rosetta-27B-2511モデルの静的量子化バージョンで、さまざまな量子化タイプの重みファイルを提供し、多言語翻訳タスクをサポートしています。このモデルは、中国語、英語、日本語、韓国語などの主要言語を含む32の言語に特化して最適化されています。
yanolja
YanoljaNEXT-Rosetta-27B-2511はGemma3アーキテクチャをベースに微調整された270億パラメータのデコーダ言語モデルで、構造化データ翻訳に特化しており、データ構造を保持しながら多言語間で効率的かつ正確な翻訳を実現できます。
これはQwen3-VL-8B-Abliterated-Caption-itモデルの静的量子化バージョンで、多言語画像記述タスクをサポートし、複数の量子化レベルを選択でき、性能とリソース要件のバランスを取ります。
Lamapi/next-12bは、12Bパラメータに基づく大規模言語モデルで、多言語データセットを使用して微調整され、50種類以上の言語をサポートし、効率的なテキスト生成能力を備えており、化学、コード、生物学、金融、法律などの複数の分野の自然言語処理タスクに適しています。
Lamapi/next-12bは120億パラメータの多言語大規模言語モデルで、複数の量子化バージョンを提供し、テキスト生成、質問応答、チャットなどの多様な自然言語処理タスクをサポートします。このモデルは複数の領域のデータセットで学習され、高効率で軽量な特徴を持っています。
unsloth
Granite-4.0-H-350M-BaseはIBMが開発した軽量なデコーダ専用の言語モデルで、リソースが制限されたデバイス向けに設計されており、多言語のテキスト生成とコード補完機能をサポートしています。
Granite-4.0-H-350MはIBMが開発した軽量指令モデルで、350Mのパラメータを持ち、多言語処理と指令遵守において優れた性能を発揮し、デバイス端末デプロイと研究シナリオ向けに設計されています。
Lamapi
Next 12Bは、Gemma 3に基づく120億パラメータのマルチモーダル視覚言語モデルで、トルコで最も先進的なオープンソースの視覚言語モデルです。このモデルは、テキストと画像の理解において優れた性能を発揮し、高度な推論とコンテキスト感知型のマルチモーダル出力能力を備えており、特に専門レベルのトルコ語サポートを提供し、同時に幅広い多言語能力も備えています。
RedHatAI
Llama-4-Maverick-17B-128E-Instruct-NVFP4は、FP4量子化処理を施された多言語大規模言語モデルで、Meta-Llama-3.1アーキテクチャに基づいており、商業および研究用途に特化して設計されています。このモデルは、重みと活性化をFP4データ型に量子化することで、ディスク容量とGPUメモリの要件を大幅に削減しながら、良好な性能を維持しています。
mlx-community
DeepSeek-OCR-8bitは、DeepSeek-OCRモデルを変換したMLX形式のバージョンで、Appleチップに特化して最適化されたビジュアル言語モデルで、多言語OCR認識と画像テキスト理解タスクをサポートします。
quocnguyen
このモデルはDeepSeek-OCRを基に変換されたMLX形式のビジュアル言語モデルで、光学文字認識(OCR)タスクに特化しており、多言語のテキスト認識と画像理解をサポートします。
thenexthub
これは多言語処理をサポートするマルチモーダルモデルで、自然言語処理、コード処理、音声処理などの複数の分野をカバーし、自動音声認識、音声要約、音声翻訳、ビジュアル質問応答などの様々なタスクを実行できます。
Refact AgentはオープンソースのAIプログラミングアシスタントで、多言語のコード生成、デバッグ、最適化をサポートし、主流の開発ツールと統合し、ローカルにデプロイでき、スマートなコード補完とコード解釈機能を提供します。
MCPプロトコルを通じてYouTube動画の字幕を取得するサービス
FileScopeMCPはTypeScriptベースのコード分析ツールで、ファイルの重要度スコアを計算し、依存関係を追跡し、可視化チャートを生成し、ファイルの要約を追加することで、開発者がコードライブラリの構造を迅速に理解するのを支援します。多言語のプロジェクト分析をサポートし、Mermaidチャートの生成と永続的なストレージ機能を提供し、Cursorのモデルコンテキストプロトコルと統合できます。
Code Runner MCP Serverは、多言語のコード断片実行をサポートするMCPサービスで、VS Codeなどのアプリケーションで直接コードを実行し、結果を表示できます。
Gossiphsは、ゼロコンフィグ、高性能の汎用コードファイル関係分析ツールで、複数のプログラミング言語をサポートし、tree - sitterとgitに基づいて分析を行い、Python SDKとMCPプロトコルをサポートし、AIとの統合を容易にします。
AIアシスタントとGoogleカレンダーを組み合わせたスマートな待办事項アプリで、自然言語による対話と多言語操作をサポートし、タスク管理と日程同期機能を提供します。
Zonos MCP統合プロジェクトはClaudeにテキスト読み上げ機能を提供し、Model Context Protocolを通じて直接音声を生成し、多言語と感情の口調設定に対応しています。
複数のAIプロバイダーに対応したJSON翻訳ツールで、スマートキャッシュ、一括処理、ローカライズ翻訳をサポートします
Code Graph RAG MCPは、高度なモデルコンテキストプロトコルサーバーです。インテリジェントなグラフ表現と多言語コード分析機能を備え、コードの理解、関係マッピング、意味検索を行うための13種類の専用ツールを提供します。
SerpAPIに基づくGoogleニュース検索MCPサーバーの実装で、多言語地域とスマート分類をサポートします。
DuckDuckGo検索エンジンをベースにしたMCPサーバーの実装で、構造化検索、インテリジェントな分類、言語検出機能を提供し、AIクライアントとの統合をサポートします。
DeepL APIに基づくMCPサーバーで、テキスト翻訳と言語リスト機能を提供します。
多言語コード依存関係分析サービスで、依存関係グラフとアーキテクチャ評点を生成します
包括的なAPIテストMCPサーバーで、Swagger/OpenAPIおよびPostmanコレクションをサポートし、多言語のテスト生成、進捗トラッキング、およびHTMLレポート機能を提供します。
公式Minecraft百科事典を閲覧するためのMCPサーバーで、検索、ページナビゲーション、カテゴリー閲覧、多言語版のアクセスをサポートしています。
Votars MCP は、多言語対応のツールで、Votars AI プラットフォームと統合し、音声文字起こしと AI タスクを処理します。
MCPサーバーは、コード分析とドキュメント生成ツールを提供し、多言語のプロジェクト構造分析とコード収集をサポートします。
多機能コードスキャンツールで、多言語解析と複数の出力形式をサポートし、CLIツールまたはMCPサーバーとして実行できます。
APIキーが不要な多言語パッケージのドキュメント取得用MCPサービスです。複数のプログラミング言語エコシステムのドキュメントの取得と分析をサポートします。
多言語のコードスニペットを管理するMCPサーバー