快手Kling AI 2.6がリリースされ、初めて音声生成機能を統合。中英バイリンガル対話、歌唱、音響効果をサポートし、テキスト、動画、音声をワンクリックで同期生成。拡散トランスフォーマーと3D時空間共同注意アーキテクチャを採用し、複雑な指示遵守率を15%向上、シーン間キャラクター一貫性を強化。動画出力は10秒1080P HDを維持し、生成コストを30%削減。....
Liquid AIは2025年7月に第2世代のLiquid Foundation Models(LFM2)を発表しました。独自の「liquid」アーキテクチャを採用し、市場で最も高速な端末ベースの基本モデルを目指しています。高い訓練および推論能力により、小規模モデルがクラウド上の大規模言語モデルと競い合えるようにしました。LFM2はまず350M、700M、および1.2Bパラメータを持つ密度的なチェックポイントバージョンとして提供されます。
アリババがZ-Image画像生成モデルをオープンソース化しました。わずか6Bパラメータで効率的な生成と編集が可能で、視覚的品質は20Bレベルの商業モデルに近いです。このモデルは単一ストリームのDiTアーキテクチャを使用しており、生成速度が速く、リソース消費が少ないため、AI画像ツールの一般消費者向けアプリケーションの普及が期待されます。
Databricksの共同創設者であるAndy Konwinski氏は、米国がAI研究の主導権を中国に譲っていると警告し、これは民主主義にとって生存レベルの脅威だと指摘した。彼は、バークレーとスタンフォードの博士課程の学生からのフィードバックによると、過去1年間で注目すべきAIの新しいアイデアの約半数が中国チームから来ていることを示した。この割合は明らかに増加している。Konwinski氏は2024年にパートナーとともにベンチャーキャピタル会社Laudeを設立し、非営利アクセラレーターLaudを運営している。
無制限で会話を行い、AIキャラクターを作成し、チャットすることができます。フィルター制限がなく、プライバシーが保護されます。
効率的な音声駆動のアバター動画生成と適応的な身体アニメーション。
AIインフルエンサーメディア向けのコンテンツジェネレーター。一貫性のあるバーチャルキャラクターで驚くべき画像やビデオを作り、制作時間を節約します。
AIキャラクターのコミュニティを発見し、バーチャルキャラクターとやり取りする
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
Baidu
128
$2
$20
$4
$16
$8
$240
52
pramjana
Qwen3-VL-4B-Instructはアリババが開発した40億パラメータの視覚言語モデルで、Qwen3アーキテクチャに基づいて開発され、マルチモーダル理解と対話タスクをサポートします。このモデルは強力な画像理解とテキスト生成能力を備え、複雑な視覚言語対話シーンを処理することができます。
evilfreelancer
これはai - sage/GigaChat3-10B-A1.8Bモデルの量子化バージョンで、GGUF形式を採用し、特定のllama.cppブランチのサポートが必要です。モデルは混合専門家アーキテクチャを採用し、総パラメータ数は約118億で、そのうち活性化パラメータ数は約18億です。
ilyasaqit
これはHelsinki-NLP/opus-mt-en-berモデルの微調整バージョンで、英語からアトラスタマジグ語への翻訳に特化しています。モデルはMarianMTアーキテクチャに基づいており、48.6万対の合成文ペアを使用して訓練され、タマジグ語、タシュリート語、中央アトラスタマジグ語の翻訳タスクをサポートします。
NyxKrage
Moondream 3 Preview HFは、HuggingFace Transformersアーキテクチャの仕様に基づいてMoondream 3 (Preview)モデルを再実装したもので、Hugging Faceのエコシステムと完全に互換性があります。これはマルチモーダルビジュアル言語モデルで、エキスパート混合(MoE)テキストバックボーンを採用し、約90億のパラメータと20億のアクティブパラメータを持ちます。
bartowski
Apollo-V0.1-4B-Thinkingは40億パラメータの大規模言語モデルで、思考過程の推論アーキテクチャを採用し、推論タスクに特化して最適化されています。このモデルは複数の量子化バージョンを提供し、さまざまなハードウェア環境で効率的に動作します。
unsloth
Qwen3-VLは通義シリーズで最も強力なビジュアル言語モデルで、テキスト理解と生成、ビジュアル認知と推論、コンテキスト長、空間およびビデオの動的理解、エージェントインタラクション能力などの面で全面的にアップグレードされています。このモデルは密集アーキテクチャとハイブリッドエキスパートアーキテクチャを提供し、エッジデバイスからクラウドまでの柔軟なデプロイをサポートします。
mradermacher
これはSicariusSicariiStuff/Hebrew_Nemoモデルに基づく量子化バージョンで、ヘブライ語に特化して最適化されたMistralアーキテクチャの大規模言語モデルで、ヘブライ語と英語のテキスト生成および対話タスクをサポートします。
noctrex
これはQwen3-Yoyo-V4-42B-A3B-Thinking-TOTAL-RECALLモデルのMXFP4_MOE量子化バージョンで、テキスト生成タスクに特化して最適化されています。このモデルは42Bパラメータの大規模言語モデルアーキテクチャに基づいており、量子化技術によって計算とストレージの要件を削減し、同時に良好なパフォーマンスを維持しています。
Lamapi/next-12bは120億パラメータの多言語大規模言語モデルで、複数の量子化バージョンを提供し、テキスト生成、質問応答、チャットなどの多様な自然言語処理タスクをサポートします。このモデルは複数の領域のデータセットで学習され、高効率で軽量な特徴を持っています。
almanach
Gaperon-1125-24Bは240億のパラメータを持つバイリンガル(フランス語 - 英語)言語モデルで、約2兆のトークンで訓練され、フランス語、英語、およびコーディングタスクを熟練して処理できます。このモデルはOLMo - 2アーキテクチャを採用し、大規模で高品質なテキスト生成と優れたタスク性能の間の最適なバランスを実現することを目的としています。
Wwayu
これはGLM-4.6アーキテクチャに基づく混合専門家モデルで、REAP方法を使用して専門家を40%均一に剪定し、パラメータ数は218Bで、MLX形式の3ビット量子化バージョンに変換され、Appleチップデバイスでの高効率実行に適しています。
これはQwen3-VL-235B-A22B-InstructモデルのMXFP4_MOE量子化バージョンで、画像テキストからテキストへの変換タスクに特化しています。このモデルは2350億パラメータのQwen3-VLアーキテクチャに基づいており、MXFP4量子化技術で最適化され、実験的バージョンに属します。
これはQwen3-Coder-REAP-25B-A3BモデルのMXFP4_MOE量子化バージョンで、テキスト生成タスクに特化しています。このモデルは25BパラメータのQwen3-Coderアーキテクチャに基づいており、MXFP4量子化技術によって保存と推論の効率が最適化され、同時に良好な性能を維持しています。
nvidia
NVIDIA GPT-OSS-120B Eagle3は、OpenAIのgpt-oss-120bモデルをベースに最適化されたバージョンで、ハイブリッドエキスパート(MoE)アーキテクチャを採用し、総パラメータ数が1200億、アクティブなパラメータ数が50億です。このモデルは商用および非商用の使用をサポートし、テキスト生成タスクに適しており、特にAIエージェントシステムやチャットボットなどのアプリケーション開発に適しています。
radicalnumerics
RND1は実験的な拡散言語モデルで、300億のパラメータを持ち、疎なエキスパート混合アーキテクチャを採用しています。このモデルは事前学習された自己回帰ベースモデルから変換され、拡散ベースのテキスト生成をサポートしており、各トークンで300億のパラメータのみがアクティブ化され、計算効率とモデル容量のバランスを取っています。
nineninesix
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速かつ高忠実度のテキスト音声変換モデルです。2段階のパイプラインアーキテクチャを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせることで、卓越した速度と音質を実現し、複数の言語をサポートし、エッジ/サーバーデプロイメントに適しています。
VLA-Adapter
VLA-Adapterは、Libero-Spatial上で訓練されたマイクロビジョン言語アクションモデルで、Prismatic-VLMアーキテクチャを採用し、大規模言語モデルのバックボーンとしてQwen2.5-0.5Bのみを使用しています。このモデルは、ロボットのベンチマークテストで、パラメータ規模がより大きいオープンソースのVLAモデルを上回り、高性能なビジョン - 言語 - アクションの理解と実行を実現しています。
Qwen3-Next-80B-A3B-Instructは、アリババの通義千問チームによって開発された最新世代の大規模言語モデルです。革新的な混合注意力機構と高疎なエキスパート混合アーキテクチャを採用し、総パラメータ数を80Bに保ちながら3Bのパラメータのみを活性化させ、効率的なコンテキストモデリングと推論の高速化を実現しています。ネイティブで262Kのコンテキスト長をサポートし、1Mトークンまで拡張可能です。
allenai
Olmo 3は、Allen Institute for AIによって開発された全く新しい7Bパラメータの言語モデルシリーズで、Transformerアーキテクチャに基づき、Dolma 3データセットで訓練され、言語モデル科学の発展を推進することを目的としています。モデルはBase、Instruct、Thinkなどの複数のバリエーションを提供し、最大65,536の文脈長をサポートします。
NVIDIA Qwen3-32B FP4モデルは、アリババクラウドのQwen3-32Bモデルの量子化バージョンで、最適化されたTransformerアーキテクチャを使用し、重みと活性化をFP4データ型に量子化することで、効率的な推論を実現します。このモデルは、商用および非商用用途をサポートし、さまざまなAIアプリケーションシナリオに適しています。
このプロジェクトは、Sonar APIを統合したMCPサーバーの実装で、Claudeにリアルタイムのネットワーク検索機能を提供します。システムアーキテクチャ、ツールの設定、Dockerデプロイ、およびマルチプラットフォーム統合ガイドが含まれています。
Awesome MCP Serversは、包括的なモデルコンテキストプロトコル(MCP)サーバーの集合で、7158個のMCPサーバーがAI統合、アートメディア、ブラウザ自動化、クラウドサービス、データベース、開発者ツール、ファイルシステム、金融、ゲーム、ハードウェア、医療、インフラストラクチャ、知識管理、位置マップ、マーケティング、監視、マルチメディア処理、オペレーティングシステム、プロジェクト管理、科学研究、セキュリティ、ソーシャルメディア、旅行交通、ユーティリティツール、バージョン管理など33のカテゴリに分けられています。
WireMCPは大規模言語モデル(LLM)にリアルタイムネットワークトラフィック分析機能を提供するMCPサーバーで、Wiresharkツールを通じてネットワークデータをキャプチャして処理し、脅威検出、ネットワーク診断、異常分析をサポートします。
WireMCPは大規模言語モデル(LLM)にリアルタイムのネットワークトラフィック分析機能を提供するMCPサーバーで、Wiresharkツールを統合することでデータキャプチャ、脅威検出、ネットワーク診断を実現します。
MCP Gatewayは、高度なAIインフラストラクチャのミドルウェアソリューションで、モデルコンテキストプロトコル(MCP)サーバーの代理ゲートウェイとして機能し、統一インターフェイス、機密情報フィルタリング、ライフサイクル管理機能を提供します。
ElfProxy MCPサーバーは、動的IPローテーションとAI最適化によるネットワークインタラクションを組み合わせた、プライバシーを重視したインフラストラクチャソリューションです。グローバルなプロキシIPプールとスマートなウェブコンテンツ処理能力を提供します。
MCPはクライアント - サーバーアーキテクチャに基づくAIチャットシステムで、複数の専用サーバー(ファイルシステム、Slack、Brave検索)を通じてClaude AIの機能を拡張し、ローカルファイル、Slackの会話、およびリアルタイムのウェブ情報にスマートにアクセスできるようにします。
MCP Server SemgrepはModel Context Protocol標準に準拠したサーバーで、Semgrep静的分析ツールとAIアシスタントを統合し、コードのセキュリティ分析、品質向上、ホール検出機能を提供します。プロジェクトはアーキテクチャ設計を簡素化し、マルチプラットフォームでの実行をサポートし、複数の方法でインストールでき、豊富なコード分析機能を提供します。
Crawl4AIはMCPアーキテクチャに基づくインテリジェントなウェブクローラーサーバーで、Claude AIモデルを組み合わせてウェブサイトのコンテンツ分析と処理機能を提供し、カスタマイズ可能なクロール深度とAI処理タスクをサポートし、研究、コンテンツ作成、データ分析などのさまざまなシナリオに適しています。
プロジェクト間で開発メモリを永続化するためのMCPサーバーで、開発コンテキスト、コード変更、ユーザーインタラクションを自動的にキャプチャして整理します。現在はファイルシステムへのアクセスとJSON応答の処理に問題があり、進捗が妨げられています。
カスタムMCPサーバーを開発するための基礎プロジェクトで、完全なアーキテクチャパターン、サンプルツール、および開発インフラストラクチャを提供し、AIアシスタントが外部データソースやAPIに接続できるようにします。
AWSセキュリティMCPは、MCPプロトコルに基づくサーバーで、AIアシスタントが自然言語クエリを通じてAWSインフラストラクチャのセキュリティ問題を自主的にチェックおよび分析できるようにします。複数のAWSセキュリティサービスのやり取りとクエリをサポートしています。
SAP GUIの自動化に使用されるMCPサーバーで、トランザクションの起動、画面インタラクション、画面キャプチャなど、プログラムによるSAPトランザクションの制御ツールを提供します。
MCPサーバーMerakiは、MCPプロトコルを通じてMerakiインフラストラクチャと相互作用するための標準化されたインターフェースプロジェクトで、データ検証、エラー処理、およびモジュール化アーキテクチャを提供します。
オクタゴンベンチャーキャピタルエージェントは、AI駆動のベンチャーキャピタルエージェントを実行するMCPサーバーで、著名なベンチャーキャピタル(Fred Wilson、Peter Thielなど)の投資思考を模倣し、オクタゴンプライベートマーケットのリアルタイム取引、評価、および詳細な調査データを組み合わせて、資金調達フィードバック、デューデリジェンスシミュレーション、条項交渉などのプログラム可能な「ベンチャーキャピタルの頭脳」サービスを提供します。
WebScout MCPは、Model Context Protocolに基づくWebアプリケーションのリバースエンジニアリングツールで、チャットインターフェースとストリーミングAPIの自動分析に特化しており、ブラウザ自動化、ネットワークトラフィックキャプチャ、およびスマートパターン検出機能を提供します。
LocalStack MCPサーバーは、LocalStackコンテナと関連タスクを管理するツールを提供するモデルコンテキストプロトコルサービスで、ローカルのクラウド開発とテストを簡素化し、コンテナ操作、インフラストラクチャデプロイ、ログ分析、IAMポリシー管理、カオステスト、状態スナップショットなどの機能をサポートします。
DevOps分野のModel Context Protocol (MCP)サーバーの選りすぐりのリストで、インフラストラクチャ即コード、コンテナオーケストレーション、CI/CD、モニタリングと可観測性、セキュリティ、その他の実用ツールのカテゴリをカバーしています。
SharkMCPはWireshark/tsharkに基づくネットワークパケットキャプチャと分析のMCPサーバーで、AIアシスタントにネットワークトラフィック分析機能を提供し、リアルタイムパケットキャプチャ、PCAPファイル解析、SSL/TLS復号化などの機能をサポートします。
MCPは、LLMのやり取りを標準化するオープンソースのプロトコルで、データソースに接続し、コンテキストを取得し、ツールを使用し、標準的なプロンプトを実行するための統一されたフレームワークを提供します。プロジェクトの例では、MCPサーバーとクライアントを構築し、知識ベースチャットボットの機能を実現する方法が示されています。