アップルチームはオープンソースモデルを改良し、UIデザイン分野でトップクラスの大規模モデルを凌駕しました。従来のAIによるコード生成はUIデザインにおいては不十分であり、人間からのフィードバックに基づく強化学習が粗いものだったためです。アップルは細かい調整を行うことで、小規模なモデルが特定のタスクにおいて逆転を果たし、開発者たちが抱えていたインターフェース開発の悩みを解決しました。
钉钉8.2.10バージョンでは、チャットグループ専用のAIアシスタント「AIアオチン」がリリースされ、24時間常時オンラインで対応可能になりました。ユーザーは自然言語の指示で、そのAIに会議記録やタスク配分などのグループ内の雑務を自動処理させることができます。これにより協力効率が著しく向上します。
騰訊が初めてのマンガアプリ「火龍漫劇」をリリースし、マンガをショートビデオに変換し、縦画面の情報流れデザインを採用し、AI技術を活用してコンテンツ制作効率を高めることで、汎エンタメ分野での優位性をさらに強化する。
メタは木曜日に、AI動画機能のVibes用に独立アプリをテストしていることを確認した。これはオープンAIのSoraへの挑戦である。2024年は文章から動画生成の元年であり、2026年には大手企業同士の決戦になるかもしれない。Vibesは、全員がデジタル分身を持つ短い動画プラットフォームを目指しており、メタがAI動画分野で重要なポジションを築くための重要な布石となる。
Kling 3 AIはテキストを4Kのプロフェッショナルビデオに変換でき、高度なモーションコントロールと自然なオーディオを備えています。
オープンソースで自己ホスティング可能な個人用AIアシスタント、あなたのコンピュータを制御します。
ワンストップAI創作プラットフォームで、ビジュアル、ビデオ、ツールなどの様々な創作能力を融合しています。
オープンソースの自ホスト型個人用AIアシスタントで、スケジュール管理や数百のプラットフォームの統合が可能で、データのプライバシーを保護します。
Openai
$2.8
入力トークン/百万
$11.2
出力トークン/百万
1k
コンテキスト長
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
$2
$20
$4
$16
$8
$240
52
Bytedance
$1.2
$3.6
4
ubergarm
これはai-sage/GigaChat3-10B-A1.8B-bf16モデルのGGUF量子化バージョンで、高精度のQ8_0から極度に圧縮されたsmol-IQ1_KTまで、さまざまな量子化オプションを提供し、さまざまなハードウェア条件でのデプロイメントニーズを満たします。このモデルは32Kのコンテキスト長をサポートし、MLAアーキテクチャを採用し、対話シナリオに最適化されています。
XiaomiMiMo
米モデルのエンボディメントモデル(MiMo-Embodied)は、強力なクロスエンボディメント視覚言語モデルであり、自動運転とエンボディメントAIタスクの両方で卓越した性能を発揮します。これは、この2つの重要な分野を結合した最初のオープンソースの視覚言語モデルであり、動的な物理環境における理解と推論能力を大幅に向上させました。
allenai
Olmo 3はAllen Institute for AIによって開発されたオープンソースの言語モデルシリーズで、7Bと32Bの2種類の規格があり、指令(Instruct)と思考(Think)の2種類のバリエーションに分かれています。このモデルは卓越した長鎖思考能力を持ち、数学やコーディングなどの推論タスクのパフォーマンスを大幅に向上させることができます。
DakkaWolf
Trouper-12B GGUFは、DarwinAnim8orによってオリジナルモデルを基に開発されたテキスト生成モデルで、ロールプレイングやクリエイティブライティングのシナリオに特化して最適化されています。このモデルはMistral-Nemo-Base-12Bから微調整され、カスタムの「Actors」データセットを使用して訓練されており、生成されるテキストはより自然で、一般的な「AI言語」の特徴を避けています。
Olmo 3は、Allen Institute for AI (Ai2)によって開発された全く新しい32Bパラメータの言語モデルファミリーで、Base、Instruct、Thinkなどのバリエーションが含まれています。このモデルはDolma 3データセットを基に訓練され、65,536の長文脈処理をサポートし、言語モデル科学の発展を推進することを目的としています。モデルは完全にオープンソースで、Apache 2.0ライセンスに従っています。
moonshotai
Kimi K2 Thinkingは月の暗面(Moonshot AI)が開発した最新世代のオープンソース思考モデルで、強力な深度推論能力とツール呼び出し機能を備えています。このモデルは混合専門家アーキテクチャを採用し、ネイティブINT4量子化をサポートし、256kのコンテキストウィンドウを持ち、複数のベンチマークテストで優れた性能を発揮します。
dinhthuan
NeuTTS - Airベトナム語テキストを音声に変換するモデルは、260万以上のベトナム語オーディオサンプルに基づき、NeuTTS - Air基礎モデルから微調整された高品質のベトナム語音声合成モデルです。このモデルは、自然で流暢なベトナム語音声合成を実現でき、音声クローニング機能をサポートし、生産環境に合わせて最適化されています。
SadraCoding
SDXL-Deepfake-Detectorは、AI生成顔を正確に検出するツールで、デジタル世界の真実性を維持することに特化し、視覚的な虚偽情報に対抗するためのプライバシー保護とオープンソースのソリューションを提供します。このモデルは、事前学習モデルを微調整することで、軽量かつ高精度な検出を実現します。
unsloth
Qwen3-VL-2B-InstructはQwenシリーズの中で最も強力なビジュアル言語モデルで、卓越したテキスト理解と生成能力、深いビジュアル認知と推論能力、長いコンテキストサポート、強力な空間およびビデオ動的理解能力を備えています。このモデルは2Bのパラメータ規模を採用し、命令対話をサポートし、マルチモーダルAIアプリケーションに適しています。
nineninesix
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速、高音質のテキスト音声変換モデルです。2段階パイプラインを用いて、大規模言語モデルと高効率オーディオコーデックを組み合わせ、卓越した速度とオーディオ品質を実現します。このモデルはスペイン語をサポートし、4億のパラメータを持ち、サンプリングレートは22kHzです。
KaniTTSは、リアルタイム対話型人工知能アプリケーション向けに最適化された高速かつ高忠実度のアラビア語テキスト音声変換モデルです。2段階パイプラインアーキテクチャを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせることで、卓越した速度とオーディオ品質を実現し、対話型AI、障害者支援、研究など多くの分野の音声合成ニーズを満たすことができます。
citizenplain
これはWan2.1-T2V-14BモデルをベースにトレーニングされたLoRAアダプターで、テキストからビデオへの変換タスクに特化しています。このモデルはAIツールキットを使用してトレーニングされ、ビデオ生成アプリケーションをサポートします。
ApertusはスイスのAIによって開発された完全にオープンな多言語大規模言語モデルで、70億と80億の2種類のパラメータ規模を提供します。このモデルは1000種類以上の言語をサポートし、完全にコンプライアンスでオープンな学習データを使用し、その性能はクローズドソースモデルに匹敵します。Apertusは15Tのトークンで事前学習され、段階的なコース学習方法を採用し、最大65,536トークンのコンテキスト長をサポートします。
redponike
ApertusはスイスのAIによって開発された完全にオープンな多言語大規模言語モデルで、パラメータ規模は80億と700億で、1000種以上の言語と長文脈処理をサポートし、完全にコンプライアンスの取れたオープンな学習データのみを使用し、性能はクローズドソースモデルに匹敵します。
Ashmotv
animat3d_style_wan-loraは、OstrisによるAIツールキットを基にトレーニングされたLoRAモデルで、テキストからビデオへの生成に特化しており、画像生成に独特な3Dアニメーションスタイルの効果をもたらします。このモデルはWan2.2 - T2V - A14Bベースモデルを基に微調整されており、複数の主流のAIプラットフォームで使用できます。
Granite-4.0-MicroはIBMが開発した30億パラメータの長文脈指令モデルで、Granite-4.0-Micro-Baseをベースに微調整されています。このモデルはオープンソースの指令データセットと内部合成データセットを使用しており、指令の遵守とツール呼び出し能力が強化されており、多言語タスクをサポートし、各分野のAIアシスタントの基礎モデルとして使用できます。
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速かつ高忠実度のテキスト音声変換モデルです。2段階のパイプラインアーキテクチャを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせることで、卓越した速度と音質を実現し、複数の言語をサポートし、エッジ/サーバーデプロイメントに適しています。
geoffmunn
これはQwen/Qwen3-0.6B言語モデルのGGUF量子化バージョンで、6億のパラメータを持つコンパクトな大規模言語モデルで、低リソースデバイスでの超高速推論用に設計されています。llama.cpp、LM Studio、OpenWebUI、GPT4Allなどのフレームワークをサポートし、どこでもオフラインでプライベートAIを使用できます。
GeneralAnalysis
GA Guard LiteはGeneral Analysisが開発した軽量級のオープンソース審査モデルで、言語モデルの出力に含まれる違反コンテンツを検出するために特別に設計されています。このモデルは、違法活動、憎悪発言、個人情報漏洩など7種類のセキュリティリスクを識別でき、AIアプリケーションに効率的なコンテンツセキュリティ保護を提供します。
GA Guard CoreはGeneral Analysisが開発したオープンソースの審査モデルで、違法活動、憎悪発言、個人情報漏洩など7種類の違反コンテンツを検出して分類するために専用に設計されており、AIアプリケーションの安全性とコンプライアンスを保障します。
Inbox Zeroは、オープンソースのAIメールアシスタント兼クライアントで、ユーザーが効率的にメールを管理し、受信トレイをゼロにするのを支援します。
Refact AgentはオープンソースのAIプログラミングアシスタントで、多言語のコード生成、デバッグ、最適化をサポートし、主流の開発ツールと統合し、ローカルにデプロイでき、スマートなコード補完とコード解釈機能を提供します。
Solana Agent Kitは、AIエージェントをSolanaプロトコルに接続するためのオープンソースツールキットで、60種類以上のブロックチェーン操作をサポートします。
Klavis AIはオープンソースプロジェクトで、Slack、Discord、Webプラットフォームで簡単に使えるMCP(モデルコンテキストプロトコル)サービスを提供します。レポート生成、YouTubeツール、ドキュメント変換などのさまざまな機能があり、非技術ユーザーと開発者がAIワークフローを使用するのをサポートします。
OpenDiaはオープンソースのブラウザ拡張ツールで、AIモデルが直接ユーザーのブラウザを制御でき、既存のログイン状態、ブックマークなどのデータを利用して自動化操作を行います。複数のブラウザとAIモデルをサポートし、プライバシー保護に配慮しています。
Genkitは、AI駆動のアプリケーションを構築するためのオープンソースフレームワークで、Node.jsとGoのライブラリを提供し、複数のAIモデルとベクトルデータベースの統合をサポートし、開発ツールとプラグインエコシステムを含んでいます。
MCPアトラシアンは、アトラシアンの製品(ConfluenceとJira)用に設計されたモデルコンテキストプロトコルサーバーで、クラウドとオンプレミスの両方のデプロイをサポートし、AIアシスタントの統合機能を提供します。
Cipherは、プログラミングAIエージェント向けに設計されたオープンソースのメモリ層フレームワークです。MCPプロトコルを通じてさまざまなIDEとAIコーディングアシスタントと統合し、自動記憶生成、チーム記憶共有、デュアルシステム記憶管理などの核心機能を提供します。
Cogneeは、AIエージェントに記憶機能を提供するオープンソースプロジェクトです。モジュール化されたECLパイプラインを通じて動的な知識グラフを構築し、複数のデータソースと形式をサポートし、幻覚を減らし、コストを削減します。
MCP Unityは、Model Context Protocolを実装したUnityエディター拡張で、Node.jsサーバーを通じてAIアシスタントとUnityプロジェクトのインタラクションを橋渡しし、メニュー実行、オブジェクト選択、コンポーネント更新などの機能を提供します。
これはWeb3モデルコンテキストプロトコル(MCP)サーバーの精選リストで、チェーンのやり取り、取引、DeFi、市場データ、ツール、ソーシャルなどの複数のカテゴリをカバーしています。MCPは、アプリケーションがLLMにコンテキストを提供する方法を標準化するオープンプロトコルで、AIアプリケーションのUSB - Cポートのようなものです。DeMCPは最初の分散型MCPネットワークで、エージェントに独自開発およびオープンソースのMCPサービスを提供し、暗号通貨による支払いをサポートし、TEEとブロックチェーンレジストリを組み合わせてMCPのセキュリティと信頼性を再定義しています。
Klavis AIはオープンソースプロジェクトで、Slack、Discord、ウェブ上で使用できる多機能計算プラットフォーム(MCP)を提供します。非技術ユーザーが簡単にAIワークフローを設定でき、開発者は拡張して構築することができます。
NotteはオープンソースのフルスタックネットワークAIエージェントフレームワークで、ブラウザセッション、自動化されたLLM駆動エージェント、ウェブページの監視と操作、資格情報管理などの機能を提供し、インターネットをエージェントに優しい環境に変え、自然言語でウェブサイトの構造を記述することでLLMの認知負荷を軽減することを目的としています。
ACI.devはオープンソースのAIエージェントツールインフラストラクチャで、600以上の事前統合ツールのマルチテナント認証、権限管理、動的探索機能を提供し、統合MCPサーバーまたは軽量SDKを通じた呼び出しをサポートし、本番レベルのAIエージェント開発を簡素化します。
Awesome MCP Serversは、包括的なモデルコンテキストプロトコル(MCP)サーバーの集合で、7158個のMCPサーバーがAI統合、アートメディア、ブラウザ自動化、クラウドサービス、データベース、開発者ツール、ファイルシステム、金融、ゲーム、ハードウェア、医療、インフラストラクチャ、知識管理、位置マップ、マーケティング、監視、マルチメディア処理、オペレーティングシステム、プロジェクト管理、科学研究、セキュリティ、ソーシャルメディア、旅行交通、ユーティリティツール、バージョン管理など33のカテゴリに分けられています。
LYRAIOSはモデルコンテキストプロトコル(MCP)に基づく多AIエージェントオペレーティングシステムで、金融ネットワークとブロックチェーンパブリックチェーンを接続することでAIアプリケーションの機能を拡張し、ブロックチェーン操作、金融テクノロジー分析、教育学習などのサービスを提供することを目的としています。
RhinoMCPは、Model Context Protocolを通じてRhino 3DモデリングソフトウェアとAIエージェントを接続するツールで、双方向のやり取りを実現し、3Dオブジェクト操作、ドキュメント検査、およびスクリプト実行をサポートします。
Unreal Engineの生成型AIサポートプラグインで、最新のLLM/GenAIモデルAPIを統合し、ゲーム開発におけるAI統合層のサポートを提供します。OpenAI、Claude、Deepseekなどのモデルのチャット、構造化出力などの機能を備え、Model Control Protocol(MCP)をサポートしてシーンオブジェクトの制御やブループリントの生成などの高度な機能を実現します。
adb - mcpは、MCPプロトコルを通じてLLMにインターフェースを提供し、Adobeツール(PhotoshopやPremiereなど)を制御するAIエージェントを作成する概念実証プロジェクトです。このプロジェクトには、MCPサーバー、Nodeコマンドプロキシサーバー、およびAdobeアプリケーションプラグインが含まれており、自然言語の命令でAdobeソフトウェアを操作でき、画像およびビデオ編集の自動化に適しています。
ReActMCP Web Searchは、Exa APIを統合したMCPサーバーで、AIアシスタントにリアルタイムのウェブ検索機能を提供し、基本検索と高度なフィルタオプションをサポートし、Markdown形式の結果を返します。