生数科技と清華大学TSAIL実験室が共同でオープンソースのTurboDiffusion動画生成高速化フレームワークを開発し、最大200倍の推論高速化を実現しました。生成品質にほとんど影響を与えないことで、動画生成の重要なブロックとなる課題を突破しました。
OpenAIがSpotify Wrappedに似た年間レビュー機能をリリースし、ユーザーにパーソナライズされた使用レポートを提供し、対話スタイルに応じて特定の称号を授与します。
グーグルDeepMindは、Gemma3言語モデルの2.7億~270億パラメータの各層における情報処理を深く分析するためのオープンな解釈性ツールキットであるGemma Scope2を発表しました。このツールは、AIセキュリティや対応チームがモデル内の特徴を追跡し、「脱出」や幻覚、不適切な行動などの問題に対処するのを支援します。
ビートテック傘下の火山エンジンが、2026年の中国テレビ春晚の特別なAIクラウドパートナーとなる。そのスマートアシスタント「ドウパオ」はインタラクティブに深く関わる予定である。春晚は国民的なIPとして、インターネット製品が飛躍的に成長するための重要な戦場であり、ビートテックのこの取り組みは、WeChat Payなどのように春晚を通じて突破を果たした成功モデルを再現することを意図している。
無料で高品質なSora 2動画を生成し、ノーウォーターマーク、最大25秒。
20以上のオープンソースモデルをサポートするプライベートなAIチャットプラットフォームで、会話のプライバシーとコンテキストを保護します。
マイクロソフトのTrellis 2 AIは、画像をPBRテクスチャ付きの高品質3Dモデルに迅速に変換します。
GPT - Image - 1.5で駆動され、AI画像を迅速に生成および編集でき、多様なシーンに適用可能です。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
$0.7
$2.8
Anthropic
$7
$35
200
$17.5
$21
$105
Alibaba
-
$2
$20
$8
$240
52
Moonshot
$4
$16
256
Bytedance
Deepseek
$12
128
Tencent
$1
32
Baidu
Openai
$0.4
$0.75
Shawon16
これはVideoMAE-baseアーキテクチャをベースに微調整された動画理解モデルで、手話認識タスクに特化して最適化されています。モデルはWLASLデータセットで200エポック訓練され、TimeSformerアーキテクチャを使用して動画シーケンスを処理します。
これはVideoMAE-baseアーキテクチャに基づいて微調整された動画理解モデルで、手話認識タスクに特化して最適化されています。モデルはWLASL100データセットで200エポック訓練され、動画動作認識能力を備えています。
SerialKicked
これはQwen3-VL-32B-Thinking-hereticの量子化バージョンで、新しいアブレーション手法を用いて量子化されており、従来の手法と比べてベースモデルへの損傷が少ない。複数の量子化精度バージョンを提供し、24GB VRAMのデバイスでの実行に適しており、画像とテキストの変換タスクをサポートする。
これはVideoMAE - baseアーキテクチャに基づいて未知のデータセットで微調整された動画理解モデルで、手話認識タスクに特化しています。モデルは20エポックの訓練後に18.64%の正解率を達成しました。
Clemylia
Gheya-1はLES-IA-ETOILESエコシステムにおける次世代の基礎言語モデルで、2.02億のパラメータを持ち、旧版のSmall-laminaシリーズのアップグレード版です。このモデルは専門的な微調整用に設計されており、人工知能、専門言語モデル、生物学の分野で対象的な訓練を行っています。
これはVideoMAE-baseアーキテクチャに基づくビデオ理解モデルで、未知のデータセットで20エポックの微調整トレーニングを行いました。モデルは評価セットでの性能が限られており、正解率は0.0041、損失値は7.7839です。
gia-uh
セシリアFT MS v1は、セシリア2B v0.1を微調整したキューバ言語モデルで、キューバスペイン語に特化して最適化されており、キューバの言語、文化、社会の微妙なニュアンスを捉えることができます。このモデルはスペイン語と英語をサポートし、主にテキスト生成タスクに使用されます。
prithivMLmods
Olmo-3-7B-Instruct-AIO-GGUFは、Allen Institute for AIが開発したOlmo-3-7B-InstructモデルのGGUF量子化バージョンです。これは70億パラメータの自己回帰型言語モデルで、Tulu 2やUltraFeedbackなどのデータセットで教師付き微調整と直接的な嗜好最適化を行って訓練され、質問応答と指令の遵守において優れた性能を発揮します。
Olmo-3-Thinkはアレン人工知能研究所が発表した完全にオープンソースの言語モデルシリーズで、7Bと32Bの2種類の規模があります。このモデルは特別に訓練され、明確な推論過程を示すことができ、透明な段階的な推論と検証可能な中間思考痕跡をサポートし、推論、数学、コードタスクで優れた性能を発揮します。
これはMCG - NJU/videomae - baseモデルを未知のデータセットで微調整した動画理解モデルで、20エポックの学習を経て、評価セットで13.31%の正解率を達成しました。このモデルは動画分析タスクに特化して最適化されています。
vanta-research
Atom-Olmo3-7Bは、Olmo-3-7B-Instructをベースにファインチューニングされた言語モデルで、協調型問題解決と創造的な探索に特化して設計されています。このモデルは、複雑な問題を扱う際に、熟慮された構造化分析を提供し、同時に魅力的な会話スタイルを維持し、Apache 2.0オープンソースライセンスを持っています。
drbaph
これはQwen Image Edit 2509に基づくLoRAモデルで、入力画像を誇張した特徴を持つスケッチ漫画のアート作品に変換するために特化しています。モデルは人物や動物の主体に対して、面白く芸術性のある漫画形象を創り出し、顔の特徴や特質を際立たせます。
jayn7
このプロジェクトは、テンセントの混元ビデオ1.5のテキストから動画へのモデルの量子化GGUFバージョンを提供し、480P動画生成タスクをサポートします。蒸留モデルと完全モデルの2つのバージョンが含まれており、ComfyUI - GGUFなどのツールと連携して使用できます。
Justin331
SAM 3はMetaが発表した第3世代のプロンプト可能な分割基礎モデルで、画像とビデオの分割タスクを統一的にサポートします。前代のSAM 2と比べて、オープンボキャブラリ概念分割能力を導入し、大量のテキストプロンプトを処理でき、SA - COベンチマークテストで人間の性能の75 - 80%に達します。
yaleiyaleichiling
初の本当にオープンソースで制限のない2次元ビデオ生成モデル。Wan2.2-5Bアーキテクチャに基づいており、VRAMが6GBあれば動作し、見事な2次元アニメコンテンツを生成できます。
RiosWesley
ブラジル範囲ルーティングモデルは、Gemma 3 270Mをベースにした微調整されたミニマルな大規模言語モデルで、ブラジルの配達サービスシステム用に設計されており、非常に高速で軽量な意図分類器(ルーター)として機能します。このモデルはUnslothを使用してトレーニングされ、GGUF形式に変換されています。
Nanbeige
楠米色4-3B-思考-2511は楠米色シリーズの最新の強化バージョンで、高度な蒸留技術と強化学習による最適化を通じて、コンパクトな3Bパラメータ規模で強力な推論能力を実現しています。このモデルはArena-Hard-V2やBFCL-V4などのベンチマークテストで、パラメータが32B未満のモデルの中で最先端(SOTA)の成果を達成しています。
ai-sage
GigaChat3-10B-A1.8BはGigaChatシリーズの対話モデルで、混合専門家(MoE)アーキテクチャに基づいており、合計100億のパラメータがあり、そのうち18億がアクティブなパラメータです。このモデルは、マルチヘッド潜在注意力と多トークン予測技術を採用しており、25.6万トークンの長文脈をサポートし、多言語対話と推論タスクで優れた性能を発揮します。
allenai
Olmo 3は、Allen Institute for AIによって開発された次世代の言語モデルシリーズで、7Bと32Bの2種類の規模があり、命令型と思考型の2種類のバリエーションがあります。このモデルはDolma 3データセットで事前学習され、Dolciデータセットで事後学習され、長い連鎖的な思考能力を備えており、数学やコーディングなどの推論タスクで優れた性能を発揮します。
GigaAM-v3はConformerアーキテクチャに基づくロシア語自動音声認識の基礎モデルで、2.2 - 2.4億のパラメータを持っています。これはGigaAMシリーズの第3世代モデルで、70万時間のロシア語音声データを使用してHuBERT - CTC目標で事前学習され、幅広いロシア語ASR分野で最先端の性能を提供します。
mcp-proxyは、サーバーの転送プロトコル変換を実現するツールで、SSEとstdioの2つのモード間でのプロキシ変換をサポートし、異なるクライアントとサーバー間の通信の適合を容易にします。
OpikはオープンソースのLLM評価フレームワークで、LLMアプリケーションのトレース、評価、監視をサポートし、開発者がより効率的で経済的なLLMシステムを構築するのを支援します。
プロジェクトでは、2つのサービス起動方法(stdioプロトコルとSSEプロトコル)とそれに対応するクライアント設定方法を提供しています。
MCPリーゾナーはClaude Desktop用に設計された推論能力を強化するツールで、ビームサーチとモンテカルロ木探索の2つのアルゴリズムを提供し、複雑な問題の解決を最適化するための実験的な戦略シミュレーション層を新たに追加しています。
MCP ReasonerはClaude Desktop用に設計された推論強化ツールで、Beam SearchとMCTSの2つの検索戦略を提供し、実験的なアルゴリズムを通じて複雑な問題解決能力を向上させます。
これは、MCPコード実行モードを実現するサーバーで、単一ツールブリッジとゼロコンテキスト発見メカニズムを通じて、MCPツールの呼び出しオーバーヘッドを数万トークンから約200トークンに削減し、ルートコンテナ内で安全にPythonコードを実行し、データサイエンスとセキュリティ隔離をサポートします。
API 200はオープンソースのAPI統合プラットフォームで、サードパーティAPIの迅速なアクセスと管理機能を提供し、自動コード生成、ドキュメント、認証、キャッシュ、エラー処理などの特性を備え、自前でホストするデプロイとMCPサービスをサポートします。
軽量級のMCPサーバーで、ClaudeなどのAIアシスタントにリアルタイムの天気データの照会と解析機能を提供します。ローカルとリモートの2種類のデプロイ方式をサポートし、Dockerコンテナ化の解決策も含まれています。
Smart TreeはRustをベースに開発された超高速のディレクトリ可視化ツールで、従来のtreeコマンドよりも10~24倍高速で、AI最適化出力、量子圧縮、スマート検索などの機能を備えており、同時に環境保護と省エネにも配慮しています。
Open Data MCPはオープンソースプロジェクトで、MCPプロトコルを通じて公開データセットをLLMアプリケーションに迅速に接続することを目的としています。プロジェクトはCLIツールを提供し、2分での接続を実現し(現在はClaudeをサポート)、コミュニティ協力のフレームワークを構築して、開発者が簡単に公開データセットを貢献して公開できるようにします。核心的な目標は、すべてのLLMアプリケーションと数百万の公開データセットを接続するインフラストラクチャを構築することです。
MCPBenchは、MCPサーバーのパフォーマンスを評価するためのフレームワークで、Web検索とデータベースクエリの2種類のタスクの評価をサポートし、ローカルおよびリモートのサーバーと互換性があり、主に精度、遅延、トークン消費を評価します。
DBCodeはVS Code用のデータベース管理プラグインで、20種類以上のデータベース接続をサポートし、データ編集、自然言語クエリ、ER図生成、可視化分析などの機能を提供し、開発者がIDE内で効率的にデータベース操作を行うのを支援します。
Snakは、Starknetブロックチェーンと相互作用できるAIエージェントを作成するためのツールキットで、複数のAIプロバイダーをサポートし、NPMパッケージとNestJSサーバーの2つの使用方法を提供します。
FreeCAD MCPはClaude DesktopでFreeCADを制御するプラグインで、2D図面から3Dモデルを作成するなど、さまざまな設計機能をサポートしています。
OpenAI Sora 2ビデオ生成APIを統合したMCPサーバーで、ビデオ生成、ミックス編集、状態照会、自動ダウンロード機能を提供します。
このプロジェクトは、ACI.devが管理する機能ツールにアクセスするための2種類のMCPサーバーを提供します:apps - serverは指定されたアプリのツールへのアクセスを提供し、unified - serverはすべての利用可能なツールを発見して実行する機能を提供します。
MCPプロトコルに基づくサーバーで、Geminiに組み込まれたGoogle検索機能を利用してリアルタイムのウェブ検索サービスを提供し、Google AI StudioとVertex AIの2種類のアクセス方法をサポートします。
MCPプロトコルに基づく意味コード検索サーバーで、OpenAIとOllamaの2種類の埋め込みモデルをサポートし、ローカルプロジェクトまたはGitリポジトリをインデックス化でき、企業レベルのオンプレミスコード検索ソリューションを提供します。
Auto Causal Inferenceは、大規模言語モデル(LLM)を利用して自動的に因果推論を行うプロジェクトです。ユーザーは介入変数と結果変数を指定するだけで、システムが自動的に変数の役割識別、因果グラフの構築、効果推定、モデル検証などの全プロセスの分析を完了します。プロジェクトは2種類のエージェントアーキテクチャ(LangGraphとMCP)を提供してこの機能を実現し、特に銀行シナリオの因果問題分析に適しています。
Conduitは、PhabricatorとPhorgeにAPI統合を提供するMCPサーバーで、HTTP/2と型安全をサポートし、DockerまたはHTTP/SSEサーバーで実行できます。