騰訊が初めてのマンガアプリ「火龍漫劇」をリリースし、マンガをショートビデオに変換し、縦画面の情報流れデザインを採用し、AI技術を活用してコンテンツ制作効率を高めることで、汎エンタメ分野での優位性をさらに強化する。
メタは木曜日に、AI動画機能のVibes用に独立アプリをテストしていることを確認した。これはオープンAIのSoraへの挑戦である。2024年は文章から動画生成の元年であり、2026年には大手企業同士の決戦になるかもしれない。Vibesは、全員がデジタル分身を持つ短い動画プラットフォームを目指しており、メタがAI動画分野で重要なポジションを築くための重要な布石となる。
可灵AI 3.0をリリースし、動画・画像生成機能を強化。ナレーション、画面制御、マルチモーダル連携に焦点。新機能「スマートストーリーボード」で創作体験を向上。....
HuaweiがMate80シリーズにHarmonyOS 6.0.0.130SP17を配信。主な新機能はAIによるモアレ除去で、画面撮影時の縞模様を自動で除去します。....
AI駆動の旅行計画。5分で行程を生成し、観光スポットやレストランを推薦し、世界中の目的地に対応。
img2.aiは画像から画像および画像から動画AIを統合し、無料トライアル可能で、高速で高品質な成果物を生成します。
DeVoice は高速で正確な音声および動画のトランスクリプションサービスを提供します。
AIダンス生成器。ダンスのアイデアをすばやくウイルス的なAIダンス動画に変換し、スタイルを統一します。
Openai
-
入力トークン/百万
出力トークン/百万
コンテキスト長
Anthropic
$105
$525
200
Alibaba
$1
$10
256
$15.8
$12.7
64
Bytedance
$0.8
$2
128
Baidu
32
drbaph
Z-Image(造相)は60億のパラメータを持つ高効率な画像生成基礎モデルで、画像生成分野の効率と品質の問題を専門的に解決します。その蒸留バージョンであるZ-Image-Turboは、たった8回の関数評価でリーディングな競合モデルに匹敵するか、それを上回る性能を発揮し、企業用のH800 GPUでは亚秒級の推論遅延を実現し、16G VRAMの消費者向けデバイスでも動作します。
Shawon16
これはVideoMAE-baseアーキテクチャをベースに微調整された動画理解モデルで、手話認識タスクに特化して最適化されています。モデルはWLASLデータセットで200エポック訓練され、TimeSformerアーキテクチャを使用して動画シーケンスを処理します。
これはVideoMAE-baseアーキテクチャに基づいて微調整された動画理解モデルで、手話認識タスクに特化して最適化されています。モデルはWLASL100データセットで200エポック訓練され、動画動作認識能力を備えています。
これはVideoMAE - baseアーキテクチャに基づいて未知のデータセットで微調整された動画理解モデルで、手話認識タスクに特化しています。モデルは20エポックの訓練後に18.64%の正解率を達成しました。
MCG-NJU
SteadyDancerは、画像から動画へのパラダイムに基づく強力なアニメーションフレームワークで、高忠実度で時間的に連続した人体アニメーションの生成に特化しています。このフレームワークは、堅牢な最初のフレームの保持メカニズムにより、従来の方法におけるアイデンティティドリフトの問題を効果的に解決し、視覚的な品質と制御性に優れており、同時にトレーニングリソースの必要量を大幅に削減します。
これはMCG - NJU/videomae - baseモデルを未知のデータセットで微調整した動画理解モデルで、20エポックの学習を経て、評価セットで13.31%の正解率を達成しました。このモデルは動画分析タスクに特化して最適化されています。
jayn7
騰訊の混元ビデオ1.5モデルの量子化GGUFバージョンで、テキストから動画生成タスクに特化しており、720P高画質動画生成をサポートし、使用効率を最適化するための複数の量子化精度バージョンを提供します。
これはQwen Image Edit 2509に基づくLoRAモデルで、入力画像を誇張した特徴を持つスケッチ漫画のアート作品に変換するために特化しています。モデルは人物や動物の主体に対して、面白く芸術性のある漫画形象を創り出し、顔の特徴や特質を際立たせます。
このプロジェクトは、テンセントの混元ビデオ1.5のテキストから動画へのモデルの量子化GGUFバージョンを提供し、480P動画生成タスクをサポートします。蒸留モデルと完全モデルの2つのバージョンが含まれており、ComfyUI - GGUFなどのツールと連携して使用できます。
このプロジェクトでは、騰訊のHunyuanVideo-1.5-I2V-720pモデルの量子化GGUFバージョンを提供しており、画像を動画に変換するタスクや動画生成タスクに特化しています。このモデルは、静止画像を高品質な動画コンテンツに変換することができ、性能を最適化するための複数の量子化バージョンを提供しています。
騰訊の混元ビデオ1.5モデルの量子化GGUFバージョンで、画像を動画に変換するタスクや動画生成タスクに特化しています。480P解像度の蒸留モデルと標準モデルを提供し、Q4_K_S、Q8_0、FP16などの複数の量子化精度をサポートします。
kayte0342
ChronoEdit-14BはNVIDIAが開発した、時間推論能力を備えた画像編集と世界シミュレーションモデルで、140億のパラメータを持っています。このモデルは、2段階の推論プロセスにより、物理知覚に基づく画像編集と動作条件に基づく世界シミュレーションを実現し、事前学習されたビデオ生成モデルから事前知識を抽出します。
tencent
混元ビデオ - 1.5は軽量級で高性能なビデオ生成モデルで、わずか83億のパラメータでトップレベルのビデオ品質を提供し、使用の敷居を大幅に下げます。消費者向けGPUでスムーズに動作し、テキストからビデオ、画像からビデオの生成をサポートし、すべての開発者やクリエイターが簡単に使用できます。
混元OCRは、混元の独自のマルチモーダルアーキテクチャによって駆動されるエンドツーエンドOCRの専門的なVLMモデルです。わずか10億パラメータの軽量設計で、複数の業界ベンチマークテストで最先端の成績を収めています。このモデルは、複雑な多言語ドキュメント解析に長けており、テキストの位置特定、オープンドメインの情報抽出、ビデオ字幕の抽出、画像の翻訳などの実際のアプリケーションシーンで優れた性能を発揮します。
onnx-community
SAM3は概念ベースの任意分割モデルで、入力された点やボックスなどのプロンプト情報に基づいて、正確な画像分割マスクを生成することができます。このバージョンはONNX形式のSAM3トラッカーモデルで、Transformers.jsライブラリを通じてブラウザ環境で効率的に動作します。
hum-ma
Wan2.2-TI2V-5B-Turbo-GGUFは、quanhaol/Wan2.2-TI2V-5B-Turboベースモデルから変換された画像を動画に変換するモデルで、最適化されて4GB GPUで動作可能で、優れた汎用性と高効率な推論能力を持っています。
FastVideo
FastVideoチームが開発した画像を動画に変換するモデルで、CausalWan2.2 I2V A14Bシリーズに属し、8ステップ推論をサポートし、H100から4090までのさまざまなGPUに対応し、Macユーザーも使用できます。
これはVideoMAE-baseアーキテクチャに基づき、WLASLデータセットで微調整された動画動作認識モデルで、手話認識タスクに特化して最適化されており、評価セットで48.22%の正解率を達成しています。
これはVideoMAE-Baseアーキテクチャに基づいてWLASLデータセットで微調整された動画動作認識モデルです。200エポックの訓練を経て、評価セットで52.96%のトップ1精度と79.88%のトップ5精度を達成し、手話動作認識タスクに特化しています。
HIT-TMG
Uni-MoE 2.0-Omniは、ライチ科技(Lychee)が発表した完全オープンソースの全モーダリティモデルで、全モーダリティ3D RoPEと動的容量エキスパート混合アーキテクチャを採用し、言語を中心としたマルチモーダリティ理解、推論、生成能力を大幅に向上させました。このバージョンには、全モーダリティ理解とオーディオおよび画像生成能力が統合されています。
Open Multi - Agent Canvasは、旅行計画、研究、一般的なタスク処理に使用される、動的な会話で複数のエージェントを管理することをサポートするオープンソースの多エージェントチャットインターフェースです。
FAL AIをベースにしたロゴ生成サーバーで、画像生成、背景除去、自動スケーリング機能を提供します。
Model Context Protocol (MCP)に基づくB站動画検索サーバーで、APIインターフェースを通じて動画コンテンツの検索、ページング検索、動画情報の返却をサポートし、LangChain呼び出しのサンプルとテストスクリプトを含みます。
yt - dlpを使ってYouTube字幕をダウンロードし、MCPプロトコルを通じてClaude.aiに接続して動画内容を分析します
これはGoogleカレンダーのMCPサーバープロジェクトで、Googleカレンダーとの統合機能を提供し、標準化されたインターフェースを通じてカレンダーイベントの読み取り、作成、更新、検索を可能にします。画像からのイベント追加、カレンダー分析、出席状況確認、イベントの自動調整などの機能をサポートしています。
MCPプロトコルを通じてYouTube動画の字幕を取得するサービス
MCPプロトコルに基づく抖音動画処理サーバーで、ノーウォーターマーク動画のダウンロード、音声の抽出、テキストの変換機能をサポートします。
ウェブページの内容とYouTube動画の字幕を取得するためのMCPサーバー
adb - mcpは、MCPプロトコルを通じてLLMにインターフェースを提供し、Adobeツール(PhotoshopやPremiereなど)を制御するAIエージェントを作成する概念実証プロジェクトです。このプロジェクトには、MCPサーバー、Nodeコマンドプロキシサーバー、およびAdobeアプリケーションプラグインが含まれており、自然言語の命令でAdobeソフトウェアを操作でき、画像およびビデオ編集の自動化に適しています。
Claudeデスクトップ版用に設計されたMCPサーバーで、リンクを通じてウェブページのテキスト、YouTube動画の字幕、PDFファイルの内容を取得できます。
YouTubeとGoogleスプレッドシートを接続するMCPサービスツールで、動画検索をサポートし、結果を自動的にスプレッドシートに保存します。
FAL画像ビデオMCPサーバーは、高性能のMCPプロトコルサーバーで、FAL AIの画像およびビデオ生成に特化しており、ローカルマシンへの自動ダウンロードをサポートしています。ClaudeなどのMCP互換クライアントに適した公共URL、データURL、およびローカルファイルパスを提供します。
Google Gemini APIをベースにしたMCPサーバーで、画像生成機能を提供し、テキストプロンプトによる画像作成をサポートし、生成された画像を自動的にImgBB画像ホスティングサービスにアップロードします。
YouTube MCPサーバーは、標準インターフェースを通じてYouTubeのデータとやり取りするサービスで、動画、チャンネル、コメント、字幕のクエリと分析機能を提供します。
Model Context Protocol(MCP)に基づく軽量級のサーバーで、画像処理とクラウドアップロードに特化しています。サイズ変更、変換、最適化、および複数のクラウドストレージサービスへのアップロードをサポートし、AIアシスタントや自動化ワークフローに適しています。
コンピュータビジョンに基づくMCPサーバで、ウェブページのスクリーンショットを分析して画像資産の位置を自動的に識別し、レイアウト構造を抽出します。放射状、グリッドなどの複数のレイアウトパターンの検出をサポートし、AIアシスタントがウェブページのレイアウトを正確に再構築するのを支援します。
MLX Whisperをベースとした音声文字起こしMCPサーバーで、ローカルファイル、Base64オーディオ、YouTube動画の文字起こしに対応。AppleのMシリーズチップ用に最適化されています。
AIビデオ生成MCPサーバーは、テキストと画像入力をサポートして動画ビデオを生成し、様々なパラメーター制御とモデル選択を提供します。
DINO - X MCPは、DINO - XとGrounding DINO 1.6 APIを通じて大規模言語モデルに細粒度の物体検出と画像理解を可能にするプロジェクトです。正確な物体位置特定、数量カウント、属性分析、シーン理解を実現し、自然言語駆動の視覚タスクとワークフロー統合をサポートします。