OpenAIの動画生成アプリSora、米加招待制で200万DL突破。App Storeで1位獲得。新機能としてキャラ拡張、動画編集、SNS連携を発表。Android版も近日リリース予定。....
Runwayは画期的な動画編集モデルAlephを発表しました。自然言語の指示により5つの主要機能を実現します。それは、内容の追加・削除、環境の変更、スタイルの移行、カメラアングルの移行、グリーンスクリーンでの抽出です。このモデルは文脈理解と視覚生成技術を独創的に組み合わせており、単一の動画から複数の角度のコンテンツを生成することが可能で、プロの動画制作の門檻を大幅に下げます。Alephの登場により、AIは映画や広告などの分野での応用拡大を加速するでしょう。今後は性能の最適化やリアルタイム協働などの新機能の拡張も予定されており、クリエイターにさらに強力なツールを提供します。
Memories.aiは800万ドルの資金調達に成功、長編動画AI解析技術の限界を突破。Meta出身者による同社は、1,000万時間の動画処理可能なAIプラットフォームを開発。セキュリティ・マーケティング企業向けに4層構造の分析ソリューションを提供。既存AIの1-2時間制限を超える技術が強み。競合他社に対し拡張性で優位。今後はスマートグラスやロボット訓練への応用も視野。....
OpenAIがChatGPT Plusユーザー向けにmacOSデスクトップアプリの録音機能を全面開放。120分間のリアルタイム録音が可能で、構造化メモやタスク、コード枠を自動生成。プライバシー保護を重視し、処理後はオリジナル音声を削除。現在はmacOS限定だが、他プラットフォームにも拡張予定。会議やブレインストーミングの効率化に貢献するAI生産性ツールの画期的な進化。....
DeepSRTは、YouTube動画に高速な多言語要約とリアルタイムAIバイリンガル字幕を提供するChrome拡張ツールです。
高解像度動画拡張およびコンテンツ生成技術
YouTube動画とリアルタイムでチャットできるChrome拡張機能です。
StreamingT2V:一貫性、動的性、拡張性に優れた長尺動画テキスト生成
yslan
STream3Rは、因果Transformerに基づく拡張可能なシーケンス3D再構築モデルであり、点群図予測をデコーダのみのTransformer問題として再定義します。ストリーミング処理フレームワークを導入し、因果アテンションを利用して画像シーケンスを効率的に処理し、従来の方法がしばしば失敗する動的シーンを含む、様々な挑戦的なシーンにうまく汎化できます。
tencent
混元ビデオ - I2Vは、全く新しい画像から動画への生成フレームワークで、騰訊の混元ビデオモデルを拡張したもので、静止画像から高品質の動画コンテンツを生成することができます。
OpenGVLab
VideoChat-FlashはUMT-LとQwen2.5-7B-1Mを基に構築されたマルチモーダルモデルで、長い動画の理解をサポートし、コンテキストウィンドウを1Mまで拡張可能です。
motexture
条件強化型テキスト動画生成モデル。時系列条件変換器で生成シーンを拡張しスムーズな遷移を実現、プロンプト補間機能をサポート
UMT-LとQwen2-7Bを基に構築されたマルチモーダルモデルで、長い動画の理解をサポートし、1フレームあたりわずか16トークンを使用し、コンテキストウィンドウは128kまで拡張可能です。
VideoChat-Flash-2BはUMT-L(300M)とQwen2.5-1.5Bを基に構築されたマルチモーダルモデルで、動画テキストからテキストへの変換タスクをサポートし、1フレームあたり16トークンのみを使用し、コンテキストウィンドウを128kに拡張します。
strangerzonehf
Ctoon++拡張版はLoRAファインチューニングを基にしたテキストから画像を生成する拡散モデルで、高品質なカートゥーン風の人物や動物画像の生成に特化しています。
Vchitect
Vchitect-2.0はテキストから動画生成や画像から動画生成タスクに特化した、動画拡散モデルを拡張するための並列Transformerモデルです。
hwjiang
Real3DはTripoSRアーキテクチャに基づく2Dから3DへのマッピングTransformerモデルで、教師なし自己学習と自動データ選別により実世界画像の処理能力を拡張しています。
YanweiLi
LLaMA-VIDはLLaMA/Vicunaをファインチューニングしたオープンソースのマルチモーダルチャットボットで、拡張されたコンテキストトークンにより数時間に及ぶ動画処理をサポートします。
crumb
RLHFでファインチューニングされたStable Diffusion 2.0用プロンプト生成モデル。高品質な画像説明を自動的に拡張または生成可能
microsoft
X-CLIPはCLIPのミニマルな拡張で、汎用的な動画と言語の理解のために設計されており、(動画、テキスト)ペアで対照的に訓練され、ゼロショット、少数ショット、または完全教師ありの動画分類や動画-テキスト検索などのタスクに適しています。
X-CLIPはCLIPの拡張版で、汎用的な動画言語理解に使用され、ゼロショット、少数ショット、または完全教師ありの動画分類タスクをサポートします。
モーダルMCPツールボックスは、Modalプラットフォーム上で動作するツールの集合で、モデルコンテキストプロトコル(MCP)に基づいており、LLMにPythonサンドボックスコード実行やFLUXモデルによる画像生成などの拡張機能を提供します。
Markdownify MCP UTF - 8拡張版は、多言語コンテンツの変換をサポートするMarkdown処理サービスで、UTF - 8エンコーディングのサポートを最適化し、PDF/画像/音声・動画/Office文書などのさまざまな形式のMarkdown変換機能を提供し、Windowsシステムに特化した最適化が行われています。
mcp-server-suiteは、自動化分野の「HuggingFace」を目指すオープンソースのMCPサーバーコレクションです。モジュール化されたサーバーコンポーネントを提供し、ウェブ検索からデータベース操作までのさまざまな機能をサポートし、コミュニティの貢献による拡張を促進します。プロジェクトにはコアサーバーと計画中のさまざまな専門サービスが含まれ、AI/ML、ソフトウェア開発、非技術的なシナリオをカバーし、標準化されたプロトコルによって自動化プロセスを簡素化することを目指しています。
Claude Desktop用に設計されたMCPサーバーで、YouTube動画のURLを通じて字幕を取得し、LLMの機能応用シーンを拡張します。