12月19日、Googleは動画生成モデルVideoPoetを発表しました。このモデルは最長10秒の動画を生成でき、動画の内容に合わせて自動的にBGMと効果音も生成します。VideoPoetは動画の最終フレームの次のフレームを繰り返し予測することで動画を延長し、ユーザーに動画が無限に延長するように感じさせます。他のモデルとは異なり、VideoPoetは拡散モデルではなく大規模言語モデルを使用しているため、テキストから動画への変換、動画修復、動画のスタイル変更など、複数の機能を1つのモデルに統合しており、より柔軟に使用できます。
関連AIニュースの推奨

国内初のマルチモーダルAIプログラマーが正式に職場へ 文心快码CodingインテリジェントエージェントZulu正式リリース
百度Create AI開発者会議が北京で開催されました。この注目を集めるテクノロジーイベントで、百度は文心快码3.5バージョンと、国内初のマルチモーダルAIプログラマーである文心快码Comate Zuluインテリジェントエージェントを正式にリリースし、AIプログラミングツールの新たな発展段階への到来を示しました。
芯驰、次世代4ナノメートルAIコックピットチップX10を発表、インテリジェント運転体験を向上
芯馳科技が、次世代の4ナノメートルAIコックピットチップX10を発表しました。このチップは、高度なAI機能と70億パラメーターのマルチモーダル大規模モデルを搭載し、インテリジェント運転体験を大幅に向上させます。よりスムーズで安全な運転を実現する革新的な技術が搭載されています。

Moonshot AIがKimi-Audioを発表:オープンソースの音声基礎モデルが新たな基準を確立
この度、Moonshot AIは、音声の理解、生成、インタラクション分野における技術の進歩を促進することを目的とした、全く新しいオープンソースの音声基礎モデルであるKimi-Audioを発表しました。この発表は、世界中のAIコミュニティから大きな注目を集め、マルチモーダルAI発展における重要なマイルストーンとみなされています。以下は、Kimi-Audioの主要な特徴、パフォーマンス、業界への影響に関する包括的なレポートです。画期的な特徴:万能な音声処理能力Kimi-Audio-7B-InstructはQwenに基づいています。

Meta、WebSSLモデルを発表:言語不要のビジョン学習における新たな探求
人工知能の分野において、Meta社は最近、WebSSLシリーズモデルを発表しました。このシリーズモデルは、パラメータ規模が3億から70億と異なり、純粋な画像データに基づいてトレーニングされ、言語なしの監督によるビジョン自己教師あり学習(SSL)の可能性を探求することを目的としています。この新たな研究は、将来のマルチモーダルタスクに新たな可能性をもたらし、ビジョン表現の学習方法の理解についても新たな視点を与えてくれます。これまで、OpenAIのCLIPモデルは、ビジュアル質問応答(VQA)や文書理解などのマルチモーダルタスクにおける優れた性能で知られていました。

PixverseがMCPを発表:ワンクリックでAIビデオ生成の新たな境地へ
生成AI技術の急速な発展に伴い、ビデオ制作分野は新たな変革期を迎えています。AIビデオ生成分野をリードするプラットフォームであるPixverseは、最近、Model Context Protocol(MCP)を発表し、ユーザーと開発者により効率的で柔軟なビデオ生成ソリューションを提供します。MCPとは何か?AIビデオ生成の新たな方法を解き放つPixverseのMCP(Model Context Protocol)は、AIビデオ生成のために特別に設計された…

即夢ビデオ3.0内部テスト:滑らかなカメラワーク、人物の表情を正確に捉える
昨夜、即夢はビデオ3.0モデルの内部テストを開始しました。新しいビデオモデルは、カメラワークがよりスムーズになり、以前のモデルと比べてプロンプトの遵守度も向上しています。公式から提供されたいくつかの例を見ると、大幅な動きでも安定性が向上しており、人物が崩れる事態は起こりにくくなっています。男性がゴルフをする、子犬が料理をする、少年が熱唱する、ぬいぐるみとロボットが抱き合うなど、様々なシーンを簡単に処理できます。即夢3.0の主なハイライトは以下の通りです。1、豊富なカメラワーク 緊張感を高める急速なパンから、広大なシーンを見せるゆったりとしたパン、そして…

ステップスターとゲンリキ・インテリジェンスが戦略的提携
ステップスターとゲンリキ・インテリジェンスは北京において戦略的提携契約を締結しました。両社はそれぞれの技術的優位性を活かし、マルチモーダル大規模言語モデル技術、インテリジェントターミナルエージェント、エンボディッドAIのシナリオにおいて緊密な協力を展開します。今回の提携の目標は「物理世界における推論の実現」であり、共同で「RoboAgent」と呼ばれるインテリジェントロボットを開発し、汎用人工知能(AGI)の現実世界への応用を推進することです。調印式には、ステップスターの創業者兼CEOである姜大昕博士とゲンリキ・インテリジェンスの共同創業者が出席しました。

昆侖万維がSkywork-R1V 2.0版をオープンソース化 視覚とテキストの推論能力が向上
4月24日、昆侖万維は、マルチモーダル推論モデルSkywork-R1V2.0(以下R1V2.0)の正式オープンソース化を発表しました。このアップグレード版は、視覚とテキストの推論能力の両方を大幅に向上させており、特に大学入試理系科目の難問の深層推論や一般的なタスクシナリオにおいて優れた性能を発揮します。現在、視覚とテキストの推論能力の両方を最もバランス良く備えたオープンソースのマルチモーダルモデルと言えるでしょう。

バイトダンス、超長ビデオ理解と編集の新潮流をリードするマルチモーダルモデル「Vidi」を発表

xAI、Grok Visionを発表 - 视觉と多言語インテリジェントインタラクションの新時代へ
xAIがGrok Visionを発表し、画像認識と多言語処理を融合した革新的なインタラクション体験を提供します。視覚情報と自然言語処理を組み合わせることで、より直感的で高度なユーザーエクスペリエンスを実現します。