AI日報：Hedraの画像から話す動画生成が無料開放；Deepmindが超強力な自動動画吹き替え技術V2Aを発表；美图WHEE V2正式上线；オープンソース版Soraで720p高画質動画をワンクリック生成

【AI日報】へようこそ！ここは、あなたの人工知能の世界を探求するための毎日のガイドです。毎日、AI分野のホットなコンテンツをご紹介し、開発者に焦点を当て、技術トレンドの把握や革新的なAI製品の応用を理解するお手伝いをします。

最新のAI製品詳細はこちら：https://top.aibase.com/

1、HedraのCharacter-1がオープンソースで利用可能に

HedraのCharacter-1がオープンソースで利用可能になり、クリエイターはテキストと画像から話す動画や歌う動画を生成できるようになりました。これは創作革命の始まりです。単なるツールではなく、誰もが無限の動画制作の可能性を持つ、全く新しい創作プラットフォームです。

【AiBaseより】
⭐️ 動的な動画生成：写真と音声があれば、人物を生き生きと話しさせたり歌わせたりできます。
⭐️ 複数プラットフォーム対応：デスクトップでもモバイルデバイスでも、簡単に使用できます。
⭐️ 高品質保証：表情、姿勢、音声の同期がとれており、リアルで満足のいく効果が得られます。
詳細リンク:https://top.aibase.com/tool/hedra

2、Deepmindの動画音声変換技術V2A：動画への自動作曲・吹き替えを実現

Google DeepmindがV2A技術を発表しました。この技術は、動画のピクセルとテキストプロンプトを使用して豊かな音声を生成し、視覚と聴覚の同期生成を実現します。ユーザーはテキストによる説明で音声出力をガイドでき、システムは自己回帰と拡散モデルを使用して、動画コンテンツと完全に同期した音声を生成します。トレーニングプロセスでは、AIが生成した注釈を使用して、音声イベントと視覚シーンの関連性をモデルが理解するのを支援します。唇の動きとの同期という課題はありますが、V2A技術は厳格な評価テストを経て一般公開される予定です。

【AiBaseより】
🔊 動画への自動作曲・吹き替え
🎶 動画のピクセルとテキストプロンプトを使用して豊かな音声を生成
🤖 トレーニングプロセスでは、AIが生成した注釈を使用
詳細リンク:https://top.aibase.com/tool/deepmind-v2a

3、bilibiliが軽量AI言語モデルIndex-1.9Bをオープンソース化

bilibiliが最近オープンソース化したIndex-1.9Bモデルが大きな注目を集めています。このモデルは、基盤モデル、対照群、対話モデルを含み、19億の非単語埋め込みパラメーターを持ち、複数の評価基準で優れたパフォーマンスを示しています。

【AiBaseより】
🔍 Index-1.9B base：基盤モデルは19億の非単語埋め込みパラメーターを持ち、2.8Tの英中テキストデータで事前学習されており、同レベルのモデルを上回っています。
🔍 Index-1.9B pure：対照群は基盤モデルと同じですが、ベンチマークへの影響を検証するために指示関連のデータが除かれています。
🔍 Index-1.9B chat：baseモデルを基にSFTとDPOで調整された対話モデルで、インターネットコミュニティのデータが導入されており、より楽しく会話できます。
詳細リンク:https://top.aibase.com/tool/index-1-9b

4、美图WHEE V2正式リリース

美图公司が、AI技術を搭載した新しい画像編集ツールWHEE V2をリリースしました。様々な実用的な機能を備え、ユーザーに便利で効率的なワンストップ処理体験を提供します。AIペイントとAI画像編集機能が追加され、ユーザーの編集選択肢が豊富になり、様々な素材のクリエイティブな表現が可能です。スマート選択とプロンプト機能により、ユーザーは自然な修正を簡単に実行でき、画像サイズ、レイヤーコンテンツのカスタマイズ、様々な形式の画像拡大に対応しています。視覚的な多レイヤー、正確な意味認識、多様なスタイルと詳細制御を備え、個性的な高品質な画像処理を実現します。

【AiBaseより】
✨ AIペイントとAI画像編集機能が追加され、ユーザーの編集選択肢が豊富になり、様々な素材のクリエイティブな表現が可能です。
💡 スマート選択とプロンプト機能により、ユーザーは自然な修正を簡単に実行でき、画像サイズ、レイヤーコンテンツのカスタマイズ、様々な形式の画像拡大に対応しています。
🎨 視覚的な多レイヤー、正確な意味認識、多様なスタイルと詳細制御を備え、個性的な高品質な画像処理を実現します。

5、潞晨Open-Soraチームが720p高画質動画と生成時間のブレークスルーを実現

潞晨Open-Soraチームは、720pの高画質動画と生成時間において画期的な進歩を遂げました。オープンソースプロジェクトにより、動画生成が簡単になり、コミュニティから熱い歓迎を受けています。NVIDIAが出資するAI企業Lambda Labsも、Open-Soraモデルのウェイトに基づいてデジタルレゴ宇宙を構築し、クリエイティブな新境地を開拓しています。技術レポートでは、モデルのトレーニングの中核と重要な点を深く分析し、動画モデルのトレーニングにおける課題を解決し、生成の品質と速度を向上させています。

【AiBaseより】
⚙️ Open-Soraチームが720p高画質動画と生成時間のブレークスルーを実現し、オープンソースプロジェクトにより動画生成プロセスが簡素化されました。
🌟 Lambda LabsはOpen-Soraモデルのウェイトに基づいてデジタルレゴ宇宙を構築し、無限の可能性を生み出しています。
🔬 技術レポートでは、モデルトレーニングの中核となる詳細が明らかになり、動画モデルトレーニングの課題が解決され、生成の品質と速度が向上しました。
詳細リンク:https://github.com/hpcaitech/Open-Sora

6、百度曦灵デジタルヒューマンプラットフォームがアップグレード、テキストから3Dデジタルヒューマン生成、音声クローン機能などをサポート

百度スマートクラウド曦灵デジタルヒューマンプラットフォームはまもなく大幅なアップグレードを迎えます。効率的で低コストな2D/3Dデジタルヒューマン生成を提供し、ライブ配信、ショートビデオ、対話など複数のシーンを完全に統合し、ユーザーエクスペリエンスを大幅に向上させます。曦灵プラットフォームは、驚くべきデジタルヒューマン生成能力を示し、リアルなデジタルヒューマンを迅速かつ正確に生成することで、企業、観光、エンターテインメントなどの分野に新しいIP創造の可能性をもたらします。

【AiBaseより】
🌟 高効率で低コストな2D/3Dデジタルヒューマン生成により、ユーザーエクスペリエンスが向上します。
🎨 リアルなデジタルヒューマンを迅速かつ正確に生成し、複数の分野にIP創造の可能性をもたらします。
🔊 音声クローン機能を提供し、デジタルヒューマンのナレーションやコンテンツ制作に使用できるカスタム音声を作成します。

7、Metaが複数のモデルを発表：マルチモーダルモデルChameleon、テキストから音楽を生成するモデルJASCO、音声透かし技術AudioSeal

Metaは最近、マルチモーダルモデルChameleon、テキストから音楽を生成するモデルJASCO、音声透かし技術AudioSealなど、複数の研究成果を発表し、AI分野に新たな技術的ブレークスルーと応用展望をもたらしました。これらの成果は、AI技術の発展と応用を促進し、重要な意味を持ちます。

【AiBaseより】
🌟 MetaはマルチモーダルモデルChameleonを発表しました。テキストと画像の混合入力出力を処理し、新しいソリューションを提供します。
🎶 新しい言語モデルのトレーニング方法であるMulti-Token Predictionにより、モデルの能力とトレーニング効率が向上しました。
🔊 テキストから音楽を生成するモデルJASCOは、様々な条件を入力として受け入れ、より良く、より柔軟な音楽制御を提供します。
詳細リンク:https://top.aibase.com/tool/meta-chameleonMulti-Token Prediction

8、GoogleがアルファベットジェネレーターGenTypeを発表、表紙アートフォントの作成に使用可能

GenTypeはGoogleが発表した実験的な製品で、Imagen2モデルによって駆動されます。ユーザーは個性的なアルファベット形式を作成し、様々なコンテンツの記述に使用でき、特にタイトルや表紙アートの作成に適しています。このツールはシンプルで直感的な操作インターフェースを提供し、ユーザーはすぐに使い始めることができ、創造性と想像力を刺激します。ユーザーは生成されたアルファベット画像を共有して保存し、オンラインギャラリーで他のユーザーの作品を閲覧して、インスピレーションとアイデアを得ることができます。

【AiBaseより】
🎨 個性的なアルファベットの作成：ユーザーは任意のプロンプトを入力でき、GenTypeがそれをユニークなアルファベットに変換し、個々の創造性を表現します。
🖌 アート制作ツール：GenTypeは単なるジェネレーターではなく、アート制作ツールであり、ユーザーは無限の可能性のあるアルファベットアートを作成できます。
📷 共有と保存：便利な共有と保存オプションを提供しており、ユーザーはアルファベット画像をPNG形式で保存し、ソーシャルメディアで共有できます。
詳細リンク:https://top.aibase.com/tool/gentype

9、驚異的！NVIDIAがMicrosoftを抜き、世界で最も時価総額の高い企業に

NVIDIAの株価が急騰し、Microsoft、Apple、Googleを抜き、世界の時価総額でトップとなりました。同社は新しいBlackwell GPUアーキテクチャを発表する予定で、CEOは世界で最も強力なチップになると述べており、毎年新しいAIチップをリリースする予定です。NVIDIAは2024年に株価が160％上昇し、時価総額は3兆3350億ドルに達しました。

【AiBaseより】
📈 NVIDIAがMicrosoft、Apple、Googleを抜き、世界の時価総額でトップとなりました。
💻 NVIDIAはBlackwell GPUアーキテクチャを発表する予定で、CEOは世界で最も強力なチップになると述べており、毎年新しいAIチップをリリースする予定です。
💰 NVIDIAは2024年に株価が160％上昇し、時価総額は3兆3350億ドルに達しました。

10、Appleが新しいAI機能を発表、開発者向けに「AIトレーニング」を提供

Appleは新しいAIトレーニングコースを発表しました。これは開発者アカデミーの学生、メンター、卒業生などを対象としています。これは、AppleがAI技術分野におけるオープンな姿勢と重視度を徐々に高めていることを示しています。

【AiBaseより】
🍎 Appleが新しいAIトレーニングコースを発表し、学生の専門的なプログラミングスキル育成に重点を置いています。
📚 新しいコースでは、Appleデバイス上で機械学習モデルの構築、トレーニング、展開方法を学びます。
💡 AppleのAIツールはXcodeなど複数のプラットフォームに統合され、開発者がよりスマートにコードを記述するのに役立ちます。

11、Luma AIのDream Machineで生成された作品がディズニーIPの著作権侵害の疑い

LumaがリリースしたDream Machineビデオ生成ツールは、特にディズニー作品を模倣している疑いがあることから、モデルの透明性とデータソースに関する疑問を引き起こしました。これは、このようなモデルの最大の懸念事項の1つである透明性の欠如を引き起こしました。

【AiBaseより】
🔍 モデルの透明性とデータソースに疑問が投げかけられています。ディズニーのスタイルで創作されたのでしょうか？
🚫 ビデオに登場するキャラクターは、ディズニー・ピクサーの作品を模倣しているとして論争を巻き起こしています。
💡 Dream Machineは映画制作の未来として宣伝されており、高品質でリアルなショットを作成できます。

12、AIイラストレーターの発注が「バレる」、小紅書ブロガーの「AI判別」動画が2.9万いいねを獲得

小紅書ブロガーの「天線嫂嫂（内褲大王）」がイラストの発注時にAI技術の使用を発見し、ソーシャルメディアで注目を集めました。イラストレーターは線画を提供せず、ブロガーは作品がAIによって作成されたのではないかと疑い、イラストの盗作を暴露しました。AIイラスト技術の精度は向上しており、人間とAIの作品を区別することが困難になっています。AI技術の発展は、著作権と真実性の課題をもたらしています。