【AI日報】へようこそ!ここは、あなたの人工知能の世界を探求するための毎日のガイドです。毎日、AI分野のホットなコンテンツを提供し、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用を理解するお手伝いをします。

最新のAI製品詳細はこちらhttps://top.aibase.com/

1、バイトダンスの音声生成モデルSeed-TTSは感情制御に優れ、人間の声と区別がつかない

この記事では、バイトダンスチームが提案した新しい音声生成モデルSeed-TTSを紹介します。このモデルは自己回帰Transformerアーキテクチャに基づいており、非常に高い音声品質と表現力を持ち、人間の音声との違いを識別することは困難です。感情制御、小説のナレーション、複数言語コンテンツの作成などにおいて優れたパフォーマンスを発揮し、自己蒸留と強化学習技術により、発音の自然さと制御性を向上させています。Seed-TTSは音声合成分野に顕著な進歩をもたらし、将来の音声合成技術に新たな可能性を切り開きました。

【AiBase要約:】

🎯 バイトダンスチームが新しい音声生成モデルSeed-TTSを発表、自然で表現力豊かな音声を生成可能。

🎯 感情制御に優れ、生成音声の感情、トーン、話し方を調整可能。

🎯 複雑な感情や文脈をシミュレートでき、小説の朗読や動画のナレーションなどに最適。

製品ページ:https://top.aibase.com/tool/seed-tts

2、Stability AIがAI音声モデルStable Audio Openを発表

Stable Audio OpenはStability AIが発表したオープンソースのテキスト音声変換モデルで、最大47秒の音声サンプルとサウンドエフェクトを生成でき、音楽制作やサウンドデザインに適しています。ユーザーはドラム、楽器のパート、環境音などのオーディオ要素を作成でき、オーディオの変化やスタイルの変換もサポートします。このモデルは安定した音声生成品質と長さを提供し、ユーザーはカスタムオーディオデータを使用してモデルを微調整し、生成音声の品質と制御性を向上させることができます。

image.png

【AiBase要約:】

🔊 Stable Audio Openはオープンソースのテキスト音声変換モデルで、最大47秒の音声サンプルとサウンドエフェクトを生成。

🎶 ドラム、楽器のパート、環境音などのオーディオ要素の作成をサポート。

🔧 ユーザーはカスタムオーディオデータを使用してモデルを微調整し、生成音声の品質と制御性を向上可能。

詳細リンク:https://top.aibase.com/tool/stable-audio-open-1-0

3、Sunoの新機能をUdioが先行リリース 任意のオーディオをアップロードしてUdioが自動的に創作を延長

この記事では、Sunoが計画していた新機能を競合他社のUdioが先行リリースした状況について説明します。Udioは一連のアップデートを発表し、ユーザーはオーディオクリップをアップロードするだけで、Udioが自動的にメロディーとコードを解析し、素晴らしい音楽を作成します。また、便利な機能も多数提供されています。

【AiBase要約】

🎵 Udioは一連のアップデートを発表。任意のオーディオクリップをアップロードするだけで、Udioがメロディーとコードを解析し、素晴らしい音楽を創作。

🎵 豊富なプロンプトワードとインスピレーションの源を提供し、音楽のアイデアを広げ、創作のインスピレーションを得るのに役立つ。

🎵 現在、この機能は有料ユーザーのみ利用可能。

製品ページ:https://top.aibase.com/tool/udio

詳細はこちら:https://mp.weixin.qq.com/s/QO_ucbMUD-6UJ1gs_j340A

4、Adobeがプライバシーポリシーを更新 ユーザーの作品をAIトレーニングに使用できる権利を意味する

Adobeは最近プライバシーポリシーを更新し、ユーザーの注目と懸念を引き起こしています。ユーザーはデザイン作品がプライバシーを失い、人工知能のトレーニングやコンテンツ審査に使用される可能性があり、デザイナーとクライアント間の信頼関係の崩壊やキャリアへの影響を懸念しています。個人情報保護と知的財産権保護に関する議論を引き起こしています。

image.png

【AiBase要約:】

🔍 Adobeはユーザーが新しい利用規約に同意することを求めており、ユーザーが作成したコンテンツへのアクセス権が含まれる。

🔍 デザイナーやアーティストの作品はプライバシーを失い、人工知能のトレーニングやコンテンツ審査に使用される可能性がある。

🔍 更新されたAdobeのプライバシーポリシーは、デザイン作業のプライバシーに対するユーザーの懸念を引き起こしている。

詳細:https://www.chinaz.com/2024/0606/1621769.shtml

5、テンセント混元がオープンソースの文から画像生成の大規模モデル混元DiTの高速化ライブラリを発表

テンセント混元は、オープンソースの文から画像生成の大規模モデル混元DiT向けの高速化ライブラリを発表しました。推論時間を75%短縮し、画像生成時間を大幅に短縮できます。ユーザーは3行のコードでモデルを呼び出すことができ、元のコードをダウンロードする必要はありません。テンセント混元は、混元DiTのオープンソースエコシステムの最適化を続け、ビジュアル生成のオープンソースエコシステムを共同で構築し、大規模モデル業界の発展を促進すると述べています。

【AiBase要約:】

🚀 推論時間を75%短縮

💻 3行のコードでモデルを呼び出し、元のコードをダウンロードする必要がない

🌱 ビジュアル生成のオープンソースエコシステムを共同で構築し、大規模モデル業界の発展を促進

詳細リンク:https://dit.hunyuan.tencent.com/

6、MiGPTプロジェクト:小愛音箱をChatGPTと豆包に接続

MiGPTプロジェクトは、小愛音箱と米家スマートデバイスをChatGPT技術と組み合わせ、スマートで心温まるホームアシスタントを作成し、ホームオートメーションを実現し、感情的なつながりを築きます。プロジェクトの主なハイライトには、LLM回答、ロールプレイング、ストリーミング応答、短期および長期のメモリ、カスタムTTS、スマートホームエージェントが含まれます。プロジェクトは、さまざまなユーザーのニーズに対応するために2つの起動方法を提供しており、接続を正常に確立するために、ユーザーがパラメーターをカスタマイズする必要があります。

image.png

【AiBase要約:】

🤖 小愛音箱はChatGPTなどの大規模言語モデルを使用して質問に答え、情報や支援を提供する。

👩‍💼 小愛音箱は、状況やユーザーのニーズに応じて、完璧なパートナーや親友など、役割をすばやく切り替えることができる。

🔊 システムはユーザーの指示に即座に応答し、スムーズなインタラクションエクスペリエンスを提供し、会話履歴を記憶することで、会話がより自然で親密になる。

詳細リンク:https://top.aibase.com/tool/migpt

7、猿辅导傘下のAIデザインツールMotiff妙多がグローバルリリース

Motiff妙多は、AI時代のデザインツールとして位置付けられるインターフェースデザインソフトウェアです。AI技術を使用してデザインプロセスを最適化し、生産性を向上させ、ユーザーに前例のないデザイン体験を提供します。このソフトウェアは、AI複製、AIレイアウト、AIデザインシステムの作成、AIデザインシステムのメンテナンス、AI一貫性チェックなど、複数のAI機能を含む多くの革新をもたらし、国内初の独自開発のグラフィックレンダリングエンジンを搭載したインターフェースデザインソフトウェアです。

image.png

【AiBase要約:】

🚀 Motiff妙多はAI技術を使用してデザインプロセスを最適化し、生産性を向上させ、ユーザーに前例のないデザイン体験を提供する。

🎨 このソフトウェアは、AI複製、AIレイアウト、AIデザインシステムの作成、AIデザインシステムのメンテナンス、AI一貫性チェックなど、多くの革新的なAI機能を提供する。

💡 Motiff妙多は、AIツールボックス、AIデザインシステム、AIラボを示し、インターフェースデザイン業界の生産性を効果的に向上させる。

詳細リンク:https://top.aibase.com/tool/motiff-miaoduo

8、即夢がリアルタイムキャンバス機能を全量リリース

即夢はリアルタイムキャンバス機能を全量リリースしたと発表しました。ユーザーは、簡単な形状の描画とプロンプトの追加により画像をカスタマイズでき、AIによる描画をより制御しやすくなります。新しいレイヤーとして保存した後、さらに最適化を続け、最終版を画像として保存できます。

image.png

【AiBase要約:】

🎨 リアルタイムキャンバス機能により、ユーザーは簡単な形状の描画とプロンプトの追加により画像をカスタマイズでき、ユーザーエクスペリエンスが向上する。

🖌️ 形状を大まかに描くことで、ユーザーはカスタマイズされた画像を取得し、ユーザーのニーズを満たすことができる。

💡 新しいレイヤーとして保存した後、調整と最適化を続けて画像の品質を向上させることができる。

詳細リンク:https://top.aibase.com/tool/jimengdreamina

9、Google AIの概要機能のトリガー頻度が大幅に低下

Googleの人工知能の概要は、以前の84%と比較して、現在では15%未満の検索結果でのみ表示されるようになり、顕著な変化が見られます。検索結果における人工知能の提示方法は調整されており、検索品質の向上を図っています。この記事では、検索における人工知能の役割が進化し続けており、概要機能が減少しているものの、検索における人工知能の応用は避けられない変化であると指摘しています。

image.png

【AiBase要約:】

⭐ Google AIの概要機能の検索結果におけるトリガー頻度は84%から15%未満に低下

⭐ Googleは人工知能の引用と従来の検索結果の重複を減らし、検索品質を向上

⭐ 検索における人工知能は、後続の質問を予測して表示し、検索者が複数回の検索を行う

10、研究者らが選手の感情を識別できる人工知能を開発

研究者らは、コンピューター支援ニューラルネットワークを使用して、テニス選手のボディランゲージから感情状態を正確に識別することに成功し、人工知能の感情認識における可能性を示しました。しかし、この研究は倫理的な問題も提起しており、関連する法律と倫理的問題を明確にする必要があります。

【AiBase要約:】

🔍 人工知能はテニス選手の感情状態を正確に識別でき、人間の観察者と同等の能力を示す。

🔍 実際の試合データを使用して人工知能モデルをトレーニングすることで、感情認識の精度が向上した。

🔍 感情認識技術は、トレーニングの改善、チームのモチベーション向上、早期のネガティブな感情の検出など、多くの分野で応用できる。

11、Ouroboros3D:3D知覚による画像から3Dへの生成

Ouroboros3Dは、多視点画像生成と3D再構成を統合した統一的な3D生成フレームワークです。再帰的拡散プロセスを通じて、画像から3Dへの生成を実現しました。研究者らが提案したこの新しい方法は、より多様で現実的な視点画像の生成、ノイズと歪みの低減、生成効率の向上など、多くの利点があります。実験により、Ouroboros3Dで生成された3Dモデルは、より優れた詳細さと精度を持ち、現実の3Dシーンに近いことが証明されました。

image.png

【AiBase要約:】

🔍 Ouroboros3Dは多視点画像生成と3D再構成を統合し、再帰的拡散により画像から3Dへの生成を実現する。

🔍 Ouroboros3Dは拡散ベースの多視点画像生成と3D再構成の方法を採用し、統一的な3D生成フレームワークを構築する。

🔍 Ouroboros3Dの利点:より多様で現実的な視点画像の生成、ノイズと歪みの低減、生成効率の向上。

詳細リンク:https://top.aibase.com/tool/ouroboros3d

12、Mobile-Agent-v2:AIが自動的にスマホを操作する技術

Mobile-Agent-v2は、高度なAIシステムであり、マルチエージェント協調アーキテクチャを通じてモバイルデバイスの包括的な制御を実現し、タスク完了率を30%以上向上させます。このシステムは、商品の検索購入、メール送信、ナビゲーション設定、動画視聴などのタスクを自動化し、ユーザーにより多くの利便性をもたらします。

image.png

【AiBase要約:】

🤖 マルチエージェント協調アーキテクチャにより、タスク完了率を30%以上向上