AI日報：より安定した高解像度！可灵AI 1.5バージョンリリース；バイトダンス、音楽生成ツール発表；アリババ通義万相、動画生成モデル正式運用開始

【AI日報】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、AI分野のホットな話題を皆様にお届けし、開発者に焦点を当て、技術トレンドの把握や革新的なAI製品の応用について理解を深めるお手伝いをいたします。

最新のAI製品詳細はこちら:https://top.aibase.com/

1、可灵AI 1.5バージョンリリース：動画がより安定し、高画質に。人物も崩れない！

可灵AIが最新リリースした1.5バージョンは、印象的な新機能と改良をもたらし、動画生成の数量と品質を大幅に向上させ、クリエイティブメディア分野におけるAIの応用範囲を拡大しました。画質が大幅に向上し、10秒間の1080p高画質動画をサポートするようになりました。テキストへの反応性、審美性も向上し、人物の一貫性、オブジェクトの一貫性も改善されています。

【AiBase要約:】
🚀1.5バージョンでは動画生成能力が大幅に向上し、最大4本の動画を一度に生成可能になりました。テキストから動画を生成する機能では、最長10秒間の1080p高画質動画の生成に対応しました。
🎨1.0バージョンには「モーションブラシ」機能が追加され、より正確なモーション制御と生き生きとしたモーション表現が可能になり、動画制作者の創造性を広げます。
💡テキスト理解能力が大幅に向上しました。1.5バージョンでは、画質、動きの表現、テキスト指示への準拠効果などにおいて顕著な効果向上が見られ、全体的な効果は95％向上しました。
詳細はこちら:https://top.aibase.com/tool/keling-ai

2、バイトダンス、多様な入力と精密制御をサポートする音楽生成ツール「Seed-Music」を発表

最近、バイトダンスは新しい音楽制作ツール「Seed-Music」を発表しました。ユーザーはテキストの説明、オーディオ参照、楽譜、さらには音声プロンプトなど、さまざまな方法で音楽を生成できます。この革新的なモデルは、自己回帰言語モデルと拡散モデルを組み合わせることで、高品質な音楽作品を生成し、同時に精密な制御を可能にしています。ユーザーは歌詞に音楽を付け加えたり、メロディーをアレンジしたり、音声片段をアップロードして歌声に変換したりと、強力で効率的な機能が満載です。

【AiBase要約:】
🎵 Seed-Musicは自己回帰言語モデルと拡散モデルを組み合わせることで、高品質な音楽作品を生成し、ユーザーは音楽の細部を精密に制御できます。
🎶機能には、ボーカルと楽器の生成、歌声合成、歌声変換、音楽編集などがあり、さまざまなユーザーのニーズに対応します。
🎼 Seed-Musicのアーキテクチャは、表現学習、生成、レンダリングモジュールに分かれており、マルチモーダル入力から高品質な音楽を生成します。
詳細はこちら:https://team.doubao.com/en/special/seed-music

3、阿里巴巴の通義千問、オープンソースのQwen2.5シリーズモデルを発表：Qwen2-VL-72BはGPT-4に匹敵

通義千問チームは、汎用言語モデルQwen2.5、Qwen2.5-Coder、Qwen2.5-Mathを含むQwen2.5シリーズモデルのオープンソース化を発表しました。18Tトークンのデータセットで事前学習されており、知識獲得、プログラミング、数学的能力が向上しています。最大8Kトークンのコンテンツを生成できる長文処理をサポートし、29以上の言語に対応しています。さまざまな規模のバージョンの提供され、Apache2.0ライセンスを採用しています。Qwen2-VL-72BモデルはGPT-4に匹敵する性能を誇り、指示実行、長文生成、データ理解、構造化出力において顕著な改善が見られます。

【AiBase要約:】
🚀 Qwen2.5シリーズモデルはオープンソース化され、汎用言語モデルと専門分野のモデルが含まれており、知識獲得、プログラミング、数学的能力が向上します。
💡 モデルは長文処理をサポートし、最大8Kトークンのコンテンツを生成でき、29以上の言語に対応しています。
💻 Qwen2-VL-72Bモデルは顕著な改善が見られ、指示実行、長文生成、データ理解、構造化出力において優れたパフォーマンスを発揮します。
詳細はこちら:https://modelscope.cn/studios/qwen/Qwen2.5

4、阿里巴巴の通義万相、動画生成モデル「AI生動画」機能を正式リリース

阿里巴巴傘下の通義が発表した通義万相AI生動画モデルが正式リリースされました。強力な画像視覚動的生成能力を備え、多様な芸術スタイルと映画レベルの質感の動画コンテンツ生成をサポートします。中国風の要素表現を最適化し、多言語入力と可変解像度生成に対応しており、幅広い用途で活用できます。無料サービスを提供し、音声生成機能も備えているため、動画制作プロセスが簡素化されます。

【AiBase要約:】
⚙️ 通義万相AI生動画モデルは、強力な画像視覚動的生成能力を備え、多様な芸術スタイルと映画レベルの質感の動画コンテンツ生成をサポートします。
🌟 中国風の要素表現を最適化しており、中国風コンテンツの生成において独自の強みを持ち、多言語入力と可変解像度生成に対応し、さまざまなユーザーのニーズを満たします。
🎬 無料サービスを提供し、動画コンテンツの音声生成をサポートすることで、動画制作プロセスを簡素化し、音声と映像の同期を実現し、制作効率を向上させます。
詳細はこちら:https://tongyi.aliyun.com/wanxiang/wanxvideo

5、テンセントが開発！AI音声モデルEzAudio AI、テキストをリアルな音声に変換

最近、ジョンズ・ホプキンス大学とテンセントAIラボが共同で開発したEzAudioモデルは、音声技術の大きな進歩を示しています。このモデルは革新的なアーキテクチャと技術によって高品質の音声サンプルを生成し、幅広い応用可能性を秘めています。技術の発展に伴い、倫理と責任ある使用の問題が浮上しており、EzAudioの公開された研究コードは、将来のリスクとベネフィットについて幅広く検証する機会を提供しています。

【AiBase要約:】
🌟 EzAudioは、ジョンズ・ホプキンス大学とテンセントが共同で開発した新しいテキスト音声変換生成モデルであり、音声技術の大きな進歩を示しています。
🎧 このモデルは革新的なアーキテクチャと技術によって、既存のオープンソースモデルよりも高品質の音声サンプルを生成し、幅広い応用可能性を秘めています。
⚖️ 技術の発展に伴い、倫理と責任ある使用の問題が浮上しており、EzAudioの公開された研究コードは、将来のリスクとベネフィットについて幅広く検証する機会を提供しています。
詳細はこちら:https://huggingface.co/spaces/OpenSound/EzAudio

6、巨人ネットワーク、独自開発のキャラクター大規模言語モデルGiantGPTと音声大規模言語モデルBaiLing-TTSを発表

巨人ネットワークは、2024年クラウド・インテリジェンス・カンファレンス（雲栖大会）の開幕式で、「ゲーム＋AI」分野における最新の成果を発表しました。これには、GiantGPTやBaiLing-TTSなどの大規模言語モデルの応用、そしてAIデジタルヒューマンやAIペイントプラットフォーム「巨人摹境」などの新技術が含まれます。同社は、高度に最適化されたゲームビジネス向け大規模言語モデルと、複数の中国語方言をサポートする音声大規模言語モデルを発表し、新しいブランドロゴも発表しました。また、AIペイントプラットフォームのクローズドベータテストの申し込みも開始されました。巨人ネットワークは、高精度リアルタイムインタラクティブデジタルヒューマン技術も発表し、「ゲーム＋AI」分野への継続的な取り組みを示しました。

【AiBase要約:】
🎮 GiantGPTはゲームビジネスに特化した垂直型の大規模言語モデルであり、独自のデータとインターネットの公開データを組み合わせてトレーニングされており、基本的な能力が高度に最適化されています。
🗣 BaiLing-TTSは大規模音声言語モデルであり、複数の標準中国語方言の混在をサポートし、さまざまな方言の音声を生成できます。
🖌 巨人摹境AIペイントプラットフォームは、ワンストップ型のクラウドプラットフォームであり、チームワークと美術コンテンツの一括処理をサポートします。

7、ChatGPTの高機能音声モード、9月24日に全面リリースか

ChatGPTの高機能音声モードが9月24日に全面リリースされ、これまでにないインタラクティブな体験を提供する予定です。この機能はリアルな音声応答を生成し、人間と機械のインタラクションの自然さと没入感を高めます。アップデート情報の信頼性は裏付けられており、一部のモバイルユーザーは9月24日に音声モードのアップグレード版を体験できる可能性があります。macOS版ChatGPTアプリケーションのインターフェースに変更があり、音声モードのインターフェースがより充実し、便利なボタンが追加されました。一部のユーザーはChatGPTとより多くのコンテキスト情報を共有し、より一貫性がありパーソナライズされた会話体験を実現できます。

【AiBase要約:】
⚙️ 高機能音声モードは9月24日に全面リリースされ、インタラクティブな体験が向上します。
🔊 リアルな音声応答を生成し、人間と機械のインタラクションの自然さと没入感を高めます。
🌌 macOS版ChatGPTアプリケーションのインターフェースに変更があり、便利なボタンが追加され、より充実した視覚体験を提供します。

8、YouTube、DeepMindのVeoモデルを導入　クリエイターの想像力を羽ばたかせます

YouTubeは、Google DeepMindのVeoモデルを短編動画プラットフォームYouTube Shortsに統合すると正式に発表し、短編動画制作の新たなAI駆動時代を開幕しました。この取り組みは、クリエイターにこれまでにない創造的なツールを提供するだけでなく、ユーザーとプラットフォームのインタラクションの方法を根本的に変えるものです。

【AiBase要約:】
✨ Dream Screen機能はImagen3とVeoモデルを組み合わせることで、クリエイター向けにインテリジェントな制作環境を提供します。
🌟 YouTubeはSynthID技術により、AI生成コンテンツの透明性と信頼性を確保します。
💡 Made on YouTube 2024計画では、アイデアアシスタントやインテリジェントな自動吹き替えツールなどのAI駆動の制作ツールが導入され、コンテンツクリエイターを全面的にサポートします。

9、2024年AIインテリジェントアプリケーション動向半年報：AI系アプリの月間アクティブユーザー数6600万超え

2024年AIインテリジェントアプリケーション半年報によると、AI系アプリの月間アクティブユーザー数は6600万人を超え、アプリケーションレベルにおけるAI技術の急速な発展と普及を示しています。レポートによると、AIアプリケーションは8つの主要なプレイスタイルカテゴリーを形成しており、商業化の道筋が開かれています。インテリジェントサービスはユーザーのニーズに応え、WeChatエコシステムは重要なチャネルであり、インテリジェントなビジネスモデルが模索されています。教育学習シーンではインテリジェントアプリケーションが成熟しており、主要なインテリジェントアプリケーションの使用熱度は高くなっています。AIインテリジェントアプリケーションはモバイルインターネットの重要なブランチとなり、ユーザーに豊かで便利な体験を提供し、業界の発展に新たな原動力と方向性を提供しています。今後、AIインテリジェントアプリケーションはより重要な役割を果たすと予想されます。

【AiBase要約:】
📊 AI系アプリの月間アクティブユーザー数は6600万人を超え、AI技術の急速な発展と普及を示しています。
🎮 AIアプリケーションは8つの主要なプレイスタイルカテゴリーを形成しており、商業化の道筋が開かれています。
📈 インテリジェントサービスはユーザーのニーズに応え、WeChatエコシステムは重要なチャネルであり、ビジネスモデルが模索されています。

10、LinkedIn、ユーザーデータを用いたAIトレーニングを密かに実施、二重のオプトアウトが必要

最近、LinkedInは、ユーザーに事前に通知することなく、ユーザーデータを生成型AIモデルのトレーニングに使用し始めたことが明らかになりました。ユーザーはアカウント設定で関連するオプションをオフにすることでオプトアウトを選択できますが、これは将来のデータ使用にのみ影響します。LinkedInは、他の機械学習ツールについては、データの使用を完全にオプトアウトするには追加のフォームに記入する必要があるとも述べています。

【AiBase要約:】
🔒 LinkedInはデフォルトでユーザーデータをAIモデルのトレーニングに使用しており、ユーザーは積極的にオプトアウトする必要があります。
✋ ユーザーはアカウント設定でオプションをオフにする必要がありますが、これは将来のデータ使用にのみ影響します。
📄 生成型AI以外にも、LinkedInには他の機械学習ツールがあり、データの使用を完全にオプトアウトするには追加のフォームに記入する必要があります。

11、2300万ドルの資金調達！Fal.ai、50万人の開発者を熱狂させ、毎日5000万件のメディアコンテンツを生成

Fal.aiは、AI生成オーディオ、ビデオ、画像に特化したクラウドプラットフォームであり、最近2300万ドルの資金調達に成功しました。このプラットフォームは、著名な投資家や多くの開発者、企業顧客を引きつけ、大きな可能性と市場ニーズを示しています。今後、Fal.aiはコンテンツ審査とモデルの最適化を強化し、生成技術に伴う課題に効果的に対応していきます。