【AI日報】へようこそ!ここでは、人工知能の世界を探求するための毎日のガイドとして、AI分野のホットな話題を毎日お届けします。開発者を重視し、技術トレンドの把握や革新的なAI製品の応用に関する理解を深めるお手伝いをします。

最新のAI製品詳細はこちらhttps://top.aibase.com/

1、AIビデオの王者、帰ってきた!Runwayの新しいGen3モデルが再びネットユーザーを驚かせた

この記事では、Runwayが最近発表した次世代ビデオ生成モデルGen-3Alphaについて説明します。このモデルは、忠実度、一貫性、動作表現において大幅な改善が見られ、汎用世界モデルの構築に向けた重要な一歩を踏み出しました。Gen-3Alphaは、多くの顕著な機能と特徴を備えており、クリエイティブ産業における新星となっています。

【AiBase要約:】

⭐️ Gen-3Alphaは、忠実度、一貫性、動作表現において顕著な向上を実現し、表情豊かなリアルな人物像を生成できます。

⭐️ Gen-3Alphaは、テキストからビデオ、画像からビデオ、テキストから画像への変換ツールなど、様々な生成ツールをサポートしています。

⭐️ 精細な時間制御が可能で、モーションペン、高度なカメラ制御、ディレクターモードなど、様々な高度な制御モードをサポートしています。

⭐️ 高速移動シーンでも高品質な出力が維持される、非常に安定した光と影の表現を実現しています。

その他のビデオはこちら:https://mp.weixin.qq.com/s/5LbM0NfkeiYFU0r4VDqpYA

公式サイト:https://top.aibase.com/tool/gen-3-alpha

2、Luma AIがExtend機能を発表 ビデオの長さを10秒以上に延長

Luma AIは最近、Dream Machineビデオモデルをアップデートし、Extend機能を追加しました。これにより、ビデオの長さを10秒以上に延長することができ、元のビデオのスタイルや人物オブジェクトの一貫性を維持できます。Extend機能でビデオを延長するには時間がかかりますが、スタイルの一貫性は非常に良好に維持されます。

【AiBase要約:】

✨ Dream MachineがExtend機能を搭載し、ビデオの長さを10秒以上に延長可能になり、元のビデオのスタイルとオブジェクトの一貫性が維持されます。

⏱️ Extend機能を使用してビデオを延長するには時間がかかりますが、スタイルの一貫性は良好です。

🔗 詳細:https://www.chinaz.com/ainews/9639.shtml

3、DeepSeekがオープンソースモデルDeepSeek-Coder-V2を発表

DeepSeekは最近、オープンソースモデルDeepSeek-Coder-V2を発表しました。このモデルは、コードと数学的能力においてGPT-4-Turboを凌駕し、世界をリードする性能を誇ります。MoEアーキテクチャを採用し、多言語とより長いコンテキスト処理長をサポートしています。ユーザーは無料で商用利用でき、申請は不要です。

image.png

【AiBase要約:】

🚀 世界をリードするモデル性能、特にコード生成と数学演算に優れています。

💡 338種類のプログラミング言語と128Kのコンテキスト長をサポートし、開発ニーズをより多く満たします。

🔗 APIサービスを提供しており、価格はDeepSeek-V2と同じです。ベンチマークテストで優れたパフォーマンスを示しています。

詳細リンク:https://top.aibase.com/tool/deepseek-coder-v2

4、Adobe Acrobatが大幅なAIアップグレードを実現 多文書分析と画像生成をサポート

Adobeはまもなく、AcrobatのAIアシスタント機能と画像生成能力を向上させる一連の大規模なAIアップグレードを発表する予定です。データのプライバシー保護も保証されます。今回のアップデートにより、業務効率が大幅に向上し、大量の文書処理や視覚的コンテンツの最適化が容易になります。

QQ截图20240618092653.png

【AiBase要約:】

🚀 AIアシスタント機能がアップグレードされ、多文書分析と検索をサポートし、ユーザーエクスペリエンスが向上します。

🖼️ AI画像ジェネレーターが追加され、ユーザーは新しい画像を生成したり、既存のPDF内の画像を編集したりできます。

🔒 データプライバシー保護へのコミットメント。文書はクラウドにアップロードして分析されますが、AIモデルのトレーニングには使用されず、第三者による利用は禁止されています。

5、AppleがHugging Faceプラットフォームで20個のCore MLモデルを発表

AppleはHugging Faceプラットフォームで20個の新しいCore MLモデルと4個のデータセットを発表し、AI開発における大きな進歩を示しました。今回のアップデートには、テキストと画像に焦点を当てたエキサイティングな新しいモデルだけでなく、画像分類、単眼深度推定、セマンティックセグメンテーションなど、幅広い用途が含まれています。AppleはデバイスAIの重要性を強調しており、最適化されたモデルをユーザーのデバイス上で実行することで、アプリケーションのパフォーマンスを向上させながら、ユーザーデータの安全とプライバシーを保護しています。

image.png

【AiBase要約:】

🚀 AppleはHugging Faceプラットフォームで20個の新しいCore MLモデルと4個のデータセットを発表し、AI開発を推進しています。

💡 新しく発表されたCore MLモデルは、画像分類、単眼深度推定、セマンティックセグメンテーションなど、幅広い用途を網羅しています。

🔒 AppleはデバイスAIの重要性を強調しており、最適化されたモデルはユーザーのデバイス上で実行され、アプリケーションのパフォーマンスを向上させながら、ユーザーデータの安全とプライバシーを保護します。

詳細リンク:https://huggingface.co/apple

6、ElevenLabsがビデオ生成サウンドエフェクトツールをオープンソース化 アップロードされたビデオに自動で吹き替えが可能に

オーディオ生成技術に特化した企業であるElevenLabsは最近、ビデオ生成分野への進出を発表し、アップロードされたビデオに自動的に吹き替えを行い、適切なサウンドエフェクトを生成できるプロジェクトをオープンソース化しました。彼らは新しい機能を発表し、ユーザーはテキストを入力することで、様々なリアルな音楽エフェクトを生成できるようになり、映画、ゲーム、短編ビデオなどの業界に大きな貢献をもたらします。サウンドエフェクトの生成に加えて、音声クローンとテキスト読み上げなどの強力な機能も提供しています。

【AiBase要約:】

🔊 アップロードされたビデオに自動で吹き替えを行い、適切なサウンドエフェクトを生成します。

🎶 テキストを入力することで、様々なリアルな音楽エフェクトを生成し、映画、ゲーム、短編ビデオ業界を支援します。

🎤 音声クローンとテキスト読み上げ機能を提供し、コンテンツにより生き生きとした表現形式を与えます。

テキスト音声変換入口:https://top.aibase.com/tool/elevenlabs-wenbenzhuanyinxiaoapi

ビデオ自動吹き替え入口:https://top.aibase.com/tool/elevenlabs-texts-to-sounds-effects-api

7、テンセント微信ビデオ号がバーチャルインフルエンサーによるライブコマースを制限へ

テンセントビデオ号は最近、「ビデオ号橱窗達人低品質コンテンツ対策細則」の改訂を発表し、コンテンツの品質管理を強化し、バーチャルインフルエンサーによるライブコマースを禁止する予定です。この改訂案は、今年6月7日から6月13日まで意見募集が行われました。

【AiBase要約:】

⭐ 改訂細則は、ビデオ号のコンテンツ品質管理強化を目的としています。

⭐ バーチャルインフルエンサーによるライブコマースを禁止し、非リアルタイムライブコンテンツを明確に禁止します。

⭐ プラットフォームは、違反者に対して適切な罰則措置を講じます。

詳細:https://www.chinaz.com/2024/0618/1624007.shtml

8、Stability AIのSD3がライセンス問題で反対を受け、CivitAIコミュニティが関連コンテンツを禁止

Stability AIが最近発表した主要モデルSD3がライセンス問題で論争を巻き起こし、AIコミュニティからの反対に直面しています。CivitAIコミュニティはSD3関連のコンテンツを禁止し、ライセンス契約に関する論争を引き起こしています。同社は消費者向けのクリエイターライセンスを発表し、開発者の条件と画像生成数を制限しています。SD3には特定の人体のポーズを生成できないなどの問題があり、将来は不透明です。CEOの退任と人員削減により、同社は新しいライセンス契約の影響について説明する必要があります。この論争全体は、AIコミュニティとオープンソースモデルの発展に潜在的な影響を与えます。

【AiBase要約:】

💥 SD3のライセンス問題が論争を引き起こし、AIコミュニティからの反対に直面しています。

🔒 同社はクリエイターライセンスを発表し、開発者の条件と画像生成数を制限しています。

❓ SD3には特定の人体のポーズを生成できないなどの問題があり、将来は不透明です。

9、レゴプリンターPixelbot 3000

この記事では、YouTubeチャンネルクリエイターである@Creative Mindstormsが設計・製造したPixelbot3000レゴプリンターについて説明します。カスタムコードと人工知能を使用してレゴモザイクを生成します。ユーザーはアート作品の名前を入力するだけで、AIが画像を生成し、Pixelbot3000が自動的にモザイクを組み立てます。

image.png

【AiBase要約:】

🤖 カスタムコードと人工知能を使用して、Pixelbot3000はレゴモザイクを自動生成し、印刷プロセスを簡素化します。

🎨 Pixelbot3000はOpenAIのDALL-E3を使用して、カートゥーンスタイルの簡素化された画像を生成し、最終的に高コントラストの拡大画像を作成します。

🔧 Pixelbot3000は、AIが生成した画像を分割し、各四角の中心ピクセルの色をサンプリングすることで、より良いモザイクパターンを取得します。

10、研究者らがAIに人間の線画スケッチの認識を教える

この記事では、サリー大学とスタンフォード大学の研究チームが開発した新しい手法を紹介し、人工知能が人間の線画スケッチの重要性と成果を理解する方法について説明します。スケッチとテキストの説明を組み合わせることで、人工知能は人間に近いレベルの理解能力を示し、複雑なシーンにあるオブジェクトを正確に認識してラベル付けします。この研究は、人間とコンピューターのインタラクションと設計ワークフローに新たな可能性をもたらします。

image.png

【AiBase要約:】

🧠 人工知能はスケッチの重要性を学習し、人間に近いレベルのパフォーマンスを示します。

🌳 人工知能は、凧、木、キリンなどのオブジェクトを85%の精度で認識およびラベル付けし、他のモデルを凌駕します。

🎨 この新しい手法は、非芸術家によって描かれたスケッチだけでなく、明確にトレーニングされていないオブジェクトのスケッチにも適用できます。

詳細リンク:https://arxiv.org/abs/2312.12463

11、研究:AI生成画像はイスラム建築文化の微妙な違いを正確に表現できていない

人工知能(AI)は建築設計分野に革命的な変化をもたらしていますが、イスラム建築などの文化的に敏感な分野では、AIが生成した画像は歴史的要素を正しく表現できていません。研究によると、AIジェネレーターには歴史的知識が不足しており、慎重な使用が推奨されています。著者は、AIは価値のあるツールとなり得ると考えていますが、人間の専門知識と文化的な感性を組み合わせる必要があると述べています。

image.png

【AiBase要約:】

🏗️ AIは建築設計に革命的な変化をもたらしていますが、イスラム建築の分野では課題があります。

🕌 AIジェネレーターは歴史的知識が不足しており、イスラム建築文化の細部を正確に表現できていません。

🤖 AIは人間の創造性を高めるツールとして使用すべきであり、専門知識と文化的な感性を組み合わせる必要があります。