AI日報：GPT-4o搭載！アップル製品全線生成AI時代へ；テンセント、複数人動画生成をサポート；ChatGPT音声機能がアップグレード

站长之家

公開日AIニュース · 1 分で読めます · Jun 11, 2024

【AI日報】へようこそ！ここは、あなたが毎日人工知能の世界を探求するためのガイドです。毎日、AI分野のホットな話題を提供し、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用に関する情報を提供します。

最新のAI製品はこちらからご覧ください:https://top.aibase.com/

1、アップルWWDC、GPT-4o搭載Siriなど、生成AI搭載の全製品を発表

アップルは2024年の世界開発者会議WWDCで、全製品が生成AI時代に入ったことを発表し、新しいパーソナライズされたインテリジェントシステム「Apple Intelligence」を発表しました。このアップデートの中核は、生成AIモデルとユーザーデータを組み合わせたインテリジェントサービスであり、iOS18、iPadOS18、macOS Sequoiaに深く統合されています。Siriは変革を遂げ、より豊かな言語理解能力とアプリを跨いでの操作実行能力を備えています。システムにはChatGPTが統合され、画像とドキュメントの理解機能、新しいライティングツール、Image Playgroundなどの機能が追加されました。

【AiBase要約:】
🍎 Apple Intelligenceは、生成AIモデルとユーザーデータを統合し、実用的なインテリジェントサービスを提供し、iOS18、iPadOS18、macOS Sequoiaに深く統合されています。
🤖 Siriは変革を遂げ、より豊かな言語理解能力を獲得し、アプリを跨いでの操作実行をサポートします。ユーザーはテキスト入力でSiriとやり取りできます。
📸 システムに統合されたChatGPTは、画像とドキュメントの理解機能を提供し、ライティングツールとImage Playgroundが追加され、ユーザーはアニメーション、イラスト、スケッチ風の画像を作成できます。
詳細：https://www.chinaz.com/2024/0611/1622511.shtml

2、アップルとグーグルGeminiモデルの連携

アップルはグーグルのGeminiモデルとの連携を発表し、サードパーティモデルのアクセスをオープン化することで、ユーザーにより多くの選択肢を提供します。SiriはChatGPTを統合し、ユーザーはSiriを離れることなく会話を行い、プライバシーを維持できます。アップルは開発者向けツールキットを更新し、OpenAIのChatGPTを初めて導入するとともに、一連の新しい機能とアップデートを発表しました。

【AiBase要約:】
🍎 アップルはグーグルのGeminiモデルと連携し、サードパーティモデルのアクセスをオープン化することで、人工知能エコシステムを拡大します。
🤖 SiriはChatGPTを統合し、ユーザーはSiri内で会話を行い、プライバシーを維持できます。
🚀 アップルは開発者向けツールキットを更新し、OpenAIのChatGPTを初めて導入し、iOS18の新機能とVisionOS2を発表しました。

3、iOS18 写真アプリの大幅改訂：AIによる削除機能、スマートな検索範囲の絞り込みを追加

アップルは最新リリースのiOS18システムで、メッセージ機能を全面的に刷新しました。ユーザーはメッセージコンテンツに下線や取り消し線を付けたり、様々なダイナミックなテキスト効果を適用できるようになり、各メッセージに個性を加えることができます。

【AiBase要約：】
⭐️ アップルとOpenAIは提携契約を締結し、iOS18にChatGPT機能が導入されます。
🤖 GPT-4が生成した記述的洞察は、将来の株価動向に情報を提供します。
💬 iPadOS18システムは、iOS18の様々なカスタマイズ機能に加え、アプリ内によく使う機能バーのカスタマイズをサポートします。
iOS18のアップグレード対応機種はこちらをご覧ください：https://www.chinaz.com/2024/0611/1622488.shtml

4、テンセント、新しい画像から動画生成モデル「Follow-Your-Pose-v2」を発表

この記事では、テンセントの混元チームが中山大学、香港科技大学と共同で開発した新しい画像から動画生成モデル「Follow-Your-Pose-v2」を紹介しています。これは、複数の人物の動画アクション生成、強力な汎化能力、人物の遮蔽の適切な処理などの特徴を実現しています。このモデルは動画生成分野において重要な意味を持ち、幅広い応用が期待されます。

【AiBase要約:】
🌟 複数人物の動画アクション生成をサポートし、複数人物の動画アクションの生成を実現し、推論時間も短縮しました。
🔥 強力な汎化能力を持ち、年齢、服装、人種、背景の複雑さ、アクションの複雑さに関わらず、高品質な動画を生成できます。
💡 人物の遮蔽を正しく処理し、正しい前後関係を持つ遮蔽されたシーンを生成できます。
プロジェクトページ:https://top.aibase.com/tool/follow-your-pose
論文アドレス:https://arxiv.org/pdf/2406.03035

5、MotionFollower：動画の背景を変えずに人物の動作を複製

MotionFollowerは、ある動画の動きを別の動画の人物に複製し、人物の外見を維持できる革新的な技術です。この技術は、映画制作、広告制作、ゲーム開発など、幅広い分野で応用できます。

【AiBase要約:】
⚙️ MotionFollowerは、動画の動きを別の人物に複製し、外見を維持できる革新的な技術です。
🌐 映画、広告、ゲームなど、幅広い分野で応用できます。
🎥 MotionFollowerは大規模なカメラモーション動画を処理し、高品質なモーション情報の転送を実現します。
詳細リンク:https://top.aibase.com/tool/motionfollower

6、アドビ、利用規約を改訂し、顧客の作品をAIトレーニングに使用しないことを明確化

アドビは利用規約を改訂し、顧客の作品をAIトレーニングに使用しないことを明確化し、ユーザーの信頼を取り戻すことを目指しています。この変更は、一週間前のユーザーからの強い抗議を受けて発表されたものです。

【AiBase要約:】
🛡️ アドビは利用規約を改訂し、顧客の作品をAIトレーニングに使用しないことを明確化しました。
💬 アドビ社長は、利用規約を早期に明確化するべきだったと認め、より透明性を高めることを表明しました。
🖼️ クリエイターはアドビへの懸念を抱いており、同社は信頼回復に努めています。

7、OpenAI、ChatGPTの音声機能をアップグレードし、様々なキャラクターの声で話す機能を追加

OpenAIはChatGPTの音声機能を最新アップデートし、ユーザーが様々なAI生成の音声と音声スタイルを使ってチャットボットとやり取りできるようにしました。この新機能により、ユーザーはAIチャットボットに任意の音声でリアルタイムに反応するように指示でき、インタラクティブ性とアクセシビリティが向上しました。

【AiBase要約:】
🔊 ChatGPTには現在4種類のプリセット音声があり、音声スタイルをリアルタイムで最適化できます。
🗣️ ユーザーはAIにストーリーの登場人物の声を吹き込ませ、ライオンの轟音のようなユニークな音を生成するように指示できます。
🔜 OpenAIは今後数週間以内に新しい音声機能をすべてのChatGPTユーザーに提供する予定です。プレミアムサブスクライバーは優先的に利用できます。

8、Instant3Dを凌駕！上海交通大学、3D生成能力を大幅に向上させる新しいフレームワーク「Bootstrap3D」を発表

上海交通大学と香港中文大学の研究チームは、「Bootstrap3D」という新しいフレームワークを発表しました。これは、微調整された3D認識マルチモーダル大規模モデルを組み合わせることで、高品質な多視点画像データを自動生成し、3D生成モデルの能力を大幅に向上させます。このフレームワークの合成データセットは完全にオープンソース化されており、研究者や開発者が無料で利用できます。このフレームワークの主な特徴には、データ構築パイプライン、テキストプロンプト生成、画像生成、多視点合成、品質スクリーニング、記述の書き換えなどがあります。研究チームは、ノイズ除去プロセスの異なる段階を最適化するトレーニングタイムステップ再配置（TTR）戦略も提案し、多視点拡散モデルのトレーニングにおける問題を解決しました。実験結果によると、TTR戦略を使用した多視点拡散モデルは、画像テキストの整合性、画像品質、ビューの一貫性において優れた性能を示し、多視点生成の効果を大幅に向上させました。

【AiBase要約:】
🔑 データ構築パイプライン：多視点画像データと詳細な説明テキストを自動生成し、フレームワークの中核的なイノベーションの1つです。
🔑 テキストプロンプト生成：大規模言語モデルを使用して、創造的で多様なテキストプロンプトを生成し、画像生成のための素材を提供します。
🔑 多視点合成：単一視点画像を多視点画像に拡張し、異なる視点下での一貫性を確保します。
詳細リンク:https://top.aibase.com/tool/bootstrap3d

9、グーグル、AGREEフレームワークを発表し、大規模言語モデルによるコンテンツ生成の正確性を向上

グーグルリサーチは、大規模言語モデルによるコンテンツと参照の正確性を向上させることを目的としたAGREEフレームワークを発表しました。このフレームワークは、関連する段落を検索することで回答の正確性を向上させ、ユーザーが情報の真偽を確認するための手段を提供します。中核技術には、トレーニング段階の微調整とテスト時の適応があります。実験結果によると、AGREEはコンテンツ回答の正確性と参照性の向上において優れた性能を示しました。

【AiBase要約:】
🔍 AGREEフレームワークは、大規模言語モデルによるコンテンツと参照の正確性を向上させることを目的としています。
🎯 中核技術には、トレーニング段階の微調整とテスト時の適応があります。
💡 実験結果によると、AGREEはコンテンツ回答の正確性と参照性の向上において優れた性能を示しました。
詳細リンク:https://arxiv.org/pdf/2311.09533

10、粉筆、8月に自社開発AIインテリジェンス教師を発表

粉筆集団は、2024年8月に自社開発のAIインテリジェンス教師を発表し、オンラインプラットフォームで提供されるAI学習ツールの1つとなります。まず、国家または省レベルの採用試験および資格試験システムクラスに適用されます。

【AIBase要約：】
⭐️ 粉筆集団は2024年8月に自社開発のAIインテリジェンス教師を発表します。
⭐️ AIインテリジェンス教師は、粉筆のオンラインプラットフォームで提供されるAI学習ツールの1つとなります。
⭐️ まず、国家または省レベルの採用試験および資格試験システムクラスに適用されます。

GEOマーケティングの始まり：あなたのターゲットユーザーがAIに何を尋ねているのかをまずは把握しましょう

GEOマーケティングを行う前、ブランドはローカルなシナリオにおいてユーザーとAIがどのようにやり取りしているか、たとえば言語、課題、検索意図などをしばしば見過ごしてしまいます。これらを理解していないと、地域向けターゲティングの効果は限定的になります。例えば、ある中国製ヘッドホンブランドは東南アジアでマーケティングを行う際に、シンガポールのユーザーが「地下鉄通勤時のノイズキャンセリング機能」に注目していることに気づきました。

ChatGPTエージェントのユーザー流出は75％で、位置づけが曖昧なことが致命傷となった

OpenAIのChatGPT Agentは、リリース半年でサービス停止の危機に直面。有料週間ユーザーは400万人から100万人未満に急落し、75%が離脱。初期は約11%の加入者が試したが、成長が停滞。用途の理解不足や認知度の低さ、システム問題が離脱の主因。....

裸のオープンソースAIに注意: 研究によると、規制から外れた場合、ハッカーによる乗っ取りの温床となる可能性がある

オープンソースの大規模言語モデルは、主要プラットフォームの安全制限から外れると深刻なセキュリティリスクに直面します。ハッカーはMetaなどのモデルを含む数千の無防備な独立インスタンスを容易に攻撃でき、ネットワークセキュリティを脅かしています。....

OpenAI、GPT-4oなどの複数のモデルを停止することを発表。ユーザーが次世代技術に移行

OpenAIはGPT-4oなどの旧バージョンモデルの停止を発表し、これによりそのモデルの歴史的な役割が終了しました。GPT-4oは対話スタイルやマルチモーダル機能で評価されていましたが、会社の注力ポイントは新たなエースモデルに移っており、GPT-5.2がユーザーの第一選択となっています。

AI日報：宇樹がUnifoLM-VLA-0モデルをオープンソース化；騰訊の元宝派の内測スクリーンショットが漏洩；ClawdがOpenClawに名称変更

【AI日報】へようこそ！ここは毎日人工知能世界を探索するためのガイドです。毎日、AI分野のホットな内容をお届けし、開発者に焦点を当てて技術トレンドや革新的なAI製品の応用を理解するお手伝いをします。新鮮なAI製品についてはこちらから詳しく：https://app.aibase.com/zh1、アリババグループがLingBot-VLAを発表：「二本腕ロボット操作が大規模モデル時代へ」アリババグループは視覚・言語・行動のベースモデルであるLingBot-VLAを発表しました。

金山办公とHuaweiの提携：Harmoney生態系を深掘りし、AIオフィス体験をアップグレード

金山办公はHuaweiと戦略協力契約を締結し、個人消費者分野で深度な協力を進め、クロスデバイスオフィス、AI対応、効率向上などの課題に焦点を当て、世界中のオフィス向け中国方案の構築を目指しています。2026年までに、国内ユーザーに対してより安全でスムーズで効率的なAIオフィス体験を提供し、その方案を国際市場へ広めていく予定です。