本稿では、GPT-4とDALL-E 3を用いた画像テキスト生成の対抗実験を通して、両者が曖昧な画像を処理する際の限界を検証しました。著者はぼやけた「牛ザメ」の画像を入力し、GPT-4に記述させた後、DALL-E 3に描画させました。描画された画像を再びGPT-4に入力して記述させる、というサイクルを繰り返しました。その結果、GPT-4はぼやけた画像が牛なのかサメなのかを判断できず、DALL-E 3が描いた画像にも矛盾が見られました。この実験は、反復テストを用いて大規模言語モデルの画像テキスト理解と生成能力の限界を深く検証する方法を探っています。
関連AIニュースの推奨

百度検索がAIドラマプラットフォームをリリースし、公開テストを開始してクリエイターを支援
百度AIが短編ドラマ生成プラットフォームを公開。1億元の基金と100億のトラフィックでクリエイターを支援し、IP活用を促進。自動生成と協働モードで80%以上の作業を自動化、微調整で高品質作品を迅速制作可能。....

AIニュース:グーグルがVeo 3.1を発表;通義千問がQwen Chat Memory機能をリリース;Sora2の無料ユーザーは15秒の動画を作成可能
GoogleがVeo 3.1動画生成モデルを発表。音声機能と精密編集機能を追加し、リアルさと編集制御を向上。画像から動画への変換品質も最適化。....

Sora2エピックアップデート!無料ユーザーは15秒の動画を生成可能。プロユーザーは25秒へアップグレード
Sora2が大規模アップデート:無料ユーザーは15秒、Proユーザーは25秒の動画生成が可能に。新機能「ストーリーボード」で秒単位の精密制御を実現。....

香港金融管理局がAIサンドボックスリストを発表、アントグループが核心技術パートナーに
香港金管局とデジタルポートは第2期生成AIサンドボックス計画を発表、20行と14技術パートナーの27事例が選定。アントグループはAIエージェントサービスを提供し、銀行業界の効率化を支援。計画はAIガバナンスと応用に焦点。....

ボルケイノエンジンが4つの強力なモデルを発表 ボイス合成とコピーアクセス機能がさらにパワーアップ
火山エンジンは武漢AIツアーで4つの豆包大モデルを発表:1.6版は4つの思考長をサポート、軽量版1.6lite、新音声合成2.0と音声複製2.0。アップグレードで知能化が向上し、企業に柔軟な選択肢を提供。....

グーグルがVeo 3.1ビデオ生成モデルを発表:新規音声機能と細かい編集機能を追加
グーグルはビデオ生成モデルVeo 3.1をアップデートし、音声出力、編集コントロールの精度、画像からビデオへの転換品質を向上させました。より現実的なビデオを生成し、命令に正確に対応できるようになりました。新機能により、ビデオにオブジェクトを追加し、自動的にビジュアルスタイルにマッチさせることが可能です。今後Flowツールでオブジェクトの削除機能が追加され、編集の柔軟性が向上します。

AIランキングの新戦場:AI検索時代、新しいトラフィックの鍵はGEOです!
AI時代、SEOはGEO(生成/回答エンジン最適化)へ進化。AI検索結果の回答源となることが目的。....

百度文心アシスタントが全面アップグレード AIクリエイティブ能力が爆発的に向上し、8つの新しいモーダルが登場!
バイドゥ検索は10月15日に文心アシスタントをアップグレードし、AIGCのマルチモーダルなクリエイティブとスマートタスク解決能力を顕著に強化しました。現在、テキスト、画像、ビデオ、音楽、パッドキャストなど8種類のコンテンツを生成できるようになりました。ユーザーは毎日1000万を超えるAIGCコンテンツを生成しており、AIクリエイティブの新しい段階に入ったことを示しています。

Apple M5チップが大規模に発表:AI性能が4倍に飛躍し、エッジ側のスマート体験を加速
AppleがM5チップを発表、3nmプロセス採用でMacBook ProやiPad ProのAI性能を大幅向上。GPUのAI処理速度は4倍以上、16コアニューラルエンジンは38兆回/秒の演算を実現。....

国内初の標準化分野向け大規模モデル『同道』が登場:標準の検索と応用の問題を解決
国内初の標準化分野大規模モデル「同道」が正式リリース。業界標準検索の難しさや文書作成効率向上をサポート。....