本稿では、GPT-4とDALL-E 3を用いた画像テキスト生成の対抗実験を通して、両者が曖昧な画像を処理する際の限界を検証しました。著者はぼやけた「牛ザメ」の画像を入力し、GPT-4に記述させた後、DALL-E 3に描画させました。描画された画像を再びGPT-4に入力して記述させる、というサイクルを繰り返しました。その結果、GPT-4はぼやけた画像が牛なのかサメなのかを判断できず、DALL-E 3が描いた画像にも矛盾が見られました。この実験は、反復テストを用いて大規模言語モデルの画像テキスト理解と生成能力の限界を深く検証する方法を探っています。
関連AIニュースの推奨

モクドウAIがついに登場:アイデアを入力して30秒で高精細・編集可能なプロトタイプを生成
モクドウAIは30秒で素早くプロトタイプを生成する機能を提供しています。マルチデバイス対応や対話最適化にも対応しています。テキストやスケッチなどのさまざまな入力方法を通じて、高精細で編集可能なプロトタイプを作成でき、複数回の対話を通じて調整も可能です。AIはアップロードされたスケッチや線画などをスマートに解析し、自動的にインターフェースを生成します。2つのモードでの編集、自動文書生成、コード連携の機能を備え、小売、ソーシャルなど多様なシナリオに対応しており、プロトタイピングの制作のハードルを大幅に下げ、製品デザインの効率を向上させます。

NVIDIAの市場価値が初めて4兆ドルを突破、ハワード・ホンがトランプ氏と会談する予定で注目集まる

マスクの新しいAIチャットボットGrok 4:真実を求めるものなのか、個人的意見の代弁者なのか?
xAIが発表したAIチャットボットGrok4は「真実の追求」を掲げるが、敏感な話題でマスク氏の意見を引用し批判を浴びた。反ユダヤ発言問題もあり、AIと創業者の意見を結びつけるリスクが浮き彫りに。一部テストで競合を上回るも、不透明性が商業化の課題に。....

智譜はManusに似たPPT生成機能のAI Slidesをリリースしました。無料で制限なく使用できます

NVIDIAがDiffusionRendererを発表:動画から編集可能な現実的な3Dシーンを生成する新たなAIモデル

グーグルVeo3が画像から動画への変換機能を追加し、7週間以内にユーザーが4000万を超える動画を作成

AIの大規模モデルの個性化:Grok 4とマスクの共感?

Kiling AIがKitu 2.1モデルを発表:画像生成能力が大幅に向上し、180種類のスタイルをサポート
AIニュース:xAIがGrok4を衝撃的にリリース;マイクロソフトが新規のPhi-4-miniバージョンを開発者向けに公開;上海では累計82種類の大規模モデルが認証を通過
1.xAIがGrok4モデルを発表、数学推論とコード生成に優れる。2.マイクロソフトがPhi-4-miniをオープンソース化、効率10倍向上。3.上海で82の大規模モデルが承認。4.Hugging FaceがロボットReachy Miniを発表。5.PerplexityがAIブラウザCometをリリース。6.OpenAIが初のオープンウェイトモデルを計画。7.グーグルが医療AIモデルMedGemmaを更新。8.OpenAIがAIハードウェア企業を買収。....

マイクロソフトが新しくPhi-4-miniバージョンをリリース:推論効率が10倍に向上し、ノートブックにも簡単に適合
マイクロソフトがPhi-4-mini-flash-reasoningモデルをオープンソースで公開しました。エッジデバイス向けに設計されており、推論効率が10倍に向上しています。イノベーティブなSambaYアーキテクチャを採用し、効率的なメモリ共有を実現しており、長文生成や数学的推論で優れた性能を発揮します。ベンチマークテストでは長いコンテキストの理解能力が優れており、Phonebookタスクでの正確度は78.13%です。このモデルは教育・研究の分野に適しており、単一のGPUで動作可能です。