【AI日報】へようこそ!ここは、あなたの人工知能の世界を探求する毎日ガイドです。毎日、AI分野のホットなコンテンツを提供し、開発者に焦点を当て、技術トレンドを理解し、革新的なAI製品の応用を学ぶお手伝いをします。
最新のAI製品詳細はこちら:https://top.aibase.com/
1、OpenAIがChatGPT検索のアップグレードを発表 地図、高度な音声機能などをサポート
OpenAIは最新のライブ配信で、ChatGPTプラットフォームの重要な技術更新を発表し、リアルタイム検索と高度な音声インタラクションモードを導入し、ユーザーエクスペリエンスを大幅に向上させました。検索アルゴリズムを最適化することで、ユーザーはリアルタイム情報を迅速に取得し、ソースリンクを直接確認できるようになり、情報の利便性が向上しました。さらに、新しく追加されたビデオ再生と地図の統合機能により、ユーザーはより直感的な検索体験を得ることができ、モバイルでの検索効率が向上しました。
【AiBase要約:】
📈 更新されたChatGPTはリアルタイム検索機能を導入し、検索アルゴリズムを最適化することで、ユーザーは株式やニュースなどのリアルタイム情報を迅速に取得できるようになりました。
🗣️ 新しい高度な音声インタラクションモードにより、ユーザーは音声で複数回の検索を行うことができ、パーソナライズされた音声アシスタント体験を提供します。
🗺️ ChatGPTは現在、地図統合機能をサポートしており、ユーザーは地理位置情報を直接確認し、ルートプランニングや場所の探索を行うことができます。
2、GoogleがAIビデオ生成モデルVeo2をアップグレード 4K解像度、人間の好み評価がSoraを上回る
Googleは最近、次世代ビデオ生成モデルVeo2を発表しました。これはOpenAIのSoraと競合することを目的としています。Veo2はビデオ生成において、より高いリアリズムと繊細さを示しており、ユーザーはGoogle LabsのVideoFXプラットフォームから使用を申請できます。さらに、Googleは画像生成モデルImagen3も更新し、生成画像のリアリズムと色彩表現をさらに向上させました。
【AiBase要約:】
🎥 Veo2ビデオ生成モデルの品質はOpenAIのSoraを上回り、ユーザーは使用を申請できます。
🚀 ユーザーはビデオスタイルとエフェクトを選択でき、最大4K解像度のビデオを生成できます。
🎨 更新されたImagen3画像生成モデルは、より優れた芸術的なスタイルとユーザーエクスペリエンスを示しています。
詳細リンク:https://labs.google/fx/tools/video-fx
3、Midjourneyがパーソナライズされたモデルとムードボードを発表 画像をアップロードしてモデルをトレーニング可能に
2024年12月16日、Midjourney社は待望の「ムードボード」機能を発表しました。ユーザーはインスピレーションとなる画像セットをアップロードして新しいアート作品を生成できます。最新のAIモデルと組み合わせることで、ユーザーはより簡単にパーソナライズされた資料を作成でき、モデル構築プロセスが簡素化され、新規ユーザーの参入障壁が低くなりました。さらに、強化された整理機能により、ユーザーは複数のプロジェクトをより効果的に管理できるようになりました。
【AiBase要約:】
🌟 Midjourneyがムードボード機能を発表、ユーザーはインスピレーションとなる画像セットをアップロードできます。
🚀 パーソナライズされた資料の作成がより簡単になり、ユーザーは40個の評価だけで開始できます。
🛠️ 整理機能が強化され、ユーザーは資料に名前を付け、関連画像を追跡できます。
詳細リンク:https://www.midjourney.com/personalize
4、Googleが新しいAIツールWhiskを発表 プロンプト不要で、複数の画像を混合して新しいスタイルの画像を生成
Googleが最近発表したAIツールWhiskは、従来の画像生成方法を大幅に変更し、ユーザーは複数の画像をアップロードして新しい画像を生成できるようになりました。長いテキストの説明に依存する必要はありません。Whiskは、視覚的な探求を迅速に行うことを目的として設計されており、ユーザーは異なるスタイルやテーマの画像を簡単に融合して、ユニークな視覚作品を作成できます。画像生成プロセスには数秒かかる場合があり、結果が少し奇妙に見える場合もありますが、全体的な体験は非常に興味深いものです。
【AiBase要約:】
🎨 Whiskはユーザーが複数の画像から新しいスタイルの画像を生成することを可能にし、従来のテキストプロンプト方式を覆しました。
✨ ユーザーは異なるテーマの画像をアップロードでき、自動的に融合して面白い視覚効果を生成します。
🚀 GoogleはImagen3とVeo2モデルも発表し、画像とビデオ生成能力をさらに向上させました。
詳細リンク:https://top.aibase.com/tool/whisk
5、YouTubeの新機能がリリース:クリエイターがAIトレーニングのためにサードパーティによるビデオ使用を許可可能に
YouTubeは最近、クリエイターが人工知能モデルのトレーニングのためにサードパーティ企業が自分のビデオを使用することを許可するかどうかを選択できる新機能を発表しました。この機能のデフォルト設定はオフになっており、クリエイターがサードパーティが自分のビデオを使用することを望まない場合は、何もする必要はありません。
【AiBase要約:】
🔒 デフォルト設定はオフになっており、クリエイターはAIトレーニングのためにサードパーティが自分のビデオを使用することを許可するよう積極的に選択する必要があります。
🤝 許可されるサードパーティ企業には、OpenAI、Apple、Microsoftなどの有名なAI企業が含まれます。
📈 この機能は、AI時代にクリエイターがコンテンツの新たな価値を実現するのに役立つことを目的としています。
6、図森未来が「如意」という画像生成ビデオモデルを発表 Ruyi-Mini-7Bをオープンソース化
北京図森未来科技有限公司は2024年12月17日、同社初の「画像生成ビデオ」大規模モデル「如意」を発表し、Ruyi-Mini-7Bバージョンをオープンソース化し、ユーザーがhuggingfaceプラットフォームからダウンロードして使用できるようにしました。このモデルは消費レベルのグラフィックカード向けに設計されており、さまざまな生成能力を備えており、特にアニメーションとゲーム分野で優れた視覚的な物語の可能性を示しています。技術的な進歩はありますが、いくつかの欠点を解決する必要があります。
【AiBase要約:】
🚀 Ruyi大規模モデルは消費レベルのグラフィックカード向けに設計されており、複数解像度と複数時間の長さのビデオ生成をサポートし、384×384から1024×1024の解像度を処理できます。
🎨 このモデルは、フレーム間の整合性、動作の滑らかさ、色の表現において優れたパフォーマンスを示しており、ACG愛好家の理想的な創造のパートナーとなっています。
🔧 技術的な進歩にもかかわらず、Ruyiには手部の変形や顔のディテールの崩れなど、いくつかの欠点があり、図森未来は改善に取り組んでいます。
詳細リンク:https://huggingface.co/IamCreateAI/Ruyi-Mini-7B
7、智譜AIが30億元規模の資金調達を完了 大規模モデルの技術開発と商業化を推進
智譜社は最近、30億元規模の新規資金調達を成功裏に完了し、多くの戦略的投資家と国有企業の参加を得ました。この資金は、智譜基盤大規模モデルの研究開発のアップグレードに使用され、複雑な推論とマルチモーダルタスク解決における能力をさらに向上させます。市場競争と技術進歩の鈍化という課題に直面していますが、智譜は依然としてAI業界でトップの地位を維持しており、世界的に大きな影響を与えています。【AiBase要約:】
🚀 智譜社が30億元の資金調達を完了、資金は基盤大規模モデルの研究開発とアップグレードに使用され、業界のイノベーションを推進します。
📈 今年はB2B市場で逆境の中成長を遂げ、API収益は前年比30倍以上、有料顧客数は20倍以上に増加しました。
🌍 智譜のC2C製品「智譜清言」は2500万人以上のユーザーを獲得しており、有料機能は数千万規模の収益をもたらすと予想されています。
8、MetaがオープンソースのAI試着モデルLeffaを発表:より多くのディテールを保持
Metaは最近、Leffaを発表しました。これは、新しい画像を生成することでユーザーの服装体験を向上させることを目的とした、オープンソースのAIバーチャル試着フレームワークです。ユーザーは参照画像をアップロードするだけで、システムは新しい服装の効果を生成し、不適切なため返品する手間を省きます。Leffaはディテールを保持し、画像の歪みを減らす点で優れたパフォーマンスを示し、より自然な試着効果を提供します。
【AiBase要約:】
🌟 LeffaはMetaが発表したオープンソースのバーチャル試着フレームワークであり、参照画像に基づいて新しい画像を生成できます。
👗 このフレームワークは画像の歪みを効果的に減らし、より多くのディテールを保持することで、バーチャル試着体験を向上させます。
💻 ユーザーはHugging FaceプラットフォームでLeffaを試用でき、同時にMetaは完全なプロジェクトコードを提供しています。
詳細リンク:https://github.com/franciszzj/Leffa
9、Diffusion-Vas:ビデオターゲットの追跡、遮蔽部分の補完が可能
ビデオ分析の分野では、物体の永続性は物体の存在を理解するための重要な手がかりです。研究者によって提案されたDiffusion-Vasメソッドは、拡散事前知識に基づいて、ビデオのモーダル非依存セグメンテーションとコンテンツ補完の効果を高めることを目的としています。このメソッドは2つの段階に分かれており、まずモーダル非依存マスクを生成し、次に条件付き生成モデルを使用して遮蔽領域のコンテンツを補完します。複数のベンチマークテストを経て、このメソッドは複雑なシーンで優れたパフォーマンスを示し、精度が13%向上しました。
【AiBase要約:】
🌟 研究では、拡散事前知識を使用してビデオにおけるモーダル非依存セグメンテーションとコンテンツ補完を実現する新しい方法が提案されています。
🖼️ この方法は2つの段階に分かれており、まずモーダル非依存マスクを生成し、次に遮蔽領域のコンテンツ補完を行います。
📊 複数のベンチマークテストにおいて、この方法はモーダル非依存セグメンテーションの精度を大幅に向上させ、特に複雑なシーンで優れたパフォーマンスを示しました。
詳細リンク:https://diffusion-vas.github.io/
10、MetaスマートグラスRay-Ban Metaがアップグレード:リアルタイムAIビデオと翻訳機能
Meta社はRay-Ban Metaスマートグラスを重要なアップデートし、リアルタイムの会話と言語翻訳を含む、人工知能に基づく複数の新機能を発表しました。これらの機能により、ユーザーはAIアシスタントとより自然なコミュニケーションを行うことができ、アシスタントを頻繁に起動する必要がなくなり、多言語の即時翻訳もサポートすることで、ユーザーのコミュニケーションの利便性が大幅に向上しました。さらに、眼鏡にはShazam機能も追加され、ユーザーは音声で音楽を認識できます。
【AiBase要約:】
🌟 Ray-Ban MetaスマートグラスはリアルタイムAIビデオと翻訳機能を発表、ユーザーはいつでもAIアシスタントと会話できます。
🌍 新しく追加されたリアルタイム翻訳機能は、複数の言語間の即時翻訳をサポートし、ユーザーのコミュニケーションの利便性を向上させます。
🎵 眼鏡はShazam機能もサポートしており、ユーザーは音声で現在再生されている音楽を認識できます。
11、ブロードコムCEOがAI市場の大幅な成長を予測 企業の時価総額が1兆ドルを突破
ブロードコム社の最高経営責任者であるHock Tan氏は、最近の決算説明会でAIチップ市場に対する楽観的な見通しを示し、2027年までに同社のこの分野での収益が大幅に増加すると予想しており、サービスのアドレス可能な市場は600億ドルから900億ドルになると予想しています。AIチップ需要の急増により、同社時価総額は初めて1兆ドルを突破しました。
【AiBase要約:】
🌟 ブロードコムは、2027年までにAI市場のサービスアドレス可能な市場が600億ドルから900億ドルに達すると予想しています。
📈 ブロードコムの時価総額はAIチップ需要の急増により初めて1兆ドルを突破しました。
💰 VMwareの買収により、ブロードコムの総収益は51%増加し、運用コストは大幅に削減されました。
12、キングソフトオフィス:WPS AIがAIによるPPT作成など4つの機能を無料で開放
キングソフトオフィスは、WPS AIが年末にユーザーに4つの無料機能を提供することを発表しました。これは、作業効率と創造性を向上させることを目的としています。ユーザーはAIによるPPT作成、スタイルクローン、フィルターなどの機能を使用して、プロフェッショナルな年末まとめPPTを迅速に作成できます。さらに、WPSはさまざまなPPTテンプレートを提供し、さまざまなユーザーのニーズを満たしています。
【AiBase要約:】
🎉 WPS AIはAIによるPPT作成、スタイルクローン、フィルター、テンプレート機能を無料で開放し、ユーザーの作業効率を向上させます。
🖼️ AIによるPPT作成機能は、プロフェッショナルなPPTを迅速に作成し、コンテンツをスマートに修正し、ロジックとデザインの美しさを維持します。
📋 ユーザーは「AIまとめシーズン」に参加して、さまざまな業界のニーズに対応する豊富な年末まとめPPTテンプレートを入手できます。