【AI日報】へようこそ!ここは、AIの世界を探求するための毎日のガイドです。毎日、AI分野のホットな話題をお届けし、開発者を重視することで、技術トレンドの把握や革新的なAI製品の応用を理解するお手伝いをします。

最新のAI製品詳細はこちらhttps://top.aibase.com/

1、百度文心智能体プラットフォームが文心4.0版を無料公開

百度文心智能体プラットフォームは、最新の大規模言語モデルである文心4.0版を一般公開しました。これにより、プラットフォームの機能と応用範囲が大幅に拡大します。このバージョンは、理解力、生成力、論理的推論、記憶力などの面で著しい進歩を遂げ、総合的な能力はGPT-4に匹敵します。百度の創設者である李彦宏氏は世界人工知能大会で、インテリジェントエージェントがAIアプリケーションの未来であると強調し、検索がインテリジェントエージェント配信の重要なチャネルであると述べました。文心智能体プラットフォームのノーコード開発モデルは、一般ユーザーによるインテリジェントエージェント開発の難易度を下げ、開発者にとって開発しやすい、配信しやすい、収益化しやすいというメリットを提供します。

image.png

【AiBase要約:】

🚀 文心大規模言語モデル4.0版が開発者向けに無料公開され、機能と適用範囲が大幅に拡大しました。

💡 文心4.0版は、理解力、生成力、論理的推論、記憶力において著しい進歩を遂げ、GPT-4に匹敵する性能です。

💻 文心智能体プラットフォームはノーコード開発モデルを提供し、一般ユーザーによるインテリジェントエージェントの開発難易度を下げ、開発者にとって開発、配信、収益化が容易な環境を提供します。

詳細リンク:https://top.aibase.com/tool/wenxinzhinengtipingtai-agentbuilder

2、MetaがAIの強力なツールを発表:マルチトークン予測モデルを研究用に公開

Metaは大きな一歩を踏み出し、マルチトークン予測手法を採用した事前学習モデルを発表しました。これは、大規模言語モデルの開発と展開方法を変える可能性があります。この新技術は、AIの効率性を向上させ、人間と機械の協調的なコーディングのトレンドを加速させ、言語理解とコンテキストへのより詳細な影響を与えることが期待されます。

【AiBase要約:】

🚀 新技術はマルチトークン予測手法を採用し、性能向上とトレーニング時間の短縮が期待されます。

💡 モデルは複数の未来の単語を同時に予測することで、言語構造とコンテキストの理解を改善する可能性があります。

🔗 MetaはHugging Faceでモデルを公開し、イノベーションと人材獲得を加速させ、AI分野における競争力を強化します。

詳細リンク:https://top.aibase.com/tool/multi-token-prediction

3、商湯科技が「日日新5.0」を発表:GPT-4.0に匹敵するリアルタイムストリーミングマルチモーダルインタラクションを実現

商湯科技は2024年世界人工知能大会で、国内初のWYSIWYG(所見即所得)モデル「日日新5.0」を発表しました。これはリアルタイムのストリーミングマルチモーダルインタラクションを実現し、GPT-4.0に匹敵する性能です。このモデルは、音声、テキスト、画像、ビデオなどのクロスモーダル情報を統合し、リアルタイムでの理解と応答が可能です。

image.png

【AiBase要約:】

🚀 「日日新5.0」モデルはリアルタイムのストリーミングマルチモーダルインタラクションを実現し、名札の認識、ぬいぐるみ犬の外見描写、絵画の評価などが可能です。

💡 「日日新5.5」は「日日新5.0」のアップグレード版で、総合性能が30%向上し、特に数学的推論、英語力、指示への追従において顕著な改善が見られます。

🔑 商湯科技は「大規模モデル0円Go」計画を発表し、企業ユーザーに無料サービス、トークンパッケージの提供、移行アドバイザーによる移行支援を提供し、ゼロコストでのサービスを実現します。

4、上海AI Labが超強力なマルチモーダルLLM InternLM-XComposer-2.5をオープンソース化

上海AI研究所は昨日、InternLM-XComposer-2.5というマルチモーダル大規模言語モデルをオープンソース化しました。これは、超高解像度画像理解、詳細なビデオ理解、複数ラウンドの画像対話などにおいて優れた能力を示しています。このモデルは、Web制作と画像とテキストが混在する記事に最適化されており、国内のマルチモーダルLLM分野における空白を埋め、クリエイターにより大きな創作空間を提供します。

【AiBase要約:】

⚙️ 長いコンテキスト処理:IXC-2.5は超長テキストと画像の入力を処理でき、ネイティブで24Kトークンの入力をサポートし、96Kまで拡張可能です。これにより、ユーザーはより大きな創作空間を得ることができます。

👁️ 多様な視覚能力:IXC-2.5は超高解像度画像理解だけでなく、詳細なビデオ理解や複数ラウンドの複数画像対話も可能で、想像を超える能力を示しています。

✨ 生成能力:IXC-2.5はWebページや高品質な画像とテキストが混在する記事を生成でき、テキストと画像の組み合わせを新たなレベルに引き上げます。

プロジェクトアドレス:https://top.aibase.com/tool/internlm-xcomposer-2-5

全文はこちらをご覧ください:https://www.aibase.com/news/10053

5、スタンフォード大学発!OccFusion:隠れた人体を完全にレンダリング可能に

OccFusionはスタンフォード大学が提案した新しい手法で、隠れた人体を高忠実度でレンダリングすることを目指しています。この手法は3つの段階の処理を経ており、効率的な3Dガウススライシングと2D拡散モデルの監視を利用することで、評価において優れた性能を示し、隠れた人体レンダリングにおいて最先端のレベルに達しています。

image.png

【AiBase要約:】

🌟 OccFusionは、隠れた人体を高忠実度でレンダリングすることを目指した新しい手法です。

🌟 この手法は、初期化、最適化、細化の3つの段階からなり、効率的な3Dガウススライシングと2D拡散モデルの監視によって実現されています。

🌟 ZJU-MoCapとOcMotionシーケンスで評価された結果、OccFusionは優れた性能を示し、隠れた人体レンダリングにおいて最先端のレベルに達しています。

詳細リンク:https://top.aibase.com/tool/occfusion

6、アップルが4Mモデルのデモを公開 画像のすべての情報を簡単に分解

アップルはHugging Faceで、昨年の論文で発表された4Mモデルのデモを公開しました。このモデルは、テキスト、画像、3Dシーンなど、さまざまなモーダルコンテンツを処理および生成できます。写真をアップロードするだけで、主要な輪郭、色調、サイズなどの写真のすべての情報を簡単に取得できます。アップルは強力なAI能力を示し、4Mを中心としたエコシステム構築を目指していますが、データプラクティスとAI倫理の課題にも直面しています。

QQ截图20240705100442.jpg

【AiBase要約:】

🔍 4Mモデルは、テキスト、画像、3Dシーンなど、さまざまなモーダルコンテンツを処理および生成できます。

🛠️ 4Mは「大規模マルチモーダルマスキングモデリング」トレーニング方法を採用し、モーダル間のシームレスな接続を実現しています。

💡 4Mは世界最大のオープンソースデータセットCC12Mを使用し、弱教師あり擬似ラベルの方法を採用することで、マルチモーダルのタスクを直接実行できることを証明しています。

詳細リンク:https://huggingface.co/spaces/EPFL-VILAB/4M

7、中国の生成AI特許数、米国を6倍以上上回る

中国は生成AI分野で大きな成果を収め、特許数は米国を6倍以上上回っており、強力なイノベーション能力とリーダーシップを示しています。テンセント、平安保険集団、百度などの中国企業は、GenAI特許数で際立っています。中国のトップレベルの学術機関と技術エコシステムは、生成AIの発展を強力に支えており、学界やメディアから認められています。

image.png

【AiBase要約:】

🔸 2014年から2023年にかけて、中国で申請された生成AI特許数は38210件に達し、米国の6倍以上となっています。

🔸 テンセント、平安保険集団、百度は、GenAI特許数が多い中国企業です。

🔸 中国のトップレベルの学術機関と技術エコシステムは、生成AIの発展を強力に支えており、中国のこの分野におけるリーダーシップは学界やメディアから認められています。

詳細リンク:https://www.wipo.int/web-publications/patent-landscape-report-generative-artificial-intelligence-genai/index.html

8、魔法のようなLivePortrait:写真を生き生きとした動画に変換、目の動きや唇の動きを精密に制御!

LivePortraitは、静止画を動かすことができる画期的な技術で、従来のアニメーション制作の課題を克服し、高効率で正確な処理を実現します。リアルなアニメーションを生成し、目の動きや唇の動きを制御することで、ユーザーの創造性を高めます。写真に命を吹き込み、あなた自身の物語を語りましょう。

【AiBase要約:】

🎨 LivePortraitは静止画をスムーズな動画に変換し、従来のアニメーション制作を革新し、複数の人物の肖像画をシームレスに繋ぎ合わせ、自然で滑らかな動きを実現します。

⚡ LivePortraitは従来のアニメーション制作の課題を解決し、高品質で高効率を実現し、目の動きや唇の動きを正確に制御し、微表情をリアルに再現します。

🔗 LivePortraitは高度な技術手法を採用し、生成速度が速く、複数のスタイルの肖像画に対応し、より多くの創造的な空間を提供します。

詳細リンク:https://top.aibase.com/tool/liveportrait

9、WAIC開幕日のハイライト丨AI界の大物たちがどのような見解を共有したか?

7月4日に上海で開催された2024年世界人工知能大会兼人工知能グローバルガバナンスハイレベル会議で、AI業界の専門家たちがAIの発展方向と応用展開について深く議論しました。会議では、AI業界が実用化へと移行しつつあり、AI技術による現実的な価値創造に注目が集まっていることが示されました。同時に、AIの安全と倫理の問題、産業変革と機会も議論の中心となりました。

【AiBase要約:】

🔍 AIの応用展開が注目を集め、重点は実用化に移行し、AI技術による現実的な価値創造が注目されています。

🚀 AI開発の重点は実用化に移行しており、商湯科技のCEOは、応用こそがAIを「スーパーモーメント」へと導く鍵であり、突破には高品質なデータ、スムーズなインタラクション、制御可能性が必要であると強調しました。

⚖️ AIの安全と倫理の問題が重視されており、AIのリスクは、ネットワークリスクの拡大、社会構造の破壊、潜在的なリスクに由来し、AIの制御と潜在力の発揮のバランスを取る必要があります。

10、SF小説が現実になる?Clone Robotics:ウエストワールドのようなバイオニックロボットを製造する企業

Clone Roboticsはバイオニックロボットを製造する企業で、バイオニックデザインと生物力学の原理を通じて技術開発を推進し、製品は高いシミュレーション性、耐久性、経済性を備えています。主要製品にはClone HandとClone Torsoがあり、さまざまな複雑な操作タスクを実行でき、幅広い用途を提供します。同社は、人間とロボットが調和して共存する未来のライフスタイルを表しています。

【AiBase要約:】

🤖 Clone Roboticsはバイオニックロボットを製造する企業で、製品は高いシミュレーション性、耐久性、経済性を備えています。

🌐 主要製品にはClone HandとClone Torsoがあり、さまざまな複雑な操作タスクを実行でき、幅広い用途を提供します。

🔗 同社は、人間とロボットが調和して共存する未来のライフスタイルを表しています。