AI日報：GPT-4o新バージョン上线；面壁智能开源モバイル版「GPT-4V」；ファーウェイ、3Dデジタルヒューマンの新フレームワークEmoTalk3Dを発表；阿里巴巴、オリンピックの瞬間ポスターワークフロー上线

【AI日報】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、AI分野のホットな話題、開発者に焦点を当て、技術トレンドの把握、革新的なAI製品の応用を理解するお手伝いをします。

最新のAI製品詳細はこちら:https://top.aibase.com/

1、開発者歓喜！GPT-4oの新バージョンが登場、APIが高速化＆低価格化

OpenAIは最近、モデル生成の出力が開発者が提供したJSONスキーマに厳密に従うように設計された、新しい構造化出力機能を発表しました。この機能により、開発者は信頼性の高いアプリケーションを構築するための重要な基盤が得られ、開発プロセスが簡素化され、優れたアプリケーションの作成が容易になります。

【AiBase要約:】
🌟 構造化出力機能により、モデル出力の信頼性が向上し、開発者が提供したJSONスキーマに従います。
🔍 新モデルgpt-4o-2024-08-06は、複雑なJSONスキーマの評価で完璧な100％のスコアを獲得しました。
🔧 PythonとNode SDKが更新され、構造化出力をサポートし、開発者のワークフローを簡素化します。
詳細リンク:https://openai.com/index/introducing-structured-outputs-in-the-api/

2、面壁智能がMiniCPM-V2.6をオープンソース化、スマホで動く「GPT-4V」

MiniCPM-V2.6は、80億パラメーターしかないにもかかわらず、200億パラメーター以下の単一画像、複数画像、ビデオ理解の3つのタスクでSOTA（最先端）の成果を達成し、GPT-4Vと全面的に匹敵する、端末側多様なモーダルAIモデルです。このモデルは、端末側で単一画像、複数画像、ビデオ理解などのコア機能を全面的に凌駕し、非常に高いピクセル密度と実行効率を備え、複数の言語と推論フレームワークをサポートしています。

【AiBase要約:】
🚀 MiniCPM-V2.6は、200億パラメーター以下の単一画像、複数画像、ビデオ理解の3つのタスクでSOTA（最先端）の成果を達成し、GPT-4Vと全面的に匹敵します。
💡 このモデルは非常に高いピクセル密度と実行効率を備え、端末デバイスで非常に高い実行効率を実現しています。
🌐 MiniCPM-V2.6は複数の言語と推論フレームワークをサポートし、OCR機能により、単一画像から複数画像、ビデオへのスムーズな拡張を実現しています。
詳細リンク:
GitHub: https://github.com/OpenBMB/MiniCPM-V
HuggingFace: https://huggingface.co/openbmb/MiniCPM-V-2_6
llama.cpp、ollama、vllm 配備チュートリアルアドレス:
https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
MiniCPM シリーズオープンソースアドレス:
https://github.com/OpenBMB/MiniCPM

3、ファーウェイと復旦大学が共同開発、3Dデジタルヒューマンの新フレームワークEmoTalk3D：喜怒哀楽の表情がリアルで豊か

南京大学、復旦大学、ファーウェイノアの方舟研究所の研究チームが共同でEmoTalk3Dフレームワークを開発し、多視点の一貫性と感情表現力の不足という課題を解決しました。音声から形状、外観へのマッピングフレームワークを構築し、EmoTalk3Dデータセットを構築することで、制御可能な感情を持つデジタルヒューマンを合成する新しい手法を提案しました。

【AiBase要約:】
💥 制御可能な感情を持つデジタルヒューマンを合成する新しい手法を提案。
🎯 「音声から形状、外観へ」のマッピングフレームワークを構築。
👀 EmoTalk3Dデータセットを構築し、公開準備中。
詳細リンク:https://nju-3dv.github.io/projects/EmoTalk3D/

4、阿里雲PAI Artlabがオリンピックのハイライトポスターワークフローを追加

阿里雲PAI ArtlabのComfyUIに、オリンピックのハイライトポスターのワークフローが追加されました。ユーザーは3ステップで、パーソナライズされたオリンピックをテーマにしたポスターを生成できます。阿里雲の公式ウェブサイトで登録して実名認証を完了し、PAI ArtLabプラットフォームにアクセスして無料リソースを受け取り、ComfyUIでオリンピックワークフローを読み込むことで、より多くのポスターデザインのロックを解除できます。

【AiBase要約:】
🌟 ユーザーは3ステップで、パーソナライズされたオリンピックをテーマにしたポスターを生成できます。
🚀 画像データのアップロード、AIモデルの読み込みと微調整、生成コンテンツのプロンプトの調整、ワークフローの保存とJSONファイルの生成が必要です。
💡 生成されたJSONファイルを使用して、他のユーザーが簡単にポスターを生成し、共有と交流を実現できます。
製品入口：https://x.sm.cn/5hd9PfM
詳細はこちら：https://www.aibase.com/zh/news/10857

5、テンセントのYuanbao AIアシスタントが長文精読機能をリリース、最大50万文字の入力に対応

テンセントのYuanbao AIアシスタントは、長文精読機能をリリースしました。ユーザーは専門的なコンテンツをアップロードすると、深度読み込みモードに入ることができ、主要なコンテンツの概要、モジュール化された解析、要約表などが提供され、ユーザーは重要な情報を迅速に理解できます。テンセントのHunYuan大規模言語モデルの処理能力を活用し、最大で約50万文字の入力をサポートし、図表入りコンテンツを生成します。ユーザーは論文の質を評価したり、専門的な図表を確認したり、オフラインで精読コンテンツを見直したりできます。テンセントのHunYuan大規模言語モデルは全面的にオープンソース化されており、優れた多様なモーダル理解能力を示しています。

【AiBase要約:】
📚 長文精読機能は深度読み込みモードを提供し、主要なコンテンツの概要、モジュール化された解析、要約表などを提供します。
🔍 テンセントのHunYuan大規模言語モデルの処理能力を活用し、最大で約50万文字の入力をサポートし、図表入りコンテンツを生成します。
💡 ユーザーは論文の質を評価したり、専門的な図表を確認したり、オフラインで精読コンテンツを見直したりできます。

6、月面の暗面Kimiオープンプラットフォーム：コンテキストキャッシュのストレージ費用が50％削減

Kimiオープンプラットフォームは、コンテキストキャッシュのストレージ費用を50％削減すると発表し、ユーザーにより経済的なサービスを提供します。コンテキストキャッシュは効率的なデータ管理技術であり、システムの効率向上と時間資源の節約に役立ちます。

【AiBase要約:】
🔑 コンテキストキャッシュのストレージ費用が50％削減され、10元/1Mトークン/分から5元/1Mトークン/分に。
⏳ コンテキストキャッシュは効率的なデータ管理技術であり、頻繁に要求される可能性のある大量のデータを事前に保存することで、システムの効率を向上させることができます。
💡 コンテキストキャッシュは、頻繁な要求や、大量の初期コンテキストを繰り返し参照するシナリオに特に適しており、長文モデルのコストを削減し、効率を向上させることができます。

7、Figure社が超強力なエンティティChatGPTロボットFigure02を発表

Figure社が最近発表したFigure02ロボットは、AI技術の大きなブレークスルーを示しており、人と機械のインタラクションが新たな時代に入ったことを示唆しています。このロボットはハードウェアとソフトウェアの両面で全面的な革新が行われ、柔軟な手操作、強力な対話視覚能力、3倍の計算推論能力を備えています。

【AiBase要約:】
🤖 Figure02ロボットはAI技術の大きなブレークスルーであり、人と機械のインタラクションの新たな時代を示唆しています。
🔊 音声対話機能、高度なビジョンシステム、革新的なハンドデザインがその主要な特徴です。
💡 Figure02はOpenAIの大規模言語モデルを統合し、音声指示と視覚情報を組み合わせて深い推論を行います。

8、AIデザインが義烏製造を支援：AIデザインのウェアラブルアーマーがパリ五輪で話題に

この記事では、AIデザインで義烏で生産されたウェアラブルアーマーがパリの街頭で話題になった事例を紹介し、義烏の製造業に新たな活力が注入された様子を示しています。AI技術でデザインされたウェアラブルアーマー製品がパリで大きな話題となり、義烏の革新力と市場への鋭い感性を証明しました。

【AiBase要約:】
🔥 AIデザインのウェアラブルアーマーがパリで話題となり、ファッション界の新寵となり、義烏製造に活力を注入しました。
💡 LumiNailは、簡単で強力な、初心者向けAIウェアラブルアーマーデザイン製品であり、デザイン効率を向上させ、創造的な活力を注入します。
🚀 義烏の事業者はAI支援生産を試み始めており、1万戸以上の事業者がAI技術を使用して経営を最適化し、新たな発展の方向性を切り開いています。

9、上海人工知能研究所が書生・浦語シリーズモデルの新バージョンInternLM2.5を発表

上海人工知能研究所は、2024年7月4日のWAIC科学最前線メインフォーラムで、書生・浦語シリーズモデルの新バージョンInternLM2.5を発表しました。このバージョンでは、複雑な状況下での推論能力が全面的に強化され、超長文コンテキストとインターネット検索による情報の自主的な統合をサポートしています。モデルパラメーターのバージョンには18億、70億、200億があり、さまざまなアプリケーションシナリオと開発者のニーズに対応しています。

【AiBase要約:】
⚙️ InternLM2.5は、18億、70億、200億のパラメーターを持つ3種類のモデルを発表し、さまざまなアプリケーションシナリオのニーズに対応しています。
🔍 InternLM2.5は複数のデータ合成技術を改良し、モデルの推論能力を大幅に向上させ、特に数学評価セットMATHでの精度は64.7％に達しています。
🛠️ InternLM2.5は、XTuner微調整フレームワーク、LMDeploy推論フレームワーク、その他のコミュニティフレームワークなど、下流の推論と微調整フレームワークとのシームレスな接続を実現しています。
詳細リンク:https://internlm.intern-ai.org.cn

10、イスラエルの企業が速度を50％向上させたオープンソース音声認識モデルWhisper Medusaを発表

aiOla社が発表したWhisper Medusaオープンソース音声認識モデルは、処理速度において大きなブレークスルーを達成し、OpenAIのWhisperモデルよりも50％高速であり、業界で大きな注目を集めています。このイノベーションは、音声認識技術の発展に大きな影響を与え、人工知能の音声認識分野における応用に新たな可能性を開きます。

【AiBase要約:】
⚙️ Whisper Medusaの中核となるイノベーションは、マルチヘッドアテンションメカニズムの導入であり、モデルは一度に10個のトークンを予測できるようになり、音声予測速度と生成実行時間を大幅に向上させました。
🔍 Whisper Medusaは、速度を向上させながらパフォーマンスを犠牲にすることはありません。メインシステムはWhisperをベースに構築されており、モデルの精度と安定性を確保しています。
🎓 aiOlaは、弱教師あり機械学習手法を使用してWhisper Medusaをトレーニングし、モデルの学習効率と精度をさらに向上させています。
詳細リンク:https://github.com/aiola-lab/whisper-medusa

11、新しいトラフィックパスワード？AIビデオの失敗が意外な人気に：奇妙な映像が2000万回視聴される

AI生成コンテンツは私たちの生活に浸透していますが、最近、AIの失敗ビデオがインターネットで話題となり、約2000万回視聴され、人々がAI技術に対して抱く複雑な感情を浮き彫りにしました。このビデオは、AI画像生成技術の制御不能な側面を示しており、ネットユーザーの強い反応を引き起こしました。大衆のAI技術に対する態度は微妙な変化を見せており、ユーモアのセンスとオープンな姿勢を保つ必要があります。