【AI日報】へようこそ!ここは、あなたの人工知能の世界を探求するための毎日のガイドです。毎日、AI分野のホットなコンテンツを提供し、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用を理解するお手伝いをします。
最新のAI製品詳細はこちら:https://top.aibase.com/
1、智譜AIがAutoGLMインテリジェントエージェントを発表:指示を入力するだけで人間のスマホ操作をシミュレート
智譜テクノロジーチームは最近、GLMテクノロジーチームの研究成果に基づいた新製品AutoGLMを発表しました。これは、人間のスマホ操作をシミュレートして様々なタスクを実行できるインテリジェントエージェントです。AutoGLMの発表は、「スマホ操作」分野における人工知能の進歩を示しており、AIの応用を人々の日常生活により近づけています。
【AiBase要約:】
🚀 AutoGLMは、智譜テクノロジーチームがGLM技術研究成果に基づいて開発したインテリジェントエージェントで、人間のスマホ操作をシミュレートしてタスクを実行できます。
💡 AutoGLMは、微信、淘宝、携程、12306、美団などのプラットフォームで様々なタスクを実行でき、複雑なワークフローの構築は不要です。
🔧 AutoGLM技術は、独自開発のインテリジェントエージェントの解耦合中間インターフェースと自己進化オンラインコース強化学習フレームワークに基づいており、タスク計画とアクション実行における課題を解決しています。
詳細リンク:https://xiao9905.github.io/AutoGLM
2、敏神がFlux版ic-lightモデルを大幅に更新:16チャンネルVAEで性能を突破、驚異的なディテール保持能力!
Fluxアーキテクチャに基づくIC-Light V2が登場し、画期的な画像処理のブレークスルーをもたらしました。16チャンネルVAEと高解像度特性により、ディテール保持と精度において新たな高みに達し、優れた適応性を示しています。
【AiBase要約:】
✨ 画期的な画像処理のブレークスルー:IC-Light V2は、16チャンネルVAEと高解像度特性を採用し、性能を突破し、驚異的なディテール保持能力を実現しています。
🌟 多様なシーンへの適応性:IC-Light V2は万能型のツールで、油絵やアニメ風の画像も処理でき、元の精髄を維持しながら優れた表現力を発揮します。
💡 強力な機能サポート:IC-Light V2は、低光量処理やシャドウ調整機能を備えており、写真の後処理や専門的な画像処理に強力なサポートを提供します。
詳細リンク:https://github.com/lllyasviel/IC-Light/discussions/98
3、声優はもう不要?バイトダンスのPersonaTalkでAIが正確な吹き替えを実現、表情の細部まで完璧に再現!
バイトダンスが新たに開発したPersonaTalk AIモデルは、ビデオの正確な吹き替えを実現し、音声と口の動きが完璧に同期し、人物本来の特徴を維持することで、ビデオをより自然でリアルなものにします。このモデルは、アテンションメカニズムの2段階フレームワークを採用しており、高度にパーソナライズされた吹き替え効果と優れた視覚的な品質を備えています。ただし、非人間のアバターや大幅な顔の姿勢の処理には依然として限界があります。バイトダンスは、技術の悪用を防ぐために、コアモデルへのアクセスを制限する予定です。
【AiBase要約:】
🔊 音声と口の動きが同期:PersonaTalkは、ビデオ内の人物の口の動きと新しい音声の口型が完全に一致するようにし、完璧な同期を実現します。
👤 人物の特徴を維持:PersonaTalkは、話し方、顔の形、表情など、人物本来の特徴を維持し、ビデオのリアル感を保ちます。
🤖 様々な人物に対応:PersonaTalkは、大量のデータで個々のキャラクターを個別にトレーニングする必要がなく、多様なシーンに対応し、柔軟性と利便性を提供します。
詳細リンク:https://grisoon.github.io/PersonaTalk/
4、Metaが長尺ビデオLLMプロジェクトLongVUをオープンソース化:重複フレームをフィルタリングし、長尺ビデオの内容を効率的に正確に理解
Meta AIチームは、長尺ビデオの言語理解能力を高めることを目的とした、新しい時空間適応圧縮メカニズムであるLongVUを発表しました。この技術は、DINOv2の特徴を使用して冗長なフレームを除去し、クロスモーダルクエリを通じて特徴の選択的圧縮を実現し、様々なビデオ理解ベンチマークテストで優れた性能を示し、特に長尺ビデオ理解タスクでは他の手法を凌駕しています。長尺ビデオコンテンツの急速な増加に対応するには、より効率的な処理方法が必要であり、LongVUの発表は、マルチモーダル理解分野に新たな可能性をもたらします。
【AiBase要約:】
📽️ LongVUは、長尺ビデオの言語理解能力を高めることを目的とした、新しい時空間適応圧縮メカニズムです。
🔍 この技術は、DINOv2の特徴を使用して冗長なフレームを除去し、クロスモーダルクエリを通じて特徴の選択的圧縮を実現します。
🚀 LongVUは、様々なビデオ理解ベンチマークテストで優れた性能を示し、特に長尺ビデオ理解タスクでは他の手法を凌駕しています。
詳細リンク:https://vision-cair.github.io/LongVU/
5、AIラテが登場!Google Gemini AIがサポート、しかしレシピはちょっとダークな予感
フィリピン・マニラで、CommuneとGoogleフィリピンは、伝統的なお祭りの料理の味を融合させたAI支援のビビンカラテを発表し、現代の飲料の革新の可能性を示しました。この革新的な飲み物は、人々に濃厚なお祭りの雰囲気を感じさせ、伝統的な料理への郷愁を呼び起こし、コーヒー愛好家の注目を集めています。
【AiBase要約:】
☕️ エスプレッソ、スチームミルク、塩漬け卵などの地元の食材を融合した飲み物で、本格的な味を演出しています。
🌿 AI技術とバリスタの手仕事が完璧に融合し、現代の飲料の革新の可能性を示しています。
🤖 Communeは、文化的な要素を製品にどのように取り入れるかを示し、季節限定製品におけるブランドの創造性を強調し、飲食におけるAIの可能性を示しています。
6、手動アノテーションの呪縛から解放!趣丸科技のMaskGCTモデル、10万時間のデータでAIに自己学習による音声合成を可能に
趣丸科技と香港中文大学は、MaskGCTという新しい音声合成(TTS)モデルを発表しました。これは従来のTTSモデルの概念を完全に覆し、自己学習を実現し、手動アノテーションに依存しなくなりました。このモデルは、マスク付き生成型エンコーダデコーダTransformerアーキテクチャを採用しており、AIが音声の長さを柔軟に制御し、高品質で、類似性とリズムのある音声合成を実現しています。
【AiBase要約:】
🔥 手動アノテーションは一切不要で、10万時間の未アノテーション音声データでトレーニングし、自己学習を実現しています。
💡 Transformerアーキテクチャを採用し、音声を意味的特徴に変換してから音響的特徴を予測することで、高品質の音声合成を実現しています。
🚀 音声の長さを柔軟に制御でき、様々な話者のスタイルを模倣したり、言語を跨いでの音声翻訳を行うこともでき、人間の声に匹敵するレベルを実現しています。
詳細リンク:https://huggingface.co/spaces/amphion/maskgct
7、MetaがNotebookLMのオープンソース版「NotebookLlama」を発表
Metaは最近、NotebookLlamaという新しいツールを発表しました。これは、Google NotebookLMで人気の高い生成ポッドキャスト機能のオープンソース版です。NotebookLlamaは、ユーザーがアップロードしたファイルをインタラクティブなポッドキャストスタイルのサマリーに変換できますが、現在のところ生成される音声の品質は低く、機械的な音や音声の重なりなどの問題があります。AI生成のポッドキャストには依然として虚偽情報が含まれる可能性があり、これはすべてのAIプロジェクトに共通する課題です。
【AiBase要約:】
🎧 NotebookLlamaは、Metaが発表したオープンソースのポッドキャスト生成ツールで、Llamaモデルを使用してユーザーがアップロードしたファイルを処理します。
🤖 このツールはテキストをポッドキャストスタイルのサマリーに変換しますが、音声の品質は低く、機械的な音や音声の重なりなどの問題があります。
📉 AI生成のポッドキャストには依然として虚偽情報が含まれる可能性があり、これはAIプロジェクトに共通する課題です。
詳細リンク:https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama
8、AI音声転写ツールWhisperに深刻な「幻覚」問題が発覚
最近、OpenAIのWhisper技術を駆使したAI転写ツールが医療業界で広く普及していますが、研究によると、約1%の転写で「幻覚」現象が発生し、内容をでっち上げる場合もあることが分かりました。OpenAIは、特に幻覚現象の減少に向けて、ツールの性能向上に努めていると述べています。
【AiBase要約:】
🌟 Whisper転写ツールは医療業界で広く使用されており、700万件以上の医療に関する会話が記録されています。
⚠️ 研究によると、Whisperは約1%の転写で「幻覚」が発生し、時には意味のない内容が生成されることがあります。
🔍 OpenAIは、ツールの性能向上、特に幻覚現象の減少に向けて継続的に努力していると述べています。
9、GoogleがAIツール「Project Jarvis」を開発、パソコンとブラウザを簡単に操作!
Googleが最近開発したAIツール「Project Jarvis」は、人々とパソコンのインタラクションの仕方を革新し、AIアプリケーションをよりシンプルで便利なものにします。ユーザーは簡単なコマンドを入力するだけで、AIが様々なオンラインタスクを自動的に実行し、使用のハードルを下げます。しかし、プライバシーとセキュリティの問題にも注意が必要であり、Googleはユーザーデータの安全を守るためのセキュリティ対策を強化する必要があります。
【AiBase要約:】
🤖 Googleが開発した「Project Jarvis」AIツールは、ブラウザとパソコンを制御し、操作手順を簡素化します。
🖥️ ユーザーは簡単なコマンドで、AIがオンラインタスクを自動的に実行し、作業効率を向上させます。
🔒 Googleはプライバシーとセキュリティ保護を強化し、潜在的なリスクに対処するための包括的な対策を構築する必要があります。
10、Appleの新AIシステムFerret-UI2がUIインタラクション体験を刷新
Appleが発表した次世代人工知能システムFerret-UI2は、UI要素の認識において大きな進歩を遂げ、卓越した性能を示しています。このシステムの最大の特徴は、ユーザーの意図をスマートに理解し、自然言語によるコマンド操作を実現することです。技術アーキテクチャは複数のプラットフォームに適応し、スマートアルゴリズムで画像解像度を調整することで、計算効率を確保しています。競争の激しいUIインタラクションAI分野において、AppleのCAMPHORフレームワークは、システムの複雑なタスク処理能力を高め、スマートな人間と機械のインタラクションの未来を描いています。
【AiBase要約:】
🚀 Ferret-UI2はUI要素認識分野で大きな進歩を遂げ、テストスコアはGPT-4Vを上回り、卓越した性能を示しています。
🔍 Ferret-UI2は、ユーザーの意図をスマートに理解し、自然言語コマンドでインターフェースを操作することで、ユーザーエクスペリエンスを向上させています。
⚙️ Ferret-UI2の技術アーキテクチャは複数のプラットフォームに適応し、スマートアルゴリズムで画像解像度を調整することで、計算効率を確保しています。
11、Cohereが初の画像とテキストの統合検索モデルEmbed3を発表