【AI日報】へようこそ!ここは、あなたの人工知能の世界を探求するための毎日のガイドです。毎日、AI分野のホットなコンテンツを提供し、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用を理解するお手伝いをします。

最新のAI製品詳細はこちらhttps://top.aibase.com/

1、商湯科技がVimiビデオ生成大規模モデル、C向けアプリ「Vimiカメラ」のクローズドベータテストを開始

商湯科技は、2024年世界人工知能大会(WAIC)でVimiビデオ生成大規模モデルを発表しました。このモデルは、正確な表情と体の動きを制御でき、複数の駆動方法に対応し、安定性が高く、一貫性のあるビデオコンテンツを生成できます。「Vimiカメラ」は、C向けアプリとして、多くの女性ユーザーのエンターテイメント制作ニーズを満たし、多様な生成スタイルとパーソナライズされた創作をサポートします。

image.png

【AiBase要約:】

👩‍💻 Vimiモデルは商湯科技の高度な大規模モデル技術を利用し、目標動作と一致した人物ビデオを生成でき、長年の経験に基づく顔認識技術と正確な制御能力を備えています。

🎥 Vimiは1分以上の単一ショットの人物ビデオを生成でき、画質は時間経過による劣化がなく、環境シーンの調整やリアルな視覚効果のシミュレーションに対応しています。

📸 Vimiカメラは、ユーザーがアップロードした高解像度の人物画像からデジタルアバターと写真ビデオを生成でき、多様な生成スタイルと面白い人物絵文字を提供します。

2、期間限定無料!テンセント智影ミニプログラムに「AIビデオ」機能が登場

智影ミニプログラムは「AIビデオ」という新機能を発表しました。この機能を使えば、通常のビデオをワンクリックでスタイリッシュなビデオに変換できます。特にアニメスタイルの変換に優れており、ビデオの魅力を高めます。この機能は現在期間限定で無料提供されており、ユーザーのビデオの美しさや面白さを向上させることを目的としています。

image.png

【AiBase要約:】

🎥 ワンクリック操作:簡単に操作でき、初心者でもプロレベルのスタイリッシュなビデオを作成できます。

🎨 多様なスタイルテンプレート:多様なテンプレートを提供し、ビデオの美しさやストーリー性を高めます。

🚀 ビデオの拡散力の向上:スタイリッシュなビデオは共有しやすく、より多くの視聴者の注目を集めます。

3、UltraPixel:超高解像度画像生成ツール

UltraPixelは超高解像度画像を生成できる画期的なツールで、デザイナーやクリエイターにとって朗報です。Stable cascadeによるトレーニングと微調整により、1Kから6Kの解像度の画像を直接生成できます。その技術には、陰的ニューラル表現とスケール感知正規化層が含まれており、高度なディテールとリアルさを維持します。同時に、最小限の空間で効率的に処理し、パラメーター利用率は97%に達し、トレーニングと推論の効率を向上させます。

QQ截图20240709110659.jpg

【AiBase要約:】

🔍 UltraPixelは1Kから6Kの解像度の画像を直接生成でき、毛穴まで見えるほどの細部まで鮮明に描写します。

🚀 Stable cascadeによるトレーニングと微調整に基づいており、まもなくオープンソース化され、より多くの人がこのテクノロジーの魅力を体験できるようになります。

💡 低解像度画像の豊富な意味情報を活用して高解像度画像の生成をガイドすることで、複雑さを軽減し、高度なディテールとリアルさを維持します。

詳細リンク:https://top.aibase.com/tool/ultrapixel

4、Groqが超高速LLMエンジンを発表、わずか4ヶ月で28万人の開発者を獲得

Groq社は最近、超高速LLMエンジンを発表し、大きな注目を集めています。このエンジンは毎秒1256.54個のトークンを処理し、GPUをはるかに上回る速度を示しており、LLMチャットボットの速度と柔軟性を示しています。Groqは無料のLLMワークロードサービスを提供しており、すでに28万人以上の開発者が利用しています。CEOのロス氏は、来年までに世界の推論計算の半分がGroqのチップ上で実行されると予想しています。

image.png

【AiBase要約:】

🚀 GroqのLLMエンジンは毎秒1256.54個のトークンを処理し、GPUをはるかに上回る速度です。

🤖 GroqのエンジンはLLMチャットボットの速度と柔軟性を示しており、開発者と非開発者の両方の注目を集めています。

💻 Groqは無料のLLMワークロードサービスを提供しており、すでに28万人以上の開発者が利用しており、世界の推論計算の半分が同社のチップ上で実行されると予想されています。

5、無人運転チームが映画レベルのビジュアルAIエフェクト「Odyssey」を発表

無人運転チームがハリウッドに進出し、画期的な映画レベルのビジュアルAIエフェクト「Odyssey」を発表し、映画、テレビ番組、ビデオゲームの制作方法を一変させました。Odysseyはハリウッドレベルのストーリーシーンを生成し、ビデオAIの課題を克服し、視覚的物語の中核を完全に制御できます。ピクサーからインスピレーションを得ており、AIで映画作品を制作し、AIの制御可能性の問題を解決することを目標としています。

【AiBase要約:】

🎬 Odysseyは視覚的物語の中核を完全に制御し、高品質のシーン要素と側面を生成します。

🌟 より強力な生成モデルを提案し、4つのモデルをトレーニングして、シーンの細部を精密に設定します。

🚗 自動運転車開発チームと密接に関連しており、創業者は自動運転分野で豊富な経験を持っています。

詳細リンク:https://top.aibase.com/tool/odyssey

6、OpenAIの内部フォーラムがハッキングされ、機密情報が流出したとの報道

最近、著名な人工知能企業OpenAIの内部フォーラムがハッキングされ、セキュリティ問題を引き起こし、従業員はセキュリティホールが悪用される可能性を懸念しています。同社は、データのセキュリティを向上させるために、更新された暗号化されたチャットログをリリースし、セキュリティとセキュリティ委員会を設立してセキュリティ対策を強化しました。AIがもたらす課題へのグローバルな協力がこれまで以上に重要になっています。

【AiBase要約:】

💡 OpenAIの内部フォーラムがハッキングされ、同社のセキュリティが疑問視され、従業員はセキュリティホールが悪用される可能性を懸念しています。

💡 ChatGPT macOSアプリケーションにセキュリティホールが見つかり、同社はデータのセキュリティを向上させるために、更新された暗号化されたチャットログをリリースしました。

💡 OpenAIはロシアとイスラエルからの秘密の影響工作を阻止し、セキュリティとセキュリティ委員会を設立してセキュリティ対策を強化しました。

7、Meta AIがモバイルデバイス向けにコンパクトな言語モデルMobileLLMを開発

Meta AIの研究チームは、スマートフォンなどのリソースが限られたデバイス向けに設計された効率的な言語モデルであるMobileLLMを発表しました。この研究は、効率的なAIモデルの規模に関する仮定に挑戦し、2.7%から4.3%のパフォーマンス向上を実現しました。MobileLLMの開発は、より効率的なAIモデルに対するニーズに対応しており、まだ一般公開されていませんが、事前トレーニングコードはオープンソース化されています。

image.png

【AiBase要約:】

🔑 MobileLLMはリソースが限られたデバイス向けに設計された効率的な言語モデルであり、大規模モデルの必要性に疑問を投げかけています。

🚀 MobileLLMのイノベーションには、モデルの深さを優先すること、埋め込み共有とグループ化されたクエリ注意を利用すること、直接的なブロック重み共有技術を採用することが含まれます。

💡 MobileLLMはベンチマークタスクで優れたパフォーマンスを示しており、3.5億パラメーターのバージョンは、特定のタスクで70億パラメーターのモデルと同等の性能を発揮します。

8、PoeソーシャルプラットフォームがPreviews機能を発表

Poeソーシャルプラットフォームは、Previewsという革新的な機能を発表し、ユーザーに前例のないインタラクティブな体験を提供し、AIソーシャルインタラクションが新たな時代に入ったことを示しています。Previews機能は直感的で使いやすく、ユーザーはチャットインターフェースでAIが生成したWebアプリケーションをリアルタイムで確認し、即座にインタラクトできます。これにより、ユーザーとAI間のインタラクションの質が向上します。

image.png

【AiBase要約:】

🚀 AIソーシャルインタラクションが新たな時代に入り、Previews機能によりユーザーはAIが生成したWebアプリケーションを直感的に操作できます。

💡 Previews機能は使いやすく直感的で、ユーザーはAIと簡単に自然に即座にインタラクトできます。

💻 大規模言語モデルに対応しており、一般ユーザーが高度なAIプログラミングアプリケーションに触れる機会を提供し、Poeプラットフォームの魅力を高めます。

9、XinsirがControlnet++モデルをオープンソース化、Openpose、Cannyなど10種類以上の条件制御に対応

Xinsirが最近発表したControlnet++オープンソースモデルは、複数の制御条件を備えており、高品質な画像を生成でき、特に細かい編集が必要なデザイナーに適しています。このモデルはControlNetアーキテクチャに基づいており、新しいモジュールにより10種類以上の異なる制御タイプに対応し、複数の制御条件下での画像生成例を提供しています。現在、Web UIやComfyuiでは使用できませんが、その多機能性と高品質な出力により、テキストから画像への生成分野における重要なブレークスルーとなっています。

image.png

【AiBase要約:】

🔧 Controlnet++はOpenposeやCannyなどの入力をサポートし、モデルの頻繁な変更を回避します。

🧩 モデルの設計の特徴として、複数の制御があり、同じネットワークパラメーターを使用して異なる条件での画像生成を実現します。

🚀 Controlnet++はSDXL実験で優れたパフォーマンスを示しており、複数の制御条件下での画像生成例を提供しています。

詳細リンク:https://top.aibase.com/tool/controlnet-

10、アリペイの医療大規模モデルが登場、中国語と英語の試験でGPT-4を上回る

アリペイの医療大規模モデルは、中国語と英語の試験でGPT-4を上回る成績を収め、江蘇省、浙江省、上海市の主要病院で導入されています。このモデルはマルチモーダル機能を備え、90%以上の精度で、インテリジェントなQ&A、病歴の構造化、検索などのサービスを提供できます。アリペイは複数の機関と協力してAI医療の共同構築計画を開始し、医療の効率とデータの安全性の向上を目指しています。

【AiBase要約:】

🏥 アリペイの医療大規模モデルは、中国語と英語の試験でGPT-4を上回る成績を収め、主要病院で導入されています。

💡 このモデルはマルチモーダル機能を備え、90%以上の精度で、インテリジェントなQ&A、病歴の構造化、検索などのサービスを提供できます。

🔒 アリペイは、技術の信頼性とデータのプライバシーの安全性を確保するために、複数の対策を講じており、人工知能の規模拡大を推進しています。