AIデイリーニュース：快手、「可灵AI」独立アプリをリリース；百度、AIスマートグラスを発表；智谱AI、CogVideoX v1.5をオープンソース化し「新清影」をローンチ；Krea AI、Loraトレーニング機能をリリース

【AI日報】へようこそ！ここは、あなたが毎日人工知能の世界を探求するためのガイドです。毎日、AI分野のホットな話題をお届けし、開発者に焦点を当て、技術トレンドの把握や革新的なAI製品の応用に関する理解を深めるお手伝いをします。

最新のAI製品詳細はこちら:https://top.aibase.com/

1、快手、「可灵AI」独立アプリをリリース　モバイルAI創作への取り組み強化

快手は最近、「可灵AI」という独立したアプリをリリースし、モバイル端末でのAI創作分野の拡大を目指しています。このアプリは、快手独自開発の可灵大規模モデルと可图大規模モデルに基づいており、動画や画像の生成と編集機能を提供します。ウェブ版と比べると機能は劣りますが、既に360万人のユーザーを獲得し、3700万本以上の動画と1億枚以上の画像が作成されています。抖音の「即夢AI」アプリと競合関係にあります。

【AiBase要約:】
🚀 快手、「可灵AI」独立アプリをリリースし、モバイル端末でのAI創作への取り組みを強化。
💡 「可灵AI」アプリは独自開発の大規模モデルに基づき、動画や画像の生成と編集機能を提供。
💪 既に360万人のユーザーを獲得し、3700万本以上の動画と1億枚以上の画像が作成。抖音の「即夢AI」アプリと競合。

2、智譜AI、最新版動画モデルCogVideoX v1.5をオープンソース化

智譜テクノロジーチームは、最新の動画生成モデルCogVideoX v1.5をリリースし、オープンソース化しました。このバージョンは動画生成能力が大幅に向上しており、5/10秒の動画、768P解像度、16フレームの生成に対応しています。新しい清影プラットフォームが上线し、CogSound音響モデルと連携することで、超高画質4K動画の生成が可能になりました。データ処理とアルゴリズムの革新により、動画の品質と一貫性が確保されています。

【AiBase要約:】
🚀 CogVideoX v1.5がオープンソース化。5/10秒の動画、768P解像度、16フレームの生成に対応。
🎬 新しい清影プラットフォームが上线し、CogSound音響モデルと連携して超高画質4K動画の生成が可能に。
🔬 データ処理とアルゴリズムの革新により、生成動画の品質と一貫性が確保。
詳細リンク:https://github.com/thudm/cogvideo

3、百度、文心モデル搭載のAIアシスタント内蔵スマートグラスを発表へとの報道

百度は、小度AIアシスタントを内蔵したスマートグラスを発売する計画で、2024年度百度世界大会で発表される予定です。このグラスは革新的な機能を備えており、全く新しいスマート体験を提供します。

【AiBase要約:】
🌟 グラスにはカメラが搭載され、写真と動画の撮影が可能。
📷 Ernieモデルに基づいた音声インタラクションに対応し、ユーザー体験が向上。
🗣️ 百度スマートグラスは、よりパーソナルで中国のユーザーニーズに合ったソリューションを提供。

4、ヘビーユーザー歓喜！Krea AIがLoraトレーニング機能を上线

Krea AIはLoraトレーニング機能をリリースし、ユーザーが個性的なキャラクター、スタイル、製品などをトレーニングするためのサービスを提供します。ユーザーは複数の画像をアップロードするだけでトレーニングを開始でき、インターフェースはシンプルで使いやすいです。トレーニングパラメーターの設定も簡単で、トレーニング効果も良好で、初心者ユーザーにも優しい設計です。会員価格は月額10ドルで、商用利用も可能です。

【AiBase要約:】
🔥 Krea AIがLoraトレーニング機能をリリース。ユーザーは個性的なキャラクター、スタイル、製品などをカスタマイズ可能。
💡 シンプルなインターフェースで、画像をアップロードして基本パラメーターを設定するだけでトレーニング可能。
💰 会員価格は月額10ドル。720枚のFLux画像と36000枚のリアルタイム画像を生成可能で、商用利用も可能。
詳細リンク:https://www.krea.ai/train

5、可灵、カスタムモデル機能をリリース　AI動画生成におけるキャラクターの一貫性問題を克服

可灵が新しくリリースしたカスタムモデル機能は、AI動画生成分野に大きなブレークスルーをもたらし、キャラクターの一貫性という技術的な課題を解決しました。この機能により、クリエイターは複数の動画クリップをアップロードしてトレーニングを行うことができ、可灵自身によって生成されたAI動画を使用することも可能です。これにより、柔軟性が大幅に向上します。トレーニング後、システムはキャラクターの一貫性を維持した動画コンテンツを生成し、多彩な創作の可能性を示しています。

【AiBase要約:】
🔑 クリエイターは複数の動画クリップをアップロードしてモデルのトレーニングが可能。可灵自身によって生成されたAI動画の使用も可能で、柔軟性が向上。
🚀 トレーニング後、システムはキャラクターの一貫性を維持した動画コンテンツを生成。360度回転表示や複雑なシーンにおける安定した外観特性を示す。
💡 KLING1.5バージョンでは1080pの高画質動画出力が可能で、様々なフォーマットを選択可能。アクションブラシツールにより、動画制作の精度と柔軟性が向上。

6、小さくてもパワフル！ポケットサイズのビジュアルAIモデルmoondream2、スマホでも動作可能

Moondreamがリリースしたmoondream2は、性能に優れたコンパクトなビジュアル言語モデルで、パラメーター数はわずか16億個。スマートフォンなどの小型デバイスでも動作します。このモデルは強力なテキストと画像処理能力を備えており、様々なベンチマークテストで優れた成績を収めています。Moondreamチームはモデルの性能を継続的に更新しており、450万ドルの資金調達にも成功しています。CEOは豊富な経験を持っています。

【AiBase要約:】
🌟 Moondreamがmoondream2をリリース。パラメーター数はわずか1.6億個で、スマートフォンなどの小型デバイスでも動作可能。
💰 Moondreamは450万ドルの資金調達に成功。CEOはアマゾン勤務経験あり。チームはモデル性能の継続的な更新を実施。
📈 moondream2は強力なテキストと画像処理能力を備え、質問への回答、OCR、物体カウント、分類が可能。ベンチマークテストで優れた成績。
詳細リンク:https://huggingface.co/vikhyatk/moondream2

7、小米、大規模モデル搭載の小愛のアップグレードを発表：「音楽Q&A」機能を複数デバイスでサポート

小米は、大規模モデル搭載の小愛の音声アシスタント機能がアップグレードされ、「音楽Q&A」機能が追加されたことを発表しました。ユーザーは複数のデバイスでこの機能を利用できます。この機能は人工知能能力の向上に基づいており、ユーザーは楽曲情報検索や専門的な音楽知識の質問に対応できます。小愛同学は今年7月にメジャーバージョンアップを行い、自然言語による質問応答とスマートアシスタント機能が全面的に向上し、ユーザー体験が向上しました。

【AiBase要約:】
🎵 小米小愛同学に「音楽Q&A」機能が追加。楽曲情報検索と専門的な音楽知識への回答が可能に。
📱 複数デバイスで利用可能。小愛同学を最新バージョンにアップデートする必要があります。
🚗 これまでのアップデートで、自然言語による質問応答とスマートアシスタントの様々な機能が向上し、ユーザー体験が向上。

8、Mistral AI、多言語対応のコンテンツ審査APIをリリース、OpenAIに挑戦

Mistral AIは、業界のリーダーと競争することを目指し、AIの安全性とコンテンツのフィルタリング問題に対処する新しいコンテンツ審査APIをリリースしました。このAPIはMinistral8Bモデルに基づいており、様々な有害なコンテンツを検出でき、多言語に対応しており、既にLe Chatプラットフォームで利用されています。Mistralは複数の企業と提携しており、その成熟した技術とヨーロッパの視点が示されています。

【AiBase要約:】
🌍 多言語対応：11言語に対応し、わいせつなコンテンツ、ヘイトスピーチなどの有害なコンテンツを検出。
🔗 企業との連携：Le Chatプラットフォームで利用され、Microsoft Azure、Qualcommなどとの連携関係を構築。
🔒 技術的優位性：会話のコンテキストに基づいて、潜在的な有害コンテンツの検出能力を向上。
詳細リンク:https://docs.mistral.ai/capabilities/guardrailing/

9、AI「電子舌」が登場！食べ物の味を識別し、食品の鮮度を簡単に検査

科学者たちは、「電子舌」と呼ばれる新しいデバイスを開発することに成功しました。これは人工知能技術を利用して、様々なコーヒーブレンドを正確に区別し、食品や飲料の鮮度を検出することで、食品検査と品質管理に新たなソリューションを提供します。電子舌は人間の味覚を模倣した技術で、正確性と作業効率を向上させ、フレーバー開発の加速と製品品質の確保に役立ちます。食品の鮮度を監視する機能を備えており、消費者の健康と事業者の品質管理を保護します。将来的な応用範囲は広く、医療や環境モニタリングなどの様々な分野への展開が期待されます。

【AiBase要約:】
🌟 電子舌は人工知能技術を利用して、様々なコーヒーブレンドを正確に区別。
🍽️ 食品や飲料の鮮度を検出し、腐敗を防ぐ。
🔬 将来的には、電子舌は医療や環境モニタリングなどの様々な分野で応用される可能性がある。
詳細リンク:https://www.nature.com/articles/s41586-024-08003-w

10、Googleの革新的技術ReCapture：ワンクリックで「マルチアングル」動画を生成

ReCapture技術はGoogle研究院が発表した革新的な技術で、ユーザーがカスタマイズしたカメラの軌跡を含む動画を再生成することで、ユーザーは全く新しい視点から元の動画コンテンツを体験できます。この技術の背後にある原理は複雑ではなく、マルチアングル拡散モデルとマスク動画微調整技術によって、粗い動画を鮮明で、一貫性があり、ダイナミックな動画に変換します。Googleの研究者によると、ReCaptureは大量のトレーニングデータは必要なく、様々な動画と視点変換に適用でき、一般ユーザーでも簡単にプロレベルの「マルチアングル」動画を作成できます。

【AiBase要約:】
🔍 ReCapture技術により、ユーザーは動画を再体験し、カスタマイズしたカメラの軌跡を含む新しいバージョンを生成。
🛠️ マルチアングル拡散モデルとマスク動画微調整技術を利用し、粗い動画を鮮明で、一貫性があり、ダイナミックな動画に変換。
🎥 ReCaptureは大量のトレーニングデータは必要なく、様々な動画と視点変換に適用可能。一般ユーザーでもプロレベルの「マルチアングル」動画を作成可能。
詳細リンク:https://generative-video-camera-controls.github.io/

11、OpenAI、著作権訴訟で勝訴　AIデータ取得の合法化がトレンドに？

最近、ニューヨーク南地区裁判所は、Raw Story Media, Inc.とAlterNet Media, Inc.がOpenAIに対して起こした著作権侵害訴訟を却下しました。訴訟要件を満たしていないと判断したためです。この判決は、AIと著作権に関する法的紛争において、OpenAIが重要な勝利を収めたことを示しており、将来の同様の事件の処理に参考となるでしょう。裁判所は訴訟の却下を決定し、生成型AIの内容の総合性により、逐語的な複製可能性が低いことを強調し、将来のAIと著作権紛争の処理に法的参考と示唆を与えました。

【AiBase要約:】
📜 原告はOpenAIの行為による実際の損害を証明できず、裁判所は訴訟を却下。
🔍 判事は、生成型AIの内容の総合性により、逐語的な複製可能性が低いことを強調。
⚖️ この判決は、将来のAIと著作権紛争の処理に法的参考と示唆を与える。

12、Microsoft Outlook、AIによるパーソナライズされたダイナミックテーマを導入　天気や位置情報に基づいて動的に更新

Microsoftが新しく導入したCopilotテーマ機能は、Outlookにパーソナライズされた視覚体験をもたらし、ユーザーは独特な外観をカスタマイズできます。AI駆動のテーマ機能は、美しく親しみやすいだけでなく、天気や場所などの要因に応じて動的に更新され、ユーザー体験を向上させます。ユーザーは、より快適でパーソナライズされた電子メール管理体験を楽しむことができます。