【AI日報】へようこそ!ここは毎日人工知能の世界を探索するためのガイドです。毎日、AI分野のホットなコンテンツをお届けし、開発者に焦点を当て、技術トレンドや革新的なAI製品の応用を理解するお手伝いをします。

新鮮なAI製品クリックして詳細を確認https://app.aibase.com/zh

1、グーグルGemini 3.0 Proが小規模な配布を開始:推論能力を強化し、正式リリースは今月末予定

グーグルDeepMindチームは一部のユーザーにGemini 3.0 Proモデルを配布を開始しました。このモデルは推論能力とマルチモーダル処理能力が向上しており、10月に正式リリースする予定です。

image.png

【AiBase要約:】

🧠 Gemini 3.0 ProにはDeep Think推論アーキテクチャが導入され、複雑な多段階タスクの処理能力が向上しています。

🌐 テキスト、画像、音声、動画などさまざまな入力形式をサポートし、完全なフロントエンドコードを生成できます。

🚀 グーグルは軽量版のFlashバージョンをリリースする予定で、モバイルデバイスやエッジコンピューティングに対応します。

2、百度が世界をリードするドキュメント解析モデルPaddleOCR-VLをリリース:OCR技術の枠組みを再構築!

百度がリリースしたPaddleOCR-VLモデルはドキュメント解析分野で優れた性能を発揮し、その軽量で効率的、多言語対応、高精度認識能力により、OCR技術の新しい基準となっています。

image.png

【AiBase要約:】

🌍 109種類の言語をサポートし、さまざまなドキュメント処理タスクに適用可能です。

⚙️ コアパラメータは0.9Bであり、効率的な計算と正確な認識が可能です。

🚀 推論速度が大幅に向上し、他の主要モデルより優れた性能を示します。

3、AIビデオ企業アイシュ科技が1億元のB+ラウンド資金調達を完了:ARRが4000万ドルを突破、ユーザー数が1億人を超える

アイシュ科技はAIビデオ生成分野で顕著な進展を遂げ、1億元のB+ラウンド資金調達を完了し、ARRが4000万ドルを突破し、登録ユーザー数が1億人を越えました。その製品戦略と技術革新により市場競争力が強化されています。

image.png

【AiBase要約:】

🚀 アイシュ科技は1億元のB+ラウンド資金調達を完了し、資本市場からの認知と支援を得ました。

📈 年間継続収益(ARR)が4000万ドルを突破し、ユーザー数は1億人以上となりました。

💡 技術革新を続け、PixVerse V5バージョンでは生成効率と動画品質を向上させ、Agent作成アシスタント機能を導入しました。

4、AnthropicがClaude「skills」機能をリリース:AIの作業効率を向上させる

AnthropicはClaude AIの新機能「skills」をリリースしました。この機能は、AIが作業シーンでの実用性を高めるために設計されました。フォルダ形式で指示、スクリプト、リソースを提供し、Excelドキュメントやブランドガイドなどの特定のタスクを効率的に処理できるようにします。ユーザーはカスタムスキルを作成でき、複数のプラットフォームで使用可能です。この機能はOpenAIのAgentKitと同様であり、AI業界が実用化に向かっていることを示しています。

image.png

【AiBase要約:】

🌟 AnthropicはClaude「skills」機能をリリースし、AIの作業における実用性を向上させました。

🛠️ ユーザーはカスタムスキルを作成し、Claudeが特定の作業環境に適応できるようにできます。

🚀 この動きはOpenAIがリリースしたAgentKitなどの新機能と同期しており、AI業界が実用化に向かっていることを示しています。

5、PinterestがAIコンテンツ制限ツールをリリース:ユーザーが生成型AI画像の表示割合をカスタマイズ可能

Pinterestは新たなコンテンツ制御ツールをリリースし、情報フィード内のAI生成コンテンツの割合をユーザーが制限できるようにしました。これはユーザーの不満への対応であり、AI修正タグを導入し、ユーザー選択可能な設定を提供することで、AI技術の革新とユーザー体験のバランスを図ろうとしています。

image.png

【AiBase要約:】

🖼️ ユーザーは生成型AI画像の表示割合をカスタマイズできます。

🤖 PinterestはAI修正タグを導入し、AI生成コンテンツを識別しています。

🌐 PinterestはAI技術とユーザー体験のバランスを取りながら折衷案を探しています。

6、完全オープンソースのLLaVA-OneVision-1.5が登場:Qwen2.5-VLを上回るマルチモーダルモデル

LLaVA-OneVision-1.5は、画像や動画などの多様な入力を処理できるオープンソースのマルチモーダルモデルであり、複数のベンチマークテストで優れた性能を示し、Qwen2.5-VLを上回っています。

image.png

【AiBase要約:】

🧠 LLaVA-OneVision-1.5は、画像や動画などのさまざまな入力形式を処理できる新しいマルチモーダルモデルです。

📈 学習プロセスは3つの段階に分けられ、モデルの視覚的理解と言語理解能力を効率的に向上させています。

🏆 ベンチマークテストで優れた性能を示し、Qwen2.5-VLを上回っています。

詳細リンク:https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5 https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

7、OpenAIの動画生成モデルSora 2がマイクロソフトAzureに登場:価格は1秒0.1ドル、公開プレビューに突入

マイクロソフトは、OpenAIのSora 2動画生成モデルがAzure AI Foundryの国際版に登場し、公開プレビューに突入したことを発表しました。これにより、生成型AI動画ツールが商業化される段階に入りました。

image.png

【AiBase要約:】

🎥 Sora 2は、テキスト、画像、動画の入力をサポートし、新しい動画を生成できるマルチモーダル動画生成モデルです。

💰 価格は1秒0.1ドルで、生成時間に基づいて課金され、企業ユーザーによる大量利用に適しています。

🌐 Sora 2はAzure AI Foundryの国際版のみに登場しており、中国地域のユーザーは現在直接アクセスできません。

8、旅行検索エンジンKayakが「AIモード」をリリース:旅行計画と予約がさらに使いやすくなった

Kayakは新しく「AIモード」をリリースし、内蔵されたチャットボットを使ってユーザーが旅行を研究・計画・予約するお手伝いをします。この機能はChatGPT技術を活用し、文脈に沿った検索結果を提供し、旅行に関する質問や比較をサポートします。

image.png

【AiBase要約:】

🌍 Kayakは「AIモード」をリリースし、チャットボットを通じて旅行計画と予約が簡単になります。

🗣️ この機能は旅行に関するアドバイスを尋ねたり、様々な旅行サービスを比較したりできます。ChatGPT技術を活用して正確な情報を提供します。

📅 「AIモード」は初期的には英語のみをサポートし、後日より多くの言語とプラットフォームに拡張され、音声リクエスト機能も追加される予定です。