AIニュース

世界のAIイノベーションの瞬間をお見逃しなく

AIデイリー

毎日の3分AI業界トレンド

AIタイムライン

AI業界のマイルストーン

Alハードウェアです

すべてのAIハードウェアをリストアップします。

AIマネタイズガイド

画像コレクション

AI画像生成マネタイズ事例

ビデオコレクション

AIビデオ生成マネタイズ事例

オーディオコレクション

AIオーディオ生成マネタイズ事例

コンテンツコレクション

AIコンテンツ作成マネタイズ事例

AIチュートリアル

AIプロダクトランキング

AIウェブサイトの総訪問数ランキングを表示

AIトラフィック成長ランキング

トラフィックによる最も急速に成長しているAIウェブサイトを追跡

AIトラフィック減少ランキング

トラフィックが大幅に減少しているAIウェブサイトに焦点を当てる

AI週間ランキング

AIウェブサイトの週間訪問数ランキングを表示

AIオープンソースプロジェクトライブラリ

概要

GitHubの人気のあるAIオープンソースプロジェクトの概要

プロダクトライブラリツールナビゲーション MCP

ビジュアルエンコーダーVCoder：モデルの画像認識能力向上

站长之家

公開日AIニュース · 1 分で読めます · Jan 4, 2024

VCoderについて

VCoderは、マルチモーダル言語モデルの画像内オブジェクト認識能力と画像シーン理解能力を高めることを目的とした、視覚的なエンコーダーです。

モデルが画像の内容をより良く理解し、分析するのに役立ちます。

他のモデルとの比較において、VCoderはオブジェクト認識タスク、特に複雑なシーンにおけるオブジェクトの計数と認識タスクにおいて優れた性能を示しています。

ビジュアルエンコーダーマルチモーダル言語モデル物体認識

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

Groundlight オープンソースフレームワーク：複雑なビジュアル推論に対応

Mar 17, 2025

アマゾン、新型マルチモーダル言語モデル「Olympus」を開発、AWSカンファレンスで発表か

アマゾンは、近日「Olympus」と呼ばれるマルチモーダル大規模言語モデルを開発中であると報じられています。同モデルは、来週開催されるAWS re:Inventカンファレンスで正式発表される見込みです。theinformationの情報によると、このアルゴリズムの内部コードネームは「Olympus」です。昨年11月、ロイター通信はアマゾンが「Olympus」と呼ばれる大規模言語モデルのトレーニングに数百万ドルを投資していると報じており、パラメーター数は2兆個に達するとされています。今回の発表では…

Nov 29, 2024

2.1k

Metaの最新音声大規模言語モデルSPIRIT LM、AIは話すだけでなく「声情并茂」に！

Meta AIは最近、SPIRIT LMと呼ばれる基礎的なマルチモーダル言語モデルを大々的にオープンソース化しました。このモデルはテキストと音声の自由な混合が可能で、音声とテキストのマルチモーダルタスクに新たな可能性を開きます。SPIRIT LMは70億パラメーターの事前学習済みテキスト言語モデルをベースに、テキストと音声のユニットで継続的に学習することで音声モダリティに拡張されました。テキストの大規模言語モデルのようにテキストを理解・生成できるだけでなく、音声の理解・生成も可能で、テキストと音声を混合して様々なものを創造することもできます。

Nov 22, 2024

6.3k

Rokid Glasses発表：軽量ARグラスが2499元で登場、AI翻訳と物体認識に対応

本日開催されたRokid Jungle 2024 パートナー＆新製品発表会において、Rokidは次世代ARグラス「Rokid Glasses」を発表しました。このグラスは、ユーザーのニーズに合わせて近視と乱視のレンズをカスタマイズできるだけでなく、着脱しやすいクリップ式デザインを採用しており、様々な視力を持つユーザーにより多くのパーソナライズされた選択肢を提供します。Rokid Glasses最大の特長は、アリババの通義千問マルチモーダル大規模言語モデルを統合し、通話、Q&A検索、物体…

Nov 18, 2024

3.7k

Salesforce AI研究、新たなマルチモーダルモデルBLIP-3-Videoを発表：低コストで動画理解を実現

Salesforce AI研究チームは最近、新たなマルチモーダル言語モデルであるBLIP-3-Videoを発表しました。動画コンテンツの急増に伴い、動画データを効率的に処理することが喫緊の課題となっています。このモデルは、自動運転からエンターテインメントまで、あらゆる業界で動画理解の効率と効果を高めることを目指しています。従来の動画理解モデルは、多くの場合、動画をフレームごとに処理して大量の視覚情報を生成していました。このプロセスは、膨大な計算資源を消費するだけでなく、処理能力も大きく制限していました。

Oct 25, 2024

1.3k

Google AIによる画期的ビデオ技術！万能汎用ビジュアルエンコーダーVideoPrismが登場、30項目でSOTA更新

Googleチームが、新しい汎用ビジュアルエンコーダーVideoPrismを発表しました。3600万本の動画字幕と5.82億本の動画クリップを含む大規模なデータセットで訓練されました。VideoPrismは、33項目の動画理解ベンチマークテストのうち30項目でSOTAを更新し、幅広い動画理解能力を備えています。単一の凍結モデルで、分類、局所化、検索、字幕、Q&Aなど、様々な動画理解タスクに対応できます。研究者たちは、大規模な動画データとテキストペアを用いた事前学習を行い、VideoPr…

Feb 26, 2024

890

零一万物、Yi-VLマルチモーダル言語モデルを発表、2つのバージョンを含む

零一万物から、Yi-VLマルチモーダル言語モデルがリリースされました。Yi-VL-34BとYi-VL-6Bの2つのバージョンが含まれています。Yi-VLモデルは、画像とテキストの理解、対話生成において優れた能力を備えています。Yi-VLモデルは、英語と中国語のデータセットでトップクラスの成績を収めています。Yi-VL-34Bは、41.6%の精度で他のマルチモーダル大規模モデルを凌駕しています。Yi-VLモデルはLLaVAアーキテクチャに基づいており、強力な言語理解と生成能力を備えています。

Jan 23, 2024

740

メタ、レイバンスマートグラスにマルチモーダルAI機能テスト提供：物体認識と翻訳が可能に

メタがレイバンスマートグラス向けにマルチモーダルAI機能の早期アクセス試験を実施。物体認識や言語翻訳が可能になります。マーク・ザッカーバーグCEOがマルチモーダルAI機能をデモ、眼鏡に合うパンツを質問。メタCTOが眼鏡のその他の機能を紹介。試験はアメリカの一部のユーザーに限定されます。

Dec 13, 2023

1.6k

シンガポール国立大学、オープンソースのマルチモーダル言語モデルNExT-GPTを発表、マルチメディアAIアプリケーションの発展を支援

NExT-GPTは、シンガポール国立大学がオープンソース化したマルチモーダル言語モデルであり、テキスト、画像、ビデオ、オーディオの処理をサポートし、マルチメディア人工知能アプリケーションに強力なサポートを提供します。線形投影、Vicuna LLMコア、モダリティ固有の変換層の3層アーキテクチャを採用し、MosIT技術を用いて中間層のトレーニングを行います。オープンソースへの貢献により、研究者や開発者はマルチモーダル入力を統合したアプリケーションを作成することができ、潜在的な応用分野は広範囲に及びます。NExT-GPTのユニークな点は、ユーザーの要求に応じてモダリティを生成できることです。

Nov 29, 2023

830

AMBERプロジェクトによるマルチモーダル言語モデルの新規ベンチマーク公開

AMBERプロジェクトは、マルチモーダル言語モデルにおける幻覚問題の評価と軽減を目的とした新しいベンチマークを公開しました。プロジェクトアドレス: https://github.com/junyangwang0410/amber マルチモーダル言語モデルは、テキスト、画像、音声などのデータを処理する際に、不正確または誤解を招く可能性のある結果を生成することがあります。本ベンチマークは、詳細で粒度の細かいアノテーションと自動化された評価プロセスを提供し、モデルのパフォーマンス評価を簡素化します。AMBERベンチマークの公開は、マルチモーダル言語モデル分野の研究開発を促進するでしょう。

Nov 17, 2023

690

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要